Vous êtes sur la page 1sur 44

1

ANALYSE DES DONNEES




Partie I :
- ACP (analyse en composante principales)
- AFC (analyse factorielle des correspondances)
- AFCM (Analyse en composante multiple)
- AD (analyses discriminantes)


Partie II :
- Application informatique (ASA SPSS STATA R S plus SPAD..)

2

Rappels sur la statistique classique :
I- Donnes
La statistique descriptive classique se propose dtudier des populations composes dindividus
vus sous langle dun seul caractre (quantitatif ou qualitatif)
Remarque : en gnrale on parle de variable la place de caractre.
Exemple :
Population Caractre qualitatif Caractre quantitatif
Secteur dactivit dune
conomie
Valeur ajoute Rgion (localit)
Les factures de la socit X
SA pour lconomie N
Montant Type de clientle
Les points de ventes dun
produit P
Nombre dunit vendu la
date N
Conditionnement

Pour une interprtation plus leve les donnes collectes sont synthtis sous fourme de
paramtre de position (moyenne, mdiane, mode etc.) ou de dispersion (Variances,
tendus ..), de reprsentation graphique (Histogramme, diagramme en bton, en secteur.)
Remarque 1: Ces synthses et reprsentions sont forcement rductrice mais elles facilitent
linterprtation des donnes (en faisant les principales caractristiques).
Remarque 2 : il est parfois souhaitable de rendre quantitatif certains caractres qualitatif ceci
dans le but de pouvoir mener des calculs intressent.
Exemple : ltude de satisfaction clientle
Lopinion des clients sur les produits de la socit X SA, peut sexprimer travers une note de
1 5.
b) Rappels sur les sries simples (tude dune seule variable)
Valeur du caractre x x
1
x
p
Total
Effectif partiel n
1
..n
p
= n

La moyenne arithmtique
=

(ni= 1 si les donnes sont individualises)


Variance
( )


3

()

( )


Ecart-type
= ()
*La mdiane
La mdiane est la valeur de la variable not Me qui partage les effectifs rangs dans lordre
croissant ou dcroissant en deux groupes deffectifs gaux.
*Le Mode
Cest la valeur la plus frquente ou cest la valeur de la variable qui correspond leffectif le
plus lev.
C) Les srie statistiques doubles (bidimensionnelles)
Il sagit dtudier ici une population vu sous langle de deux caractres ex : (valeur ajout et
rgion).
Population Caractre I Caractre II
Secteur dactivit Valeur Ajoute Rgion

On sintresse essentiellement une ventuelle liaison existant entre les deux caractres
Cas 1 : cas ou les deux variables sont quantitatives
On vrifie sil y a une corrlation en reprsentant sur un plan les points des coordonnes (x, y)
Exemple :
Entreprises Chiffre daffaire Effectif moyen
E1 20 37
E2 25 45
E3 35 49

Nuage des points


On peut chercher ajuster une courbe dquation y = f(x) ce nuage de points.
En cas de corrlation linaire, lintensit est mesur par le coefficient de corrlation linaire
not r(x,y)=
()

. [-1 ; 1]
4

Corrlation forte

-1 0,9 0,9 1
Cas2 : Cas ou les deux variables sont qualitatives
On obtient alors un tableau qui croise deux variables qualitatives. Lanalyse sera fonde sur un
test dindpendance du Khi2.
Exemple 1 :
Rgion

Secteur dactivit

Centre

Nord

.
Agriculture
Industrie




Exemple 2 :
X ayant 2 modalits
Y ayant 3 modalits
On pose :


X Y
1 1
2 3
1 2
2 2
2 3
2 1
2 2


Y
X
1 2 3
1 1 1 0
2 1 2 2
On croise X & Y
5

Cas3 : cas ou lune des variables est qualitative et lautre quantitative.
On obtient une possibilit de comparaison des moyennes prise par la variable quantitative et
ceci pour chaque modalit de la variable qualitative.
Lanalyse peut alors se traduire par un test de comparaison de moyennes de deux chantillons.
Rappels sur les sries bi-varies
Etude simultane de deux variables X Y

Tableau

Moyenne arithmtique de la variable X


Moyenne arithmtique de la variable Y


Les variances
()

( )


()

( )



Les cart-types

= ()
= ()
Covariance entre les variables X et Y

Cov (x, y) =

( )

( )
Remarque: si X = Y alors Cov(x, y) = Cov(x, x) = Var(x)

2) Lanalyse des donnes multidimensionnelles
6

a) Les diffrents types de tableaux traiter
Tableau de mesure : Individus crois avec caractres quantitatifs
Ex : trois entreprises Dakaroise sont tudis sous langle de plusieurs paramtres conomiques
et financiers.
CA Effectif
moyen
Valeur
Ajout
Rsultat net
% du CA
Salaire net
mensuel
PME1 3 9 1,1 0,9 1100
PME2 26 48 13 1,2 1200
PME3 54 47 29 3,5 1240

Tableaux de contingences (tableau qui croise deux variables qualitatives ou une variable
qualitative et une variable quantitative)
Un tableau de contingence est un tableau crois qui ventile une certaine quantit selon les
modalits de caractre.
- Deux variables qualitatives
Ex :
Nord Est
Agricole n
Industrie

- 1 variable qualitative et 1 variable quantitative
Ex : enqutes sur les opinions politiques ..
Opinions
Age
Benno Fal 2012 Rewni APR YNM
[18-25[ 8 12 10 11 25
[25-30[ 9 17 15 17 19
[30-40[ 13 11 25 19 27
[40-60[ 27 32 17 15 08

Interprtations :
Les lecteurs gs 30 40 ans ayant une sensibilit politique proche dYNM sont 27.
Remarque: Dans un tableau de contingence la somme des lignes et la somme des colonnes a
toujours un sens.
7

Tableaux logiques
Ces tableaux concernent des individus tudis sous langle de plusieurs variables qualitatives.
Chaque variable pouvant prendre plusieurs modalits.
Si lindividu possde la modalit dune variable on lui affecte le coefficient 1 si non le chiffre
0.
Ex : tudiants sont regards sous langle de leur sexe de leur prfrence musicale et
picturale.
Sexe Prfrence musicale Prfrence picturale
H F Jazz Mbala RNB Raggea Figuration Abstraite
E1 1 0 1 0 0 0 0 1
E2 0 1 0 1 0 0 0 1
E3 1 0 0 0 0 1 1 0
.

Remarque: les tableaux logiques permettent typiquement de coder des rsultats denqute
dopinions. On dira que le tableau est mis sous forme disjonctive complte c d que lindividu
possde une et une seule modalit pour chaque caractre.
En cas denqute comportant des questions rponse multiple il faut, pour obtenir un tableau
disjonctif complet, faire de chaque modalit une variable a par entire possdant deux modalit
OUI ou NON.
Ex : enqute de satisfaction client
Question : Quel plat prfrez vous ?
Thieboudjen Maf Attik Yassa
Tableau
Thieboudjene Mafe Attiek Yassa
oui non oui non oui non non oui
Diallo 1 0 1 0 1 0 0 1

Ainsi lensemble des rponses aux questions dune enqute peut tre toujours cod sous la
forme dun tableau logique disjonctif complet. (TLDC)
b) Insuffisance de la statistique descriptive lmentaire
La statique de manire gnrale a pour vocation de proposer des rsums de linformation. Ces
rsums peuvent prendre une forme numrique (caractre de tendance centrale : moyenne
mdiane mode ou de dispersion : variance cart-type tendu), ou une forme graphique. La
statistique descriptive lmentaire permet au plus dtudier deux variable simultanment.
8

Remarque : jusqu' trois variables on peut toujours obtenir une reprsentation graphique.
Exemple :
Entreprise Salaire moyen mensuel Valeur ajout CA
E1 25 30 40
? ? ? ?

On a E1 = (25 ; 30 ; 40)
Reprsentation
Question : y a-t-il alors une possibilit de visualisation en la rsument, limage
multidimensionnelle du nuage des points.
Remarque : partir de trois variables il faut des mthodes plus labors do lutilit de
sappuyer sur lanalyse des donnes.
c) Motivation et place de lADM dans lanalyse statistique
Lanalyse statistique se dcompose en quatre tapes.
Niveau 1 : Sondage collecte enqute
Niveau 2 : Mise en forme des donnes Tableaux, graphiques
Niveau 3 : ADM Analyse des donnes interprtation
Niveau 4 : Modlisation Economtrie

d) Points commun aux diffrentes mthodes danalyse des donnes
*Objectifs : Ces mthodes visent rduire les donnes pour mieux dgager les relations
essentielles entre les lments du tableau tout en minimisant la perte dinformation entraine
par la rduction opre.
Les mthodes danalyse des donnes cherchent essentiellement dcrire et non construire des
modles explicites et dcisionnelles.
*Fondements mathmatiques et statistiques : Les tableaux de donnes constituent des
matrices et lanalyse des donnes fait appel largement aux calculs matriciel.
*Recours loutil informatiques : ces mthodes nont pu tre mise en uvre que grce
lordinateur car elles conduisent des manipulations de nombres irralisables manuellement.
Elles se sont donc considrablement dveloppes dans les entreprises paralllement au
dveloppement des micro-ordinateurs.
*mthodes prsentes et lapproche retenue :
9

Parmi les nombreuses mthodes actuellement utilises nous en prsenterons 3 qui font parti des
mthodes factorielles.
- Lanalyse en composante principale
- Lanalyse factorielle des correspondances (AFC)
- Analyse discriminante (AD)
e) Principes de lanalyse factorielle des donnes :
Principe 1 : il sintresse ltude de K variables observ sur n individus

..



X
ij
= valeur prise par la variable j pour lindividu i
Convention :
- Les individus sont en gnrales reprsent en ligne,
- les variables sont en colonne
Ainsi chaque individu I
i
(

;..

; .

) peut tre considr comme un vecteur de


R
k
. Chaque variable X
j
(

) correspond a un vecteur de R
n

On dispose alors :
- dun nuage dindividus dans lespace R
k

- dun nuage de variables dans lespace R
n

Rgles : De prfrence on commence dabord par tudier le nuage des variables afin de
dtecter les ventuelles liaisons.
En pratique on fournit lordinateur le tableau analyser en lui indiquant la mthode
factorielle utiliser. Il se charge alors de reproduire la photographie. Lanalyste na donc aucun
calcul affaire par contre il lui faut beaucoup de rigueur et de finesse pour interprter les photos
fourni par lordinateur.
Principe 2 : on pare du nuage des individus et on essaye de faire des regroupements les moins
arbitraires possible : la classification automatique.

10

CHAP II : LANALYSE EN COMPOSANTES PRINCIPALE

LACP est une mthode de description des tableaux de mesures
a) Tableau de donnes brutes (Z)
- Les individus sont reprsents en ligne
- Les variables sont reprsents en colonne
Considrons n individus tudis travers p variables.
Posons :
Z
i

j
la valeur prise par la variable Z
j
pour lindividu i



LACP cherche dcrire les relations entre les individus, entre les variables, et entre les
individus et les variables.
b) Nuage des points individus
A chaque individu est associ en ligne la valeur des variables reprsentant les cordonnes de
lindividu i dans lespace de dimension P. On pose pour lindividu i, Zi = (

) dans
ce contexte, lACP sintresse plus particulirement aux distances entre les individus.
Exemple :
Dans un espace de dimension deux, la distance euclidienne usuelle entre les points A (a ; a ) et
B(b ; b) est :
d = (b-a) + (b-a)




a b
a
b
d
11

En ACP les variables sont rarement de mme nature (certaines sont exprim en m
3
dautres en
Kg dautres en % etc.) et la distance ainsi mesur naura pas grande signification.
Pour rendre les donnes homognes, elles sont centres et rduites (on obtient alors des
nombres sans unit). Ainsi

sera remplac par

= (

) /((

) avec

= moyenne de
la variable

et (

) = cart-type de la variable

. Ainsi

est une variable centre rduite.


Le centrage est juste une technique alors que la rduction supprime linfluence des units.
c) Nuage des p points variables
A chaque variable sont associs en colonne les n valeurs attribu aux individus.
On associe chaque vecteur Z j les coordonnes centres rduites.


Ici lACP sintresse plus particulirement aux corrlations entre les variables. On sait que le
coefficient de corrlation entre les variables

et

peut tre calcul avec les donnes initiales


ou avec les donnes centres rduites(). On a:
r (

) =
(

)
(

)(

)
=


)(



)
(

)(

)

r (

) =


Posons :


r (

) =


En rcrivant r (

) sous forme matricielle, on obtient :

=
(

et

=
(


()


()


r (

) = corr. (

)=


Remarque1 : si on note X la matrice des

tous les coefficients de corrlation entre les


variables prise deux deux peuvent tre obtenu en faisant le produit de la transpos de X par X.

.X =

=

Avec

)

12

Rsum :
En ACP les donnes initiales Z sont :
- Centres et rduites pour mieux apprcier les distance entres les individus.
- Divis par pour permettre le calcul de corrlation entre les variables
On a:



Remarque1 : la division par ne modifie pas la forme du nuage des individus. Elle ne fait
que modifier lchelle.
Remarque 2:
Calculons (

) =(

) =

)
Et

est rduite (

) = 1

(

) =

(1)
Calculons la variance de

:
Comme

est centre var(

) =

. ()
En rapprochant (1) et (2) on a :

= .


.=

= 1 on en dduit que ,

se trouve sur la sphre (0,1).


Remarque 3: Distance entre 2 variables

) = (


= (

+ (

- 2


= 1 + 1 2

) 2 [

]= 2[ (

)]
Si (

) 1

) 0
Conclusion : La distance entre deux variables est dautant plus petite que ses deux variables
sont corrles.
Remarque :
Malheureusement, lensemble des corrlations (des variables prises 2 2) se trouve dans
lespace de dimension n ; donc difficilement apprhendable.
13

II- Analyse des nuages de points individus
Cas dun espace de dimension 2
Considrons lexemple suivant o six (6) individus sont analyss avec deux (2) variables

et

.
INDIVIDUS VAR Z1 VAR Z2
1 3 500
2 9 700
3 4 1400
4 13 1900
5 8 1700
6 11 1000
TOTAL 48 7200
ECRAT
TYPE 3,55 g 509,22
MOYENNE 8 1200


1) LACP centre les donnes du tableau, ce qui revient prendre pour nouvelle origine le
point G (

) appel centre de gravit ou point moyen de nuage. Ensuite, elle rduit


et les divise par.

G
0
200
400
600
800
1000
1200
1400
1600
1800
2000
0 2 4 6 8 10 12 14
Series1
14


Individus VAR

VAR


1 - 0.5735 - 0.5604
2 + 0.1147 - 0.4003
3 - 0.4508 + 0.1601
4 + 0.5735 + 0.5604
5 0 + 0.4003
6 + 0.3441 - 0.1601
TOTAL 0 0
Ecart-Type 1/V6 1/V6
(


1 1

* Mesure de ltalement : (inertie) :
La somme des carrs des distances entre les points individus et le point moyen G est appel
linertie totale du nuage. Elle mesure la distance des points autour du centre de gravit du
nuage.


G
i
0
2
4
6
8
10
2 6
Gi = distance entre
lindividu et le centre G
Inertie totale = (


15

On a :
- le carr de la distance de 1 G (

= ()

+ ()

= 0,64295
- Le carr de la distance de 2 G = 0,17339
de 3 G = 0,23612
de 4 G = 0,64295
de 5 G = 0,16024
de 6 G = 0,14403
(


Remarque :
Lorsque lACP est norm, la somme des carrs de toute les donnes

est gale au nombre des


variables.
Ici, linertie totale est donc gale 2.
2) Lintrt de lACP est de faire apparatre laxe principal dallongement du nuage cest- -
dire laxe passant par G sur lequel la distance entre les projections des points sur (D) sont
maximales. On lappelle laxe factoriel N1.
En rapprochant linertie de laxe 1 linertie total du nuage, on obtient le taux dinertie N1.
Exemple :
Si le taux de linertie N1 est de 70%.
I nterprtation :
1) En remplaant les points initiaux par une projection sur laxe 1, on passe dun espace
de dimension 2 un espace de dimension 1 (laxe 1) et restitue 70% de linfo initiale.
2) Laxe N2, perpendiculaire laxe N1 et passant par G, est appel axe factoriel N2.
Son taux dinertie est ncessairement plus faible.
Remarque1 : Le plan factoriel N1 est le plan dtermin par les deux (2) premiers axes.
Le graphe propos par lACP fait apparaitre uniquement les axes principaux darrangement du
nuage de points. Ils seront utiliss comme axes de repre.
Remarque2 : les axes 1 et 2 ont t remplac par les axes (axe1), (axe2) on les appelle
composantes principales ou facteur.
Remarque 3 : les individus loigns de lindividu moyen sont appels individus originaux et
permettent de donner une signification aux axes factorielles.
Remarque 4 : en dimension 3, deux points mme loigns peuvent avoir des points de
projection trs proche voir confondus sur le plan factorielle.
16

Exemple 1 : deux points loigns







Exemple 2 : deux points proches


Deux points proches dans la ralit resteront proches par rapport leurs points de projection.
Remarque : Pour rduire le risque dinterprtation le logiciel dACP propose pour chaque
point individu des indicateurs de la qualit de sa reprsentation.
*Qualit de reprsentation dun individu i sur le plan factoriel dfini par les axes l et k
Axe l


Axe k

La qualit de la reprsentation de lindividu i sur laxe k est mesure par le rapport (


La qualit de la reprsentation de lindividu i sur laxe l est mesure par le rapport (


Ce rapport est dautant plus proche de 1 que le point est bien reprsent sur cet axe.
On note QLT
(k, l)
(i) = (

)
2

On a en outre d
2
= (

)
2
+ (

. ip)
2
ou d
2
= (C
k
i
)
2
+ (C
l
i
)
2

Soit alors QLT
(k, l)
(i) = (

)
2
+ (

)
2
= ( ) ( )


Les ponts x1 et x2 sont trs loigns
dans la ralit, mais leurs
projections sur le plan factoriel sont
confondues.


i
d
17

On a: QLT
(k, l)
(i) = ( ) ( )


III - Analyse du nuage des variables
Considrons un exemple de dimension 3.
Ex : Trois individus sont tudis travers 4 variables
Variable 1 Variable 2 Variable 3 Variable 4
Ind1 14 160 7 90
Ind2 9 240 3 25
Ind3 37 110 15 40
Total 60 510 25 155
Moyenne 20 170 8,333 51,667
Ecart-Type 12,193 53 ,54 4,989 27,789
Chaque point variable est reprsent dans un espace de dimension 3 (les trois individus)
ACP : aprs centrage, rduction et division par on obtient :
X 1 X 2 X 3 X 4
Ind1 -0,284 -0,108 0,154 +0,796
Ind2 -0,521 +0,755 -0,617 -0,554
Ind3 +0,805 -0,647 +0,772 -0,242
Total 0 0 0 0
Moyenne 0 0 0 0
Ecart-Type
1/ 1/ 1/ 1/
()
1 1 1 1

On est sur la sphre de rayon unit
Dans un espace de dimension 3 les points variables sont donc situs sur une sphre dorigine o
et de rayon 1. On obtient la reprsentation des 4 points variables dans un espace de dimension
3.








18

Remarque:
- Deux points proches sur la sphre correspondent deux variables fortement corrls.
- Deux points quasiment opposs par rapport G correspondent deux variables
fortement corrls ngativement.
- Deux ponts dans des directions quasiment orthogonales par rapport G correspondent
deux variables faiblement corrles.
Pour la reprsentation graphique du nuage des points variables sur le premier plan factoriel on
projette les points sur les axes principaux.
Dans lexemple prcdent on obtient le tableau de corrlation. Le logiciel dACP fournit la
matrice C de corrlation
X
1
X
2
X
3
X
4

X
1
1
X
2
0,883 1
X
3
-0,986 -0,948 1
X
4
-O133 -0,347 +0,032 1

On sait que var (

)=


Corr. (

) =
(

)
(

)(

)
= 1
Le graphe montre que X
1
et X
3
sont fortement corrl ce que montre le coefficient de
corrlation linaire.
Un coefficient de corrlation lev entre la variable Xj et laxe k indique que la variable
contribue fortement la dfinition de laxe k : ce qui peut aider donner une signification cet
axe. Le logiciel dACP peut diter les coordonnes des points variables sur les axes factoriels
c.--d. les coefficients de corrlation entre variables et les composantes principales.
R(

) =


Dans lexemple prcdent, on obtient :
Variables

0,966 -0,258

-0,975 -0,225

0,915 -0,096

0,129 0,992

Les variables X
1
, X
2
, X
3
, contribuent la formation de laxe 1
19

La variable X
4
celle qui contribue la cration de laxe2.
Dfinition : Le plan factoriel du nuage des individus est appel plan direct.
Le plan factoriel du nuage des variables est appel plan dual.
Remarque1 : les distances entre les projections des points variables sur le plan dual sont le
reflet des corrlations entre les variables.
Remarques 2 : linterprtation des graphs duaux (projections des points variables) doit se faire
paralllement celle des graphs directs (projection des individus)
IV- interprtation dune ACP
a) Dmarche gnrale
Etape1 : On dtermine le nombre daxe que lon dsire conserver dans linterprtation.
Etape2 : On interprte en termes de corrlation les positions des variables sur les plans
factoriels. On prcise ventuellement lorigine de ses corrlations en examinant les
reprsentations factorielles des individus.
Etape3 : On cherche donner une interprtation chaque axe
Etape 4 : On commence sil y a lieu laide des lments dgags ci-dessus des photos des
individus (par rapport lindividu moyen si cela a un sens)
Etape 5 : On examine le bi-plot (superposition du graph dual et du graph direct)
b) Etude dtaill
Etape1 : On classe par ordre dcroissant de valeur propre les axes factoriels. Pour retenir le
nombre daxe on examine lhistogramme des valeurs propre en essayant de dtecter le
dcrochage (il sagit de pouvoir dire si les valeurs propres sont significativement diffrentes).
Remarque : il nexiste pas de rgles propres pour la dtermination des axes ; le tout dpend
des objectifs de ltude.
tape 2 : On examine les graphs duaux en termes de corrlation
Etape3 : Interprtation des axes
Linterprtation des axes permet de trouver un sens au facteur correspondant
Remarque : Tout facteur nest pas facilement interprtable
Etape4 : A dfaut de toujours pouvoir illustrer un axe avec une ou plusieurs variables on peut
chercher la faire avec les individus. Lanalyse des individus est celle de leur diffrence par
rapport celle de lindividu moyen. Par consquent on doit imprativement procder par des
regroupements pour rsumer ses diffrences en quelques grands traits. On cherche les points
originaux, ceux qui sont isols des autres. Il faut en suite les commenter, en gnral en priorit
20

car ils peuvent avoir un impacte gnant sur la visualisation de disparit par rapport au reste des
individus. (Remde : on peut les mettre en supplmentaire).
Etape5 : On examine simultanment les graphs discrets et duaux : le bi-plot.
Remarque1 : la qualit de la reprsentation des individus est sous forme dun tableau
dindicateur QLT en fonction des cosinus carrs.
Remarque2 : Les corrlations entre les variables sont donnes dans les matrices de corrlation.
Etude de cas concret
Enonc : les donnes rels considres ici proviennent de la revue de lUNICEF la situation
des enfants dans le monde en 1999
Les 10 individus seront les 10 pays les plus peupls de lAfrique de louest et du centre.
Ces pays sont tudi selon :
- Le PIB par habitant, exprim en dollar US de lanne 1999 (PNB)
- Esprance de vie la naissance en annes 1997
Pays PNB E V 97
BF 230 46
Cameroun 610 56
CI 660 51
Ghana 360 58
Guine 560 46
Mali 240 48
Niger 200 48
Nigeria 240 52
Sngal 570 51
Tchad 160 48

LACP donne :
Num IND MOY E-TYPE MIN MAX
1 PNB 383 195,11 160 660
2 EV 97 50,4 4,061 46 58


21

Matrice de corrlation Valeurs propres









Coordonnes des variables sur les axes

Coordonnes Corel var facteurs
Identif libell 1 2 1 2
PNB 0.82 0.58 0.82 0.82
EV97 0.82 -0.58 0.82 -0.58


CERCLE DE CORELLATION















Val.
propre
Pourcent P. cumule
1 1.33 66.53 66.53
2 0.67 33.45 100
PNB EV97
PNB 1 0.33
EV97 0.33 1
EV97

PNB





22

Graphe dual












Graphe direct et dual


Question : Donner une interprtation de ce tableau de donnes.
Correction
Mthode adapte : ACP car on a un tableau de mesures :
PNB moyenne = 383
Ces deux variables ne sont exprim de mme nature. On
utilisera donc 1 ACP norme
EV99 moyenne = 50,4
Le graph indique que laxe 1 reprsente 66.5% de linertie total
Cela signifie que cet axe restitue environ 67% de linformation.
Laxe 2 traduit 33% de linformation
G
EV97
PNB
G
.TCHAD
.NIGER
.MALI
.GHANA

EV97
.CAMEROUN
.SENEGAL
.COTE DIvoire


PNB
.GUINEE
Nigeria.
23

La matrice des corrlations montre que corr. (EV99 ; PNB) = 0,33 qui nest pas
ngligeable
La lecture des coordonnes sur les axes donne :
PNB = 0,82 sur laxe1
EV97 = 0 ,82 sur laxe 1
Ces deux variables avec leur forte coordonne participent la formation de laxe1,
PNB= 0,58
EV97= -0,58
De mme les variables EV97 et PNB (fortes coordonnes) participent galement la
formation de laxe2.
Le cercle de corrlations montre que PNB et EV97 sont du mme cot de laxe 1 alors
quelles sopposent sur laxe2.
On observe que sur la droite du graphique une corrlation entre EV97 et PNB
Laxe 1 oppose dynamisme conomique et niveau de vie lev marasme conomique et
niveau de vie faible.
Interprtation des graphs individus et variables (bi-plot)
Nous constatons que les pays Mali Niger Burkina Cote divoire sont bien reprsents sur
laxe1 (voir indicateur) dautre part le Ghana Nigeria Guine expliquent laxe 2.
- On obtient sur laxe1 le groupe (Tchad Mali Niger Burkina) avec un PNB et une
esprance de vie faible sopposent au groupe (Cameroun CI Sngal) ou ces deux
indicateurs sont nettement meilleurs.
- Sur laxe 2 la faible esprance de vie et PNB sopposent le Nigeria le Ghana pour
lesquels EV97 est lev et PNB est faible.
Remarque: Le Nigeria a une esprance de vie sup celle du group CI Sngal mais son PNB
relativement faible le place loign de ces deux pays.


24

CHAPITRE III : ANALYSE FACTORIELLE DES CORRESPONDANCES
Lanalyse de la correspondance est destine extraire de linformation a partir des tableaux de
contingence (tout tableau de nombre dont la somme des lignes est gale la somme des
colonnes).
Exemple : supposons quun tablissement hospitalier est relev pour 5 services de
ltablissement les dpenses faites ou estimes sur les postes suivants :
- Acte en K, Acte en B, Acte en Z, Htellerie, Divers
Sur une priode donne, ses dpenses mesures en franc sont exprim dans le tableau suivant :
Actes K Actes B Actes Z Htellerie Divers Total
Service1 60 39 42 54 12 207
Service2 27 18 12 19 8 84
Service3 135 110 120 160 103 628
Service4 450 300 225 150 150 1500
Service5 36 24 18 12 12 120
Total 708 491 417 285 285 2539

Ce tableau de contingence tudie les dpenses reparti selon deux critres : service et poste.
Pour tenir compte du faite que la somme des lignes et la somme des colonnes a un sens on
utilise une analyse spcifique : AFC
1) Tableau des profils
a) Choix de la distance
La distance euclidienne
X= (

..

( ) = (


Y= (

)
Remarque :
x1 et x2 se ressemblent (les dpenses sont proches)
X4 et x5 diffrents (les dpenses sont loignes)
La distance euclidienne transcrit les distances de mesure entre les services. Pour liminer leffet
de masse li aux ordres de grandeur lAFC se propose de transformer les donnes. On calcule
alors les tableaux des frquences partir du tableau des effectifs


25

..

..

Total

..


.. .. .. . ..

..

..


.. .. ..

..


Total

..



On obtient :
Actes K Actes B Actes Z Htellerie Divers Total
Service1 0,29 0,11 0,20 0,26 0,06 1
Service2 0,32 0,21 0,14 0,23 0,10 1
Service3 0,21 0,18 0,19 0,25 0,16 1
Service4 0,30 0,20 0,15 0,25 0,10 1
Service5 0,30 0,20 0,15 0,25 0,10 1
Total 0,28 0,20 0,16 0,25 0,11 1

On observe que le service 4 et 5 ont le mme profile de dpense 30% 20% 15% 25% et 10%
Remarque1 : On a utilis la distance euclidienne entre les profils ligne pour rduire leffet de
masse.

) (

Distance euclidienne sur les profils


Remarque 2 : Pour liminer leffet de masse on pondre chaque diffrence par un coefficient
gale linverse de la frquence de la modalit colonne.
On obtient :


Exemple : Enqute sur la clientle de deux mdecins
Le nombre de consultation sur un an, class par catgorie socio professionnelle client en
activit ou non (jeune chmeur, en retraite, sans profession).
Patients En activit Inactifs Total consultation
Medecin1 1900 20 1920
Medecin2 1910 10 1920
Total 3810 30 3840

Montons que la distance euclidienne nest pas satisfaisante.
Profils ligne :
26

Patients En activit Inactifs Total consultation
X1


1
X2


1
Total

On obtient la distance euclidienne entre les deux profils lignes.

) (




Remarque3 :
Pour la clientle active, la diffrence nest que de 10 clients pour une clientle de lordre de
1900.
Pour la clientle inactive, la diffrence de 10 clients reprsente la moiti de la clientle du
mdecin1.
La distance euclidienne traite la diffrence de la mme faon.
En ralit cette diffrence de 10 clients est dautant plus significative que leffectif de la
colonne est faible.
Pour liminer cet effet, on pondre chaque diffrence par un coefficient gale linverse de la
frquence de la modalit colonne.
On obtient :

) =


Cette nouvelle distance

est appel distance du khi 2 (

) .
Cette distance renforce le poids des variables de masse faibles c..d. compense les diffrences
de poids entre les variables.
Rcapitulation des distances entre les services :






Remarque :
Distance euclidienne
Distance euclidienne
relative
Distance du khi2
Fait ressortir leffet de masse Elimine leffet de masse
Compense la diffrence de
poids entre les variables
27

Lorsque deux caractres sont indpendants, les profils lignes sont tous identiques aux profils
lignes moyens.

= N
(


Le khi2 calcul sera compar au khi2 lu sur la table de khi2
Rgle:
si

indpendance
si

dpendance
Remarque: Du fait du rle symtrique entre les lignes tout ce qui a t dit pour les profils
lignes peut tre transpos aux profils colonnes.
III- Analyse du nuage points profils.
De la mme manire que lACP sintresse aux points individus et aux points variables, lAFC
sintresse aux points profils colonnes pour en proposer des projections orthogonales sur les
plans factoriels.
a) Nuage de ponts profils lignes
Chaque ligne est associe aux profils lignes i (

) ce point est affect du poids

.
Le centre de gravit du nuage est reprsent par le point profils-lignes moyen

.
Le centre de gravit est reprsent par le point moyen

)
Rgle: la distance entre deux points profils-ligne est dautant plus faible quils correspondent
des profils-lignes voisins.
Dfinition
1) Linertie du point profils-ligne i est gale au produit du carr de sa distance au point

par son poids(

). (


2) Linertie totale du nuage est gale la somme des inerties de ce point.

b) Nuage des points profils-colonnes
On procde par une dmarche analogue a celle utilis pour les profils-lignes.
Exemple :
Les 500 entreprises dun pays X ont t reparties entre 4 rgions R1= Nord, R2= Sud R3= Est
R4= Ouest et 3 secteurs dactivits A1= primaire A2= secondaire A3= tertiaire
A1 A1 A3 Total
28

R1 10 20 40 70
R2 60 30 30 120
R3 20 60 30 110
R4 70 30 100 200
Total 160 140 200 500

Question : Calculer linertie totale du nuage des points profils-lignes.
Rponse :
Calculons linertie du pont profil-ligne R1
- Le poids de la ligne R1=


- Profil-ligne R1 : (

)
- Profil-ligne Moyen : (

)
Distance entre R1 et GL :


Inertie entre point profils-ligne R1 et GL = 0 ,17165 x

= 0,02403
De mme on calcule linertie des lignes.
Profils-ligne Inertie correspondante
R1 0,02403
R2 0,03857
R3 0,07740
R4 0,03527
Total 0,17527

Pour mesurer la dpendance entre deux caractres, chaque profil-ligne conduit sa dpendance
par son inertie
Remarque1: le nuage de point profil-ligne et celui des points profils- colonne ont exactement
la mme inertie.
Remarque2 : Linertie totale est donne par la formule

ou n dsigne leffectif total du


tableau de contingence.
Cela signifie que linertie totale est un indicateur du nuage et permet donc de mesurer la liaison
entre les deux variables.
c) Reprsentation graphique et interprtation
Le logiciel AFC propose :
29

- Une reprsentation graphique des points profils-lignes (graph direct)
- Une reprsentation graphique des points profils-colonnes (plan factoriel dual)
- Une superposition de deux graphs prcdents (graph du bi plot)
*Exemple de linterprtation de lexemple prcdent.
1) Commentaire des profils moyens (lignes et colonnes)
A1 A2 A3
R1
R2
R3
R4
GL 16/50 14/50 20/50
Lhistogramme associ est :



La rpartition par activit de lensemble des entreprises du pays X est relativement quilibre
avec une lgre prdominance du secteur A3.
2) Examen spar du graph direct et du graph dual
Linterprtation de chaque axe se fait par rapport au point qui lattire.
Linterprtation des distances entre point se fait en termes de similitude ou en termes de profil.
Remarque: Pour minimiser le risque derreur dinterprtation, on peut utiliser les indicateurs
fournis par le logiciel dAFC.

: Pour la qualit de la reprsentation.

: Qualit de la reprsentation sur le plan factoriel.


3) Examen simultan des deux graphs (direct et dual)
La superposition des deux graphs sinterprte en termes dattirance ou de rpulsion entre les
modalits des deux variables.
Exemple : du bi-plot

A1 A2 A3
Axe2 (36%)
30











La proximit de A2 et R3 dune part, A1 et R2 dautre part confirme :
Le poids important du secteur secondaire (A2) dans la rgion Est (R3) celui du secteur
primaire (A1) dans la rgion Sud (R2).
Les activits du secteur A3 sont gnralement reparties entre les rgions du Nord (R1) et la
rgion Ouest (R4).
IV- Interprtation dun cas concret dAFC
Enonc : une enqute a t effectu par des tudiants au prs de 1392 personnes gs de 5
ans et plus. Les 2 questions suivantes ont t poses :
- Quel est votre ge (en annes rvolues) ?
- A quelle activit de loisir vous adonnez vous le plus volontaire ?
Les rponses ont t trait par un logiciel dAFC et les rsultats suivants on t obtenu :

Indicateur dcart lindpendance du khi2 = 274,73
Loisir
Age


lecture

cuisine

Tlvision

Restau

Spectacle

Sport

Autres

Total
5-14 10 53 132 1 22 31 7 256
15-24 16 81 64 5 35 62 12 275
28-39 19 76 37 10 64 41 38 285
40-59 17 50 76 35 73 29 42 322
60 ans + 23 25 103 22 57 5 15 254
Total 85 285 412 73 251 172 114 1392
Axe1 (64%)
. .
A1 R2
. R1
A3 .

R4 .
.R3
.A2
31

Axe factoriel Taux dinertie % Taux dinertie
cumul
1 48,5 48,5
2 45,1 93,6
3 3,3 96,9
4 31 100

Nuage des points profils-lignes et profils-colonnes (bi-plot)

60ans et +
40-59 ans
5-14 ans


48,5
25-39 ans




Axe1 Tableau profils-lignes Axe2
Tranche dge Contribution Tranche dge Contribution
5-14 56,2% 60 ans + 39,7%
25-39 20,5% 15- 24 ans 37,8%
40-59 20,1%




Axe1 Tableau profils-colonnes Axe2
Loisir Contribution Loisir Contribution
Television 49,4% Sport 32,7%
Autres 22,4% Cinma 27,3%
Spectacle 15,1% Restau 18,8%
Restau 12,4%
Restaurant
Tlvision
lecture
spectacle
Autres

Cinma
15-24 ans
Sport
32

Le logiciel fournit un QLT lev (vision d1) pour tous les points lexception du point
lecture sur le plan dual (QLT = 0,27)
Commentaire sur les profils-moyens

Profils ligne moyen : la distribution marginale des loisirs tout ge confondu fait
apparaitre une nette prdominance de la tlvision mais galement la place importante
du cinma et du spectacle.
Profils-colonne moyen : Les effectifs par classe dge sont assez voisins mais cela tient
lamplitude variable des classes.

Qualit globale de reprsentation et qualit de reprsentions de chaque point.
Lindicateur dcart lindpendance de khi2 est 274,73 traduit sil existe une dpendance
significative entre lge et loisir.
Tous les points variables sont bien reprsents (QLT proche de 1) lexception de lecture
(QLT = 0,27). Lecture tant trs proche de lorigine il est prfrable de ne pas linterprter dans
ce plan factoriel.
*Graph direct.
Laxe1 oppose les enfants (5-14 ans) aux adultes actifs (25-39 ans) et (40-59 ans).
Laxe2 oppose les adolescents (15-24) aux personnes gs (60 ans et +).
Les profils de loisir sont tres diffrent suivant les tranches dge (forte dispersion des points).
On peut faire apparaitre une volution tres net en cheminant (chronologiquement) dun point
un autre.
*Graph dual :
Limportance de la modalit autres peut ventuellement ncessiter de faire une AFC
lintrieur de cette modalit.
Laxe1 oppose tlvision au spectacle et restau c..d. une activit peu couteuse des activits
couteuses.
Laxe 2 oppose le sport et le cinma au restau. Il est cependant un peu plus difficile de donner
un sens cet axe. On peut par contre les relier aux activits de tranche dge.
*Graph superpos
Cette superposition permet dclairer lvolution de la structure de loisir par tranche dge, si la
tlvision a la faveur des classe de 5 14 ans la majeur partie des amateurs de sport et de
cinma se situent parmi les 15-24 ans (attirance) par ailleurs peu friand de restau (rpulsion).
Il ne faut pas croire htivement que les 14-24 ans sont plus sportifs que cinphiles. Un bref
retour au tableau de contingence montre quil nen ait rien pour les 15-24 ans (81pour cinma
33

et 62 pour le sport). Cela sexplique par les attractions de tous les points de lautre nuage. Les
25-39 ans semblent tre attir plus particulirement par le cinma et le spectacle. Les 45 59
constituent lessentielle des personne frquentant les sales de spectacle mais subissent
galement les attractions combines dautres activits comme autres et restaurant. Les 60 ans et
plus, tout en frquentant les restaurants, rejoignent les enfants devant la tlvision.

34

CHAP IV : ANALYSE DES CORRESPONDANCES MULTIPLES (ACM)
LACM est un cas particulier de lAFC.
I- Principe de lanalyse des correspondances multiples
On sait que lACP permet de traiter ltude dune population sur laquelle plusieurs variables
quantitatives sont dfinies.
- LAFC permet de traiter lobservation simultane de deux variables qualitatives ou
quantitative dcoup en classe.
- LACM sintresse aux cas ou la population considre est compos de plusieurs
variables qualitatives (gnralisation de lAFC).
Soit une population de individus sur laquelle on dfinit P variables (

)
Si

(pour J=1p) est une variable qualitative alors on supposera que ses

modalit
sont nots :


- Si

est une variable quantitative on supposera que les valeurs observes sont reparties

classe ainsi pour tout individu appartenant et pour toute variable

on a :
X() {



} avec comme codage


avec

()



- 1 si la modalit est observ
- 0 si non

Variable X1 Xj .. Xp
Modalit



Indiv 1

P

Indiv i

P

Indiv n

P


Exemple : supposons quil ait 3 variables dans une tude.

= sexe ;

= taille et

= ge avec les modalits suivantes :



35

[ ]

] ]

] [

[ ]

] ]

] ]

] [

Et on considre 4 individus de la population ayant les caractristiques suivantes :
Individu 1 : homme de 1,67m et 27 ans
Individu 2 : femme de 1,59m et 31 ans
Individu 3 : femme de 1,72m et 29 ans
Individu 4 : homme de 1,83m et 45 ans
Var Sexe Taille Age Total
Indiv H F


Indiv 1 1 1 1 3
Indiv 2 1 1 1 3
Indiv 3 1 1 1 3
Indiv 4 1 1 1 3

Total 4 4 4

Remarque : Toutes les techniques dveloppes pour lAFC seront donc applicables lACM
et lanalyse, celle de lAFC.
II Caractristiques des indicateurs de lAFCM
Comme dans le cas de lAFC le graph les individus et des modalits peuvent tre superpos et
les proximits (non fortuites) peuvent tre sujettes interprtation.
Lanalyse peut tre rendu dlicate par :
a) Les analyses des correspondances multiples qui portent en gnrale sur des populations
par fois impotente.
b) Le nombre de colonnes qui correspond au nombre de modalit toute variables
confondu est lui-mme assez lev (on peut avoir plus de modalits que dindividus) ce
qui conduit a un nombre important daxe factorielles porteur de part relativement faible
de linertie total. En fait lAFCM prsente un intrt plus dans les rvlations de
proximit entre modalits entre individus ou encore entre individus et modalits plutt
que sur linterprtation des axes qui est en gnral impossible.

1) Distance entre deux individus
Considrons deux individus



36


Modalit
1



La distance du khi-deux entre les deux individus



est :


La distance est nulle pour deux individus qui possdent les mmes modalits (

)
pour chacune des variables.
Cette distance est max pour deux individus qui ne possdent jamais la mme modalit observe
c..d.

et

ou inversement.


Conclusion : la distance du khi-deux est donc comprise entre 0 et

.
Exemple : considrons une tude qui sintresse et 3 variables : Sexe, tat de sant et ge.
On obtient les informations concernant 4 individus sur 100 personnes enqutes :
Sexe Etat de Sant Age
H F Mauvais Moyen bon <30 31 50 51 et +
1 1 0 1 0 0 0 1 0 3
2 1 0 0 1 0 0 1 0 3
3 1 0 0 0 1 1 0 0 3
4 0 1 0 0 1 1 0 0 3

48 52 1 1 98 30 45 25 300

Distance entre les individus 1 et 2

))


37

2)


Modalit



1 1


On a ncessairement :
1=


Avec


La distance maximale

est gale au cas o

c..d.


3) Distance entre deux modalits de 2 variables diffrentes.


38


4) Liaison entre variables
LAFCM est une mthode permettant la mise en vidence de liaisons ventuelles entre des
variables. Ces liaisons ne sont pas ncessairement linaire ni fonctionnelle. ( les variables
peuvent ne pas tre quantitatives).
Exemple : considrons 20 individus et 4 variables.
Sexe Age Dpense de sant Dpense loisir
H F < 20 20-50 >50 <2000 2000-
3000
>3000 <2000 2000
-
5000
>5000
a
b
c
d

1
1


1
1
1
1



1
1



1




1
1

1
1



1
1

Le rsultat dun AFCM fournit par un logiciel danalyse de donnes propose les rsultats
suivants :













39

H = homme
F = femme
A1 : ge < 20
A2: 20
A3:
S1: dpense sant <2000
S2: 2000
S3 : Dpense sant > 3000
L1 : Dpense loisir < 2000
L2 : 2000
L3 : Dpense loisir > 5000
Question ; Analyser ce rsultat
Correction :
Ce graph permet de mettre en vidence quelques points important :
- Les dpenses de sant les plus importantes sont le faite des classes dge extrmes (A1
A3) en revanche la classe dge intermdiaire (A2) correspond au dpenses de sant les
plus faibles.
- Les dpenses de loisir ne semblent pas tre influences par les classes dge.
- Les femmes ont des dpenses de loisir lev alors que celles des hommes est
relativement faibles.

40

CHAP : ANALYSE DISCRIMINANTE AD
Lanalyse discriminante (AD) cherche dcrire pour une population donne les liaisons
existant entre une variable qualitative et plusieurs variables quantitatives.
Elle permet galement pour un individu de prvoir la modalit de la variable qualitative
correspondant des valeurs donnes des variables quantitatives.
I- Principe de lanalyse discriminante
Une population de grand N individu est observ sous langle :
- Dun caractre qualitatif k modalits permettant de distinguer k groupe dindividus ;
- De p variables quantitatives
On cherche la combinaison linaire de p variables quantitatives qui discrimine ou spare au
mieux le groupe c a d qui prennent des valeurs :
- Proche pour les individus du mme groupe
- Eloign pour des individus de deux groupes diffrents
Exemple : considrons une population qui sera observer sous langle de deux variables
quantitatives

et

et dun caractre qualitatif 3 modalits : 3groupes sont donc dfinis.


Chaque individu est sur le graphique par le n* du groupe auquel il appartient.














41

Remarque1 : Laxe (ox1) spare mal les projections : groupe 2 et 3
Remarque 2 : Lorsque le caractre qualitatif retenu ou dfini k groupe dindividus, on peut
dfinir (k-1) fonctions discriminantes que le logiciel dAD dtermine dans lordre dcroissant
de leur pouvoir discriminant.
Remarque3 : si lACP dcrit la population concern, lAD se propose de sparer des groupes
dindividus dfinis priori (classification supervise)
II- Analyse discriminante deux groupes : Application aux fonctions scores
Lorsque le caractre qualitatif dfinit seulement deux groupes dindividus, la fonction
discriminante peut tre obtenue en faisant une rgression multiple :
- Y = variable qualitative sera transform en une variable quantitative

les P variables explicatives mesur sur chaque individu.


Lquation de rgression linaire est obtenue par la mthode des moindres carrs
(fonction discriminante recherch). Son pouvoir discriminant est mesur par le
coefficient de corrlation multiple.








Exemple on considre 10 entreprises sur lesquelles on a une tude portant sur :
- 4 variables quantitatives :


Elles correspondent aux valeurs prise par 4 ratios calculs partir des documents de
synthse de lexercice N.
- Un variable qualitative a t transform en une variable quantitative Y prenant la valeur
1 pour les entreprises saines et la valeur 0 pour les entreprise dfaillantes.
- Les rsultats de lenqute sont les suivantes :


1 0,34 0,37 0,31 0,50 1
2 0,21 0,27 0,26 0,68 0
3 0,08 0,42 0,54 0,41 1
4 0,18 0,33 0,38 0,52 0
5 0,12 0,39 0,42 0,53 0
6 0,44 0,26 0,33 0,25 1
7 0,32 0,44 0,42 0,31 1
8 0,07 0,09 0,47 0,82 0
9 0,31 0,21 0,59 0,65 1
10 0,11 0,54 0,35 0,71 0
42

- La fonction discriminante appel ici fonction score est construite pas pas : les
variables explicatives sont introduites successivement en commenant par celle qui est
la plus fortement corrl avec la variable expliqu.
- Une entreprise sera prsum dfaillante si son score est inferieur 0,5 (Remarque :
)
- Si le coefficient de corrlation de seuil de y avec chacune des variables explicative est
connues, on commencera la slection avec celles ayant la plus forte corrlation.
(

) (

) (

) (

)
Fonction score une variable ;

On obtient


Pour valuer le nombre dentreprises mal classes de lchantillon on compare

avec les
valeurs relles

. On pose :
S : Si lentreprise est prsume saine
D : si lentreprise est prsume dfaillante
Entreprise 1 2 3 4 5 6 7 8 9 10
Situation
relle Yi
1 0 1 0 0 1 1 0 1 0
S D S D D S S D S D
Situation
prsume


0,57 0,23 0,75 0,53 0,52 1,06 0,94 -0,04 0,28 0,17
S D S S S S S D D D

On obtient trois entreprises sur dix mal classes par la fonction score une variable. On
introduit une variable explicative supplmentaire pour amliorer le coefficient de
corrlation et diminuer le nombre dentreprise mal classs.
On obtient :

Ce qui donne

||
||
On obtient :
Entreprise 1 2 3 4 5 6 7 8 9 10
Situation
reelle Yi
1 0 1 0 0 1 1 0 1 0
S D S D D S S D S D
Situation
prsume


0,98 0,28 0,46 044 034 1,16 0,91 -0,11 0,46 ,009
S D D D D S S D D D

On obtient ici deux entreprises sur dix sont mal class par la fonction score 2 variables.
Fonction score trois variables :


43


On obtient :


On obtient :
Entreprise 1 2 3 4 5 6 7 8 9 10
Situation
relle Yi
1 0 1 0 0 1 1 0 1 0
S D S D D S S D S D
Situation
prsume


092 -0,14 0,68 0,32 0,29 1,03 0,97 0,007 1,07 -0,13
S D S D D S S D S D

Ici aucune entreprise nest mal class et le pouvoir discriminant de cette fonction score
trois variables peut tre jug satisfaisant |

| il nest donc pas ncessaire


dintroduire la variable

.
Remarque : LAD nest pas seulement une mthode descriptive, mais elle est galement
dcisionnelle.


44

Prnoms Sexe Taille ge Poids Question
Marie Fminin 1,65 28 57 oui
Awa Fminin 1,67 32 62 NSP
Abdou Masculin 1,71 33 73 non
Michel Masculin 1,73 40 69 non
Jeanne Fminin 1,63 38 65 oui
Moussa Masculin 1,8 27 81 oui
Allou Masculin 1,77 29 76 non
Penda Fminin 1,64 42 56 non
Robert Masculin 1,83 36 75 NSP
Paul Masculin 1,79 35 79 NSP

NSP : ne se prononce pas