Vous êtes sur la page 1sur 105

Aix Marseille Universite

L3 MASS
Cours dAnalyse des donnees.
F. Castell.
2
Table des mati`eres
1 Introduction. 5
2 Statistique descriptive unidimensionnelle. 7
2.1 Une seule variable quantitative discr`ete. . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1 Dierentes representations. . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.2 Caracteristiques numeriques . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Une seule variable quantitative continue. . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Representations graphiques. . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.2 Caracteristiques numeriques. . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Une seule variable qualitative. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4 Vers la statistique inferentielle. Normalisation de donnees quantitatives. . . . . . 14
2.4.1 Comment tester la normalite ? . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.2 Que faire si lhypoth`ese de normalite nest pas satisfaite ? . . . . . . . . . 16
2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5.1 Une seule variable quantitative discr`ete. . . . . . . . . . . . . . . . . . . 20
2.5.2 Une seule variable quantitative continue. . . . . . . . . . . . . . . . . . . 20
2.5.4 Normalisation de donnees quantitatives . . . . . . . . . . . . . . . . . . . 21
2.6 Pour aller plus loin : fonctions de repartition, simulation. . . . . . . . . . . . . . 22
2.6.1 Fonction de repartition. . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6.2 Fonction de repartition empirique. . . . . . . . . . . . . . . . . . . . . . . 25
3 Statistique descriptive bidimensionnelle. 27
3.1 Deux variables quantitatives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1 Representation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.2 Coecient de correlation lineaire empirique. . . . . . . . . . . . . . . . . 27
3.1.3 Coecient de correlation des rangs de Spearman. . . . . . . . . . . . . . 31
3.2 Une variable quantitative et une variable qualitative. . . . . . . . . . . . . . . . 34
3.2.1 Distribution theorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.2 Quantites empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.3 Comment juger de la liaison entre X et Y ? . . . . . . . . . . . . . . . . 36
3.2.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.5 Que faire lorsque lhypoth`ese de normalite nest pas satisfaite ? . . . . . . 42
3.3 Deux variables qualitatives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3.1 Distribution theorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3
4 TABLE DES MATI
`
ERES
3.3.2 Quantites empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3.3 Comment juger de la liaison entre X et Y ? . . . . . . . . . . . . . . . . 49
3.3.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4.1 Deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4.2 Une variable qualitative et une variable quantitative . . . . . . . . . . . . 53
3.4.3 Deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4 Analyse en Composantes Principales. 55
4.1 Denitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.1.1 Espace des individus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.1.2 Inertie dun nuage de points. . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.1.3 Espace metrique des variables. . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2 Principes de lACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.1 Le probl`eme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.2 Espaces et axes principaux. . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.3 Composantes Principales (CP) . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2.4 Resume dune analyse en composantes principales. . . . . . . . . . . . . . 68
4.3 ACP dans lespace des variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4 Les representations graphiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4.1 Representation des individus. . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4.2 Representation des variables. . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.5 Reconstitution des donnees de depart. . . . . . . . . . . . . . . . . . . . . . . . . 74
4.6 Pratique de lACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.6.1 Nombre daxes ` a retenir. . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.6.2 Interpretation de lACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.7 Tableau recapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.8 Exemple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.8.1 Description du jeu de donnees. . . . . . . . . . . . . . . . . . . . . . . . . 76
4.8.2 Objectif. Choix des variables et des individus actifs. . . . . . . . . . . . . 76
4.8.3 Choix du nombre daxes `a retenir. . . . . . . . . . . . . . . . . . . . . . . 77
4.8.4 Carte des variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.8.5 Carte des individus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5 Analyse Factorielle des Correspondances (AFC). 85
5.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.1.1 Table de contingence et prols. . . . . . . . . . . . . . . . . . . . . . . . 85
5.1.2 Ecart ` a lindependance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.2 Principes de lAFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2.1 Nuage des prols-lignes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2.2 Nuage des prols-colonnes . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.2.3 Metrique du khi2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2.4 Inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
TABLE DES MATI
`
ERES 5
5.3 ACP des deux nuages prols . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.3.1 ACP des prols-lignes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.3.2 ACP des prols-colonnes. . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.3.3 Relations de transition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.4 Formules de reconstitution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.5 Tableau recapitulatif : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.6 Aides `a linterpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.7 Exemple traite sous R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.7.1 Description des donnees. . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.7.2 Objectifs. Choix des modalites actives. . . . . . . . . . . . . . . . . . . . 98
5.7.3 Choix du nombre daxes `a retenir. . . . . . . . . . . . . . . . . . . . . . . 98
5.7.4 Analyse des resultats. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.8 Exercice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6 References. 103
6 TABLE DES MATI
`
ERES
Chapitre 1
Introduction.
Lobjet de ce cours est de donner quelques outils couramment employes en statistique pour
traiter des donnees multidimensionnelles. Ces donnees correspondent souvent ` a lobservation de
nombreuses variables aleatoires sur plusieurs individus, le mot individu etant `a prendre en un
sens tr`es large. Ces donnees sont representees sous forme dun tableau o` u chaque ligne represente
les variables mesurees sur un individu. Le but est dextraire le maximum dinformations de ce
tableau de donnees. Suivant la nature de la question posee, et suivant la nature des donnees,
plusieurs methodes sont possibles. Voici quelques exemples de questions que nous chercherons
` a aborder dans ce cours.
1. Analyse des relations entre plusieurs variables.
On a releve aupr`es dun echantillon de personnes des descripteurs dutilisation de dierents
media, des temps dactivites quotidiennes et dautres caracteristiques telles que l age, le
sexe, le niveau deducation, le lieu de residence.... etc.
On souhaite savoir quelles sont les variables liees entre elles sans quaucune des variables
ne soit vraiment privilegiee.
Si les variables auxquelles on sinteresse sont toutes des variables quantitatives, il sagit
dun probl`eme danalyse en composante principale (ACP). Sil sagit de deux va-
riables qualitatives, on parle danalyse factorielle des correspondances (AFC). Sil
sagit de p 3 variables qualitatives, on parle danalyse des correspondances mul-
tiples (ACM).
En plus de decrire les liens entre variables, ces methodes permettent :
deliminer des variables peu pertinentes, car linformation quelles apportent est dej`a
contenue dans les autres variables ;
de donner des representations graphiques les plus d`eles possible, de lensemble des
donnees sur un graphe plan (ou de dimension 3).
Elles sont souvent une premi`ere etape, dite exploratoire ou descriptive, avant de
mettre en oeuvre dautres methodes, qui necessitent des hypoth`eses sur les donnees.
2. Etude de linuence des variables sur une variable particuli`ere.
On peut sinteresser au type de media choisi en fonction du sexe, de lage, du sport
pratique, etc... Ici, on met en exergue une des variables, dite variable `a expliquer, (ou
variable dinteret, variable reponse). On veut analyser linuence des autres variables
7
8 Analyse des Donnees. Fabienne CASTELL
(dites variables explicatives, ou variables regresseurs) sur la variable dinteret. La ta-
bleau suivant donne la terminologie des methodes utilisees suivant la nature des donnees :
Variable ` a expliquer Variable ` a expliquer
quantitative qualitative
Var explicatives Regression logistique ,
quantitatives Regression Analyse discriminante,
Var explicatives
qualitatives analyse de variance Regression logistique,
Analyse discriminante,
Chapitre 2
Statistique descriptive
unidimensionnelle.
Avant de rentrer dans lanalyse de donnees multidimensionnelles, nous allons commencer
par rappeler quelques concepts de base permettant de decrire une serie de donnees.
Nous considerons ici que nous avons mesure une variable sur n individus dans la population.
On obtient donc une serie dobservations notees (x
1
, , x
n
). On peut aussi associer `a lindi-
vidu i, un poids w
i
(w pour weight) representant son importance dans la population. Par
exemple, si les individus representent des regions, on peut vouloir associer `a chaque region un
poids proportionnel au nombre dhabitants de la region. La serie des poids w = (w
1
, , w
n
)
verie :
i 1, , n , w
i
0 ;
n

i=1
w
i
= 1. (2.1)
Si tous les individus ont meme poids, alors w
i
=
1
n
.
2.1 Une seule variable quantitative discr`ete.
Une variable quantitative discr`ete est une variable prenant des valeurs discr`etes (enti`eres
ou decimales). Theoriquement le nombre de valeurs possibles est au plus denombrable ; en
pratique il est souvent assez faible. On peut penser par exemple au nombre de deplacements
journaliers dune personne, au nombre denfants par famille, au nombre de mois separant la n
des etudes et le premier emploi en CDI, .... etc.
Exemple 2.1: On a note le nombre de mois separant la n des etudes et le premier emploi
en CDI de 25 etudiants issu dun master MASS. Les resultats sont les suivants et sont des
donnees ctives : 9 5 5 6 5 10 7 5 8 8 8 4 7 8 4 3 4 5 7 7 6 3 2 6 9 .
On notera (x
1
, , x
n
) la serie de donnees, et (y
1
, , y
r
) les valeurs possibles pour ces
donnees, ordonnees par ordre croissant (y
1
< < y
r
).
9
10 ANALYSE DES DONNEES. FABIENNE CASTELL.
y
j
n
j
N
j
f
j
F
j
2 1 1 1/25 1/25
3 2 3 2/25 3/25
4 3 6 3/25 6/25
5 5 11 5/25 11/25
6 3 14 3/25 14/25
7 4 18 4/25 18/25
8 4 22 4/25 22/25
9 2 24 2/25 24/25
10 1 25 1/25 1
Table 2.1 Tableau representant les donnees de lexemple 2.1.
2.1.1 Dierentes representations.
Lorsque tous les individus ont meme poids (w
i
= 1/n pour tout i), ces donnees sont souvent
representees sous forme dun tableau donnant pour chaque valeur possible y
j
(1 j r) :
leectif n
j
qui lui est associe,
n
j
= nombre dindividus pour lesquels la variable mesuree vaut y
j
= card i n; x
i
= y
j
;
On a evidemment

r
j=1
n
j
= n.
leectif cumule N
j
,
N
j
=
j

i=1
n
i
;
la frequence f
j
= n
j
/n;
la frequence cumulee F
j
=

j
i=1
f
j
= N
j
/n.
Question : Comment adapter ces denitions au cas o` u lindividu i est aecte dun poids
w
i
?
Ce tableau peut-etre represente sous forme de diagrammes.
Diagramme en batons : Cest le graphe de y
j
f
j
(ou de y
j
n
j
).
Diagramme cumulatif : Cest le graphe de y
j
F
j
(ou de y
j
N
j
). Plus precisement,
il sagit du graphe de la fonction de repartition empirique F
n
denie par :
F
n
(x) =
_
_
_
0 si x < y
1
F
j
si y
j
x < y
j+1
, pour 1 j r 1
1 si x y
r
On a
F
n
(x) =
1
n
n

i=1
1I
x
i
x
(2.2)
La gure 2.1 donne ces deux graphes sur les donnees de lexemple 2.1.
CHAPITRE 2. Statistique descriptive unidimensionnelle. 11
2 3 4 5 6 7 8 9 10
0
0.05
0.1
0.15
0.2
Nombre de mois entre fin des etudes et premier CDI
f
r
e
q
u
e
n
c
e
0 2 4 6 8 10 12
0
0.2
0.4
0.6
0.8
1
Nombre de mois entre fin des etudes et premier CDI
f
r
e
q
u
e
n
c
e

c
u
m
u
l
e
e
Figure 2.1 Diagramme b atons et diagramme cumulatif des donnees de lexemple 2.1.
2.1.2 Caracteristiques numeriques
Caracteristiques de position : elles donnent un ordre de grandeur de la serie.
Moyenne empirique : x
n
=
1
n

n
i=1
x
i
=

r
j=1
f
j
y
j
;
Quantiles empiriques : La fonction quantile empirique est la fonction inverse de
la fonction de repartition empirique. Pour [0.1], le quantile empirique dordre
est une valeur de q

telle que F
n
(q

) et F
n
(q

) . Notez quune telle valeur


nest pas necessairement unique (cf diagramme 2.2). Une mediane empirique est
un quantile empirique dordre = 1/2, i.e. cest une valeur de la variable observee en
dessous de laquelle et au dessus de laquelle les eectifs sont egaux ; le premier quartile
et le troisi`eme quartile correspondent respectivement ` a = 1/4 et = 3/4.
Caracteristiques de dispersion : elles donnent une idee de la variabilite de la serie, i.e. une idee
de la fa con dont la serie varie autour de sa tendance centrale.
Variance empirique :
2
n
(x) =
1
n

n
i=1
(x
i
x
n
)
2
=

r
j=1
f
j
(y
j
x
n
)
2
;
Ecart interquartile : q
3/4
q
1/4
.
Une representation synthetique de ces caracteristiques est donnee par le diagramme-bote
(boxplot en anglais), qui donne les quartiles, la mediane, et les valeurs extremes de la serie.
Sa representation est donnee dans la gure 2.3.
12 ANALYSE DES DONNEES. FABIENNE CASTELL.
0 2 4 6 8 10 12
0
0.2
0.4
0.6
0.8
1
Nombre de mois entre fin des etudes et premier CDI
f
r
e
q
u
e
n
c
e

c
u
m
u
l
e
e
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
2
4
6
8
10
!
Q
u
a
n
t
i
l
e

d

o
r
d
r
e

!
0.72
0.72
!
Tout lintervalle est
quantile dordre 0.72
mdiane
Tout lintervalle est
quantile dordre 0.72
Quantile dordre !
Figure 2.2 Quantiles empiriques sur les donnees de lexemple 2.1.
2
4
6
8
1
0
Figure 2.3 Diagramme-bote sur les donnees de lexemple 2.1.
CHAPITRE 2. Statistique descriptive unidimensionnelle. 13
2.2 Une seule variable quantitative continue.
Une variable quantitative est dite continue lorsquelle peut prendre `a priori un continuum
de valeurs possibles, comme par exemple la temperature. Dans ce cadre, on se retrouve avec
une serie de donnees (x
1
, , x
n
) o` u la plupart des x
i
sont distincts, le cas de x
i
egaux resultant
essentiellement de la troncature des donnees (ecriture `a la deuxi`eme decimale par exemple).
L` a encore, chacun des individus peut etre aecte dun poids, la serie des poids etant notee
(w
1
, , w
n
). Ici, on supposera que tous les individus ont meme poids.
2.2.1 Representations graphiques.
Courbe cumulative ou Fonction de repartition empirique : elle est denie de la meme facon que
dans le cas discret. Cest le graphe de la fonction de repartition empirique denie par (2.2).
Si on note (x
(1)
, , x
(n)
) la suite des (x
1
, , x
n
) ordonnee par ordre croissant, et si on
pose x
(0)
= , x
(n+1)
= +, on a par denition de F
n
(x),
F
n
(x) =
i
n
, x [x
(i)
; x
(i+1)
[ (i = 0, . . . , n) .
F
n
est donc une fonction en escalier, dont les marches sont de hauteur 1/n et dont les
sauts sont situes sur les points de lechantillon de donnees (cf gure 2.4). On peut aussi
la representer comme une fonction lineaire par morceaux (cf gure 2.4).
Quand on suppose que les donnees (x
1
, , x
n
) sont une realisation de n variables aleatoires
i.i.d. (X
1
, , X
n
) (ce quon notera (x
1
, , x
n
) = (X
1
(), , X
n
()) o` u designe
lechantillon particulier quon est en train de regarder), et que les X
i
sont de meme
fonction de repartition F, la fonction de repartition empirique permet de se faire une idee
de F. La loi des grands nombres dit en eet que pout tout x R,
lim
n+
F
n
(x) = lim
n+
1
n
n

i=1
1I
X
i
()x
= P(X
1
x) = F(x) ,
et on peut montrer que la convergence est uniforme (theor`eme de Glivenko-Cantelli).
Histogramme et histogramme normalise : Le diagramme en batons est remplace par la notion
dhistogramme. On partitionne lensemble (disons R) dans lequel vivent les variables
x
i
:
R =
r
i=1
I
i
; I
i
I
j
= si i ,= j .
A chacun des ensembles I
j
, on associe son eectif
n
j
= card x
i
tel que x
i
I
j
=
n

i=1
1I
I
j
(x
i
) .
Lhistogramme associe ` a ce decoupage est la courbe x I
j
H
n
(x) = n
j
.
Notez que lhistogramme depend fortement du choix de la partition.
Notez aussi que
_
H
n
(x) dx =

r
j=1
n
j
[I
j
[ , = 1 en general. Si on veut normaliser de facon
` a ce que lhistogramme soit une densite de probabilite, dierentes possibilites sorent
14 ANALYSE DES DONNEES. FABIENNE CASTELL.
` a vous. Une fa con automatique de proceder (adoptee par defaut par les logiciels) est de
diviser lintervalle [x
min
; x
max
] (o` u x
min
= min(x
i
) et x
max
= max(x
i
)) en k intervalles
de meme longueur h = (x
max
x
min
)/k. Dans ce cas,

r
j=1
n
j
[I
j
[ = h

r
j=1
n
j
= hn =
n(x
max
x
min
)/k. Lhistogramme normalise est alors la courbe
x I
j
h
n
(x) =
k
x
max
x
min
n
j
n
.
Quand les intervalles I
j
ne sont pas de meme longueur, on peut normaliser lhistogramme
de facon ` a sassurer que lhistogramme normalise soit une approximation de la densite.
Cest ce qui explique dans les lignes qui suivent.
Histogramme et estimation de densite : Quand on suppose que les donnees (x
1
, , x
n
) sont
une realisation de n variables aleatoires i.i.d. (X
1
, , X
n
), et si on suppose que les X
i
sont de densite commune f
X
, alors pour tout x I
j
,
1
n
H
n
(x) =
1
n
n

i=1
1I
I
j
(X
i
()) .
Par la loi des grands nombres, on a alors pour (presque) tout ,
lim
n+
1
n
n

i=1
1I
I
j
(X
i
()) = P[X
1
I
j
] =
_
I
j
f
X
(y) dy f
X
(x) [I
j
[ ,
o` u la derni`ere approximation suppose que lintervalle I
j
soit de petite longueur, et que la
densite f
X
soit reguli`ere. Ainsi pour une partition assez ne, la fonction h
n
: x I
j

1
n
H
n
(x)/ [I
j
[ =
n
j
n|I
j
|
est une bonne approximation de f
X
.
Estimation de densite. Lhistogramme normalise presente precedemment a le defaut de dependre
du choix de la partition, et ce choix aecte beaucoup la qualite de lestimation de la den-
site. Aussi, dautres methodes destimation de la densite ont ete developpees. Une methode
courante est la methode du noyau qui propose destimer f
X
par

h
n,
(x) =
1
n
n

i=1
K
_
x x
i

_
,
o` u
la fonction K (le noyau) est une fonction positive, paire, dintegrale 1 (par exemple la
densite de la loi N(0, 1) : K(x) =
1

2
exp
_

x
2
2
_
) ;
le param`etre dit de lissage est `a choisir (strictement positif..).
En eet, la loi des grands nombres dit `a nouveau que
lim
n
1
n
n

i=1
K
_
x X
i

_
=
1

E
_
K
_
x X
1

__
=
1

_
K
_
x y

_
f
X
(y) dy
=
_
K(z)f
X
(x z) dz
CHAPITRE 2. Statistique descriptive unidimensionnelle. 15
o` u la derni`ere egalite vient du changement de variable z = (x y)/. Si f
X
est reguli`ere,
on voit que lim
0
_
K(z)f
X
(x z) dz = f
X
(x)
_
K(z) dz = f
X
(x). Ainsi,
lim
0
lim
n

h
n,
(x) = f
X
(x) .
Des resultats plus sophistiques (et qui nous depassent ici) etudient les meilleures facons
de choisir en fonction de n et des donnees ( =

n
(x
1
, , x
n
)) de telle sorte que
lim
n

n
= 0 et que lim
n

h
n,

n
(x) = f
X
(x) le plus vite possible.
La gure 2.4 donne les dierentes representations graphiques. Les caracteristiques numeriques
sont :
Moyenne empirique : x
n
= 1.67207 ;
Mediane empirique : m
n
= 1.259778 ;
Variance empirique :
2
n
(x) = 5.97284 ;
Ecart inter-quartile empirique :

d
n
= 3.304417.
2.2.2 Caracteristiques numeriques.
Ce sont les memes que dans le cas discret :
Caracteristiques de position :
Moyenne empirique : x
n
=
1
n

n
i=1
x
i
;
Quantiles empiriques : La fonction quantile empirique est la fonction inverse de
la fonction de repartition empirique. Selon que la fonction de repartition empirique
est vue comme une fonction en escalier ou comme une fonction lineaire par morceaux,
on aboutit `a deux notions leg`erement dierentes pour les quantiles. Lavantage de la
representation lineaire par morceau pour la fonction de repartition empirique, est de
lever les ambiguites dues aux marches de lescalier. Cest cette solution qui est en
general adoptee par les logiciels.
Caracteristiques de dispersion :
Variance empirique :
2
n
(x) =
1
n

n
i=1
(x
i
x
n
)
2
;
Ecart interquartile : q
3/4
q
1/4
.
Diagramme-bote : representation synthetique des caracteristiques de position et de dispersion.
Exemple 2.2: Voici sur le jeu de donnees suivant une illustration des dierentes notions
introduites precedemment.
0.5799 3.4561 0.4609 3.908 4.3653 -0.6389 0.9086 4.8374 1.6108 -2.7677
2.3 Une seule variable qualitative.
Comme leur nom lindique, les variables qualitatives decrivent une qualite de lindividu
(sexe, profession, marque dun produit, ....etc). Si les qualites regardees sont ordonnees (men-
tion `a un concours par exemple), on parle de variables ordinales. Sinon, on parle de variables
nominales. Pour les variables qualitatives, les caracteristiques numeriques nont aucun sens.
16 ANALYSE DES DONNEES. FABIENNE CASTELL.
Histogramme normalis
x
h
n
(
x
)
4 2 0 2 4 6
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
5 0 5
0
.
0
0
0
.
0
4
0
.
0
8
0
.
1
2
Estimateur noyau
N = 10 Bandwidth = 1.388
h ^
n
(
x
)
2 0 2 4
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Courbes cumulatives
x
F
n
(
x
)

2
0
2
4
Diagramme bote
Figure 2.4 Les dierentes representations graphiques sur les donnees de lexemple 2.2.2.
On se contente donc des representations graphiques (diagramme en colonnes, diagramme
en barre ou camembert) , qui donnent pour chaque modalite y
j
de la variable qualitative
regardee, son eectif n
j
, ou sa frequence f
j
=
n
j
n
. Ces dierentes representations sont donnees
dans la gure 2.5 pour les donnees de lexemple 2.3 d u ` a Fisher sur un echantillon de n = 3883
ecossais.
Exemple 2.3:
Blond Roux Ch atain Brun Noir de jais
n
j
1136 216 1526 955 50
2.4 Vers la statistique inferentielle. Normalisation de don-
nees quantitatives.
Lorsque lon veut aller plus loin quune simple description des donnees, i.e. lorsqu on veut
faire de la prediction ou des tests, le statisticien est amene `a faire des hypoth`eses sur son jeu
de donnees, qui denissent un mod`ele statistique. En particulier, beaucoup de methodes sta-
tistiques (dites parametriques) suppose que les donnees (x
1
, , x
n
) sont une realisation parti-
culi`ere de n variables (X
1
, , X
n
) independantes (independance des individus dans lechantillon),
de meme loi (les individus proviennent dune population homog`ene). Pour des donnees quanti-
tatives, cette loi est souvent supposee etre une loi normale N(,
2
) (on dit alors que (x
1
, , x
n
)
est une realisation dun n-echantillon de la loi N(,
2
)). Cette hypoth`ese de normalite peut
se justier par le theor`eme de la limite centrale lorsque la taille de lechantillon est grand.
CHAPITRE 2. Statistique descriptive unidimensionnelle. 17
Blond Roux Cht Brun Noir
Diagramme en colonnes
0
.
0
0
.
1
0
.
2
0
.
3
Diagramme baton
Blond
Roux
Cht
Brun
Noir Blond
Roux
Cht
Brun
Noir
Camembert
Figure 2.5 Les dierentes representations graphiques sur les donnees de lexemple 2.3.
Mais, dans la plupart des cas, elle nest pas forcement justiee. Cela pose evidemment probl`eme
puisque toute lanalyse statistique qui suit, depend fortement de la validite du mod`ele suppose.
Quand on veut utiliser ces methodes, on doit donc faire face aux deux probl`emes suivants :
1. Peut-on raisonnablement supposer que (x
1
, , x
n
) est la realisation dun n-echantillon
de la loi N(,
2
) ?
2. Si ce nest pas le cas, que faire ?
2.4.1 Comment tester la normalite ?
Pour tester la normalite, on peut utiliser un des tests dajustement vus dans le cours de
Statistique 2 (test dajustement du
2
, de Kolmogorov, de Shapiro....). Pour avoir une idee
plus visuelle de lecart ` a la normalite, on peut aussi tracer sur un meme graphe la fonction
de repartition empirique des donnees prealablement centrees et reduites, et la fonction de
repartition de la N(0, 1). Bien plus visuel est le diagramme de type Q-Q-plot (litteralement
graphe Quantile-Quantile) qui trace les quantiles empiriques en fonction des quantiles de la loi
` a laquelle on fait lajustement. Sil sagit de la loi normale, ce graphe est donc le graphe de
(
1
(), Q
n
()), [0; 1], o` u Q
n
est la fonction quantile empirique, i.e. linverse de la fonc-
tion de repartition empirique F
n
.
Si les donnees sont la realisation dun n-echantillon de N(0, 1), alors F
n
F = , et donc
Q
n

1
. Le Q-Q-plot est donc proche de la droite y = x.
Si les donnees sont issus dun n-echantillon de N(,
2
), alors F
n
(x) F(x) = P(X
1
x) =
P(
X
1

) =
_
x

_
, et on a donc en inversant cette relation Q
n
() +
1
(). Le
18 ANALYSE DES DONNEES. FABIENNE CASTELL.
Q-Q-plot est donc proche de la droite y = +x; lordonnee ` a lorigine donne le param`etre
de position , et la pente donne le param`etre de dispersion .
2.4.2 Que faire si lhypoth`ese de normalite nest pas satisfaite ?
On a dans ce cas essentiellement deux options : soit on saranchit de lhypoth`ese de norma-
lite en utilisant une autre methode statistique qui nen a pas besoin (souvent une methode dite
non parametrique qui ne fait pas dhypoth`ese forte sur la loi dont sont issues les donnees),
soit on essaie de transformer les donnees par une fonction G de telle sorte que les donnees
transformees (y
1
, , y
n
) = (G(x
1
), , G(x
n
)) puissent etre considerees comme une realisation
dun n-echantillon de N(,
2
). Le probl`eme est alors de trouver une telle transformation G que
lon choisira de preference croissante pour conserver lordre des donnees.
Reponse theorique.
Si on suppose que (x
1
, , x
n
) est une realisation dun n-echantillon de la loi de fonction de
repartition F connue, alors G =
1
F. On a en eet la proposition :
Proposition 2.4.1 : Si X est une variable de fonction de repartition F continue, Y =
1

F(X) est une variable de loi N(0, 1).


Preuve : On fait la preuve dans le cas o` u F est continue et strictement croissante. Dans ce
cas, F est une bijection de R dans ]0, 1[. Notons F
1
sa fonction inverse. Calculons la fonction
de repartition de Y .
P(Y x) = P(
1
(F(X)) x) = P(F(X) (x)) = P(X F
1
((x))) = F(F
1
((x))
= (x) .
La fonction de repartition de Y etant la fonction de repartition de N(0, 1), Y N(0, 1).
Cette demonstration se generalise au cas general o` u F nest pas supposee strictement crois-
sante. La seule diculte est de donner un sens ` a la fonction F
1
. On introduit alors la notion
dinverse generalisee (cf section 2.6). .
Cette proposition nest pas tr`es utile en pratique, puisquon ne connat pas F en general,
un des buts de letude statistique etant justement davoir des informations sur F.
En pratique.
On peut essayer de deviner une fonction G. A ce titre, le Q-Q-plot peut saverer utile. En
eet, si on reconnat visuellement une forme pour le Q-Q-plot du type y = H(x) pour une
fonction H, alors on peut prendre G = H
1
. En eet,
]0, 1[ , F
1
() = H(
1
())
]0, 1[ ,
1
() = H
1
(F
1
())
x R, (x) = F(H(x)) = P(X H(x)) = P(H
1
(X) x)
CHAPITRE 2. Statistique descriptive unidimensionnelle. 19
2 0 2 4 6 8 10

1
0
1
2
x
h

, 0
(
x
)
= 0
= 0.2
= 0.5
= 1
= 2
= 10
Figure 2.6 Les transformations de Bickel & Doksum
Les transformations de Box-Cox.
Lorsquon na pas didee a priori de la fonction G, Box et Cox ont propose de la chercher
dans la famille de transformations dependant de deux param`etres > 0 et R :
g
,
(x) =
_
log(x +) si = 0
(x+)

si > 0
, x > .
Pour > 0, la fonction g
,
est strictement croissante de ] , +[ sur ]
1

, +[. Les
donnees transformees sont donc toujours strictement superieures ` a
1

, et ne peuvent donc pas


` a proprement parler etre issues dune loi normale (dont le support est R). Il ne peut donc sagir
que de sapprocher de la normalite. Pour pallier ` a ce defaut, Bickel & Doksum on propose de
modier les transformations precedentes, en les etendant sur R :
h
,
(x) =
_
log(x +) si = 0, x >
sgn(x+)|x+|

si > 0
, . (2.3)
Les graphes des fonctions h
,
(x) pour = 0 et dierentes valeurs de sont donnes dans la
gure 2.6. Des procedures automatiques pour choisir les param`etres et ont fait lobjet de
diverses etudes. Elles sont implementees sous R (fonction boxcox du package MASS pour les
fonctions de Box & Cox). Elles sont basees sur des estimations par maximum de vraisemblance.
On suppose quil existe des param`etres (, ) tels que les donnees transformees (y
1
, , y
n
) =
(h
,
(x
1
), h
,
(x
n
)) sont une realisation dun n-echantillon de N(,
2
) . Cette hypoth`ese
permet didentier la loi de la variable X en fonction des quatre param`etres (, , ,
2
). En
20 ANALYSE DES DONNEES. FABIENNE CASTELL.
eet pour tout x R, en utilisant la croissance de h
,
,
P[X x] = P[h
,
(X) h
,
(x)] =
_
h
,
(x)

f
,
2(y) dy ,
o` u f
,
2 designe la densite de la loi N(,
2
). En derivant par rapport ` a x, on en deduit que
la densite de la variable X est f
,
2(h
,
(x))h

,
(x). Par consequent, la log vraisemblance du
mod`ele est
L
n
(, , ,
2
) =
n

i=1
log(f
,
2(h
,
(x
i
))) +
n

i=1
log(h

,
(x
i
))
=
n
2
log(2)
n
2
log(
2
) +
1
2
2
n

i=1
(h
,
(x
i
) )
2
+
n

i=1
log(h

,
(x
i
))
Les param`etres (, , ,
2
) sont alors identies par maximum de vraisemblance. Lorsque (, )
est xe, la maximisation en (,
2
) donne, comme dans le cas des echantillons gaussiens :
(, ) =
1
n
n

i=1
h
,
(x
i
) ;

2
(, ) =
1
n
n

i=1
(h
,
(x
i
) (, ))
2
.
On a alors ` a maximiser en (, ) la fonction
L
n
(, , (, ),
2
(, )) =
n
2
log(2)
n
2
log(
2
(, )) +
n
2
+
n

i=1
log(h

,
(x
i
))
En reprenant lexpression de h
,
(x), on peut voir que h

,
(x) = [x +[
1
. On a donc ` a
maximiser en (, ) la fonction

n
2
log(
2
(, )) + ( 1)
n

i=1
[x
i
+[ .
Exemple 2.4: On fait une normalisation des donnees qui se trouvent dans le chier
Chap1BoxCox.csv. La gure 2.7 donne dierentes representations des donnees brutes. Il ap-
parat clairement sur ces diagrammes que la distribution des donnees est assez eloignee dune
normale. Ceci est conrme par un test de normalite (ici, le test de Kolmogorov) qui donne
une Pvaleur egale `a 5 10
49
. Apr`es mise en oeuvre de la fonction boxcox, les diagrammes
correspondant aux donnees transformees sont donnes dans la gure 2.8. Les choses se sont
ameliorees. Mais il reste tout de meme des ecarts ` a la loi normale, en particulier dans les pe-
tites valeurs. La Pvaleur du test de normalite est maintenant de 6%, ce qui est nettement mieux
que precedemment, mais qui reste cependant susamment faible pour quon puisse rejeter la
normalite des donnees transformees. Pour les donnees de cet exemple, les transformations de
Box-Cox ne permettent pas de normaliser les donnees.
CHAPITRE 2. Statistique descriptive unidimensionnelle. 21
2 1 0 1 2 3
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
1
.
2
1
.
4
Densits
N = 1000 Bandwidth = 0.06752
D
e
n
s
it
y
Estimateur noyau
N(
^
,
^
)
2 1 0 1 2 3
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Fonctions de rpartition
Empirique
N(
^
,
^
)
0.5 0.0 0.5 1.0 1.5 2.0

1
0
1
Graphe QuantileQuantile
Quantile de N(
^
,
^
)
Q
u
a
n
t
ile

E
m
p
ir
iq
u
e
Figure 2.7 Ecart ` a la normalite des donnees brutes
0 20 40 60 80
0
.
0
0
0
.
0
1
0
.
0
2
0
.
0
3
Densits
N = 1000 Bandwidth = 2.492
D
e
n
s
it
y
Estimateur noyau
N(
^
,
^
)
0 20 40 60 80
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Fonctions de rpartition
Empirique
N(
^
,
^
)
0 20 40 60
0
1
0
2
0
3
0
4
0
5
0
6
0
7
0
Graphe QuantileQuantile
Quantile de N(
^
,
^
)
Q
u
a
n
t
ile

E
m
p
ir
iq
u
e
Figure 2.8 Ecart ` a la normalite des donnees transformees
22 ANALYSE DES DONNEES. FABIENNE CASTELL.
2.5 Exercices
2.5.1 Une seule variable quantitative discr`ete.
Exercice 1: : Adapter les denitions deectifs, eectifs cumules, frequences, frequences cu-
mulees, moyenne... etc, au cas o` u les individus sont aectes des poids (w
i
). Reprendre les
donnees de lexemple 2.1 en supposant que les individus ne sont plus des etudiants, mais des
promotions enti`eres (le chire du nombre de mois separant la n des etudes et le premier CDI
etant alors une moyenne sur la promotion). Les eectifs des dierentes promotions regardees
etaient : 5 6 6 8 10 7 6 11 9 9 7 6 5 8 8 12 9 10 10 12 11 10 10 9 8. Aecter les poids quil
convient ` a chaque promotion. Dessiner alors la fonction de repartition empirique, la fonction
quantile empirique, et calculer moyenne empirique et mediane empirique.
Exercice 2: : Reproduire le diagramme de la gure 2.3 en utilisant R. Ecrire un programme R
prenant en entree une serie de donnees quantitatives discr`etes (x
1
, , x
n
), une serie de poids
(w
1
, , w
n
) et rendant le diagramme-bote correspondant. Le faire tourner sur les donnees de
lexercice precedent.
2.5.2 Une seule variable quantitative continue.
Exercice 3: On a observe les 10 donnees suivantes :
0.8140209 -0.3069065 -0.1498516 0.4691868 -1.3875180 0.1511367 0.7778028 1.2516469
-1.4545156 0.1996476
1. Tracer lhistogramme correspondant au decoupage
R =] , 3]] 3, 2]] 2, 1]] 1, 0]]0, 1]]1, 2]]2, 3]]3, +[ .
2. Tracer la fonction de repartition empirique ;
3. Calculer moyenne, mediane, ecart inter-quartile.
4. Memes questions lorsque les deux premiers individus ont un poids deux fois plus important
que les autres.
Exercice 4: Approximation de la densite par un histogramme.
Pour dierentes valeurs de n,
1. generer un echantillon (x
1
, , x
n
) dune variable N(0, 1) ;
2. tracer lhistogramme normalise h
n
correspondant ` a un decoupage de [-4,4] en 100 parties
de meme longueur ;
3. en voyant h
n
comme une fonction continue ` a droite, calculer les quantites
d
n
= sup
x
[h
n
(x) (x)[ ,
o` u (x) designe la densite de la loi N(0, 1)
CHAPITRE 2. Statistique descriptive unidimensionnelle. 23
4. Tracer le graphe n d
n
. Commenter.
Exercice 5: Approximation de la fonction de repartition par la fonction de repartition empi-
rique.
Pour dierentes valeurs de n,
1. generer un echantillon (x
1
, , x
n
) dune variable N(0, 1) ;
2. tracer la courbe cumulative F
n
;
3. en voyant F
n
comme une fonction continue ` a droite, calculer les quantites
d
n
= sup
x
[F
n
(x) (x)[ ,
o` u (x) designe la fonction de repartition de la loi N(0, 1) ;
4. tracer le graphe n d
n
. Commenter.
Exercice 6: Sensibilite dun histogramme au choix du decoupage.
Generer un echantillon (x
1
, , x
n
) de taille n = 10000 dune variable N(0, 1). Pour dierents
choix dune partition P de R en 30 intervalles disjoints,
1. calculer lhistogramme H
P
de (x
1
, , x
n
) correspondant `a la partition P;
2. en voyant H
P
comme une fonction continue ` a droite, calculer les quantites
d
P
= sup
x
[H
P
(x) (x)[ ,
o` u (x) designe la densite de la loi N(0, 1).
3. Tracer le nuage de points (P, d
P
). Commenter.
Exercice 7: Estimation de la densite par une methode `a noyau.
Pour dierentes valeurs de n,
1. generer un echantillon (x
1
, , x
n
) dune variable N(0, 1) ;
2. tracer lestimateur ` a noyau

n
donne par la fonction density de R;
3. calculer les quantites
d
n
= sup
x

n
(x) (x)

,
o` u (x) designe la densite de la loi N(0, 1)
4. Tracer le graphe n d
n
. Commenter.
2.5.4 Normalisation de donnees quantitatives
Exercice 8:
1. Recuperer le jeu de donnees Chap1BoxCox.csv.
2. Quel test de normalite pouvez vous mettre en oeuvre sur ce jeu de donnees ? Rappeler
le principe de ce test (hypoth`eses, statistique utilisee et loi de cette statistique sous
lhypoth`ese nulle), avant de le mettre en oeuvre avec R.
24 ANALYSE DES DONNEES. FABIENNE CASTELL.
0 2 4 6 8
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
x
F
(
x
)
Figure 2.9 Un exemple de fonction de repartition non continue.
3. Tracer le graphe quantile-quantile adapte (fonctions qqplot, qqnorm). Commenter.
4. Au vu de ce graphe, proposer eventuellement une transformation des donnees permettant
de les normaliser.
5. Mettre en oeuvre avec R la normalisation de Box-Cox (fonction boxcox du package MASS).
2.6 Pour aller plus loin : fonctions de repartition, simu-
lation.
2.6.1 Fonction de repartition.
Soit X une variable aleatoire. On rappelle que sa fonction de repartition est la fonction
F : t R P(X t) [0, 1]. Une fonction de repartition est croissante et verie
lim
t
F(t) = 0 , lim
t+
F(t) = +.
Une fonction de repartition nest pas forcement continue. Par exemple, la fonction de repartition
dune variable X qui prend trois valeurs 0, 2, 7, avec les probabilites
P(X = 0) = 1/4 , P(X = 2) = 1/4 , P(X = 7) = 1/2 .
est une fonction en escalier representee dans la gure 2.9. En revanche, une fonction de repartition
est toujours continue ` a droite (ce qui signie que pour tout t
0
R, lim
tt
0
F(t) = F(t
0
)) et
admet des limites `a gauche (ce qui signie que pour tout t
0
R, lim
tt
0
F(t) existe sans etre
CHAPITRE 2. Statistique descriptive unidimensionnelle. 25
x
F(x)
1
u
1
F
1
(u
1
)
u
2
F
1
(u
2
)
u
3
F
1
(u
3
)
Figure 2.10 Representation de F
1
(u)
necessairement egale ` a F(t
0
). On note cette limite F(t
0
)

). Dans lexemple de la gure 2.9, on


a F(2)

= 1/4 et F(2) = 1/2. Il est alors facile de voir que pour tout t
0
R, on a
P(X = t
0
) = F(t
0
) F(t
0
)

.
Ainsi, si la fonction de repartition F est continue en t
0
, alors P(X = t
0
) = 0 et F(t
0
) = P(X <
t
0
). Cest en particulier le cas si X a une densite f, auquel cas
F(t) =
_
t

f(x) dx
est continue partout.
A toute fonction de repartition, on peut associer son inverse generalise F
1
: [0; 1] R
deni par :
F
1
(t) = inf x, F(x) t . (2.4)
Si F est continue et strictement croissante, F est une bijection de R dans (0, 1), et linverse
generalisee de F concide avec linverse au sens usuel de F. Linverse generalisee est representee
sur la gure 2.10, et verie les proprietes suivantes :
Proposition 2.6.1 Pour tout u [0, 1], et tout t R
1. F(F
1
(u)) u.
2. u F(t) F
1
(u) t.
3. Si F est continue, F(F
1
(u)) = u.
26 ANALYSE DES DONNEES. FABIENNE CASTELL.
Concernant le point 1., on peut verier sur la gure 2.10 que F(F
1
(u
2
)) > u
2
.
Preuve :
1. Comme F
1
(u) = inf x, F(x) u, on peut trouver une suite de points x
n
verifant
F(x
n
) u, et decroissant vers F
1
(u). Comme F est continue `a droite, on a alors u
lim
n
F(x
n
) = F(F
1
(u)).
2. Comme F
1
(u) = inf x, F(x) u, si F(x) u on a necessairement F
1
(u) x.
Reciproquement, supposons que F
1
(u) x. Comme F est croissante, on a F(F
1
(u))
F(x). On deduit alors de 1. que F(x) u.
3. On sait dej` a que F(F
1
(u)) u. Montrons que F(F
1
(u)) u. Pour cela on consid`ere
une suite x
n
telle x
n
crot vers F
1
(u), et telle que pour tout n x
n
< F
1
(u). Par 2., on
a F(x
n
) < u. Comme F est continue, on a alors F(F
1
(u)) = lim
n+
F(x
n
) u.
Un resultat fondamental pour les tests de comparaison dechantillons, mais aussi pour la
simulation numeriques de variables aleatoires est le resultat suivant, qui dit quon peut trans-
former une variable aleatoire uniforme sur [0; 1] en une variable de loi xee.
Proposition 2.6.2 Soit F la fonction de repartition dune probabilite. Soit F
1
linverse
generalisee de F denie par (2.4).
1. Soit U une variable aleatoire de loi uniforme sur [0; 1]. Alors la variable aleatoire F
1
(U)
a pour fonction de repartition F.
2. Reciproquement, si X est une variable aleatoire de fonction de repartition F, et si F est
continue, alors la variable F(X) est de loi uniforme sur [0; 1].
Preuve :
1. On utilise le point 2. de la proposition 2.6.1. Pour tout t R,
P
_
F
1
(U) t

= P [U F(t)] =
_
F(t)

1I
[0;1]
(x) dx =
_
F(t)
0
dx ;
car F(t) [0; 1]. Donc P [F
1
(U) t] = F(t). La fonction de repartition de F
1
(U) est
donc F.
2. Pour tout t R,
P [F(X) < t] =
_
0 si t 0 ;
1 si t > 1 ,
car F prend ses valeurs dans [0; 1] .
Soit donc t ]0; 1].
P [F(X) < t] = P [X < F
1
(t)] par 2. de la proposition (2.6.1) ;
= P [X F
1
(t)] car F est continue et P [X = F
1
(t)] = 0;
= F(F
1
(t))
= t en utilisant 3. de la proposiion (2.6.1).
CHAPITRE 2. Statistique descriptive unidimensionnelle. 27
x
F
n
(x)
1
1
n
X
(1)
X
(2)
X
(n1)
X
(n)
Figure 2.11 Representation de

F
n
(t). X
(1)
, , X
(n)
est le rearrangement par ordre croissant
de X
1
, , X
n
2.6.2 Fonction de repartition empirique.
Supposons que lobservation soit constituee dun n-echantillon (X
1
, , X
n
) de loi de fonc-
tion de repartition F inconnue. On peut estimer F par la fonction de repartition empirique
de lechantillon

F
n
(t) =
1
n
n

i=1
1I
X
i
t
.
La loi des grands nombres dit en eet que pout tout t R, lim
n+

F
n
(t) = P(X
1
t) = F(t),
et on peut montrer que la convergence est uniforme (theor`eme de Glivenko-Cantelli). La fonction
de repartition empirique permet donc davoir une idee de la distribution dont sont issues les
donnees.
Si on note X
(1)
, , X
(n)
la suite des X
1
, , X
n
ordonnee par ordre croissant, et si on posant
X
(0)
= , X
(n+1)
= +, on a par denition de

F
n
(t),

F
n
(t) =
i
n
, t [X
(i)
; X
(i+1)
[ (i = 0, . . . , n) .

F
n
est donc une fonction en escalier, dont les marches sont de hauteur 1/n et dont les sauts
sont situes sur les points de lechantillon de donnees (cf gure 2.11).
28 ANALYSE DES DONNEES. FABIENNE CASTELL.
Chapitre 3
Statistique descriptive
bidimensionnelle.
Dans tout ce chapitre, on suppose quon a mesure deux variables X et Y sur un echantillon
de n individus. La donnee de depart est donc un n-echantillon ((x
1
, y
1
), , (x
n
, y
n
)) du couple
de variables (X, Y ). On cherche ici `a savoir sil existe une relation entre ces deux variables,
autrement dit si connatre la valeur de X nous donne des informations sur la valeur de Y .
3.1 Deux variables quantitatives.
On suppose ici que les deux variables X et Y sont des variables quantitatives. Cette partie
donne quelques outils pour juger de la liaison entre ces deux variables.
3.1.1 Representation graphique
Une premi`ere etape pour juger de la liaison entre deux variables est de representer le nuage
de points : lindividu i est represente dans un rep`ere orthonorme par le point (x
i
, y
i
). La gure
3.1 donne le nuage de points des donnees du chier ozone.txt correspondant aux variables
x :maximum journalier de la concentration en ozone dans lair (max03) et y :temperature
(T12). Le centre de gravite de ce nuage est ( x
n
, y
n
) (note avec le symbole sur le graphe.)
Vu que les variables X et Y sont en general exprimees dans des unites qui nont rien `a
voir entre elles (par exemple, poids et taille), il est parfois preferable de centrer et reduire ces
variables, i.e. de tracer le nuage des points ( x
i
, y
i
) o` u x
i
=
x
i
xn
n(x)
(et de meme pour y
i
). Le
centre de gravite de ce nuage est (0, 0) et les donnees sont des nombres sans dimension.
3.1.2 Coecient de correlation lineaire empirique.
Denition et proprietes.
Le coecient de correlation lineaire empirique est la quantite
r =
1
n

n
i=1
(x
i
x
n
)(y
i
y
n
)

n
(x)
n
(y)
. (3.1)
29
30 ANALYSE DES DONNEES. FABIENNE CASTELL.
15 20 25 30
4
0
6
0
8
0
1
0
0
1
2
0
1
4
0
1
6
0
Donnes brutes
Temprature
M
a
x
i
m
u
m

d
e

l
a

c
o
n
c
e
n
t
r
a
t
i
o
n

e
n

o
z
o
n
e
2 1 0 1 2 3

1
0
1
2
Donnes centres et rduites
Temprature
M
a
x
i
m
u
m

d
e

l
a

c
o
n
c
e
n
t
r
a
t
i
o
n

e
n

o
z
o
n
e
Figure 3.1 Representation du nuage de points.
Il verie les proprietes suivantes :
Proposition 3.1.1 :
1. r [1; +1].
2. r = 1 (resp. 1) si et seulement si il existe un reel a > 0 (resp < 0), un reel b tel que
y
i
= ax
i
+b pour tout i 1, , n.
3. r est une estimation consistante de = cor(X, Y ) =
cov(X,Y )

var(X)var(Y )
;
Preuve :
Notons

X et

Y les vecteurs de R
n
denis par :

X =
_
_
_
x
1
x
n
.
.
.
x
n
x
n
_
_
_
,

Y =
_
_
_
y
1
y
n
.
.
.
y
n
y
n
_
_
_
.
On a alors r =

X;

Y
|

X||

Y |
. Autrement dit, r nest autre que le cosinus de langle forme par les
deux vecteurs

X et

Y .
1. Linegalite de Cauchy-Schwartz

X;

Y
_


_
_
_

X
_
_
_
_
_
_

Y
_
_
_ montre que r [1, 1].
2. Si r 1; +1, il y a egalite dans linegalite de Cauchy-Schwartz. Langle forme par

X
et

Y vaut 0 ou . Autrement dit,

X et

Y sont deux vecteurs colineaires de meme sens si
CHAPITRE 3. Statistique descriptive bidimensionnelle. 31
r = 1 et de sens oppose si r = 1 : il existe un reel a (> 0 si r = 1 ; < 0 si r = 1) tel
que

Y = a

X i 1, , n , y
i
y
n
= a(x
i
x
n
)
i 1, , n , y
i
= ax
i
+ ( y
n
a x
n
) .
3. Notons R la variable aleatoire dont r est une realisation :
R =
1
n

n
i=1
(X
i


X
n
)(Y
i


Y
n
)

n
(X)
n
(Y )
, (3.2)
o` u

X
n
=
1
n

n
i=1
X
i
, et
2
n
(X) =
1
n

n
i=1
(X
i


X
n
)
2
. Par la loi des grands nombres,
lim
n

X
n
= E(X). Un calcul simple montre que

2
n
(X) =
1
n
n

i=1
X
2
i


X
2
n
,
1
n
n

i=1
(X
i


X
n
)(Y
i


Y
n
) =
1
n
n

i=1
X
i
Y
i


X
n

Y
n
.
La loi des grands nombres montre alors que lim
n

2
n
(X) = E(X
2
) E(X)
2
= var(X),
lim
n

2
n
(Y ) = var(Y ) et lim
n
1
n

n
i=1
(X
i


X
n
)(Y
i


Y
n
) = E(XY ) E(X)E(Y ) =
cov(X, Y ). On en deduit que lim
n
R = cor(X, Y ).
Comme le dit la proposition ci-dessus, le coecient de correlation lineaire ne permet de
detecter quune dependance lineaire entre les donnees. Il est possible que deux variables ayant
des dependances non lineaires entre elles, aient un coecient de correlation lineaire faible. Nous
reproduisons dans la gure 3.2 des graphes tires du Saporta (page 133). Il sagit dillustrer les
dierents defauts du coecient de correlation lineaire. En particulier, le dernier graphe donne
quatre nuages de points tr`es dierents, ayant memes moyennes empiriques, memes variances
empiriques et meme coecient de correlation empirique. On nutilisera donc le coecient
de correlation lineaire qu`a bon escient, i.e. quand le trace du nuage de points laisse
supposer une dependance lineaire.
Test de correlation lineaire.
Supposons que lon soit dans une situation o` u lemploi du coecient de correlation lineaire
est justie, et que lon observe une valeur elevee de [r[. Quand peut-on dire que cette valeur
est signication non-nulle ? La proposition suivante permet de repondre ` a cette question dans
le cas o` u le couple (X, Y ) est un couple gaussien. Notez que sous cette hypoth`ese, tester la
non-correlation revient ` a tester lindependance.
Proposition 3.1.2 Soit (X, Y ) un couple gaussien de moyenne
_

X

Y
_
et de matrice de
covariance
_

2
X

X

Y

2
Y
_
. Soit (X
1
, Y
1
), (X
n
, Y
n
) des couples independants de meme
loi que (X, Y ) et notons R la variable correlation empirique denie par (3.2).
Si = 0, la variable T =
R

1R
2

n 2 est une variable de Student `a n2 degres de liberte.


32 ANALYSE DES DONNEES. FABIENNE CASTELL.
Figure 3.2 Les dangers du coecient de correlation lineaire, dapr`es Saporta.
CHAPITRE 3. Statistique descriptive bidimensionnelle. 33
Preuve : elle fait lobjet de lexercice 3 (section 3.4.1).
Sous les hypoth`eses faites de normalite, cette proposition permet de tester (H
0
) : = 0
contre (H
1
) : ,= 0. Notez en eet que la fonction r ] 1, +1[
r

1r
2
R est une
fonction impaire et croissante. Dire que [R[ t (t > 0) revient donc ` a dire que [T[ u (o` u
u =
t

1t
2

n 2). On choisit donc une r`egle de decision du type :


Si [T[ > u, on decide de rejeter (H
0
) ;
Si [T[ u, on decide de ne pas rejeter (H
0
) ;
Le seuil critique u est `a choisir en fonction du niveau de test quon sest xe. Par denition
= P
(H
0
)
[ rejeter (H
0
)] = P
=0
[[T[ > u] = P[[St
n2
[ > u] .
u est donc le quantile dordre 1

2
de la loi de Student ` a n 2 degres de liberte. Dans R, le
test de correlation lineaire peut etre fait grace ` a la fonction cor.test.
3.1.3 Coecient de correlation des rangs de Spearman.
Un autre coecient pour juger de la liaison entre deux variables quantitatives est le coef-
cient de correlation des rangs introduit par Spearman. Pour le denir, on associe ` a chaque
individu i de lechantillon son rang suivant chacune des variables. Notons r
i
le rang de lindividu
i suivant la variable x et s
i
son rang suivant la variable y. Ainsi r
i
= k 1, , n signie que
x
(k)
= x
i
o` u x
(1)
< x
(2)
< < x
(n)
est le rearrangement par ordre croissant de x
1
, , x
n
(cf
exemple). Notez que si on suppose que (x
1
, , x
n
) est une realisation dun n-echantillon dune
variable X de densite f
X
, alors
P(X
1
= X
2
) =
_ _
x
1
=x
2
f
X
(x
1
)f
X
(x
2
) dx
1
dx
2
= 0 .
Ainsi, il ne peut pas en theorie se poser de probl`emes dex-aequo. Sous cette hypoth`ese, si
deux valeurs x
i
sont egales, cela est d u ` a une troncature lors de la transcription des donnees.
Dans ce cadre, r = (r
1
, , r
n
) et s = (s
1
, , s
n
) sont bien denis, et sont des permutations
de 1, , n. Spearman a propose de mesurer la correlation entre les deux variables par le
coecient de correlation lineaire entre r et s :
r
S
=
cov(r, s)
_
var(r) var(s)
.
Notez que puisque r est une permutation, r =
1
n

n
i=1
r
i
=
1
n

n
j=1
j =
n+1
2
, et que var(r) =
1
n

n
i=1
r
2
i
r
2
=
1
n

n
j=1
j
2

(n+1)
2
4
=
n(n+1)(2n+1)
6n

(n+1)
2
4
=
n
2
1
12
. Il en est de meme pour s.
Ainsi,
r
S
=
1
n

n
i=1
r
i
s
i

(n+1)
2
4
n
2
1
12
=
12
n(n
2
1)
n

i=1
r
i
s
i
3
n + 1
n 1
.
Par ailleurs, en utilisant lidentite 2xy = x
2
+ y
2
(x y)
2
, on a 2

n
i=1
r
i
s
i
=

n
i=1
r
2
i
+

n
i=1
s
2
i

n
i=1
(r
i
s
i
)
2
= 2

n
j=1
j
2

n
i=1
(r
i
s
i
)
2
=
1
3
n(n + 1)(2n + 1)

n
i=1
(r
i
s
i
)
2
.
34 ANALYSE DES DONNEES. FABIENNE CASTELL.
On obtient nalement :
r
S
= 1
6
n(n
2
1)
n

i=1
(r
i
s
i
)
2
. (3.3)
Le coecient de correlation de Spearman verie les proprietes suivantes :
Proposition 3.1.3 1. r
s
[1; +1] ;
2. r
S
= +1 si et seulement si les deux classements sont identiques (x et y varient dans le
meme sens) ;
3. r
S
= 1 si et seulement si r
i
= n+1s
i
pour tout i 1, , n. Autrement dit, r
S
= 1
ssi les deux classements sont inverses (x et y varient dans des sens opposes).
4. Supposons que ((x
1
, y
1
), , (x
n
, y
n
)) est une realisation de ((X
1
, Y
1
), , (X
n
, Y
n
)), n-
echantillon dun couple de variables (X, Y ) `a densite. Supposons de plus que les variables
X et Y sont independantes. Alors, la loi de la variable aleatoire R
S
(denie `a partir
des (X
i
, Y
i
) de la meme facon que r
S
est denie `a partir des (x
i
, y
i
)), ne depend que de
n, est independante de la loi de (X, Y ), et est symetrique.
La loi de la variable R
S
est tabulee. Cette proposition permet de tester (H
0
) : X et Y sont
independantes contre (H
1
) : X et Y sont liees. La region de rejet du test est du type :
1. Si [R
S
[ > t, on rejette (H
0
) : X et Y sont liees ;
2. Si [R
S
[ t, on ne rejette pas (H
0
) : rien de signicatif ne permet darmer que X et Y
sont liees ;
Le seuil critique t est `a choisir en fonction du niveau de test quon sest xe :
= P
(H
0
)
[ rejeter (H
0
)] = P
XY
[[R
S
[ > t] ,
et t est le quantile dordre 1

2
de la loi de Spearman correspondant ` a n.
Par rapport au test de correlation lineaire, lavantage du test de Spearman est de ne faire
aucune hypoth`ese sur la loi du couple (X, Y ) (pas dhypoth`ese de normalite).
Dans R, le coecient de correlation de Spearman est obtenu par loption method="spearman"
de la fonction cor. Le test correspondant sobtient ` a partir de la fonction cor.test en utilisant
la meme option.
Exemple 3.1: On a releve sur 5 individus deux variables (x, y). La tableau ci-dessous
donne pour chaque individu i les valeurs (x
i
, r
i
, y
i
, s
i
) :
x
i
0.59 0.11 0.08 0.3 0.4
r
i
5 2 1 3 4
y
i
0.71 0.43 0.47 0.57 0.61
s
i
5 1 2 3 4
[r
i
s
i
[ 0 1 1 0 0
On obtient r
S
= 9/10. La Pvaleur du test de correlation est P[[R
S
[ > 0.9] = 0.0833. On peut
donc conclure que les deux variables sont liees (avec 8,33 % de chances davoir tort).
Preuve de la proposition 3.1.3 :
CHAPITRE 3. Statistique descriptive bidimensionnelle. 35
1. r
S
[1; +1] car r
s
est un coecient de correlation lineaire.
2. En utilisant la formule (3.3), r
S
= +1 equivaut `a

n
i=1
(r
i
s
i
)
2
= 0, i.e. pour tout
i 1, , n, r
i
= s
i
.
3. r
S
etant un coecient de correlation lineaire, r
S
= 1 signie quil existe une relation
lineaire entre r
i
et s
i
. Il existe a < 0 et b tels que pour tout i 1, , n, r
i
= as
i
+ b.
On en deduit que r = a s + b. Comme r = s = (n + 1)/2, on a donc b = (1 a) r, et
r
i
r = a(s
i
s) pour tout i 1, , n. En multipliant cette egalite par s
i
s, et en
sommant de i = 1 ` a n, on obtient la valeur de a = cov(r, s)/var(s) = r
S
_
var(r)
var(s)
. Comme
var(r) = var(s), a = 1, et donc b = 2 r = n + 1. Par consequent, r
i
= n + 1 s
i
pour
tout i 1, , n.
4. Soit R
i
le rang de X
i
dans le rearrangement par ordre croissant de X
1
, , X
n
:
R
i
= k X
(k)
= X
i
.
Comme les variables X
1
, , X
n
sont independantes et ` a densite, la probabilite que deux
de ces variables soient egales est nulle, et il ny a pas dambiguite dans la denition
de R = (R
1
, , R
n
). R est une variable aleatoire dont les valeurs possibles sont les
permutations dordre n. Notons
n
le groupe des permutations dordre n et un element
de
n
. Dire que X
(1)
< < X
(n)
, est equivalent ` a R =
1
. Ainsi, pour tout
n
,
P[R = ] = P
_
X

1
(1)
< < X

1
(n)

=
_

_
y

1
(1)
<<y

1
(n)
f
X
(y
1
) f
X
(y
n
) dy
1
dy
n
=
_

_
z
1
<<zn
f
X
(z
1
) f
X
(z
n
) dz
1
dz
n
,
par le changement de variables z
i
= y

1
(i)
. Ainsi P[R = ] ne depend pas de . On en
deduit que pour tout
n
, P[R = ] =
1
card(n)
=
1
n!
.
Notons S
i
le rang de Y
i
dans le rearrangement par ordre croissant de Y
1
, , Y
n
. De la
meme fa con, S est une variable uniforme sur
n
.
Par ailleurs, si on suppose que X et Y sont independantes, il en est de meme de R (qui
ne depend que de X
1
, , X
n
), et de S (qui ne depend que de Y
1
, , Y
n
).
R
S
= 1
6
n(n
2
1)
n

i=1
(R
i
S
i
)
2
= 1
6
n(n
2
1)
n

j=1
(R S
1
(j) j)
2
.
Notez que la loi de la variable R S
1
est egalement une uniforme sur
n
. En eet,
P
_
R S
1
=

n
P
_
R S
1
= ; S =

n
P[R = ; S = ]
=

n
P[R = ] P[S = ] =

n
1
n!
1
n!
=
1
n!
36 ANALYSE DES DONNEES. FABIENNE CASTELL.
Ainsi R
S
a meme loi que 1
6
n(n
2
1)

n
j=1
(U
j
j)
2
o` u U est une variable uniforme sur
n
.
Cela prouve que la loi de R
S
ne depend pas de la loi du couple (X, Y ) dans lhypoth`ese
o` u X et Y sont independantes.
Concernant la symetrie de la loi de R
S
, il sagit de voir que R
S
et R
S
ont meme loi
sous lhypoth`ese dindependance de X et Y . On vient de voir que sous cette hypoth`ese,
la loi de R
S
est la meme que celle de la variable 1
6
n(n
2
1)

n
j=1
(U
j
j)
2
. Notons

U la
permutation denie par

U
j
= n + 1 U
j
. Si U est uniforme sur
n
, il en est de meme
pour

U. Par consequent, R
S
a meme loi que la variable
1
6
n(n
2
1)
n

j=1
(

U
j
j)
2
= 1
6
n(n
2
1)
n

j=1
(n + 1 U
j
j)
2
= 1
6
n(n
2
1)
_
n

j=1
(n + 1 j)
2
+
n

j=1
U
2
j
2
n

j=1
U
j
(n + 1 j)
_
= 1
6
n(n
2
1)
_
2
n

j=1
j
2
2(n + 1)
n

j=1
j + 2
n

j=1
U
j
j
_
= 1
6
n(n
2
1)
_
2
n

j=1
j
2
2(n + 1)
n

j=1
j
_
+
6
n(n
2
1)
n

j=1
(2U
j
j)
= 1
6
n(n
2
1)
_
2
n

j=1
j
2
2(n + 1)
n

j=1
j
_
+
6
n(n
2
1)
n

j=1
(U
j
j)
2
j
2
U
2
j
=
6
n(n
2
1)
n

j=1
(U
j
j)
2
+ 1
24
n(n
2
1)
n

j=1
j
2
+
12(n + 1)
n(n
2
1)
n

j=1
j
=
6
n(n
2
1)
n

j=1
(U
j
j)
2
1
en utilisant les identites

n
j=1
j = n(n + 1)/2 et

n
j=1
j
2
= n(n + 1)(2n + 1)/12. Par
consequent R
S
a meme loi que R
S
sous lhypoth`ese dindependance de X et Y .
3.2 Une variable quantitative et une variable qualitative.
On suppose ici que le couple (X, Y ) est constitue de la variable qualitative X, et de la
variable quantitative Y . Cette partie donne quelques outils pour juger de la liaison entre ces
deux variables. On notera C = c
1
, c
r
les issues possibles pour la variable X.
3.2.1 Distribution theorique
Dans ce cadre, plusieurs quantites caracterisent la loi du couple (X, Y ) :
CHAPITRE 3. Statistique descriptive bidimensionnelle. 37
1. - la fonction (t, c) R C P(Y t; X = c) ;
2. - les fonctions c C P(X = c) et t R P(Y t[X = c) (fonction de repartition
conditionnelle) ;
3. - les fonctions c C P(X = c) et t R f
c
(t) =
d
dt
P(Y t[X = c) (densite
conditionnelle) quand cette derivee existe ;
4. ...
Chacune de ces possibilites de description de la loi du couple se deduit des autres. Par exemple,
si lon connat la fonction P(Y t; X = c), on obtient P(X = c) = lim
t+
P(Y t; X = c),
et P(Y t[X = c) =
P(Y t;X=c)
P(X=c)
.
Dans le cas o` u X et Y sont independantes, P(Y t; X = c) = P(Y t)P(X = c), et les
fonctions t R P(Y t[X = c) et f
c
(t) sont independantes de la valeur de c.
3.2.2 Quantites empiriques.
Chaque modalite de la variable X denit un sous echantillon de lechantillon initial. On
note
1. n
1
, , n
r
les eectifs de chaque sous-echantillon : n
j
=

n
i=1
1I
c
j
(x
i
) ;
2.
1
, ,
r
les sous-echantillons :
j
= i 1, , n tel que x
i
= c
j
;
3. y
1
, , y
r
les moyennes empiriques de la variable Y sur chaque sous-echantillon : y
j
=
1
n
j

i
j
y
i
;
4.
2
1
(y), ,
2
r
(y) les variances empiriques de la variable Y sur chaque sous-echantillon :

2
j
(y) =
1
n
j

i
j
(y
i
y
j
)
2
.
Les liens entre les quantites empiriques sur les sous-echantillons et sur lechantillon initial
sont donnes par les relations :
Proposition 3.2.1 Decomposition.
1. y =
1
n

r
j=1
n
j
y
j
;
2.
2
(y) =
1
n

r
j=1
n
j
( y
j
y)
2
+
1
n

r
j=1
n
j

2
j
(y).
La deuxi`eme identite est une decomposition de la variance en deux termes. Le premier
1
n

r
j=1
n
j
( y
j
y)
2
est appele variance intercategories : il sagit de mesurer la variabilite
entre sous population. Chacune des sous-populations est identiee ` a la moyenne sur la sous-
population, et aectee dun poids proportionnel ` a son eectif. Le deuxi`eme terme
1
n

r
j=1
n
j

2
j
(y)
est appele variance intracategories. Il sagit dune moyenne de la variabilite de la variable
Y ` a linterieur de chacune des sous-populations.
Preuve de la proposition 3.2.1 :
1. y =
1
n

n
i=1
y
i
=
1
n

r
j=1

i
j
y
i
=
1
n

r
j=1
n
j
y
j
.
38 ANALYSE DES DONNEES. FABIENNE CASTELL.
2.
2
(y) =
1
n

n
i=1
(y
i
y)
2
=
1
n

r
j=1

i
j
(y
i
y
j
+ y
j
y)
2
=
1
n

r
j=1

i
j
(y
i
y
j
)
2
+
1
n

r
j=1

i
j
( y
j
y)
2
+
2
n

r
j=1

i
j
(y
i
y
j
)( y
j
y)
=
1
n

r
j=1
n
j

2
j
(y) +
1
n

r
j=1
( y
j
y)
2
(

i
j
1) +
2
n

r
j=1
( y
j
y)

i
j
(y
i
y
j
)
=
1
n

r
j=1
n
j

2
j
(y) +
1
n

r
j=1
n
j
( y
j
y)
2
+
2
n

r
j=1
( y
j
y)(n
j
y
j
n
j
y
j
)
=
1
n

r
j=1
n
j

2
j
(y) +
1
n

r
j=1
n
j
( y
j
y)
2
.
Les liens entre les quantites empiriques et la distribution theorique sont donnes par la
proposition suivante :
Proposition 3.2.2 Supposons que ((x
1
, y
1
) (x
n
, y
n
)) est une realisation dun n-echantillon
((X
1
, Y
1
) (X
n
, Y
n
)) du couple de variables (X, Y ). Notons N
j
,

Y
j
et
2
j
(Y ) les variables
aleatoires correspondantes `a n
j
, y
j
, et
2
j
(y). On a pour tout j 1, , r,
1. lim
n
N
j
n
= P[X = c
j
] ;
2. lim
n

Y
j
= E[Y [X = c
j
] ;
3. lim
n

2
j
(Y ) = var [Y [X = c
j
].
Preuve de la proposition 3.2.2 :
1.
N
j
n
=
1
n

n
i=1
1I
c
j
(X
i
). Par la loi des grands nombres, on a lim
n
N
j
n
= P[X = c
j
].
2.

Y
j
=
1
N
j

n
i=1
1I
c
j
(X
i
)Y
i
=
n
N
j
1
n

n
i=1
1I
c
j
(X
i
)Y
i
. Par la loi des grands nombres, on a
lim
n
N
j
n
= P[X = c
j
] et lim
n
1
n

n
i=1
1I
c
j
(X
i
)Y
i
= E
_
1I
c
j
(X)Y

. Par consequent,
lim
n

Y
j
=
E[ 1Ic
j
(X)Y ]
P[X=c
j
]
= E[Y [X = c
j
].
3. Commencons par recrire la variable
2
j
(Y ) en developpant le carre.

2
j
(Y ) =
1
N
j
n

i=1
1I
c
j
(X
i
)(Y
i

Y
j
)
2
=
1
N
j
n

i=1
1I
c
j
(X
i
)Y
2
i

Y
2
j
=
n
N
j
1
n
n

i=1
1I
c
j
(X
i
)Y
2
i

Y
2
j
.
Par la loi des grands nombres, lim
n
N
j
n
= P[X = c
j
], lim
n

n
i=1
1I
c
j
(X
i
)Y
2
i
=
E
_
1I
c
j
(X)Y
2

et lim
n

Y
j
= E[Y [X = c
j
]. Par consequent,
lim
n

2
j
(Y ) =
E
_
1I
c
j
(X)Y
2

P[X = c
j
]
E[Y [X = c
j
]
2
= E
_
Y
2
[X = c
j

E[Y [X = c
j
]
2
= var(Y [X = c
j
) .
3.2.3 Comment juger de la liaison entre X et Y ?
Notez que dans le cas o` u les variables X et Y sont independantes, les quantites P(Y
t[X = c),
d
dt
P(Y t[X = c), E(Y [X = c), var(Y [X = c) sont independantes de c et valent res-
pectivement P(Y t),
d
dt
P(Y t), E(Y ), var(Y ). Ainsi les fonctions de repartition empiriques
de y sur chaque sous-echantillon se ressemblent et sont proches de la fonction de repartition
empirique de y sur lechantillon global. De meme, toutes les moyennes empiriques y
j
(respective-
ment les variances empiriques
2
j
(y)) se ressemblent et sont proches de la moyenne empirique
y (respectivement la variance empirique
2
(y)).
CHAPITRE 3. Statistique descriptive bidimensionnelle. 39
Representation graphique.
Pour avoir une idee des distributions conditionnelles, on peut faire le graphe des botes ` a
moustaches de la variable y sur chaque sous-population. On peut alors dessiner sur un meme
graphe (i.e. en utilisant les memes echelles), les r botes `a moustaches de la variable y pour
chaque modalite de la variables x. Dans lhypoth`ese o` u X et Y sont independantes, toutes ces
botes ` a moustaches se ressemblent. Les dierences visibles entre ces botes permettent de se
faire une idee de linuence de la variable X sur la variable Y .
Rapport de correlation.
Une autre quantite qui permet de juger de la liaison entre X et Y est le rapport dit de
correlation empirique entre la variance intercategories et la variance empirique totale :
e
2
=
1
n

r
j=1
n
j
( y
j
y)
2

2
n
(y)
.
Si les variables X et Y sont independantes, pour tout j 1, , r, y
j
y, et e
2
0. En
utilisant la decomposition de la variance de la proposition 3.2.1, on voit aussi que e
2
[0, 1],
et que e
2
= 1 signie que la variance intracategorie est nulle. Dans ce cas, dans chacun des
sous-echantillons, la variable y est constante ; la valeur de la variable X xe donc la valeur de
Y .
Pour savoir si e
2
est signicativement non nul, on peut utiliser la proposition suivante, qui
suppose que les lois conditionnelles de Y pour chaque modalite de X sont des lois
gaussiennes de meme variance. Plus precisement, on suppose que
(ANOVA) ((x
1
, y
1
), , (x
n
, y
n
)) est une realisation dun n-echantillon (X
1
, Y
1
), , (X
n
, Y
n
)
dun couple de variables (X, Y ) tel que Y =

r
j=1

j
1I
X=c
j
+ o` u N(0,
2
) est
independante de X.
Proposition 3.2.3 1. Sous lhypoth`ese (ANOVA), la loi de Y sachant que X = c
j
est la
loi N(
j
,
2
). En consequence, Y et X sont independantes ssi
1
= =
r
.
2. Notons E
2
la variable aleatoire correspondant au rapport de correlation empirique. Sous
lhypoth`ese (ANOVA), et si on suppose de plus que
1
= =
r
, alors
E
2
r1
1E
2
nr
F(r 1, n r) .
Notez que sous lhypoth`ese (ANOVA), on est dans un mod`ele danalyse de variance ` a un
facteur (cf cours de Stats 2). En reordonnant lechantillon en fonction des modalites de la
variable x, on a le mod`ele
Y
ij
=
i
+
ij
, i 1, , r , j 1, , n
i

40 ANALYSE DES DONNEES. FABIENNE CASTELL.


o` u les
ij
sont i.i.d N(0,
2
). Ce mod`ele se recrit sous la forme matricielle

Y =
_
_
_
_
_
_
_
_
_
_
_
_
Y
11
.
.
.
Y
1n
1
.
.
.
Y
r1
.
.
.
Y
rnr
_
_
_
_
_
_
_
_
_
_
_
_
=
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 0 0
.
.
.
.
.
.
.
.
.
.
.
.
1 0 0
0 1 0
.
.
.
.
.
.
.
.
.
.
.
.
0 1 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 1
.
.
.
.
.
.
.
.
.
.
.
.
0 0 1
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_

1
.
.
.

r
_
_
_
+ = X + , N
n
(0,
2
Id) . (3.4)
Sous lhypoth`ese (ANOVA), la proposition 3.2.3 permet de tester lindependance entre X et
Y . Plus precisement, on teste (H
0
) :
1
= =
r
(X et Y sont independantes) contre
(H
1
) : i ,= j tels que
i
,=
j
(X et Y sont liees). La region de rejet est du type :
Si
E
2
r1
1E
2
nr
> t, on rejette (H
0
) et on decide que X et Y sont liees.
Si
E
2
r1
1E
2
nr
t, on ne rejette pas (H
0
). Rien de signicatif ne permet dassurer que X et Y
sont liees.
La valeur critique t est xee en fonction du niveau de test quon sest xe :
= P
(H
0
)
[ Rejeter (H
0
)] = P

1
==r
_
E
2
r1
1E
2
nr
> t
_
= P[F(r 1, n r) > t] ;
t est donc le quantile dordre 1 de la loi de Fisher ` a r 1 et n r degres de liberte.
Ce test na de sens que sous lhypoth`ese (ANOV A) de normalite des lois conditionnelles, et
degalite des variances. Avant de le mettre en oeuvre, il faudra donc tester la normalite de chacun
des sous-echantillons. Dans lhypoth`ese o` u cette normalite nest pas rejetee, il faudra ensuite
tester legalite des variances de chaque sous-echantillon (test de Fisher degalite des variances).
Si la normalite des sous echantillons est rejetee, on peut essayer dappliquer une transformation
de Box-Cox ` a la variable y. La fonction boxcox de R permet de trouver la meilleure fonction
h
,
telle que les donnees transformees y
i
= h
,
(y
i
) puissent etre considerees comme issues du
mod`ele X +.
Preuve de la proposition 3.2.3
1. On calcule la fonction de repartition de Y conditionnelle ` a X = c
j
.
P[Y t[X = c
j
] =
P[Y t; X = c
j
]
P[X = c
j
]
.
Comme Y =

r
k=1

k
1I
c
k
(X) +, on a Y =
j
+ sur lensemble X = c
j
. Do` u,
P[Y t[X = c
j
] =
P[
j
+ t; X = c
j
]
P[X = c
j
]
=
P[
j
+ t] P[X = c
j
]
P[X = c
j
]
,
CHAPITRE 3. Statistique descriptive bidimensionnelle. 41
puisque et X sont independantes. Donc P[Y t[X = c
j
] = P[
j
+ t] est la fonction
de repartition de
j
+ N(
j
,
2
).
2. Pour i 1, , r, notons 1I
i
le vecteur de R
n
correspondant `a la i-`eme colonne de la
matrice X dans lequation (3.4). Sous lhypoth`ese (ANOVA), le vecteur aleatoire

Y est
un vecteur de R
n
gaussien de vecteur moyenne m = X =

r
j=1

j
1I
j
, et de matrice de
covariance
2
Id. Notons V le s.e.v de R
n
engendre par les vecteurs ( 1I
j
, j 1, , r).
Sous lhypoth`ese (ANOVA), tester legalite des
i
revient `a se demander si le vecteur m
appartient au s.e.v. W de V o` u W est la droite engendree par

r
j=1
1I
j
= 1I (vecteur
dont toutes les coordonnees sont egales `a 1).
Notons
V
et
W
les projecteurs orthogonaux de R
n
sur V et W. Comme les vecteurs 1I
j
sont orthogonaux dans R
n
, on a

V
(

Y ) =
r

j=1
_

Y ;
1I
j
| 1I
j
|
_
1I
j
| 1I
j
|
=
r

j=1

Y
j
1I
j
.
De la meme facon,
W
(

Y ) =
_

Y ;
1I
| 1I|
_
1I
| 1I|
=

Y 1I. Par consequent,

V
(

Y )
W
(

Y ) =
r

j=1
(

Y
j


Y ) 1I
j
, et
_
_
_
V
(

Y )
W
(

Y )
_
_
_
2
=
r

j=1
n
j
(

Y
j


Y )
2
est la variable aleatoire correspondant `a la variance empirique intercategories.
On a aussi
2
n
(

Y ) =
1
n
_
_
_

Y
W
(Y )
_
_
_
2
. On en deduit que
1E
2
= 1
_
_
_
V
(

Y )
W
(

Y )
_
_
_
2
_
_
_

Y
W
(

Y )
_
_
_
2
=
_
_
_

Y
W
(

Y )
_
_
_
2

_
_
_
V
(

Y )
W
(

Y )
_
_
_
2
_
_
_

Y
W
(

Y )
_
_
_
2
=
_
_
_

Y
V
(

Y )
_
_
_
2
_
_
_

Y
W
(

Y )
_
_
_
2
.
Finalement,
E
2
r 1
1 E
2
n r
=
_
_
_
V
(

Y )
W
(

Y )
_
_
_
2
_
_
_

Y
W
(

Y )
_
_
_
2
1
dim(V ) dim(W)
_
_
_

Y
V
(

Y )
_
_
_
2
_
_
_

Y
W
(

Y )
_
_
_
2
1
n dim(V )
=
_
_
_
V
(

Y )
W
(

Y )
_
_
_
2
dim(V ) dim(W)
_
_
_

Y
V
(

Y )
_
_
_
2
n dim(V )
.
Le theor`eme de Cochran (cf cours de Stats 2), assure que sous lhypoth`ese (ANOVA) et
sous lhypoth`ese degalite des moyennes,
|
V
(

Y )
W
(

Y )|
2

2
est une variable du
2
dim(V )dim(W)
independante de la variable
|

Y
V
(

Y )|
2

2
qui suit une loi du
2
ndim(V )
. On en deduit que
E
2
r1
1E
2
nr
suit sous une loi de Fisher F(r 1, n r).
42 ANALYSE DES DONNEES. FABIENNE CASTELL.
Est Nord Ouest Sud
4
0
6
0
8
0
1
0
0
1
2
0
1
4
0
1
6
0
vent
C
o
n
c
e
n
t
r
a
t
i
o
n

e
n

o
z
o
n
e
Figure 3.3 Boites `a moutaches de la concentration en ozone en fonction de la direction du
vent.
3.2.4 Exemple
On consid`ere les donnees du chier ozone.txt dont on a extrait la variable y : max03
(concentration en ozone maximale pendant la journee), et la variable x : Vent (Direction du
vent, prenant 4 modalites, E,O,N,S). La gure 3.3 donne les quatre botes ` a moustaches des
sous-echantillons correspondant aux quatre modalites.
Au vu de ce graphe, il semble bien quil y ait une liaison entre la concentration en ozone et
la direction du vent.
Pour tester cette liaison, nous souhaitons calculer le rapport de correlation empirique et
utiliser le test de la proposition 3.2.3. Pour cela, nous commen cons par verier que faire lhy-
poth`ese (ANOVA) sur nos donnees nest pas aberrant. La gure 3.4 donne les graphes quantiles
empiriques-quantiles de la normale pour les quatre sous-echantillons. Les P-valeurs dun test
de Kolmogorov dajustement ` a la loi normale pour les quatre sous-echantillons sont
Direction du vent Est Nord Ouest Sud
P-valeur 0.27 0.012 0.00000077 0.52
Le graphe QQplot correspondant ` a la modalite Ouest ressemble assez peu `a une droite,
ce qui est conrme par la tr`es faible valeur de la Pvaleur, qui nous am`ene `a rejeter lhypoth`ese de
normalite au moins pour ce sous-echantillon. On essaie donc de transformer les donnees par la
procedure de Box et Cox. La gure 3.5 donne les graphes quantiles empiriques-quantiles de la
normale pour les quatre sous-echantillons apr`es transformation des donnees. Les P-valeurs du
test de Kolmogorov dajustement `a la loi normale pour les quatre sous-echantillons sont mainte-
CHAPITRE 3. Statistique descriptive bidimensionnelle. 43
80 100 120 140
6
0
8
0
1
0
0
1
2
0
1
4
0
Est
Quantile de N(
^
,
^
)
Q
u
a
n
t
i
l
e

E
m
p
i
r
i
q
u
e
40 60 80 100 120 140
4
0
6
0
8
0
1
0
0
1
4
0
Nord
Quantile de N(
^
,
^
)
Q
u
a
n
t
i
l
e

E
m
p
i
r
i
q
u
e
20 40 60 80 100 120 140
6
0
8
0
1
0
0
1
4
0
Ouest
Quantile de N(
^
,
^
)
Q
u
a
n
t
i
l
e

E
m
p
i
r
i
q
u
e
40 60 80 100 120 140 160
6
0
8
0
1
0
0
1
4
0
Sud
Quantile de N(
^
,
^
)
Q
u
a
n
t
i
l
e

E
m
p
i
r
i
q
u
e
Figure 3.4 Graphes Quantiles Empiriques-Quantiles de la loi Normale pour la concentra-
tion en ozone en fonction de la direction du vent.
1.84 1.86 1.88 1.90 1.92 1.94 1.96
1
.
8
0
1
.
8
5
1
.
9
0
Est
Quantile de N(
^
,
^
)
Q
u
a
n
t
i
l
e

E
m
p
i
r
i
q
u
e
1.80 1.85 1.90 1.95
1
.
8
0
1
.
8
5
1
.
9
0
1
.
9
5
Nord
Quantile de N(
^
,
^
)
Q
u
a
n
t
i
l
e

E
m
p
i
r
i
q
u
e
1.80 1.85 1.90 1.95
1
.
8
2
1
.
8
6
1
.
9
0
1
.
9
4
Ouest
Quantile de N(
^
,
^
)
Q
u
a
n
t
i
l
e

E
m
p
i
r
i
q
u
e
1.82 1.84 1.86 1.88 1.90 1.92 1.94 1.96
1
.
8
2
1
.
8
6
1
.
9
0
1
.
9
4
Sud
Quantile de N(
^
,
^
)
Q
u
a
n
t
i
l
e

E
m
p
i
r
i
q
u
e
Figure 3.5 Graphes Quantiles Empiriques-Quantiles de la loi Normale pour la concentra-
tion en ozone en fonction de la direction du vent, apr`es transformation des donnees.
44 ANALYSE DES DONNEES. FABIENNE CASTELL.
nant :
Direction du vent Est Nord Ouest Sud
P-valeur 0.005 0.29 0.004 0.59
Meme apr`es transformation, lhypoth`ese de normalite est rejetee pour les modalites Ouest et
Est.
3.2.5 Que faire lorsque lhypoth`ese de normalite nest pas satisfaite ?
Lorsque lhypoth`ese (ANOVA) nest pas veriee , on ne peut pas utiliser le rapport de
correlation empirique pour juger de la liaison entre X et Y . Dans ce cas, on utilise des tests
non parametriques de comparaison dechantillons independants. Si la variable X a deux mo-
dalites, chacun des sous-echantillons correspondant `a une modalite est independant de lautre,
et on veut savoir si ces deux sous-echantillons sont de meme loi. On peut alors utiliser un test
de comparaison de Kolmogorov-Smirnov, ou un test de la somme des rangs (Mann-Whitney-
Wilcoxon). Lorsque X a r modalites, on est en presence de r sous-echantillons dont on veut
savoir sils ont meme loi ou pas. On peut dans ce cas utiliser le test de Kruskal-Wallis, qui est
une generalisation du test de la somme des rangs. Nous rappelons les principes de ces dierents
tests dans ce qui suit.
Test de Kolmogorov-Smirnov :
Il est utilise lorsque on a observe (x
1
, , x
n
) et (y
1
, , y
m
) realisations de deux echantillons
(X
1
, , X
n
) et (Y
1
, , Y
m
) independants. On suppose que les fonctions de repartition
de X et Y (notees F et G) sont continues. On veut tester (H
0
) : F = G contre
(H
1
) : F ,= G.
Le test de Kolmogorov-Smirnov consiste `a estimer F et G par les fonctions de repartition
empiriques

F
n
(x) =
1
n
n

i=1
1I
X
i
x
,

G
m
(x) =
1
m
m

j=1
1I
Y
j
x
,
et `a mesurer lecart entre F et G au moyen de la statistique
D
n,m
= sup
x
_

F
n
(x)

G
m
(x)

_
.
Proposition 3.2.4 Si on suppose que F et G sont continues, la loi de D
n,m
sous (H
0
) ne
depend que de n et m, i.e. ne depend pas de F (= G).
Cette loi est tabulee pour de petites valeurs de n et m. Pour de plus grandes valeurs de n et
m, on a le resultat asymptotique :
P[D
n,m
t] P[D t] = 2

k=1
(1)
k+1
exp(2k
2
t
2
) .
Pour tester (H
0
) : F = G contre (H
1
) : F ,= G, on prend alors la r`egle de decision suivante :
CHAPITRE 3. Statistique descriptive bidimensionnelle. 45
Si D
n,m
> t, on rejette (H
0
) : F = G et on decide que les deux echantillons ne sont pas
de meme loi.
Si D
n,m
t, on ne rejette pas (H
0
) : rien de signicatif ne permet de dire que les deux
echantillons ne sont pas de meme loi.
t est choisi en fonction du niveau desire.
Preuve de la proposition 3.2.4 : On fait la demonstration dans le cas o` u F est continue et
strictement croissante. Dans ce cas, F est une bijection de R dans ]0; 1[ et son inverse F
1
est
une bijection de ]0; 1[ dans R. On a donc
sup
xR
_

F
n
(x)

G
m
(x)

_
= sup
u]0;1[
_

F
n
(F
1
(u))

G
m
(F
1
(u))

_
,
Pour tout u ]0; 1[,

F
n
(F
1
(u)) =
1
n

n
i=1
1I
F(X
i
)u
et

G
m
(F
1
(u)) =
1
m

m
j=1
1I
F(Y
j
)u
. Po-
sons U
i
= F(X
i
) et V
j
= F(Y
j
). Sous lhypoth`ese (H
0
), (X
1
, , X
n
, Y
1
, , Y
m
) est un
(n + m)-echantillon de loi de fonction de repartition F continue. (U
1
, , U
n
, V
1
, , V
m
) est
par la proposition 2.6.2, un (n + m)-echantillon de loi uniforme sur [0; 1]. Ainsi, sous (H
0
),
sup
xR
_

F
n
(x)

G
m
(x)

_
a meme loi que sup
u[0,1]
_

U
n
(u)

V
m
(u)

_
, o` u

U
n
(x) et

V
m
(x) sont les
fonctions de repartition empiriques de deux echantillons independants de loi uniforme sur [0; 1].
La loi de D
n,m
ne depend donc pas de F.
Dans le cas o` u F est continue et croissante, la demonstration precedente sadapte en prenant
pour F
1
linverse generalisee de F (cf expression (2.4), chapitre 2).
Test de la somme des rangs, ou de Mann-Whitney-Wilcoxon.
Ce test sutilise dans le meme cadre que le test de Kolmogorov-Smirnov. Il se construit de la
facon suivante. Posons (Z
1
, , Z
n+m
) = (X
1
, , X
n
, Y
1
, , Y
m
). Sous (H
0
), (Z
1
, , Z
n+m
)
est un (n +m)-echantillon de loi de fonction de repartition F.
Denition 3.2.5 La statistique de rang de (Z
1
, , Z
n+m
) est la permutation aleatoire R :

n+m
denie par i 1, , n +m,
R(i) =
n+m

j=1
1I
Z
j
<Z
i
+ 1
= rang (numero de place) occupe par Z
i
dans le rearrangement
par ordre croissant de Z
1
, , Z
n+m
Exemple. Supposons que pour un echantillon particulier, on ait
(Z
1
(), Z
2
(), Z
3
(), Z
4
(), Z
5
()) = (2, 1.5, 6, 3.3, 1) ,
on a R
1
() = 3, R
2
() = 2, R
3
() = 5, R
4
() = 4, R
5
() = 1.
Remarque Si F est continue, R est bien (sous (H
0
)) une permutation de lensemble 1, , n +m,
car il ny a pas de probl`emes dex-aequo.
46 ANALYSE DES DONNEES. FABIENNE CASTELL.
Le test de la somme des rangs est basee sur la statistique
W =
n

i=1
R(i)
= somme des rangs des X
i
dans le rearrangement
par ordre croissant de X
1
, , X
n
, Y
1
, , Y
m
.
Dans lexemple precedent, si on suppose que n = 2, et m = 3, on obtient W() = 5.
Supposons en eet que lon veuille tester (H
0
) : F = G contre (H
1
) : F > G. Sous
(H
1
), X a tendance ` a etre plus petite que Y (par exemple, si X Y , on a pour tout t,
G(t) = P(Y t) P(X t) = F(t)). Par consequent, W devrait etre faible. On prendra
donc une region de rejet du type R = W t. Pour determiner t, on a besoin de connatre la
loi de W sous (H
0
). Le test de la somme des rangs sappuie alors sur le resultat suivant, dej` a
utilise dans la demonstration de la proposition 3.1.3 :
Proposition 3.2.6 Soit Z
1
, , Z
n
un n-echantillon de loi de fonction de repartition F conti-
nue. La loi de sa statistique de rang R est la loi uniforme sur lensemble des permutations

n
.
Preuve : Soit
n
.
P(R = ) = P(Z

1
(1)
< < Z

1
(n)
)
=
_
z
(1)
<<z
(n)
dF(z
1
) dF(z
n
)
=
_
z
1
<<zn
dF(z
1
) dF(z
n
)
[
Par consequent, P(R = ) est independant de , et P(R = ) = 1/(n!).
En particulier, la loi de R ne depend pas de F. On en deduit que sous (H
0
), la loi de W
est independante de F (=G). Pour de petites valeurs de n et m, la loi de W sous (H
0
) est
tabulee, et t se lit dans la table d`es que le niveau du test a ete xe. Sinon, on pourra utiliser la
proposition
Proposition 3.2.7 Sous lhypoth`ese (H
0
),
E(W) =
n(n +m+ 1)
2
,

2
(W) =
nm(n +m+ 1)
12
,
W E(W)
(W)
(loi)

n,m
an/mb
N(0, 1) .
Preuve : Nous nous contenterons de demontrer les deux premi`eres assertions. Dans toute la
demonstration, nous noterons N = n +m.
CHAPITRE 3. Statistique descriptive bidimensionnelle. 47
R(i) =
N

j=1
1I
Z
j
<Z
i
+ 1. Par consequent
W =
n

i=1
R(i) = n +
n

i=1
N

j=1
1I
Z
j
<X
i
= n +
n

i=1
n

j=1
1I
X
j
<X
i
+
n

i=1
m

j=1
1I
Y
j
<X
i
= n +
n(n 1)
2
+U
o` u on a note U =
n

i=1
m

j=1
1I
Y
j
<X
i
. Sous (H
0
), Y
j
et X
i
sont independantes et de meme loi. Par
consequent P(Y
j
< X
i
) = P(X
i
< Y
j
) = 1/2. On en deduit que E(U) =
nm
2
, ce qui donne la
premi`ere assertion de la proposition.
En ce qui concerne la seconde, on a Var(W) = Var(U) = E(U
2
) E(U)
2
. Il sagit donc de
calculer E(U
2
).
E(U
2
) =

i,j
P(Y
j
< X
i
) +

i,j,k,l
(i,j)=(k,l)
P(Y
j
< X
i
; Y
l
< X
k
)
Il est facile de verier que sous (H
0
),
P(Y
j
< X
i
; Y
l
< X
k
) =
_
1/4 si j ,= l et i ,= k ,
1/3 si j = l ou i = k , et(i, j) ,= (k, l) .
On obtient donc
E(U
2
) =
nm
2
+
1
3
(mn(n 1) +nm(m1)) +
1
4
m(m1)n(n 1)
=
nm
12
(3nm+n +m+ 1) ,
soit Var(U) =
nm(n +m+ 1)
12
.
Test de Kruskal-Wallis.
Lorsque la variable X a r > 2 modalites, on est en presence de r sous-echantillons dont on
veut savoir sils sont issus dune meme distribution. Notons (y
11
, , y
1n
1
), (y
21
, , y
2n
2
),
(y
r1
, , y
rnr
), ces r sous-echantillons. On suppose quils sont la realisation de r echantillons
independants (Y
11
, , Y
1n
1
), (Y
21
, , Y
2n
2
), (Y
r1
, , Y
rnr
), de lois de fonction de repartition
F
1
, , F
r
supposees continues. On souhaite tester (H
0
) : F
1
= = F
r
contre (H
1
) : i, j
tels que F
i
,= F
j
.
Pour construire le test de Kruskal-Wallis, on commence par calculer
le rang R
ij
de Y
ij
parmi les n = n
1
+ +n
r
valeurs ;
48 ANALYSE DES DONNEES. FABIENNE CASTELL.
la moyenne des rangs associee `a chaque echantillon : R
i
=
1
n
i

n
i
j=1
R
ij
;
lecart entre la moyenne des rangs de chaque echantillon et la moyenne de tous les rangs
(=
1
n

i,j
R
ij
=
1
n

n
k=1
k =
n+1
2
) :
KW
n
=
12
n(n + 1)
r

i=1
n
i
_
R
i

n + 1
2
_
2
.
Proposition 3.2.8 Sous (H
0
), la loi de KW
n
ne depend que de (n
1
, , n
r
) (i.e. ne depend
pas de F = F
1
= = F
r
)
Preuve : Sous (H
0
), (Y
11
, , Y
1n
1
, , Y
r1
, , Y
rnr
) est un n-echantillon de la loi de fonction
de repartition F continue. Par consequent, sa statistique de rang (R
11
, , R
1n
1
, , R
r1
, , R
rnr
)
est une variable de loi uniforme sur les permutations de n elements (proposition 3.2.6).
La statistique KW
n
permet de tester (H
0
) : F
1
= = F
r
contre (H
1
) : i, j tels que
F
i
,= F
j
. Sous (H
0
), les moyennes des rangs R
i
devraient etre proches (et donc proches de
la moyenne des rangs sur lechantillon total =(n + 1)/2). KW
n
devrait donc etre petit sous
(H
0
). La r`egle de decision est alors la suivante :
Si KW
n
> t, on rejette (H
0
), et on conclut que les dierents echantillons nont pas la
meme loi ;
Si KW
n
t, on ne rejette pas (H
0
). Rien de signicatif ne permet de dire que les
echantillons ont des lois dierentes.
La valeur critique t est xe en fonction du niveau de test : = P
(H
0
)
[KW
n
> t], et t est le
quantile dordre 1 de la loi de la statistique de Kruskal-Wallis de param`etres (n
1
, , n
r
)
En developpant le carre dans lexpression de KW
n
, on obtient
KW
n
=
12
n(n + 1)
r

i=1
n
i
R
2
i
3(n + 1) .
On peut aussi remarquer que W
i
= n
i
R
i
est la somme des rangs du i-`eme echantillon dans le
rearrangement de lensemble des echantillons. Cest donc la statistique du test de Wilcoxon de
comparaison du i`eme echantillon `a lensemble des r 1 autres echantillons. En particulier, sous
(H
0
), on a
E(W
i
) =
n
i
(n + 1)
2
, et var(W
i
) =
n
i
(n n
i
)(n + 1)
12
On a donc sous (H
0
)
KW
n
=
12
n(n + 1)
r

i=1
n
i
_
W
i
n
i

n + 1
2
_
2
=
12
n(n + 1)
r

i=1
1
n
i
(W
i
E(W
i
))
2
=
1
n
r

i=1
(n n
i
)
(W
i
E(W
i
))
2
var(W
i
)
CHAPITRE 3. Statistique descriptive bidimensionnelle. 49
On deduit immediatement de cette expression que sous (H
0
)
E(KW
n
) = r 1 .
Cette expression sugg`ere aussi que lorsque les n
i
sont grands, KW
n
tend sous (H
0
) vers une
variable du
2
` a r 1 degres de liberte (cf lexpression de la moyenne). Le nombre de degres
de liberte vient de la liaison entre les variables W
i
:

r
i=1
W
i
= n(n + 1)/2.
Lorsque r = 2, n
1
+ n
2
= n et W
1
+ W
2
= n(n + 1)/2. Donc var(W
1
) = var(W
2
) et
W
1
E(W
1
) = (W
2
E(W
2
)). On a donc KW
n
=
(W
1
E(W
1
))
2
var(W
1
)
et le test de Kruskal-Wallis est
le meme que le test de Wilcoxon.
Exemple 3.2: On reprend les donnees du chier ozone.txt dont on a extrait la variable y :
max03 (concentration en ozone maximale pendant la journee), et la variable x : Vent (Direction
du vent, prenant 4 modalites, E,O,N,S). Pour savoir sil y a un lien entre la direction du vent
et la concentration en ozone, on eectue un test de Kruskal-Wallis de comparaison des 4 sous-
echantillons correspondant aux quatre directions de vent. La fonction R permettant de faire
ce test est la fonction kruskal.test. La Pvaleur du test est 0.003431. On peut donc conclure
(avec 0.34 % de chances davoir tort) quil y a une liaison entre la direction du vent et la
concentration en ozone.
3.3 Deux variables qualitatives.
On suppose ici que le couple (X, Y ) est constitue de deux variables qualitatives X et Y . On
notera C = c
1
, c
r
les modalites de la variable X, et D = d
1
, d
l
les modalites de la
variable Y .
3.3.1 Distribution theorique
Dans ce cadre, on peut caracteriser la loi du couple (X, Y ) par :
1. - la fonction (c, d) C D P(X = c; Y = d) ;
2. - les fonctions c C P(X = c) (loi marginale en X), et d D P(Y = d[X = c)
(loi conditionnelle) ;
3. ...
On a
P(X = c) =

dD
P(X = c; Y = d) et P(Y = d[X = c) =
P(X = c; Y = d)
P(X = c)
.
Dans le cas o` u X et Y sont independantes, P(X = c; Y = d) = P(X = c)P(Y = d), et la loi
conditionnelle d D P(Y = d[X = c) est independante de la valeur de c.
50 ANALYSE DES DONNEES. FABIENNE CASTELL.
3.3.2 Quantites empiriques.
Les donnees sont presentees dans une table de contingence qui donne les eectifs
conjoints de chaque couple de modalites : pour tout (i, j) 1, , r 1, , l,
n
ij
=
n

k=1
1I
(c
i
,d
j
)
(x
k
, y
k
) .
On note
n
i
=
l

j=1
n
ij
=
n

k=1
1I
c
i
(x
k
) ;
n
j
=
r

i=1
n
ij
=
n

k=1
1I
d
j
(y
k
) .
Ces quantites sont appeles eectifs marginaux.
Les liens entre les quantites empiriques et la distribution theorique sont donnes par la
proposition suivante :
Proposition 3.3.1 Supposons que ((x
1
, y
1
) (x
n
, y
n
)) est une realisation dun n-echantillon
((X
1
, Y
1
) (X
n
, Y
n
)) du couple de variables (X, Y ). Notons N
ij
, N
i
et N
j
les variables aleatoires
correspondantes `a n
ij
, n
i
, et n
j
. On a pour tout i 1, , r, et tout j 1, , l,
1. lim
n
N
ij
n
= P[X = c
i
; Y = d
j
] ;
2. lim
n
N
i
n
= P[X = c
i
] ;
3. lim
n
N
j
n
= P[Y = d
j
] ;
4. lim
n
N
ij
N
i
= P[Y = d
j
[X = c
i
] ;
5. lim
n
N
ij
N
j
= P[X = c
i
[Y = d
j
] ;
Preuve de la proposition 3.3.1 :
1.
N
ij
n
=
1
n

n
k=1
1I
(c
i
,d
j
)
(X
k
, Y
k
). Par la loi des grands nombres, on a lim
n
N
ij
n
= P[X = c
i
; Y = d
j
].
2.
N
i
n
=
1
n

n
k=1
1I
c
i
(X
k
). Par la loi des grands nombres, on a lim
n
N
i
n
= P[X = c
i
].
3. idem.
4. lim
n
N
ij
N
i
= lim
n
N
ij
n
n
N
i
. Par la loi des grands nombres, lim
n
N
ij
N
i
=
P[X=c
i
;Y =d
j
]
P[X=c
i
]
=
P[Y = d
j
[X = c
i
].
Le vecteur
_
n
i1
n
i
, ,
n
il
n
i
_
est appele i-`eme prol-ligne. Il est une estimation de la loi
conditionnelle de Y sachant que X = c
i
. De facon analogue, le vecteur
_
n
1j
n
j
, ,
n
rj
n
j
_
est appele
j-`eme prol-colonne. Il est une estimation de la loi conditionnelle de X sachant que Y = d
j
.
CHAPITRE 3. Statistique descriptive bidimensionnelle. 51
3.3.3 Comment juger de la liaison entre X et Y ?
Representation graphique.
Dans le cas o` u X et Y sont independantes, la loi conditionnelle d D P[Y = d[X = c]
est independante de la valeur c. Ainsi tous les prols-lignes ont tendance `a se ressembler. De la
meme facon, la loi conditionnelle c C P[X = c[Y = d] est independante de la valeur d, et
tous les prols-colonnes ont aussi tendance ` a se ressembler.
On peut alors representer graphiquement les prols-lignes (ou les prols-colonnes) sous
forme de diagrammes en barres parall`eles (mosac plot, cf gure 3.6). Les dierences visibles
entre ces barres permettent de se faire une idee de la liaison des variables X et Y .
Test du
2
dindependance.
Pour juger de la liaison entre X et Y , on peut aussi faire un test du
2
dindependance (cf
cours de Stat 2), base sur la statistique
t
n
=
r

i=1
l

j=1
(n
ij

n
i
n
j
n
)
2
n
i
n
j
n
.
Si X et Y sont independantes,
n
ij
n
P(X = c
i
, Y = d
j
) = P(X = c
i
)P(Y = d
j
)
n
i
n
n
j
n
, et t a
tendance ` a etre petit. Pour savoir si t est signicativement non nul ou pas, on sappuie sur le
resultat suivant :
Proposition 3.3.2 Soit ((X
1
, Y
1
), , (X
n
, Y
n
)) un n-echantillon du couple de variables qua-
litatives (X, Y ). Soit T
n
la variable aleatoire correspondant `a t. Si on suppose que X et Y sont
independantes, alors pour tous reels a, b,
lim
n+
P[T
n
[a; b]] = P(Z [a; b]) , Z
2
(r1)(l1)
.
Cette proposition permet de tester (H
0
) : X et Y sont independantes contre (H
1
) : X et Y
sont liees lorsque la taille de lechantillon est assez grande (en pratique n 30, et pour tout
i, j,
n
i
n
j
n
5). La r`egle de decision du test est donnee par :
si T
n
> t, on rejette (H
0
), et on conclut que X et Y sont liees ;
si T
n
t, on ne rejette pas (H
0
) ; rien de signicatif ne permet dassurer que X et Y sont
liees.
t est choisi en fonction du niveau de test :
= P
(H
0
)
[ Rejeter (H
0
)] = P(Z > t) avec Z
2
(r1)(l1)
.
3.3.4 Exemple
On reprend les donnees du chier ozone.txt dont on a extrait la variable y : Pluie (qui
prend deux modalites Pluie , Sec, et la variable x : Vent (Direction du vent, prenant 4
modalites, E,O,N,S). On obtient la table de contingence :
52 ANALYSE DES DONNEES. FABIENNE CASTELL.
Profilslignes
pluie
v
e
n
t
Pluie Sec
E
s
t
N
o
r
d
O
u
e
s
t
S
u
d
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Profilscolonnes
vent
p
l
u
i
e
Est Nord Ouest Sud
P
l
u
i
e
S
e
c
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Figure 3.6 Prols-lignes et Prols-colonnes sur les donnees du chier ozone.txt
vent pluie Pluie Sec Total
Est 2 8 10
Nord 10 21 31
Ouest 26 24 50
Sud 5 16 21
Total 43 69 112
La representation des prols-lignes et des prols-colonnes sous forme de diagrammes en
barres parall`eles est donnee dans la Figure 3.6.
Au vu de ces graphiques, les deux variables Direction du vent et Pluie semblent liees.
Pour en etre s ur, on eectue un test du
2
dindependance. On verie tout dabord quon est
bien dans les conditions dapplication du test. On a n = 112 30 et pour tout i, j
n
i
n
j
n

10(43)/112 = 3.83 5. On nest pas dans les conditions dapplication du test. On a alors deux
possibilites :
soit regrouper des classes de facon `a ce que tous les eectifs theoriques soient superieurs
` a 5
soit demander le calcul de la loi de T
n
par simulation Monte-Carlo.
On choisit la seconde solution. On obtient une P-valeur du test dindependance de 0.05597. On
peut donc conclure (avec 5.6 % de chances davoir tort) quil y a une liaison entre la direction
du vent et la presence ou absence de pluie.
CHAPITRE 3. Statistique descriptive bidimensionnelle. 53
20 10 0 10 20

1
0
1
2
x
y
20 10 0 10 20

4
0

2
0
0
2
0
4
0
x
y
20 10 0 10 20

4
0

2
0
0
2
0
4
0
x
y
20 10 0 10 20

1
0
0
1
0
0
3
0
0
5
0
0
x
y
Figure 3.7 Exemple de nuages de points.
3.4 Exercices
3.4.1 Deux variables quantitatives
Exercice 1: Commenter les nuages de la gure 3.7. Les variables vous semblent-elles liees ?
Sous quelle forme ?
Exercice 2:
1. Recuperer le chier ozone.txt.
2. En extraire les variables quantitatives.
3. Pour chaque couple de variables quantitatives, tracer le nuage de points correspondant
(fonction plot) et reperer les couples de variables semblant avoir une dependance lineaire.
4. Pour les couples precedents, calculer les coecients de correlation lineaire empirique.
5. Tester la normalite de chacune des variables selectionnees. Est-ce-que cela sut `a tester
la normalite des couples de variables ?
6. Dans les cas o` u la normalite des couples sav`ere plausible, les coecients de correlation
lineaires empiriques sont-ils signicativement non nuls ?
Exercice 3: Preuve de la proposition 3.1.2.
Dans toute lexercice, on se place dans lhypoth`ese o` u (X, Y ) est un couple gaussien de coecient
de correlation = 0. Soit (X
1
, Y
1
), (X
n
, Y
n
) des couples independants de meme loi que (X, Y )
et notons R la variable correlation empirique denie par (3.2).
54 ANALYSE DES DONNEES. FABIENNE CASTELL.
1. Montrer que les vecteurs

X et

Y sont deux vecteurs gaussiens de R
n
independants, avec

X N(
X
1I;
2
X
Id),

Y N(
Y
1I;
2
Y
Id), et 1I :=
_
_
_
1
.
.
.
1
_
_
_
.
2. Dans R
n
, soit e
1
=
1

n
1I, e
2
, , e
n
n vecteurs orthornormes formant une bon de R
n
. Soit

X
1
, ,

X
n
les coordonnees de

X dans cette base :

X =

n
i=1

X
i
e
i
.
(a) Montrer que

X
1
=

n

X
n
.
(b) Montrer que

X :=
_
_
_

X
1
.
.
.

X
n
_
_
_
=
_
_
_
e

1
.
.
.
e

n
_
_
_

X. En deduire que

X est un vecteur gaussien


de moyenne
_
_
_
_
_

n
X
0
.
.
.
0
_
_
_
_
_
et de matrice de covariance
2
X
Id.
(c) En deduire que

X
n
et

X
2
, ,

X
n
sont des variables independantes, que

X
n

N(
X
,
2
X
/n) et que

X
i
N(0,
2
X
) pour i 2.
3. En denissant les variables

Y
i
en fonction de

Y de la meme facon que les

X
i
en fonction
de

X, montrer que R =

n
i=2

X
i

Y
i

n
i=2

X
2
i

n
i=2

Y
2
i
, et que R a meme loi que

n1
i=1
Z
i
T
i

n1
i=1
Z
2
i

n1
i=1
T
2
i
,
o` u les variables Z
1
, , Z
n1
, T
1
, , T
n1
sont i .i.d de loi N(0, 1).
4. Soit t = (t
1
, , t
d
)

un vecteur de R
d
tel que |t| = 1. Soit Z
1
, , Z
d
i.i.d de loi N(0, 1).
On consid`ere la variable S =

Z;t
|

Z|
, o` u

Z = (Z
1
, , Z
d
)

. Soit f
2
, , f
d
des vecteurs
normes de R
d
tels que f
1
:= t, f
2
, , f
d
soit une bon de R
d
. On pose

Z
i
=
_

Z; f
i
_
(a) Quelle est la loi de (

Z
1
, ,

Z
d
) ?
(b) Montrer que
S

1S
2
=

Z
1

d
i=2

Z
2
i
.
(c) En deduire que
S

1S
2

d 1 est une variable de Student `a d 1 degres de liberte.


5. Conclure que
R

1R
2

n 2 est une variable de Student `a n 2 degres de liberte.


Exercice 4: test de correlation de Spearman.
1. On suppose que n = 5.
(a) Quelles sont les valeurs prises par la variable R
S
?
(b) Quelle est la loi de la variable R
S
sous lhypoth`ese dindependance de X et Y ?
(c) En deduire la Pvaleur du test de correlation de Spearman de lexemple 3.1.3.
2. En utilisant la fonction cor.test, refaire les tests de correlation sur les donnees du chier
ozone.txt.
CHAPITRE 3. Statistique descriptive bidimensionnelle. 55
3.4.2 Une variable qualitative et une variable quantitative
Exercice 5: On a observe sur n = 10 individus une variable quantitative y et une variable
qualitative x prenant 4 modalites A,B,C,D. Les resultats sont les suivants :
y -0.97 -0.52 0.19 -0.03 0.55 1.08 0.39 0.38 2.63 0.82
x A A B A B C B B D B
1. Calculer les eectifs, les moyennes et variances empiriques pour chaque modalite.
2. Calculer la variance inter-categories, la variance intra-categories et le rapport de correlation
empirique.
3. Faire un test de normalite de chaque sous-echantillon.
4. Selon le resultat du test precedent, choisir un test dindependance entre x et y. Conclure.
Exercice 6:
1. A partir des donnees du chier ozone.txt, obtenir les resultats concernant la liaison entre
direction du vent et concentration en ozone presentes en exemple dans le cours
2. Etudier la liaison entre la concentration en ozone, et le fait quil pleuve ou pas.
3.4.3 Deux variables qualitatives .
Exercice 7: On a observe sur n = 10 individus deux variables quantitative x prenant 2
modalites H,F et y prenant trois modalites 0,B,A Les resultats sont les suivants :
x H H F F H H F F H H
y O O B B O A B O O O
1. Calculer la table de contingence.
2. Faire une representation graphique des prols-lignes et des prols-colonnes.
3. Tester lindependance entre x et y. Conclure.
Exercice 8:
1. A partir des donnees du chier ozone.txt, obtenir les resultats concernant la liaison entre
direction du vent et concentration en ozone presentes en exemple dans le cours
2. Etudier la liaison entre la concentration en ozone, et le fait quil pleuve ou pas.
56 ANALYSE DES DONNEES. FABIENNE CASTELL.
Chapitre 4
Analyse en Composantes Principales.
LACP est une des plus anciennes methodes factorielles. Elle a ete concue par Karl Peason
(1901) et integree `a la statistique par Harold Hotelling (1933). Elle est utilisee lorsquon observe
sur n individus, p variables quantitatives X
1
, X
2
, . . ., X
p
presentant des liaisons multiples que
lon veut analyser. Ces observations sont regroupees dans un tableau (matrice) rectangulaire X
ayant n lignes (individus) et p colonnes (variables) :
X =
_
_
_
_
_
x
1
1
x
2
1
. . . x
p
1
x
1
2
x
2
2
. . . x
p
2
.
.
.
.
.
.
.
.
.
.
.
.
x
1
n
x
2
n
. . . x
p
n
_
_
_
_
_
o` u x
j
i
est la valeur observee de la j-i`eme variable X
j
sur le i-`eme individu de lechantillon.
Exemple 4.1: Cet exemple est tire du livre Statistique avec R, et le chier de donnees
decathlon.csv peut-etre telecharge sur le site dagrocampus Rennes. Il concerne les resultats
dathl`etes (les individus) aux 10 epreuves du decathlon (les variables). Il sagit danalyser les
liaisons entre les performances aux dierentes epreuves, de savoir si certaines epreuves se res-
semblent (une bonne performance ` a telle epreuve augurant alors dune bonne performance `a
telle autre), de determiner des prols dathl`etes (endurant, rapide, ... etc). Ainsi, sur les 10
epreuves, on se doute bien que les performances au 100m, 110 m haies, et saut en longueur vont
etre correlees. Est-il vraiment utile de garder dans le tableau de donnees ces trois epreuves ? Ne
peut-on pas se contenter den garder une seule ? Ou den fabriquer une qui serait un resume
de ces trois epreuves ? De facon generale, ne peut-on pas reduire la dimension du tableau de
donnees, en ne conservant quun petit nombre de variables qui apportent autant dinformation
que lensemble des variables mesurees ?
Le but de lACP est de repondre `a ce genre de questions. Il sagit dune methode de des-
cription et de resume dun tableau de donnees (n, p). Son objectif principal est de remplacer
ce tableau de donnees par un tableau de dimension reduite (n, q) (q < p). Un des avantages
de cette reduction de dimension est par exemple, de pouvoir obtenir des representations gra-
phiques des donnees. En eet, lorsque p = 2, chaque individu peut-etre represente par un point
57
58 ANALYSE DES DONNEES. FABIENNE CASTELL.
dans un plan, et le tableau de donnees initial peut etre visualise graphiquement par un nuage
de points dans un plan. D`es que p 4, une representation graphique du nuage de points est
dicile, et lun des buts de lACP est de trouver la meilleure representation plane du nuage
de points, ce qui revient ` a chercher un tableau (n, q = 2) qui approche au mieux le tableau
de donnees initial. On cherche en particulier une representation plane :
qui minimise les deformations du nuage initial ;
qui fait apparatre les liaisons entre les variables initiales ;
qui permet de resumer linformation contenue dans le tableau initial (n, p) dans un tableau
de plus faible dimension (n, q), q < p, (en fait q = 2, 3), en la detruisant le moins possible.
Cette reduction va etre obtenue en remplacant les variables initiales x
j
, j = 1, . . . , p par un
petit nombre de nouvelles variables c
j
, j = 1, . . . , q, appelees composantes principales, qui
sont non correlees, et combinaisons lineaires des x
j
. Ces nouvelles variables vont etre obtenues
en analysant la structure des covariances, ou des correlations, entre les variables initiales.
Avant de decrire plus precisement la methode, il faut en souligner quelques limites :
1. lACP ne permet pas le traitement de variables qualitatives ;
2. lACP ne detecte que deventuelles liaisons lineaires entre variables.
LACP presente de nombreuses variantes selon les transformations apportees au tableau de
donnees. Parmi ces variantes, lACP sur un tableau o` u les colonnes sont centrees et reduites,
appelee ACP normee est la plus frequemment utilisee.
4.1 Denitions
4.1.1 Espace des individus.
Espace vectoriel des individus
On associe ` a chaque individu i, un vecteur x
i
contenant les valeurs de chaque variable pour
lindividu considere :
x

i
= (x
1
i
, x
2
i
, , x
p
i
) (i-`eme ligne de la matrice X) .
Chaque individu peut alors etre represente par un point dans R
p
, appele espace des individus.
Matrice des poids.
On aecte ` a chaque individu un poids p
i
reetant son importance par rapport aux autres
individus avec p
i
> 0 et

n
i=1
p
i
= 1. On appelle matrice des poids la matrice diagonale
(n, n) dont les elements diagonaux sont les poids p
i
. Elle sera notee
D = diag(p
1
, p
2
, , p
n
) =
_
_
_
_
_
p
1
0 0
0 p
2
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 p
n
_
_
_
_
_
.
CHAPITRE 4. Analyse en Composantes Principales. 59
Le cas le plus frequent est de considerer que tous les individus ont la meme importance :
p
i
= 1/n, pour tout i = 1, , n. Si les individus sont par exemple des pays, on peut etre amene
` a prendre
p
i
=
Population du pays i
Population totale
.
On appelle nuage des individus, lensemble des points x
i
munis de leurs poids : M =
(x
i
, p
i
) ; i = 1, . . . , n.
Centrage des donnees.
Le point g de R
p
dont les coordonnees sont les moyennes empiriques des variables ( g

=
( x
1
, x
2
, , x
p
)) est le centre de gravite (le barycentre) du nuage de points M. En utilisant
les notations matricielles, on peut ecrire
g = X

D 1I , (4.1)
o` u 1I designe le vecteur de R
n
dont toutes les coordonees sont egales `a 1. On a en eet pour
tout j 1, , p,
g
j
=
n

k=1
(X

)
jk
(D 1I)
k
=
n

k=1
n

i=1
X
kj
D
ki
1I
i
=
n

k=1
x
j
k
p
k
=

x
j
.
Pour ramener lorigine du rep`ere au barycentre des individus (i.e centrer le nuage autour de
son barycentre), on centre les variables. A chaque variable observee x
j
, on associe sa variable
centree y
j
:
y
j
= x
j

_
_
_
_
_
x
j
x
j
.
.
.
x
j
_
_
_
_
_
= x
j
x
j
1I .
A partir du tableau X, on obtient un tableau de donnees Y :
Y =
_
y
1
, y
2
, , y
p

=
_
_
_
_
_
y
1
1
y
j
1
y
p
1
y
1
2
y
j
2
y
p
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
y
1
n
y
j
n
y
p
n
_
_
_
_
_
,
avec y
j
i
= x
j
i
x
j
. En utilisant les notations matricielles, on a
Y = X 1Ig

= X 1I 1I

DX = (Id 1I 1I

D)X .
Matrice de covariance empirique.
La matrice de covariance empirique des variables x
1
, , x
p
peut secrire sous la forme
V = X

DX gg

= Y

DY . (4.2)
60 ANALYSE DES DONNEES. FABIENNE CASTELL.
En eet, pour tout i, j 1, , p
cov(x
i
, x
j
) =
n

k=1
p
k
(x
i
k
x
i
)(x
j
k
x
j
) =
n

k=1
p
k
y
i
k
y
j
k
=
n

k=1
D
kk
Y
ki
Y
kj
= (Y

DY )
ij
,
ce qui montre la seconde identite. La premi`ere est une consequence de lexpression
cov(x
i
, x
j
) =
n

k=1
p
k
x
i
k
x
j
k


x
i
x
j
.
V est une matrice carree p p symetrique semi-denie positive : pour tout u R
p
,
u

V u = u

DY u = (Y u)

D(Y u) =
n

k=1
D
kk
(Y u)
2
k
=
n

k=1
p
k
(Y u)
2
k
0 .
Elle admet donc p valeurs propres reelles positives ou nulles.
Centrage et reduction des donnees.
Notons s
i
lecart type empirique de la variable X
i
:
s
i
=
_
cov(x
i
, x
i
) =

_
n

k=1
p
k
(x
i
k


x
i
)
2
=

_
n

k=1
p
k
(y
i
k
)
2
.
Les donnees centrees et reduites sont notees
z
j
i
=
x
j
i
x
j
s
j
.
Ce sont des donnees sans dimension. Elles sont regroupees dans un tableau
Z =
_
z
1
, z
2
, , z
p

=
_
_
_
_
_
z
1
1
z
j
1
z
p
1
z
1
2
z
j
2
z
p
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
z
1
n
z
j
n
z
p
n
_
_
_
_
_
.
Si on note D
1/S
la matrice diagonale des inverses des ecarts-types :
D
1/S
= diag(1/s
1
, , 1/s
p
) =
_
_
_
_
_
_
_
_
_
1
s
1
0 0
0
1
s
2
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0
1
s
n
_
_
_
_
_
_
_
_
_
,
le tableau Z peut etre recrit sous la forme Z = Y D
1/S
.
CHAPITRE 4. Analyse en Composantes Principales. 61
Matrice de correlation empirique.
Notons r
ij
la correlation empirique des variables X
i
et X
j
: r
ij
=
cov(x
i
, x
j
)
s
i
s
j
. La matrice R
de correlation empirique
R =
_
_
_
_
_
1 r
12
r
1p
r
21
1 r
2p
.
.
.
.
.
.
.
.
.
.
.
.
r
p1
r
p2
1
_
_
_
_
_
peut se recrire
R = D
1/S
V D
1/S
= D
1/S
Y

DY D
1/S
= Z

DZ .
La matrice R est la matrice de variance-covariance des donnees centrees reduites et resume
la structure des dependances lineaires entre les p variables.
Espace metrique des individus.
Si lon veut faire des groupes dindividus qui se ressemblent au vu des variables considerees,
il faut introduire une mesure de proximite entre individus, i.e. denir une notion de distance
sur lespace vectoriel des individus. Quelle distance choisir ? La question est primordiale car les
resultats de letude statistique vont en dependre dans une large mesure.
On pourrait choisir la distance euclidienne usuelle
d(x
1
, x
2
) =
_
(x
1
1
x
1
2
)
2
+ (x
2
1
x
2
2
)
2
+ + (x
p
1
x
p
2
)
2
,
mais ce nest pas forcement la plus adaptee. Par exemple, on peut vouloir donner des impor-
tances dierentes ` a chaque variable, auquel cas on choisira plutot de prendre pour distance
d(x
1
, x
2
) =
_
m
1
(x
1
1
x
1
2
)
2
+m
2
(x
2
1
x
2
2
)
2
+ +m
p
(x
p
1
x
p
2
)
2
.
Cela revient ` a multiplier par

m
j
chaque variable X
j
. Cependant, cette formule sous-entend que
les axes sont orthogonaux (formule de Pythagore), mais en statistique cest par pure convention
que lon represente les variables sur des axes orthogonaux, on aurait pu prendre des axes
obliques. Ainsi, la distance entre deux individus x
1
et x
2
peut etre denie de mani`ere generale
par :
d
M
(x
1
, x
2
) =
_
(x
1
x
2
)

M(x
1
x
2
) = [[x
1
x
2
[[
M
,
o` u M est une matrice symetrique denie positive : pour tout u R
p
, u

Mu 0 et si u

Mu = 0
alors u = 0
R
p. Une telle matrice admet p valeurs propres reelles strictement positives.
En pratique, on utilise le plus souvent lune des metriques suivantes :
M = I
d
. La distance est la distance euclidienne usuelle, et on parle dACP canonique
ou simple. Elle sutilise lorsque les variable sont homog`enes (meme dimension) et de
meme ordre de grandeur.
62 ANALYSE DES DONNEES. FABIENNE CASTELL.
M = D
1/S
2, o` u D
1/S
2 est la matrice diagonale des inverses des variances denie par
D
1/S
2 = D
1/S
D
1/S
. Le choix de cette metrique revient `a diviser chaque variable (colonne)
par son ecart-type. On parle alors dACP normee. Ici la distance ne depend plus des
unites de mesure puisque x
j
i
/s
j
est une grandeur sans dimension. Cette metrique donne ` a
chaque caract`ere la meme importance quelle que soit sa dispersion. Elle sutilise lorsque
les variable ne sont pas homog`enes, ou ne sont pas de meme ordre de grandeur.
4.1.2 Inertie dun nuage de points.
Soit M = (x
i
, p
i
) le nuage de points. On note N = (y
i
, p
i
) le nuage centre, o` u on a
ramene le centre de gravite ` a lorigine du rep`ere.
Inertie totale du nuage de points.
Denition 4.1.1 On appelle inertie totale du nuage des individus , I, la moyenne
ponderee des carres des distances des points au centre de gravite :
I =
n

i=1
p
i
d
2
M
(x
i
, g) =
n

i=1
p
i
[[x
i
g[[
2
M
=
n

i=1
p
i
[[y
i
[[
2
M
.
Linertie mesure la dispersion des points individus autour du centre de gravite g, elle est parfois
appelee variance du nuage. Linertie du nuage M est evidemment egale `a linertie du nuage
centre N. Dans la suite du chapitre, on supposera que le nuage est centre.
Proposition 4.1.2
I =
1
2
n

i=1
n

j=1
p
i
p
j
[[x
i
x
j
[[
2
M
,
cest `a dire linertie correspond `a la moyenne des carres de toutes les distances entre les indi-
vidus.
Preuve : Notons x, y
M
le produit scalaire associe ` a M : x, y
M
= x

My.
1
2
n

i=1
n

j=1
p
i
p
j
[[x
i
x
j
[[
2
M
=
1
2
n

i=1
n

j=1
p
i
p
j
[[x
i
g +g x
j
[[
2
M
=
1
2
_
n

i=1
n

j=1
p
i
p
j
[[x
i
g[[
2
M
+
n

i=1
n

j=1
p
i
p
j
[[x
j
g[[
2
M
+ 2
n

i=1
n

j=1
p
i
p
j
x
i
g, x
j
g
M
_
=
1
2
_
_
n

i=1
p
i
[[x
i
g[[
2
M
+
n

j=1
p
j
[[x
j
g[[
2
M
+ 2
_
n

i=1
p
i
(x
i
g);
n

j=1
p
j
(x
j
g)
_
M
_
_
=
n

i=1
p
i
[[x
i
g[[
2
M
,
CHAPITRE 4. Analyse en Composantes Principales. 63
puisque

n
i=1
p
i
(x
i
g) = 0 par denition de g.
Inertie expliquee par un sous espace F.
Denition 4.1.3 On appelle inertie du nuage des individus N expliquee (portee) par
le sous-espace vectoriel F de R
p
, linertie du nuage projete sur F, cest-`a-dire :
I
F
(N) =
n

i=1
p
i
d
2
M
( y
F
i
, O) =
n

i=1
p
i
[[ y
F
i
[[
2
M
,
o` u y
F
i
designe la projection orthogonale de y
i
sur F. Autrement dit,
I
F
(N) = I(

N
F
) ,
o` u

N
F
=
_
( y
F
i
, p
i
)
_
est le projete du nuage centre.
Par exemple, si u est un vecteur M-norme (i.e [[u[[
M
= 1), et
u
est la droite vectorielle
engendree par u , la projection orthogonale de y
i
sur
u
est y
u
i
= y
i
; u
M
u = (y

i
Mu) u, et
linertie expliquee par
u
est donnee par
I
u
= I(

N
u
) =
n

i=1
p
i
[[ y
u
i
[[
2
M
=
n

i=1
p
i
(y

i
Mu)
2
=
n

i=1
p
i
u

My
i
y

i
Mu = u

M
_
n

i=1
p
i
y
i
y

i
_
Mu
= u

MV Mu .
Proposition 4.1.4 Decomposition de linertie.
1. Si F est un s.e.v. de R
p
et si F

designe son supplementaire orthogonal (au sens du


produit scalaire deni par M) on a la decomposition suivante :
I = I
F
+I
F
.
2. De facon plus generale, si F = F
1
F
2
et F
1
F
2
(au sens du produit scalaire deni par
M), alors
I
F
= I
F
1
+I
F
2
.
La quantite I
F
peut donc etre consideree comme une mesure de la deformation du nuage
lors de la projection sur F :
I
F
=
n

i=1
p
i
[[y
i
y
F
i
[[
2
M
.
Linertie totale se decompose pour tout F s.e.v. de R
p
comme la somme de
linertie totale du nuage projete sur F I(

N
F
),
la deformation du nuage N par projection orthogonale sur F.
Preuve de la proposition 4.1.4.
64 ANALYSE DES DONNEES. FABIENNE CASTELL.
1. Tout element de R
p
se decompose de mani`ere unique sous la forme
x = x
F
+ x
F

, x
F
F , x
F

,
_
x
F
; x
F

_
M
= 0 .
Par consequent,
I =
n

i=1
p
i
|y
i
|
2
M
=
n

i=1
p
i
_
_
_ y
F
i
+ y
F

i
_
_
_
2
M
=
n

i=1
p
i
_
_
y
F
i
_
_
2
M
+
n

i=1
p
i
_
_
_ y
F

i
_
_
_
2
M
+ 2
n

i=1
p
i
_
y
F
i
; y
F

i
_
M
= I
F
+I
F
.
2. De la meme facon, tout element de F se decompose de mani`ere unique sous la forme
x = x
F
1
+ x
F
2
, x
F
1
F
1
, x
F
2
F
2
,

x
F
1
; x
F
2
_
M
= 0 .
On a donc y
F
=

( y
F
)
F
1
+

( y
F
)
F
2
. Comme F
1
F,

( y
F
)
F
1
= y
F
1
. De meme,

( y
F
)
F
2
= y
F
2
.
Par consequent,
I
F
=
n

i=1
p
i
_
_
y
F
i
_
_
2
M
=
n

i=1
p
i
_
_
y
F
1
i
+ y
F
2
i
_
_
2
M
=
n

i=1
p
i
_
_
y
F
1
i
_
_
2
M
+
n

i=1
p
i
_
_
y
F
2
i
_
_
2
M
+ 2
n

i=1
p
i

y
F
1
i
; y
F
2
i
_
M
= I
F
1
+I
F
2
.
Expression matricielle de linertie.
Proposition 4.1.5
I = Trace(MV ) = Trace(V M) .
Par consequent,
1. Si M = I
d
, alors I =

n
i=1
s
2
j
est la somme des variances empiriques des p va-
riables.
2. Si M = D
1/S
2, alors I = p. Dans ce cas, linertie est egale au nombre de variables et ne
depend pas de leurs valeurs.
Preuve : On a |y
i
|
2
M
= y

i
My
i
= Trace(y

i
My
i
) puisquil sagit dune quantite scalaire. En
utilisant :
Trace(AB) = Trace(BA) pour toute matrice A de taille (n, p) et toute matrice B de taille
(p, n),
CHAPITRE 4. Analyse en Composantes Principales. 65
Trace(A +B) = Trace(A) + Trace(B),
Trace(A) = Trace(A), pour toute matrice A et tout reel ,
on obtient
I =
n

i=1
p
i
|y
i
|
2
M
=
n

i=1
p
i
Trace(y

i
My
i
) =
n

i=1
p
i
Trace(y
i
y

i
M)
= Trace
__
n

i=1
p
i
y
i
y

i
_
M
_
= Trace(V M) = Trace(MV ) .
Les points 1. et 2. se deduisent facilement de cette identite.
4.1.3 Espace metrique des variables.
De la meme fa con que ce qui a ete fait pour un individu, on peut associer `a chaque variable
X
j
le vecteur x
j
contenant les valeurs prises par cette variable sur lensemble des n individus :
x
j
=
_
_
_
_
_
x
j
1
x
j
2
.
.
.
x
j
n
_
_
_
_
_
= j-i`eme colonne de X.
Chaque variable X
j
peut alors alors etre representee par un vecteur de R
n
appele espace
vectoriel des variables.
Si on veut juger de la proximite entre deux variables, il faut encore une fois munir R
n
dune
distance qui rende compte de cette proximite, i.e. choisir une matrice M (n, n) symetrique et
denie positive. Ici, un choix naturel consiste `a prendre M = D, la matrice diagonale
des poids (dite metrique des poids). En eet, si y
1
, y
2
, . . ., y
p
sont les variables centrees
associees ` a x
1
, x
2
, . . ., x
p
, on a
< y
j
, y
k
>
D
=

n
i=1
p
i
y
j
i
y
k
i
= cov(x
j
, x
k
) ;
[[y
j
[[
2
D
= s
2
j
.
De plus langle
jk
entre les vecteurs y
j
et y
k
est donne par
cos(
jk
) =
< y
j
, y
k
>
D
[[y
j
[[
D
[[y
k
[[
D
=
cov(x
k
, x
j
)
s
j
s
k
= r
jk
.
En resume, lorsque les variables sont centrees et representees par des vecteurs de R
n
muni de
la metrique des poids :
la longueur du vecteur correspond ` a lecart-type de la variable associee ,
le cosinus de langle de deux vecteurs represente la correlation lineaire des deux variables
associees.
66 ANALYSE DES DONNEES. FABIENNE CASTELL.
4.2 Principes de lACP.
4.2.1 Le probl`eme.
Rappelons que lobjectif principal est dobtenir une representation d`ele du nuage des indi-
vidus de R
p
en le projetant sur un espace de faible dimension. Le choix de lespace de projection
seectue selon le crit`ere de linertie, i.e. on cherche le sous-espace de dimension k por-
tant linertie maximale du nuage. Cela revient ` a deformer le moins possible les distances
en projection. Il sagit donc de resoudre le probl`eme suivant :
(P
k
) : Trouver un (le) s.e.v E
k
de dimension k (k < p), tel que
I
E
k
= max I
E
; dim(E) = k.
Denition 4.2.1 On appelle sous-espace principal de dimension k, tout sev de dimension
k solution de (P
k
).
4.2.2 Espaces et axes principaux.
Theor`eme 4.2.2 Soit E
k
un sous espace vectoriel de dimension k < p portant linertie maxi-
male du nuage, alors un sous-espace de dimension k + 1 portant linertie maximale est
E
k

u
k+1
o` u u
k+1
est un vecteur M-orthogonal `a E
k
et
u
k+1
est une droite vectorielle M-orthogonale `a
E
k
portant linertie maximale parmi toutes les droites vectorielles M-orthogonales `a E
k
.
Preuve : Soit F un sous-espace de dimension k + 1. Comme dim(E

k
) + dim(F) = (p k) +
(k + 1) = p + 1, E

k
et F ont au moins une direction commune. Soit u E

k
F (u ,= 0). On
peut alors ecrire F =

F
u
, o` u

F est le supplementaire M-orthogonal de
u
dans F.

F est
de dimension k, et par denition de E
k
on a donc I

F
I
E
k
. Par ailleurs, par denition de u
k+1
,
on a aussi I
u
I
u
k+1
. Ainsi,
I
F
= I

F
+I
u
I
E
k
+I
u
k+1
= I
E
k+1
o` u E
k+1
= E
k

u
k+1
.
Denition 4.2.3 Les axes
u
1
, ,
up
sont appeles axes principaux dinertie de lACP.
Le theor`eme 4.2.2 dit que les sous-espaces principaux E
k
(les solutions de (P
k
)) sont embotes
et peuvent se calculer de facon iterative selon la procedure :
Rechercher un axe
u
1
maximisant linertie expliquee I
u
1
. On note E
1
=
u
1
.
Rechercher un axe
u
2
orthogonal ` a E
1
, maximisant linertie expliquee I
u
2
. On note
E
2
= E
1

u
2
.
. . .
Rechercher un axe
u
k
orthogonal `a E
k1
maximisant linertie expliquee I
u
k
. On note
E
k
= E
k1

u
k
.
CHAPITRE 4. Analyse en Composantes Principales. 67
Calcul des axes principaux :
Commencons par trouver laxe principal
u
1
. Si u
1
est M-norme, on a vu que I
u
1
=
u

1
MV Mu
1
. Si |u
1
|
M
,= 1, en notant v
1
= u
1
/ |u
1
|
M
, on a
u
1
=
v
1
et donc
I
u
1
= I
v
1
= v

1
MV Mv
1
=
u

1
MV Mu
1
|u
1
|
2
M
=
u

1
MV Mu
1
u

1
Mu
1
.
On veut maximiser cette quantite en u
1
R
p
. Pour cela, on commence par chercher les points
critiques de la fonction consideree, i.e. les points o` u le gradient est nul :

u
1
_
u

1
MV Mu
1
u

1
Mu
1
_
=
2MV Mu
1
u

1
Mu
1

(u

1
MV Mu
1
)(2Mu
1
)
(u

1
Mu
1
)
2
.
u
1
est donc solution de
MV Mu
1
=
u

1
MV Mu
1
u

1
Mu
1
Mu
1
= I
u
1
Mu
1
V Mu
1
= I
u
1
u
1
,
puisque M est inversible. Autrement dit, u
1
est vecteur propre de la matrice V M associe `a la
valeur propre I
u
1
. Pour maximiser I
u
1
, il faut donc choisir pour u
1
le vecteur propre
de V M associe `a la plus grande valeur propre
1
de la matrice V M. On a alors
I
u
1
=
1
.
Ce resultat se generalise aux autres axes principaux, et on a le theor`eme :
Theor`eme 4.2.4 Calcul des axes principaux.
1. Il existe une base M-orthonormee (u
1
, u
2
, , u
p
) de vecteurs propres de la matrice V M
associes aux valeurs propres (reelles positives) rangees par ordre decroissant
1

2


p
0.
2. Les vecteurs u
1
, u
2
, . . ., u
p
engendrent respectivement les axes principaux dinertie de
lACP et on a pour tout j 1, , p,
I
u
j
=
j
.
3. Pour tout k < p, le s.e.v E
k
engendre par les k premiers vecteurs u
1
,. . ., u
k
, est un s.e.v.
principal de dimension k, et linertie expliquee par E
k
est donnee par
I
E
k
=
1
+ +
k
.
Denition 4.2.5 Les vecteurs u
j
sont appeles vecteurs principaux de lACP.
Preuve :
1. Notez que la matrice V M est M-symetrique puisque
x; V My
M
= x

M(V My) = x

MV My = y

x = y

MV Mx ,
puisque M et V sont symetriques. Ainsi x; V My
M
= V Mx; y
M
. Par consequent, les
valeurs propres de V M sont reelles et positives, et V M admet une base M-orthonormee
de vecteurs propres.
68 ANALYSE DES DONNEES. FABIENNE CASTELL.
2. On a dej` a vu que le premier axe principal dinertie est engendre par le vecteur propre
u
1
associe ` a la plus grande valeur propre
1
de V M. Pour les autres axes principaux, on
utilise le fait que la k-i`eme valeur propre
k
verie :

k
= max
_
u, V Mu
M
; |u|
M
= 1; u; u
j

M
= 0, j = 1, k 1
_
.
Comme |u
k
|
M
= 1, on a I
u
k
= u

k
MV Mu
k
= u

k
M(
k
u
k
) =
k
u

k
Mu
k
=
k
.
3. Par le theor`eme 4.2.2, E
k
=
u
1

u
k
, et I
E
k
=

k
j=1
I
u
j
=

k
j=1

j
.
Remarques :
1. En prenant k = p, on retrouve I = Trace(V M) =

p
j=1

j
.
2. Notez que V M = Y

DY M. Si r = Rang(Y ) ( min(p, n)), on a

1
> 0 ,
2
> 0, ,
r
> 0 et
r+1
= =
p
= 0 ,
et par suite I
Er
= I.
Dans ce cas le nuage est enti`erement contenu dans le sev E
r
.
3. Une ACP avec M = I
d
dite canonique ou simple revient `a diagonaliser la matrice de
covariance empirique des p variables de depart.
4. Une ACP avec M = D
1/S
2 dite normee, revient ` a diagonaliser la matrice de correlation
empirique.
4.2.3 Composantes Principales (CP)
Denition
Rappelons que le point de depart etait dobtenir une representation du nuage N dans des
espaces de dimension reduite. On connait maintenant les axes denissant ces espaces. Pour
pouvoir obtenir les dierentes representations, il sut de determiner les coordonnees des points
du nuage projete sur chaque axe principal.
Soit c
j
1
, c
j
2
, . . ., c
j
n
, ces coordonnees sur laxe
u
j
, o` u c
j
i
est la coordonnee de y
i
sur laxe
u
j
.
c
j
i
=< y
i
, u
j
>
M
= y

i
Mu
j
.
Denition 4.2.6 Le vecteur de R
n
c
j
=
_
_
_
_
_
c
j
1
c
j
2
.
.
.
c
j
n
_
_
_
_
_
= Y Mu
j
.
est appele j-i`eme composante principale.
CHAPITRE 4. Analyse en Composantes Principales. 69
Si on note C = [c
1
, c
2
, , c
p
] la matrice obtenue en rangeant en colonne les c
j
, on a donc
C = Y MU o` u U est une matrice (p, p) denie par U = [u
1
, u
2
, , u
p
].
La projection du nuage N dans le plan principal (
u
j
,
u
k
) est donc donnee par les points
de coordonnees
_
(c
j
i
, c
k
i
); i = 1, , n
_
dans le rep`ere donne par les droites
u
j
et
u
k
. Par
exemple (c
1
i
, c
2
i
) ; i = 1, , n est le nuage projete sur le 1er plan principal (
u
1
,
u
2
).
La decomposition du vecteur y
i
sur la base des vecteurs principaux (u
1
, u
2
, , u
p
) secrit
y
i
=
p

j=1
c
j
i
u
j
=
r

j=1
c
j
i
u
j
,
Remarque : Pour j > r, les CP c
j
sont egales au vecteur nul de R
n
car linertie expliquee
par ces axes est nulle.
Les composantes principales vues comme de nouvelles variables.
Une CP associe `a chaque individu i un nombre reel. On peut donc la considerer comme une
nouvelle variable. Comme les variables initiales y
j
, cette variable est representee par un vecteur
de R
n
.
Proposition 4.2.7 Proprietes des composantes principales.
1. Les CP sont des combinaisons lineaires des variables de depart y
j
.
2. Les CP c
j
sont centrees, de variance
j
et non correlees deux `a deux.
3. Les CP c
1
, , c
p
sont vecteurs propres de la matrice Y MY

D, de valeurs propres
1
, ,
p
.
Dans lespace des variables R
n
, muni de la metrique des poids D, on a vu que le produit scalaire
de deux variables nest autre que leur covariance. On rappelle que pour j > r, c
j
= 0. Pour
j r,
j
> 0 et on denit
d
j
=
c
j
_

j
.
Le point 2. de la proposition 4.2.7 signie que (d
1
, , d
r
) est un syst`eme D-orthonorme de
lespace des variables R
n
. Il nen constitue pas necessairement une base (puisque r min(n, p)),
sauf dans le cas o` u r = n p. d
j
sappelle le j-i`eme facteur principal.
Nous reviendrons plus loin sur une interpretation du point 3.
Preuve de la proposition 4.2.7 :
1.
c
j
= Y Mu
j
=
_
y
1
y
p

Mu
j
=
_
y
1
y
p

_
_
_
(Mu
j
)
1
.
.
.
(Mu
j
)
p
_
_
_
=
p

k=1
(Mu
j
)
k
y
k
.
70 ANALYSE DES DONNEES. FABIENNE CASTELL.
2. On a vu (cf (4.1)) que le barycentre des donnees (c
j
i
) est donne par lexpression matricielle :
c = C

D 1I = U

MY

D 1I = U

M y = 0 ,
puisque les donnees (y
j
i
) sont centrees. Par ailleurs, en utilisant lexpression matricielle
de la covariance empirique donnee dans (4.2), on obtient
_
cov(c
i
, c
j
)
_
ij
= C

DC = U

MY

DY MU = U

MV MU .
Notez que
V MU = V M
_
u
1
u
p

=
_
V Mu
1
V Mu
p

=
_

1
u
1

p
u
p

=
_
u
1
u
p

_
_

1
0 0

p
_
_
.
On en deduit que (cov(x
i
, x
j
))
ij
= U

MUdiag(
1
, ,
p
). Pour terminer, il sut de
remarquer que
U

MU =
_

_
(u
1
)

.
.
.
(u
p
)

_
M
_
u
1
u
p

=
_
_
_
(u
1
)

Mu
1
(u
1
)

Mu
p
.
.
.
.
.
.
u
p

Mu
1
u
p

Mu
p
_
_
_
=
_
_
_
u
1
; u
1

M
u
1
; u
p

M
.
.
.
.
.
.
u
p
; u
1

M
u
p
, u
p

M
_
_
_
= Id
p
,
puisque (u
1
, , u
p
) est une base M-orthonormee.
3. Par denition de (u
j
,
j
), V Mu
j
= Y

DY Mu
j
=
j
u
j
. En multipliant cette identite par
Y M, et en utilisant lidentite c
j
= Y Mu
j
, on obtient Y MY

Dc
j
=
j
c
j
.
4.2.4 Resume dune analyse en composantes principales.
En resume, une ACP prend pour entrees :
un nuage centre N de n individus y
1
, , y
n
dans un espace de dimension p, R
p
. Ces
individus sont ranges dans un tableau de donnees (n, p) note Y ;
D, une matrice (n, n) de poids qui denit une metrique sur R
n
;
et M, une matrice (p, p) qui denit une metrique sur lespace des individus R
p
.
On note ACP(Y, D, M) pour faire reference au tableau de donnees, ` a la matrice des poids et `a
la metrique.
Les sorties de lACP sont
les valeurs propres
1
, ,
p
de la matrice V M = Y

DY M (
1

r
> 0 =
r+1
=
=
p
, o` u r est le rang de la matrice Y ) ;
les axes principaux u
1
, , u
p
vecteurs de R
p
qui sont les vecteurs propres associes, et qui
forment une base M-orthonormee de lespace des individus R
p
;
Y

DY Mu
j
=
j
u
j
, u
i
; u
j

M
=
ij
.
les composantes principales c
1
, , c
p
, elements de R
n
denis par c
j
= Y

Mu
j
(c
j
= 0 pour
j > r), ou de fa con equivalente les facteurs principaux d
1
, , d
r
denis par d
j
= c
j
/
_

j
.
CHAPITRE 4. Analyse en Composantes Principales. 71
4.3 ACP dans lespace des variables.
On sinteresse dans cette section au nuage V des variables centrees y
1
, , y
p
qui sont des
elements de lespace R
n
. Pour obtenir de bonnes representations planes de ce nuage de points,
on peut adopter la meme demarche que pour le nuage des individus, et faire une ACP dans
lespace des variables. Lobjectif est de trouver les sous-espaces principaux F
1
, F
2
,. . .etc de R
n
qui conservent au mieux linformation liee ` a linertie contenue dans le nuage des variables V.
Pour construire cette ACP, on a besoin de denir :
Le tableau de donnees : Il sagit du tableau (p, n) obtenu en mettant les vecteurs y
1
, , y
p
sous forme de vecteurs lignes, et en mettant ces lignes lune en dessous de lautre. Il est
clair que le tableau obtenu est Y

.
Une metrique sur lespace des variables R
n
: on a dej` a vu quun choix naturel est de
prendre D = diag(p
1
, , p
n
).
Un matrice (p, p) de poids : on va ici choisir la matrice M.
On est donc en train de faire une ACP(Y

, M, D).
Avec ce choix de metrique et de matrice de poids, on a le resultat :
Proposition 4.3.1 ACP dans lespace des variables.
1. Les valeurs propres non nulles de lACP(Y

, M, D) du nuage des variables V sont les


valeurs propres non nulles (
1
, ,
r
) de lACP(Y, D, M) du nuage N des individus .
2. Les axes principaux de lACP(Y

, M, D) correspondant aux valeurs propres non nulles


(
1
, ,
r
), sont les facteurs principaux (d
1
, , d
r
) de lACP(Y, D, M) du nuage des
individus.
3. Les composantes principales non nulles de lACP(Y

, M, D) du nuage V des variables


sont (

1
u
1
, ,

r
u
r
). Autrement dit, les facteurs principaux de lACP(Y

, M, D) du
nuage V des variables, sont les axes principaux (u
1
, , u
r
) de lACP(Y, D, M) du nuage
des individus, correspondant aux valeurs propres non nulles.
Preuve : Pour faire lACP(Y

, M, D) du nuage des variables, il faut diagonaliser la matrice


(n, n) (Y

MY

D = Y MY

D.
1. On rappelle les resultats dalg`ebre lineaire :
Soit A une matrice (n, p) et B une matrice (p, p) inversible. rang(AB) = rang(A).
Soit A une matrice (n, p). rang(AA

) = rang(A

A) = rang(A).
En appliquant le premier resultat, il vient rang(Y MY

D) = rang(Y MY

). En appliquant
le second `a Y

M, on obtient rang(Y MY

) = rang(Y

M). M etant inversible,

M lest
aussi, et donc rang(Y MY

D) = rang(Y ) = r. Par consequent, Y MY

D admet n r
valeurs propres nulles. On a par ailleurs vu dans le point 3. de la proposition 4.2.7 que
c
1
, , c
r
sont vecteurs propres de Y MY

D associes aux valeurs propres


1

2

r
> 0. On a donc montre que les n valeurs propres de la matrice Y MY

D sont
1
, ,
r
et n r fois la valeur 0.
2. Les vecteurs principaux de lACP dans lespace des variables sont les vecteurs propres
normes de la matrice Y MY

D. Ceux correspondant aux valeurs propres non nulles sont


donc c
1
, , c
r
normes `a 1, ` a savoir les facteurs principaux d
1
, , d
r
de lACP(Y, D, M)
des individus.
72 ANALYSE DES DONNEES. FABIENNE CASTELL.
3. Les composantes principales c
1
, , c
r
non nulles de lACP(Y

, M, D) dans lespace des


variables, sont les coordonnees des y
i
sur les r premiers axes principaux d
1
, , d
r
:
c
j
= Y

Dd
j
=
1
_

j
Y

Dc
j
=
1
_

j
Y

DY Mu
j
=

j
_

j
u
j
=
_

j
u
j
.
Les facteurs principaux

d
1
, ,

d
r
non nuls de lACP(Y

, M, D) dans lespace des variables


sont donc :

d
j
=
c
j
| c
j
|
M
= u
j
.
4.4 Les representations graphiques.
4.4.1 Representation des individus.
La carte des individus.
Rappelons que le but principel de lACP est de fournir une representation graphique du
nuage des individus sur un espace de dimension q < p (typiquement q = 2, 3). On sait main-
tenant que la meilleure representation graphique (au sens de linertie) est donnee par la
projection du nuage sur lespace principal E
q
engendre par les q premiers axes principaux
u
1
, u
q
, et que la coordonnee de lindividu i sur laxe u
k
est c
k
i
.
Denition 4.4.1 Pour tout k, l p (k ,= l), la projection du nuage N sur le plan principal
(
u
k
,
u
l
) est appele carte des individus.
Qualite de la representation du nuage des individus.
Rappelons que linertie totale du nuage N des individus vaut
I =
n

i=1
p
i
|y
i
|
2
M
=
p

j=1

j
= Trace(V M) .
Denition 4.4.2 La qualite globale de la representation du nuage N sur le s.e principal E
k
engendre par (u
1
, , u
k
) est mesuree par le pourcentage dinertie expliquee par E
k
I
E
k
I
=

1
+
2
+ +
k

p
j=1

j
.
Plus cette qualite est proche de 1, plus le nuage de points initial est concentre autour de
E
k
, et plus d`ele est son image projetee sur E
k
.
CHAPITRE 4. Analyse en Composantes Principales. 73
Qualite de la representation dun individu.
Parallelement ` a cet indice de qualite globale, on peut denir, pour chaque individu, la qualite
de sa representation.
Denition 4.4.3 La qualite de representation de lindividu i sur lespace principal E
k
est mesuree par le cosinus carre de langle que fait y
i
avec sa projection y
E
k
i
sur E
k
:
cos
2
(y
i
, y
E
k
i
) =
[[ y
E
k
i
[[
2
M
[[y
i
[[
2
M
=

k
j=1
(c
j
i
)
2

p
j=1
(c
j
i
)
2
.
Si cos
2
(y
i
, y
E
k
i
) est proche de 1, lindividu i appartient presque `a E
k
, et il est donc bien
represente sur E
k
.
Si cos
2
(y
i
, y
E
k
i
) est proche de 0, lindividu i est mal represente sur E
k
.
Ainsi, la qualite de representation de lindividu i sur le premier plan principal E
2
est mesuree
par
cos
2
(y
i
, y
E
2
i
) =
[[ y
E
2
i
[[
2
M
[[y
i
[[
2
M
=
(c
1
i
)
2
+ (c
2
i
)
2

p
j=1
(c
j
i
)
2
.
Remarque : Dans une carte des individus, on ne peut tirer de conclusions sur les individus
(regrougements, individus exceptionnels, etc. . .) que si ces individus sont bien representes dans
le plan principal considere.
Contribution dun individu `a un axe :
Il sagit ici de detecter les individus inuents, ou aberrants, qui peuvent determiner
` a eux seuls lorientation des axes, et plus globalement lensemble des resultats de lACP. Ces
individus sont source dinstabilite dans lanalyse, dans le sens o` u les resultats de lACP sont
totalement dierents lorsque lACP est faite sur lechantillon dont on a retire ces individus. Une
fois detectes, ces individus seront veries (pour voir sil ne sagit tout betement pas dune erreur
de transcription), et eventuellement ecartes de lACP pour etre reintegres ensuite comme indivi-
dus supplementaires (cf plus loin). Pour les detecter, on denit une mesure de la contribution
de lindividu i `a linertie du nuage des individus comme le rapport
p
i
|y
i
|
2
M
I
=
p
i

p
k=1
(c
k
i
)
2
I
.
On peut aussi mesurer la contribution dun individu ` a chacun des axes principaux. Rappelons
que linertie globale portee par laxe
u
k
vaut
k
. Cette inertie se decompose de la mani`ere
suivante :

k
= var(c
k
) =
n

i=1
p
i
(c
k
i
)
2
.
p
i
(c
k
i
)
2
est la part dinertie portee par
u
k
, provenant de lindividu i. On denit alors la contri-
bution de lindividu i au k-i`eme axe principal comme le rapport
p
i
(c
k
i
)
2

k
= p
i
(d
k
i
)
2
.
74 ANALYSE DES DONNEES. FABIENNE CASTELL.
Si tous les individus ont le meme poids 1/n dans lanalyse, alors les contributions nap-
portent pas plus dinformation que les coordonnees, et les individus ayant de fortes contribu-
tions peuvent etre detectes sur les botes `a moustaches des composantes principales c
1
, , c
r
,
ou des facteurs principaux d
1
, , d
r
.
Generalement, on consid`ere que la contribution dun individu ` a un axe est importante, si
elle exc`ede son poids p
i
.
Individus supplementaires :
Il sagit dindividus qui ne font pas partie de lechantillon ayant servi pour lACP, et quon
represente sur les axes principaux. Soit s un tel individu, represente par un vecteur de R
p
. Ses
coordonnees dans le rep`ere dorigine g et daxes
u
1
, ,
up
sont donnees par s g, u
k

M
.
4.4.2 Representation des variables.
La carte des variables.
Dans lespace des variables, les axes principaux (correspondant aux valeurs propres non
nulles) sont d
1
, d
2
, , d
r
. Une variable y
i
est donc representee par sa projection sur lespace
principal F
q
(q = 2 ou 3) engendre par d
1
, , d
q
. Ses coordonnees sont

y
i
; d
k
_
D
= cov(y
j
, d
k
) =

k
u
j
k
(cf point 3. de la proposition 4.2.7).
Denition 4.4.4 Pour tout k et l r, la projection du nuage V sur le plan principal engendre
par (d
k
, d
l
) est appelee carte des variables.
Qualite de la representation du nuage des variables :
Linertie totale du nuage vaut
I(V) = Trace(Y MY

D) =
r

j=1

j
= I(N) = I .
La qualite globale de la representation du nuage V sur le s.e principal F
k
est mesuree par

1
+ +
k

p
j=1

j
.
Qualite de la representation dune variable :
La qualite de la representation de la variable y
j
sur laxe principal engendre par d
k
est
mesuree par :
cos
2
(y
j
, y
j,d
k
) =
[[ y
j,d
k
[[
2
D
[[y
j
[[
2
D
=
< y
j
; d
k
>
2
D
s
2
j
= r
2
(y
j
, d
k
) ,
o` u r(y
j
, d
k
) est le coecient de correlation lineaire entre y
j
et d
k
. Comme d
k
= c
k
/

k
, la
qualite de la representation de la variable y
j
sur laxe principal engendre par d
k
est aussi egale
` a r
2
(d
j
, c
k
).
CHAPITRE 4. Analyse en Composantes Principales. 75
De la meme fa con, la qualite de la representation de la variable y
j
sur le premier plan
principal F
2
engendre par d
1
et d
2
est mesuree par :
cos
2
(y
j
, y
j,F
2
) =
[[ y
j,F
2
[[
2
D
[[y
j
[[
2
D
= r
2
(y
j
, c
1
) +r
2
(y
j
, c
2
) .
Si cos
2
(y
j
, y
j,F
2
) est proche de 1, alors la variable y
j
est bien representee dans F
2
.
Si cos
2
(y
j
, y
j,F
2
) est proche de 0, alors la variable y
j
est mal representee sur F
2
.
Cas particulier dune ACP normee. Cercle des correlations.
On se place ici dans le cadre dune ACP normee o` u M = D
1/S
2 = diag(1/s
2
1
, , 1/s
2
p
).
Rappelons que ceci revient `a centrer et reduire les donnees au prealable de lanalyse, et ` a
prendre pour metrique M = I
p
dans lespace des individus. Considerons Z le tableau centre
reduit :
Z = [z
1
, z
2
, . . . , z
p
] , o` u pour tout j = 1, . . . , p, z
j
=
x
j
x
j
s
j
.
On a Z = Y D
1/S
et lACP(Y, D, D
1/S
2) nest autre que lACP(Z, D, Id).
Dans ce cas, |z
j
|
2
D
= var(z
j
) = 1 et toutes les variables sont situees sur la sph`ere unite S
n
de lespace des variables R
n
. Lintersection de cette sph`ere avec le premier plan factoriel est
donc un cercle unite appele cercle des correlations. La projection de z
j
sur F
2
est un point
` a linterieur du cercle des correlations, et la representation de la j-i`eme variable z
j
est dautant
meilleure que sa projection est proche du cercle des correlations. Par ailleurs, la coordonnee de
la variable z
j
sur le k-i`eme axe principal est donnee par

z
j
, d
k
_
D
= cov(z
j
, d
k
) = cor(z
j
, d
k
)
puisque var(z
j
) = var(d
k
) = 1. Donc en ACP normee, les composantes des variables
sur le k-i`eme facteur correspondent aux coecients de correlation lineaire entre
ces variables et la j-i`eme CP c
j
.
Remarques :
1. Letude des correlations des variables z
j
avec la CP c
k
permet dinterpreter c
k
en fonction
des z
j
. Cette etude des correlations peut se faire par letude des proximites des projections
z
j
avec le point (1, 0) du plan (v
k
, v
l
).
2. Les cartes des variables facilitent linterpretation de la matrice des correlations des va-
riables. Si deux variables z
j
et z
j

sont bien representees par leurs projections z


j

et z
j

sur le plan (v
k
, v
l
) alors :
la proximite des projections z
j
et z
j

indique une forte correlation linaire entre z


j
et
z
j

,
des points z
j
et z
j

diametralement opposes indiquent une correlation negative proche


de 1,
des directions de z
j
et de z
j

presque orthogonales indiquent une faible correlation entre


z
j
et z
j

.
76 ANALYSE DES DONNEES. FABIENNE CASTELL.
4.5 Reconstitution des donnees de depart.
A partir de la decomposition des vecteurs y
i
de R
p
sur la base de vecteurs propres u
1
, , u
p

y
i
=
p

j=1
c
j
i
u
j
=
r

j=1
_

j
d
j
i
u
j
,
on peut facilement deduire legalite matricielle
Y =
_

1
d
1
u

1
+
_

2
d
2
u

2
+ +
_

r
d
r
u

r
,
qui represente la matrice Y comme une somme de matrices de rang 1. Cette relation
montre que lon peut reconstituer le tableau centre initial ` a partir des valeurs propres
j
,
des vecteurs principaux u
j
R
p
et des facteurs principaux d
j
R
n
associes, obtenus dans
lanalyse des individus et des variables respectivement. Cette relation est appelee formule de
reconstitution.
Si on se limite aux k (k < r) premiers termes, on obtient une approximation du tableau
initial :
Y

Y =
k

j=1
_

j
d
j
u

j
.
La matrice

Y est de taille (n, p), et de rang k. En eet, pour tout j
0
1, , p,

Y Mu
j
0
=
k

j=1
_

j
d
j
u

j
Mu
j
0
=
k

j=1

j,j
0
_

j
d
j
=
_ _

j
0
d
j
0
si j
0
k ,
0 si j
0
> k .
On en deduit que rang(

Y M) = k, et comme M est inversible, il resulte que rang(

Y ) = k. Le
theor`eme dEckart-Young etablit que cette somme des k premiers termes de rang 1 fournit la
meilleure approximation de Y par une matrice de rang k au sens des moindres carres :
_
_
_Y

Y
_
_
_
2
M,D
= inf
_
|Y T|
2
M,D
; T matrice (n, p) de rang k
_
,
o` u on a note |T|
M,D
= sup
vR
p
_
|Tv|
D
|v|
M
_
.
4.6 Pratique de lACP.
4.6.1 Nombre daxes `a retenir.
Le principal objectif dune ACP etant la reduction du nombre de variables initiales, la
determination du nombre q daxes `a retenir est donc tr`es importante.
De nombreux crit`eres de choix pour q ont ete proposes dans la litterature. Voici les plus
courants.
CHAPITRE 4. Analyse en Composantes Principales. 77
La part dinertie : Souvent la qualite globale de la representation est utilisee pour
choisir q de sorte que la part dinertie expliquee par E
q
(ou F
q
) soit superieure `a une
valeur seuil xee a priori par lutilisateur.
La r`egle de Kaiser : Elle preconise de ne conserver que les valeurs propres superieures
` a leur moyenne (=
1
p

p
i=1

i
= I/p), seules jugees plus informatives que les variables
initiales. Dans le cas dune ACP normee, ne sont donc retenues que les valeurs propres
superieures ` a 1. Ce crit`ere a tendance `a surestimer le nombre daxes pertinents.
Leboulis des valeurs propres : Cest un graphique presentant la decroissance des
valeurs propres. Il est obtenu en tracant les valeurs propres
j
en fonction de leur indice
j. Le principe consiste ` a chercher un coude dans le graphe. Les axes ` a retenir sont alors
ceux dont les valeurs propres se situent avant le coude.
4.6.2 Interpretation de lACP.
Les axes factoriels sont interpretes par rapport aux variables bien representees en utilisant
les contributions, ou le cercle des correlations.
Les graphiques des individus sont interpretes en tenant compte des qualites de representation,
en termes de regroupement ou dispersion par rapport aux axes principaux.
Les contributions des individus permettent didentier ceux qui ont une grande inuence
sur lACP. Ces individus sont `a verier, et eventuellement ` a considerer comme supplementaires
dans une autre analyse.
Pour decrire une carte des variables ou des individus, on adoptera le plan sui-
vant :
1. Donner le pourcentage dinertie expliquee par le plan considere et chacun des axes ;
2. Indiquer les variables (resp.les individus) mal represente(e)s dans ce plan pour les exclure
de la description ;
3. Utiliser les contributions
des variables pour interpreter les axes en termes de variables de depart
des individus pour identier ceux qui sont inuents pour lorientation dun axe et ceux
qui ont une contribution excessive. Ces individus sont source dinstabilite (le fait den-
lever un tel individu de lanalyse modiant de mani`ere importante les resultats). Il est
important de verier quil ne sagit pas de donnees erronees et de faire une nouvelle
analyse en les considerant en supplementaires.
4. Pour une carte des variables : etudier les angles entre les projections des variables
en termes de covariance ou de correlation dans le cas dune ACP normee pour degager
eventuellement des groupes de variables. Verier les tendances visualisees sur la carte par
un examen de la matrice de correlation.
5. Pour une carte dindividus : etudier les proximites ou les oppositions entre les points
en termes de comportement et degager eventuellement des groupes dindividus et des
comportements singuliers de certains. Verier les caracteristiques degagees par un examen
des donnees de depart.
6. Faire une synth`ese des informations et hypoth`eses principales degagees de la carte decrite.
78 ANALYSE DES DONNEES. FABIENNE CASTELL.
4.7 Tableau recapitulatif
Individus Variables
Espace vectoriel R
p
R
n
Tableau des donnees Y (n, p) Y

(p, n)
Matrice des poids D = diag(p
1
, , p
n
) M
Metrique M D
Matrice `a diagonaliser V M = Y

DY M Y MY

D
Valeurs propres non nulles
1

r
> 0
1

r
> 0
Axes principaux u
1
, , u
p
d
1
, , d
r
, ?, , ?
_
Y

DY Mu
j
=
j
u
j
u
j
, u
k

M
=
jk
_
Y MY

Dd
j
=
j
d
j

d
j
, d
k
_
D
=
jk
Composantes principales c
j
= Y Mu
j
c
k
= Y

Dd
k
|c
j
|
2
D
= var(c
j
) =
j
Facteurs principaux d
1
, , d
r
, d
j
=
c
j
_

j
u
1
, , u
r
Representations sur le k-i`eme axe factoriel
(c
k
i
)
2

p
j=1
(c
j
i
)
2
cor
2
(y
i
, c
k
)
Contributions sur le k-i`eme axe p
i
(d
k
i
)
2
= p
i
(c
k
i
)
2

k
4.8 Exemple.
On reprend ici les donnees du chier decathlon.csv (package FactoMineR), qui decrivent
les performances dathl`etes aux epreuves du decathlon.
4.8.1 Description du jeu de donnees.
Il sagit dun tableau `a 41 lignes (qui correspondent ` a 41 athl`etes) et 13 colonnes. Les 10
premi`eres colonnes donnent les performances aux 10 epreuves du decathlon ; la onzi`eme (Rank)
donne le rang de lathl`ete dans la competition consideree (Jeux Olympiques dAth`enes dAo ut
2004, ou Decastar de Sept 2004) ; la douzi`eme (Points) donne le nombre de points obtenus lors
de la competition ; la treizi`eme (Competition) donne le nom de la competition. Nous sommes
donc en presence de 10 variables quantitatives, une variable ordinale, une variable discr`ete, et
une variable qualitative.
4.8.2 Objectif. Choix des variables et des individus actifs.
Le but est ici detablir
des prols dathl`etes (rapides, endurants, etc...) en fonction des performances aux
dierentes epreuves ;
des ressemblances entre epreuves.
CHAPITRE 4. Analyse en Composantes Principales. 79
valeur propre % dinertie % dinertie cumulee
comp 1 3.5446573 35.446573 35.44657
comp 2 1.9699560 19.699560 55.14613
comp 3 1.4217248 14.217248 69.36338
comp 4 0.9034912 9.034912 78.39829
comp 5 0.5636320 5.636320 84.03461
comp 6 0.5282270 5.282270 89.31688
comp 7 0.4328613 4.328613 93.64550
comp 8 0.3658102 3.658102 97.30360
comp 9 0.1634956 1.634956 98.93855
comp 10 0.1061447 1.061447 100.00000
Table 4.1 Valeurs propres et part dinertie associee.
LACP va donc porter sur les 10 premi`eres variables. En ce qui concerne les individus, on va
construire lACP sur les athl`etes qui ont participe aux JO dAth`enes. On va donc faire une
ACP sur un tableau de taille (28,10). Comme les variables sont dans des unites dierentes, on
fait une ACP normee.
Pour cela, on utilise la fonction PCA de R qui fait partie du package FactoMineR.
4.8.3 Choix du nombre daxes `a retenir.
Le tableau 4.1 donne la valeur propre
k
, le pourcentage dinertie correspondant ` a laxe
principal
u
k
, et le pourcentage dinertie correspondant ` a lespace principal E
k
. La gure 4.1
donne leboulis des valeurs propres.
Si on veut garder le nombre de composantes necessaires pour prendre en compte 80% de
linertie du nuage, on est amene ` a conserver q = 5 composantes. Mais on a dej`a 78% de
linertie avec q = 4 composantes.
Si on applique la r`egle de Kaiser, on ne conserve que les valeurs propres superieures ` a 1.
On conserve donc uniquement q = 3 composantes.
Si on applique la r`egle de leboulis, on est amene ` a conserver q = 4 composantes.
On poursuit lanalyse en conservant seulement les quatre premi`eres composantes (qui expliquent
78% de linertie du nuage).
4.8.4 Carte des variables.
Les tableaux des contributions et des representations de chaque variable sur les quatre pre-
miers facteurs principaux sont donnes dans la table 4.2. Le cercle des correlations correspondant
au premier plan factoriel est donne dans la gure 4.2, celui correspondant aux axes factoriels 3
et 4 est donne dans la gure 4.3.
Le premier axe factoriel explique 35% de linertie. Les variables qui ont le plus contribue ` a
cet axe sont les variables , 100m, Long.jump, 400m, 110m.Hurdle, qui sont aussi tr`es bien
representees sur cet axe. Cet axe correspond donc ` a une epreuve ctive qui mesure des
80 ANALYSE DES DONNEES. FABIENNE CASTELL.
Eboulis des valeurs propres
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0
3
.
5
Figure 4.1 Eboulis des valeurs propres
Representations Contributions
Dim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3 Dim.4
100m 0.633 0.064 0.063 0.005 17.86 3.26 4.49 0.56
Long.jump 0.629 0.105 0.024 3.4 e-05 17.76 5.36 1.69 0.003
Shot.put 0.395 0.387 0.0005 1.78 e-02 11.16 19.68 0.035 1.97
High.jump 0.391 0.222 0.0001 1.11 e-02 11.05 11.30 0.011 1.23
400m 0.539 0.244 0.052 1.23 e-02 15.20 12.42 3.71 1.36
110m.hurdle 0.502 0.054 0.001 1.2 e-02 14.17 2.74 0.13 1.33
Discus 0.293 0.445 0.0003 3.84 e-02 8.29 22.60 0.022 4.25
Pole.vault 0.032 0.106 0.389 3.73 e-01 0.90 5.4 27.42 41.36
Javeline 0.082 0.114 0.271 4.29 e-01 2.31 5.83 19.09 47.58
1500m 0.044 0.224 0.616 2.9 e-03 1.25 11.37 43.36 0.32
Table 4.2 Representations et Contributions des dierentes variables aux quatre premi`eres
composantes principales.
CHAPITRE 4. Analyse en Composantes Principales. 81
-1.0 -0.5 0.0 0.5 1.0
-
1
.
0
-
0
.
5
0
.
0
0
.
5
1
.
0
Variables factor map (PCA)
Dim 1 (35.45%)
D
i
m

2

(
1
9
.
7
%
)
100m
Long.jump
Shot.put
High.jump
400m
110m.hurdle
Discus
Pole.vault
Javeline
1500m
Figure 4.2 Cercle des correlations dans le premier plan factoriel.
performances en vitesse. On voit sur le cercle des correlations que le saut en longueur est
negativement correle au 100m, 110m haies, et 400m. Cela est evident : plus lathl`ete court vite,
plus son temps aux epreuves de course est faible, mais plus il saute loin.
Le deuxi`eme axe factoriel explique 19% de linertie. Les variables qui contribuent le plus
` a cet axe sont le lancer de poids Shot.put et le lancer de disque Discus. Cet axe correspond
donc `a une variable ctive qui mesure des performances en lancer. Toutefois, le lancer de javelot
contribue tr`es peu ` a cet axe, et y est mal represente. Il semble donc que le lancer de javelot
fasse appel `a dautres qualites que le lancer de poids et du disque. On peut noter que le 400m
et le saut en hauteur sont bien representes sur le premier plan factoriel, et contribue de facon
` a peu pr`es equivalente aux deux axes. Toutefois, ces deux epreuves sont en opposition selon le
facteur 1.
Le troisi`eme axe explique 14 % de linertie. Les variables qui contribuent le plus ` a cet axe
sont le 1500m, et dans une moindre mesure le saut ` a la perche et le lancer de javelot. Ce
troisi`eme axe oppose le saut `a la perche et le javelot.
Le quatri`eme axe explique 9 % de linertie. Les variables qui contribuent le plus `a cet axe sont
la saut `a la perche et le lancer de javelot. Notez que ces deux variables contribuent egalement
de facon signicative au troisi`eme axe.
82 ANALYSE DES DONNEES. FABIENNE CASTELL.
-1.0 -0.5 0.0 0.5 1.0
-
1
.
0
-
0
.
5
0
.
0
0
.
5
1
.
0
Variables factor map (PCA)
Dim 3 (14.22%)
D
i
m

4

(
9
.
0
3
%
)
100m
Long.jump
Shot.put
High.jump
400m
110m.hurdle
Discus
Pole.vault
Javeline
1500m
Figure 4.3 Cercle des correlations dans le plan factoriel correspondant aux axes 3 et 4.
4.8.5 Carte des individus.
Les tableaux des contributions et des representations de chaque individu sur les quatre
premiers axes principaux sont donnes dans la table 4.3. Le nuage de points individus projete sur
le premier plan principal est donne dans la gure 4.4, celui correspondant aux axes principaux
3 et 4 est donne dans la gure 4.5. Il semble que le premier axe principal oppose des athl`etes
bons partout (Sebrle, Clay, Karpov) ` a des athl`etes faibles partout (Uldal, Casarsa). Le
classement des athl`etes suivant le premier axe principal se confond presque avec le classement
aux JO. Cela pourrait se verier en mettant les variables ordinales Points et Rank en variables
supplementaires, et en regardant leur correlation avec le premier facteur principal.
Le deuxi`eme axe est plus dicilement interpretable. Neanmoins, le nuage des individus a
une variabilite plus importante sur le deuxi`eme axe, pour les individus dont la coordonnee sur
le premier axe est faible (individus faibles partout). Parmi les athl`etes faibles, le deuxi`eme
axe oppose Lorenzo et Korzizoglu, et semble donc opposer les athl`etes endurants des autres (cf
les resultats au 1500m).
4.9 Exercices
Exercice 1: Soit M le nuage des cinqs points suivants de R
2
:
A(1, 1) B(1, 0) C(0, 0), D(1, 1), E(0, 1) ,
CHAPITRE 4. Analyse en Composantes Principales. 83
Representations Contributions
Dim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3 Dim.4
Sebrle 0.66 0.11 0.002 0.15 13.89 4.25 0.12 12.47
Clay 0.68 0.038 0.005 0.07 13.56 1.37 0.26 5.55
Karpov 0.80 0.007 0.005 0.133 18.43 0.32 0.32 11.91
Macey 0.36 0.18 0.154 0.12 3.79 3.37 3.99 4.91
Warners 0.46 0.37 0.102 0.03 3.76 5.41 2.05 1.007
Zsivoczky 0.08 0.27 0.18 0.05 0.50 2.92 2.72 1.17
Hernu 0.16 0.08 0.18 0.01 0.49 0.48 1.39 0.12
Nool 0.003 0.33 0.10 0.43 0.03 5.70 2.53 15.96
Bernard 0.36 0.002 0.001 0.39 2.58 0.033 0.033 10.96
Schwarzl 0.002 0.52 0.128 0.059 0.008 3.958 1.35 0.98
Pogorelov 0.011 0.065 0.55 0.009 0.068 0.68 7.96 0.21
Schoenbeck 0.005 0.03 0.11 0.36 0.015 0.15 0.79 4.1
Barras 0.01 0.03 0.61 0.084 0.085 0.27 7.11 1.52
Smith 0.021 0.11 0.23 0.11 0.23 2.31 6.22 4.91
Averyanov 0.008 0.49 0.04 0.013 0.049 5.50 0.66 0.34
Ojaniemi 0.002 0.127 0.007 0.002 0.014 1.14 0.09 0.04
Smirnov 0.10 0.29 0.39 0.026 0.41 2.06 3.88 0.40
Qi 0.159 0.010 0.30 0.035 0.550 0.064 2.62 0.482
Drews 0.014 0.809 0.063 0.025 0.18 17.81 1.943 1.22
Parkhomenko 0.15 0.306 0.047 0.255 1.79 6.26 1.34 11.38
Terek 0.071 0.005 0.49 0.005 0.83 0.12 14.3 0.24
Gomez 0.066 0.18 0.36 0.004 0.43 2.17 5.91 0.11
Turi 0.33 0.003 0.069 0.014 3.39 0.069 1.72 0.55
Lorenzo 0.503 0.17 0.19 0.0005 6.94 4.42 6.78 0.029
Karlivans 0.57 0.003 0.001 0.14 5.60 0.065 0.04 5.61
Korkizoglou 0.12 0.19 0.51 0.04 2.22 6.02 22.65 3.21
Uldal 0.85 0.001 0.027 0.0001 8.68 0.03 0.70 0.006
Casarsa 0.45 0.504 0.006 0.005 11.38 22.94 0.38 0.49
Table 4.3 Representations et Contributions des dierents athl`etes aux quatre premi`eres axes
principaux.
84 ANALYSE DES DONNEES. FABIENNE CASTELL.
-4 -2 0 2 4 6
-
4
-
2
0
2
4
Individuals factor map (PCA)
Dim 1 (35.45%)
D
i
m

2

(
1
9
.
7
%
)
Sebrle
Clay
Karpov
Macey
Warners
Zsivoczky
Hernu
Nool
Bernard
Schwarzl
Pogorelov
Schoenbeck
Barras
Smith
Averyanov
Ojaniemi
Smirnov
Qi
Drews
Parkhomenko
Terek
Gomez
Turi
Lorenzo
Karlivans
Korkizoglou
Uldal
Casarsa
Figure 4.4 Nuage des individus projete sur le premier plan principal.
CHAPITRE 4. Analyse en Composantes Principales. 85
-2 -1 0 1 2 3
-
2
-
1
0
1
2
Individuals factor map (PCA)
Dim 3 (14.22%)
D
i
m

4

(
9
.
0
3
%
)
Sebrle
Clay
Karpov
Macey
Warners
Zsivoczky
Hernu
Nool
Bernard
Schwarzl
Pogorelov
Schoenbeck
Barras
Smith
Averyanov
Ojaniemi
Smirnov
Qi
Drews
Parkhomenko
Terek
Gomez
Turi
Lorenzo
Karlivans
Korkizoglou
Uldal
Casarsa
Figure 4.5 Nuage des individus projete sur le plan principal correspondant aux axes princi-
paux 3 et 4.
86 ANALYSE DES DONNEES. FABIENNE CASTELL.
` a qui on attribue le meme poids.
1. On consid`ere la distance euclidienne usuelle sur M. Faire un graphique representant ces
points dans un rep`ere orthonorme et calculer linertie du nuage.
2. Changement de metrique : determiner lexpression analytique de la distance d
M
sur R
2
associe ` a la matrice M = D
1/S
2. Calculer linertie dans ce cas.
3. ACP canonique.
(a) Soit u = (1, 1). Calculez linertie portee par
u
, et la deformation du nuage lors de
la projection.Faites un dessin.
(b) Calculez les axes principaux, ainsi que linertie associee `a ces axes lorsque M = Id.
(c) Calculez les composantes principales et les facteurs principaux.
(d) Dessinez le nuage de points projete sur le premier axe. Calculez la representation
globale sur le premier axe, et la contribution de chaque individu sur le premier axe.
4. Comparaison avec la droite de regression. La droite de regression dun nuage de
points de R
2
donnees par (x
1
i
, x
2
i
); i = 1 n est la droite x
2
= ax
1
+ b qui minimise

n
i=1
(x
2
i
ax
1
i
b)
2
. Donnez lexpression de a et b dans le cas general. Les calculez dans
le cas particulier du nuage donne par A, B, C, D, E. Commentez.
Exercice 2: Faire une ACP sur les donnees wine du package FactoMineR.
Chapitre 5
Analyse Factorielle des
Correspondances (AFC).
Lanalyse factorielle des correspondances a ete proposee dans les annees soixante par J.P.
Benzecri an detudier la liaison (dite encore correspondance) entre deux variables qualitatives.
Cette methode permet danalyser des tables de contingence obtenues en observant deux va-
riables qualitatives X et Y sur un ensemble de n individus, et certains tableaux binaires
(tableaux dits de presence-absence). Cest une methode tr`es utilisee en analyse des donnees
textuelles.
Exemple 5.1: (cf livre de G. Saporta) On observe sur 10.000 etudiants les deux variables
qualitatives X=CSP du p`ere et Y =Type detudes superieures poursuivies.
Exemple 5.2: On analyse les reponses de 2000 personnes ` a une question ouverte et on
sinteresse au tableau croisant les 21 mots les plus utilises avec 5 niveaux de diplomes des
personnes interrogees. Ici A correspond aux formes (variable qualitative avec 21 modalites) et
B aux diplomes (5 modalites).
Un individu= une occurence dune forme.
LAnalyse Factorielle des Correspondances (AFC) peut etre presentee comme une analyse
en composantes principales avec une metrique speciale, la metrique du khi-deux.
5.1 Rappels
5.1.1 Table de contingence et prols.
Supposons que la variable X a r modalites (notees l
1
, , l
r
), et que la variable Y a c
modalites (notees d
1
, , d
c
). Nous avons vu au chapitre 3.3 que les donnees peuvent etre
resumees dans une table de contingence N, dont les entrees sont les eectifs de chaque couple
(l
i
, d
j
) :
n
ij
= nbre dindividus sur lesquels on a observe les modalites l
i
de X et d
j
de Y
=
n

k=1
1I
x
k
=l
i
1I
y
k
=d
j
.
87
88 ANALYSE DES DONNEES. FABIENNE CASTELL.
XY d
1
d
j
d
c
total
l
1
n
11
n
1j
n
1s
n
1.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
l
i
n
i1
n
ij
n
is
n
i.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
l
r
n
r1
n
rj
n
rs
n
r.
total n
.1
n
.j
n
.s
n
Loperation consistant ` a etablir un tel tableau est appelee un tri croise dans le domaine de
lenquete. Les eectifs marginaux sont :
n
i.
=
c

j=1
n
ij
= i`eme marge en ligne,
n
.j
=
r

i=1
n
ij
= j`eme marge en colonne.
On rappelle aussi la denition des prols-lignes :
L
i
= i`eme prol-ligne =
_
n
i1
n
i.
, ,
n
ic
n
i.
_
R
c
.
Le i`eme prol-ligne donne les frequences empiriques des modalites d
1
, d
2
, . . . , d
c
de la variable
Y , dans le sous-echantillon des individus pour lesquels la variable X vaut l
i
.
De la meme facon, les prols-colonnes donnent les frequences des modalites l
1
, l
2
, . . . , l
r
de
la variable X dans le sous-echantillon des individus pour lesquels la variable Y vaut d
j
.
C
j
= j`eme prol-colonne =
_
n
1j
n
.j
, ,
n
rj
n
.j
_
R
r
.
5.1.2 Ecart `a lindependance
Lorsque les variables X et Y sont independantes, nous avons vu au chapitre 3.3 que :
i, j,
n
ij
n

n
i.
n
n
.j
n
i, j,
n
ij
n
i.
=
n
.j
n
i, j,
n
ij
n
.j
=
n
i.
n
. (5.1)
Ainsi, les prols-lignes ont tendance ` a etre tous egaux dans le cas o` u X et Y sont independantes.
Il en est de meme pour les prols-colonnes.
Pour mesurer lecart ` a lindependance, on a introduit la quantite :
t
n
=
r

i=1
c

j=1
(n
ij

n
i.
n
.j
n
)
2
n
i.
n
.j
n
Pour chaque case (i, j) du tableau, il est important detudier sa contribution ` a t
n
:
_
n
ij

n
i.
n
.j
n
_
2
n
i.
n
.j
n
CHAPITRE 4. Analyse en Composantes Principales. 89
On peut egalement calculer le pourcentage par rapport `a t
n
. Ceci met en evidence les asso-
ciations signicatives entre modalites des deux variables. Le signe de la dierence n
ij

n
i.
n
.j
n
indique sil sagit dune association sur-representee (positive) ou sous-representee (negative).
Nous rappelons que la quantite t
n
est la statistique du test du
2
dindependance qui permet
de tester (H
0
) : Les variables X et Y sont independantes contre (H
1
) :X et Y sont liees. En
eet, sous (H
0
), t
n
est une realisation dune variable aleatoire T
n
suivant une loi du
2
(r1)(c1)
dans la limite des grands echantillons.
Remarque : Dautres indices ont ete abondamment proposes pour mesurer la dependance
entre deux variables. On pourra voir par exemple l ouvrage de Goodman et Kruskal : Measures
of association for cross-classications, Springer-verlag, New-York (1979).
5.2 Principes de lAFC
Rappelons que notre tableau de donnees est un tableau de contingence N ` a r lignes et c
colonnes. Si on note D
r
et D
c
les matrices diagonales des eectifs marginaux des variables X
et Y :
D
r
= diag(n
1.
, , n
r.
) , D
c
= diag(n
.1
, , n
.c
) ,
les tableaux des prols lignes et des prols-colonnes secrivent :
T
r
= D
1
r
N et T
c
= ND
1
c
.
5.2.1 Nuage des prols-lignes
Chaque prol-ligne L
i
est un point dans lespace R
c
. On est donc en presence dun nuage de
r points dans R
c
, qui dans le cas o` u X et Y sont independantes, a tendance `a se concentrer sur
un seul point. Pour juger de la dependance entre X et Y , on peut donc etudier la forme de ce
nuage de points, au moyen dune ACP, et considerer le tableau T
r
des prols-lignes comme un
tableau individus-variables particulier. Les individus de cette ACP sont alors les modalites
de la variable X et il est assez logique daecter ` a la modalite c
i
de X un poids reetant sa
frequence dans la population. Le i-`eme prol-ligne est alors muni du poids f
i.
=
n
i.
n
.
Denition 5.2.1 On appelle nuage des prols-lignes M
r
, lensemble des r points L
i
de R
c
munis de leurs poids f
i.
: M
r
= (L
i
, f
i.
) ; i = 1, . . . , r .
Proprietes :
1. Le centre de gravite g
r
du nuage M
r
(prol-moyen des lignes) a pour coordonnees :
g
r
=
_
_
_
n
.1
n
.
.
.
n.c
n
_
_
_
=
_
_
_
f
.1
.
.
.
f
.c
_
_
_
R
c
.
90 ANALYSE DES DONNEES. FABIENNE CASTELL.
2. Les points L
i
de M
r
, ainsi que leur centre de gravite g
r
, appartiennent ` a un sous-espace
ane de R
c
, `a savoir lhyperplan H
c1
de dimension c 1 deni par :
H
c1
=
_
(x
1
, , x
c
) R
c
;
c

i=1
x
i
= 1
_
.
Preuve :
1. g
r
=

r
i=1
f
i.
L
i
. Ainsi pour tout j 1, , c,
g
r
(j) =
r

i=1
n
i.
n
L
i
(j) =
r

i=1
n
i.
n
n
ij
n
i.
=
r

i=1
n
ij
n
=
n
.j
n
.
2. Pour tout i 1, , r,
c

j=1
L
i
(j) =
c

j=1
n
ij
n
i.
=
n
i.
n
i.
= 1 .
Ainsi chaque prol ligne L
i
est dans H
c1
. Comme g
r
est une combinaison lineaire des
L
i
, g
r
est aussi dans H
c1
.
Par analogie avec les notations du chapitre sur lACP, on a donc
Tableau des donnees : X = T
r
= D
1
r
N de taille (r, c) ;
Tableau des donnees centrees : Y = X 1I
c
g

r
;
Matrice des poids D = diag
_
n
1.
n
, ,
nr.
n
_
=
1
n
D
r
de taille (r, r) ;
Espace des prols-lignes (individus) : R
c
, plus precisement H
c1
.
5.2.2 Nuage des prols-colonnes
Les deux variables X et Y jouant des r oles symetriques, ce qui vient detre fait pour les
prols-lignes peut aussi etre fait pour les prols-colonnes. Chaque prol-colonne C
j
est un point
dans lespace R
r
. Lensemble des prols-colonnes forme donc un nuage de c points dans R
r
, qui
dans le cas o` u X et Y sont independantes, a tendance ` a se concentrer sur un seul point. La
structure de la dependance entre X et Y peut donc aussi etre etudiee en faisant une ACP des
prols-colonnes. Les individus de cette ACP sont alors les modalites de la variable Y et le
j-`eme prol-colonne C
j
est muni du poids f
.j
=
n
.j
n
.
Denition 5.2.2 On appelle nuage des prols-colonnes M
c
, lensemble des c points C
j
de
R
r
munis de leurs poids f
.j
: M
c
= (C
j
, f
.j
) ; j = 1, . . . , c .
Proprietes :
1. Le centre de gravite g
c
du nuage M
c
(prol-moyen des colonnes) a pour coordonnees :
g
c
=
_
_
_
n
1.
n
.
.
.
nr.
n
_
_
_
=
_
_
_
f
1.
.
.
.
f
r.
_
_
_
R
r
.
CHAPITRE 4. Analyse en Composantes Principales. 91
2. Les points C
j
de M
c
, ainsi que leur centre de gravite g
c
, appartiennent ` a un sous-espace
ane de R
r
, `a savoir lhyperplan H
r1
de dimension r 1 deni par :
H
r1
=
_
(x
1
, , x
r
) R
r
;
r

i=1
x
i
= 1
_
.
Par analogie avec les notations du chapitre sur lACP, on a donc pour lACP des prols-
colonnes
Tableau des donnees : X = T
c
= D
1
c
N

de taille (c, r) ;
Tableau des donnees centrees : Y = X 1I
r
g

c
;
Matrice des poids D = diag
_
n
.1
n
, ,
n.c
n
_
=
1
n
D
c
de taille (c, c) ;
Espace des prols-colonnes : R
r
, plus precisement H
r1
.
Dans le cas de lindependance empirique o` u n
ij
=
n
i.
n
.j
n
, les nuages M
r
et M
c
sont donc
reduits ` a un seul point, leur centre de gravite. Pour continuer lACP des prols-lignes et des
prols-colonnes, il faut maintenant denir une metrique dans lespace des prols-lignes, et une
metrique dans lespace des prols-colonnes.
5.2.3 Metrique du khi2
Distance entre deux prols-lignes :
La distance choisie entre deux prols-lignes L
i
et L
i
est la metrique du chi2 denie par :
d
2

2(L
i
, L
i
) =
c

j=1
n
n.j
_
n
ij
n
i.

n
i

j
n
i

.
_
2
= (L
i
L
i
)

M (L
i
L
i
) = L
i
L
i
, L
i
L
i

M
o` u la matrice M est la matrice diagonale denie par M = nD
1
c
.
Intuitivement, la ponderation par
n
n
.j
de chaque carre de dierence revient ` a donner des
importances comparables aux diverses modalites d
j
de la variable Y . Sans cette ponderation,
la distance re`ete surtout la dierence entre les modalites de plus grands eectifs.
De fa con plus fondamentale, cette distance a la propriete dequivalence distribution-
nelle, qui dit quon peut regrouper des modalites de Y ayant les memes prols-colonnes, sans
changer la distance entre prols-lignes. Cette propriete nest pas vraie pour la distance eucli-
dienne usuelle. Elle garantit une certaine stabilite par rapport ` a la nomenclature choisie pour la
construction des modalites dune variable (par exemple lorsquon transforme une variable quan-
titative en variable qualitative, en la decoupant en classes). Lanalyse est la meme lorsquon
agr`ege les modalites de memes prols. Plus precisement, on a le resultat suivant :
Theor`eme 5.2.3 Supposons que deux colonnes de N, C
j
et C
j
ont meme prol, c`ad
n
ij
n
.j
=
n
ij

n
.j

pour tout i = 1, , r . (5.2)


Regroupons-les en une seule colonne, notee j j

, deectifs n
ij
+ n
ij
, et deectif marginal
n
.j
+ n
.j
. On obtient une nouvelle table de contingence notee

N, de taille (r, c 1), `a laquelle
92 ANALYSE DES DONNEES. FABIENNE CASTELL.
est associee une nouvelle metrique du chi2, notee

d

2, sur les prols-lignes



L
i
de

N (qui sont
des elements de R
c1
). Cette operation ne modie pas les distances entre prols-lignes, i.e.,
pour tout i, i

1, , r,
d

2(L
i
, L
i
) =

d

2(

L
i
,

L
i
) .
Preuve : Les seuls termes qui di`erent entre d

2(L
i
, L
i
) et

d

2(

L
i
,

L
i
) sont les termes qui
concernent les colonnes j et j

. On a donc
d

2(L
i
, L
i
)

d

2(

L
i
,

L
i
)
=
n
n
.j
_
n
ij
n
i.

n
i

j
n
i

.
_
2
+
n
n
.j

_
n
ij

n
i.

n
i

n
i

.
_
2

n
n
.j
+n
.j

_
n
ij
+n
ij

n
i.

n
i

j
+n
i

n
i

.
_
2
.
=
n
n
.j
a
2
+
n
n
.j

b
2

n
n
.j
+n
.j

(a +b)
2
,
o` u on a note a =
n
ij
n
i.

n
i

j
n
i

.
et b =
n
ij

n
i.

n
i

n
i

.
. En developpant le carre, et en regroupant les
termes en a
2
et b
2
, il vient
d

2(L
i
, L
i
)

d

2(

L
i
,

L
i
) =
_
n
n
.j

n
n
.j
+n
.j

_
a
2
+
_
n
n
.j

n
n
.j
+n
.j

_
b
2
2
n
n
.j
+n
.j

ab
= n
n
.j

n
.j
(n
.j
+n
.j
)
a
2
+n
n
.j
n
.j
(n
.j
+n
.j
)
b
2
2
n
n
.j
+n
.j

ab
=
n
n
.j
n
.j
(n
.j
+n
.j
)
_
n
2
.j
a
2
+n
2
.j
b
2
2n
.j
n
.j
ab
_
=
n
n
.j
n
.j
(n
.j
+n
.j
)
(n
.j
a n
.j
b)
2
=
n
n
.j
n
.j
(n
.j
+n
.j
)
_
n
.j

n
ij
n
i.
n
.j

n
i

j
n
i

.
n
.j
n
ij

n
i.
+n
.j
n
i

n
i

.
_
2
=
n
n
.j
n
.j
(n
.j
+n
.j
)
_
1
n
i.
(n
.j
n
ij
n
.j
n
ij
) +
1
n
i

.
(n
.j
n
i

j
n
.j
n
i

j
)
_
2
= 0 ,
puisque dapr`es (5.2), n
ij
n
.j
= n
ij
n
.j
et n
i

j
n
.j
= n
i

j
n
.j
.
Distance entre prols-colonnes :
De facon symetrique, on denit la distance entre deux prols-colonnes C
j
et C
j
par
d
2

2(C
j
, C
j
) =
r

i=1
n
n
i.
_
n
ij
n
.j

n
ij
n
.j

_
2
= (C
j
C
j
)

M(C
j
C
j
) =< C
j
C
j
, C
j
C
j
>
M
.
avec M = nD
1
r
, metrique diagonale sur R
r
.
CHAPITRE 4. Analyse en Composantes Principales. 93
5.2.4 Inertie
Inertie associee au nuage des prols-lignes :
I(M
r
) =
r

i=1
f
i.
d
2

2(L
i
, g
r
)
=
r

i=1
n
i.
n
c

j=1
n
n
.j
_
n
ij
n
i.

n
.j
n
_
2
=
r

i=1
c

j=1
n
i.
n
n
n
.j
_
n
ij
n
i.

n
.j
n
_
2
=
1
n
t
n
.
Inertie associee au nuage des prols-colonne :
De la meme facon, on montre que I(M
c
) =
1
n
t
n
.
5.3 ACP des deux nuages prols
Deux ACP sont possibles :
1. ACP du nuage des prols-lignes avec
Tableau de donnees (r, c) : X = D
1
r
N = T
r
Espace des individus : R
c
Metrique : M = nD
1
c
Poids : D =
1
n
D
r
2. ACP du nuage des prols-colonnes avec
Tableau de donnees (c, r) : X = D
1
c
N

= T

c
Espace des individus : R
r
Metrique : M = nD
1
r
Poids : D =
1
n
D
c
5.3.1 ACP des prols-lignes.
Matrice `a diagonaliser.
En reprenant les notations du chapitre sur lACP, la matrice de variance covariance est
donnee par
V = X

DX gg

= Y

DY =
1
n
N

D
1
r
N g
r
g

r
,
et la matrice ` a diagonaliser est :
V M = N

D
1
r
ND
1
c
ng
r
g

r
D
1
c
.
94 ANALYSE DES DONNEES. FABIENNE CASTELL.
On a dej` a vu que le nuage des prols-lignes etait situe sur le sous-espace H
r1
. Par consequent,
linertie portee par laxe orthogonal ` a ce sous-espace est nulle, et le vecteur directeur de cet axe
est donc un vecteur propre de V M associe `a la valeur propre 0. On peut voir que cet axe nest
autre que la droite (Og
r
). En eet, si x H
r1
,
< Og
r
, g
r
x >

2 = (x g
r
)

Mg
r
= n(x g
r
)

D
1
c
g
r
=
c

j=1
n
n
.j
g
r
(j)(x(j) g
r
(j))
=
c

j=1
n
n
.j
n
.j
n
(x
j

n
.j
n
) =
c

j=1
x
j

c

j=1
n
.j
n
= 1 1 = 0 .
Donc, g
r
est vecteur propre de V M associee `a la valeur propre 0. On peut aussi noter que g
r
est vecteur propre de la matrice ng
r
g

r
D
1
c
, associee `a la valeur propre 1. En eet,
ng
r
g

r
D
1
c
g
r
= ng
r
, g
r

D
1
c
g
r
= g
r
,
puisque ng
r
, g
r

D
1
c
=

c
j=1
n
n
.j
g
r
(j)
2
=

c
j=1
n
n
.j
_
n
.j
n
_
2
=

c
j=1
n
.j
n
= 1. La matrice ng
r
g

r
D
1
c
est en fait la matrice de projection orthogonale sur (Og
r
). En eet, si un vecteur x est orthogonal
(au sens du chi2) `a g
r
, ng
r
g

r
D
1
c
x = g
r
, x

2
g
r
= 0. On a donc montre le resultat suivant :
Proposition 5.3.1 Soit L la matrice
L = N

D
1
r
ND
1
c
= T

r
T
c
.
1. L et V M se diagonalise dans la meme base orthonormee (pour la metrique du chi2).
2. g
r
est vecteur propre de V M associee `a la valeur propre 0, et vecteur propre de L associe
`a la valeur propre 1.
3. Les autres vecteurs propres sont orthogonaux `a g
r
, et sont associes aux memes valeurs
propres pour L et V M.
Dapr`es cette proposition, il est donc inutile de centrer le tableau des prols-lignes. De
mani`ere pratique, on eectuera donc une ACP non centree. Puis `a la valeur propre 1 associee ` a
laxe (Og
r
), on fera correspondre la valeur propre 0 pour se ramener ` a une etude centree en g
r
.
Composantes principales.
Notons (u
k
, k 1, , r 1) les vecteurs principaux autres que g
r
(denis par Lu
k
=

k
u
k
,
k
,= 1). Les composantes principales donnent les coordonnees des prols-lignes sur
chaque axe : pour tout i 1, , r,
c
k
(i) = L
i
, u
k

2
= nL

i
D
1
c
u
k
= n
c

j=1
n
ij
n
.j
n
i.
u
k
(j) .
Ceci se recrit
c
k
= T
r
(nD
1
c
)u
k
= nD
1
r
ND
1
c
u
k
.
Nous rappelons que les composantes principales sont centrees, et de variance
k
.
CHAPITRE 4. Analyse en Composantes Principales. 95
5.3.2 ACP des prols-colonnes.
Matrice `a diagonaliser.
Cette fois, la matrice ` a diagonaliser est V M = ND
1
c
N

D
1
r
ng
c
g

c
D
1
r
. Comme pour les
prols-lignes, on montre que g
c
est vecteur propre de V M associee ` a la valeur propre 0, et que
diagonaliser V M revient ` a diagonaliser la matrice C = ND
1
c
N

D
1
r
= T
c
T

r
.
Si c
k
est une composante principale de lACP des prols-lignes, on a D
r
c
k
= nND
1
c
u
k
, et
donc
C(D
r
c
k
) = nND
1
c
N

D
1
r
ND
1
c
u
k
= nND
1
c
Lu
k
= n
k
ND
1
c
u
k
=
k
D
r
c
k
.
Ainsi D
r
c
k
est vecteur propre de C associe ` a la valeur propre
k
. Si on note v
k
les vecteurs
principaux de lACP des prols-colonnes correspondant aux valeurs propres non nulles, on a
donc v
k
=
Drc
k
|Drc
k
|

2
, avec
_
_
D
r
c
k
_
_
2

2
= (D
r
c
k
)

(nD
1
r
)(D
r
c
k
) = n(c
k
)

D
r
c
k
= n
r

i=1
n
i.
c
k
(i)
2
= n
2
var(c
k
) = n
2

k
.
Par consequent, v
k
=
1
n

k
D
r
c
k
, i.e. pour tout i 1, r,
v
k
(i) =
1

k
n
i.
n
c
k
(i) .
Composantes principales.
Notons ( c
k
) les composantes principales de lACP des prols-colonnes. ( c
k
) donne les coor-
donnees des prols-colonnes sur laxe de vecteur directeur v
k
:
c
k
(j) = v
k
, C
j

2
= nC

j
D
1
r
v
k
= n
r

i=1
n
ij
n
i.
n
.j
v
k
(i) ,
ce qui se recrit :
c
k
= nT

c
D
1
r
v
k
= nD
1
c
N

D
1
r
v
k
.
Nous rappelons que les composantes principales c
k
sont centrees, et de variance
k
.
5.3.3 Relations de transition
Les composantes principales des prols-lignes et celles des prols-colonnes sont reliees par
des formules simples dont un des interets principaux est deviter deux diagonalisations. On
diagonalisera la matrice de plus petite dimension.
On peut montrer que les matrices L et C ont memes valeurs propres non nulles
k
. Leurs
vecteurs propres sont relies par les relations suivantes :
96 ANALYSE DES DONNEES. FABIENNE CASTELL.
Theor`eme 5.3.2 Soit p = rang(L) = rang(C). Pour tout k p, il existe une relation dite de
transition, entre les vecteurs propres u
k
et v
k
:
v
k
=
1

k
T
c
u
k
,
u
k
=
1

k
T

r
v
k
Preuve : Rappelons que D
r
c
k
= n

k
v
k
. Par ailleurs, on a c
k
= nD
1
r
ND
1
c
u
k
, et donc
D
r
c
k
= nND
1
c
u
k
. On en deduit que
v
k
=
1

k
ND
1
c
u
k
=
1

k
T
c
u
k
.
En multipliant cette identite par T

r
, on obtient T

r
v
k
=
1

k
Lu
k
=

k
u
k
.
Le resultat precedent conduit aux relations fondamentales de lAFC reliant les composantes
principales entre elles, dites les relations quasi-barycentriques :
Theor`eme 5.3.3 Soit p = rang(L) = rang(C). Pour tout k p,
c
k
(i) =
1

k
c

j=1
n
ij
n
i.
c
k
(j) ,
c
k
(j) =
1

k
r

i=1
n
ij
n
.j
c
k
(i) .
Preuve :
c
k
= nD
1
r
ND
1
c
u
k
=
1

k
nD
1
r
ND
1
c
T

r
v
k
=
1

k
nD
1
r
ND
1
c
N

D
1
r
v
k
=
1

k
D
1
r
N c
k
.
En ecrivant cette relation coordonnees par coordonnees, on obtient pour tout i 1, , r,
c
k
(i) =
1

k
c

j=1
n
ij
n
i.
c
k
(j) .
La deuxi`eme identite se demontre de la meme fa con.
Interpretation : A un coecient de dilatation pr`es de
1

k
, la projection du prol-ligne i
sur laxe k est le barycentre des projections des prols-colonnes ponderes par les frequences
conditionnelles du prol i (part de la modalite j sachant i). Si n
ij
/n
i.
est proche de 1 (ce qui
signie que lorsque X = i, alors on est pratiquement s ur que Y vaut j), alors le barycentre

c
l=1
n
il
n
i.
c
k
(l) est proche de c
k
(l), et il en est de meme de c
k
(i). Et on a une interpretation
analogue pour la projection du prol-colonne j.
CHAPITRE 4. Analyse en Composantes Principales. 97
La parfaite symetrie entre ACP prol-ligne et ACP prol-colonne (relations quasi-bary-
centriques) conduisent ` a superposer les plans principaux des deux ACP an dobtenir une
representation simultanee des deux nuages. Mais attention ! Les distances entre les projections
des prols-lignes et des prols-colonnes nont pas de sens, puisque ces points sont dans des
espaces dierents. On ne peut les interpreter quen termes de quasi-barycentres.
Exercice : En utilisant les relations quasi-barycentriques, montrer que les valeurs propres
k
de lAFC sont inferieures ou egales `a 1.
5.4 Formules de reconstitution
Comme en ACP on dispose de formules dites de reconstitution permettant de recuperer le
tableau N ` a partir des composantes principales c et c. Pour tout i r et tout j c, on a :
n
ij
=
n
i.
n
.j
n
_
1 +
p

k=1
1

k
c
k
(i) c
k
(j)
_
. (5.3)
Les composants prinipales et les valeurs propres expliquent donc en quoi les n
ij
secartent des
n
i.
n
.j
n
.
Preuve : On decompose le vecteur

g
r
L
i
dans la base orthonormee donnee par les u
k
. On a
par denition des composantes principales c
k
(i) :
L
i
g
r
=
p

k=1
c
k
(i)u
k
=
p

k=1
1

k
c
k
(i)T

r
v
k
=
p

k=1
1

k
c
k
(i)N

D
1
r
v
k
=
p

k=1
1

k
c
k
(i)
D
c
n
c
k
.
En ecrivant cette relation coordonnees par coordonnees, on obtient pour tout j 1, , c,
n
ij
n
i.

n
.j
n
=
p

k=1
1

k
c
k
(i)
n
.j
n
c
k
(j)
n
ij

n
i.
n
.j
n
=
n
i.
n
.j
n
p

k=1
1

k
c
k
(i) c
k
(j)
98 ANALYSE DES DONNEES. FABIENNE CASTELL.
5.5 Tableau recapitulatif :
Nuage M
r
Elements de base Nuage M
c
des r prols-lignes dans R
c
des c prols-colonnes dans R
r
T
r
= D
1
r
N Tableau de donnees T

c
= D
1
c
N

(r, c) (c, r)
nD
1
c
Metrique du chi2 nD
1
r
1
n
D
r
Poids
1
n
D
c
L = T

r
T
c
= N

D
1
r
ND
1
c
Matrice `a diagonaliser C = T
c
T

r
= ND
1
c
N

D
1
r
(c, c) (r, r)
u
k
: Lu
k
=
k
u
k
Vecteurs principaux v
k
: Cv
k
=
k
v
k
avec
k
,= 1 avec
k
,= 1
u
k
=
1

k
T

r
v
k
v
k
=
1

k
T
c
u
k
c
k
= nD
1
r
ND
1
c
u
k
Composantes principales c
k
= nD
1
c
N

D
1
r
v
k
c
k
(i) = n

c
j=1
n
ij
n
i.
n
.j
u
k
(j) c
k
(j) = n

r
i=1
n
ij
n
i.
n
.j
v
k
(i)
D
r
c
k
= n

k
v
k
D
c
c
k
= n

k
u
k
c
k
(i) =
1

c
j=1
n
ij
n
i.
c
k
(j) c
k
(j) =
1

r
i=1
n
ij
n
j.
c
k
(i)
5.6 Aides `a linterpretation
Rappelons que deux types de coecients apportent de linformation interessante pour lin-
terpretation des plans factoriels.
Contribution relative : elle exprime la part prise par une modalite de la variable dans
linertie expliquee par un facteur.
Cosinus carre : il mesure la qualite de representation de la modalite sur le facteur.
Contribution relative dune modalite `a linertie de laxe k :
Contribution relative du prol-ligne L
i
au k-i`eme axe (de vecteur u
k
) :
f
i.
_
c
k
(i)
_
2

k
;
Contribution relative du prol-colonne C
j
au k-i`eme axe (de vecteur v
k
) :
f
.j
_
c
k
(j)
_
2

k
.
Qualite de representation sur laxe k :
Qualite de la representation du prol-ligne L
i
sur le k-i`eme axe (de vecteur u
k
) :
c
k
(i)
2

r
l=1
c
k
(l)
2
;
Qualite de la representation du prol-colonne C
j
sur le k-i`eme axe (de vecteur v
k
) :
c
k
(j)
2

c
l=1
c
k
(l)
2
.
CHAPITRE 4. Analyse en Composantes Principales. 99
Elements supplementaires :
Les points supplementaires sont des prols qui nentrent pas dans la construction des axes
mais qui sont representes dans les plans factoriels. Leur position est interpretee en terme de
quasi-barycentre.
Si on dispose par exemple dune modalite supplementaire l
0
de la variable X, on peut
calculer la coordonnee du prol-ligne correspondant l
0
sur laxe k en utilisant les formules
quasi-barycentriques :
c
k
(0) =
1

k
c

j=1
n
0j
n
0.
c
k
(j) .
Dautre part on peut egalement evaluer la qualite de representation des points supplementaires
sur laxe k par le calcul du cos
2
.
5.7 Exemple traite sous R.
On reprend ici lexemple traite dans le livre Statistique avec R. Le chier de donnees
universit e.csv peut etre telecharge sur le site
http://math.agrocampus-ouest.fr/infoglueDeliverLive/enseignement/support2cours/livres/statistiques.avec.R.
5.7.1 Description des donnees.
On a releve sur n = etudiants des universites fran caises en 2007-2008, trois variables quali-
tatives :
le sexe `a deux modalites : F et H;
le niveau de diplome ` a trois modalites : Licence (L), Master (M), Doctorat (D) ;
la discipline du diplome ` a 10 modalites : Droit et Sciences Politiques (Dr), Sciences
economiques et gestion (SEG), Administration economique et sociale (ES), Lettres, Sciences
du langage et arts (AL), Langues (La), Sciences Humaines et Sociales (SHS), Pluridis-
ciplinarite Lettres, Langues et Sciences Humaines (PLLSH), Sciences fondamentales et
Applications (SF), Sciences de la nature et de la vie (SVT), STAPS.
Les deux premi`eres variables ont ete regroupees en une variable qualitatives `a 6 modalites :
Lic.F, Lic.H, Ma.F, ... etc.
univ<- read.table("universite.csv",sep=";",header=T,row.names=1)
> rownames(univ)<-c(Dr,SEG,"ES","AL","La","SHS","PLLSH","SF","SVT","STAPS")
> colnames(univ)<-c("Lic.F","Lic.H","Mas.F","Mas.H","Doc.F",
"Doc.H","F","H","Lic","Mas","Doc")
> univ
univ est une table de contingence `a 10 lignes (correspondant aux 10 modalites de la variable
X : Discipline), et 12 colonnes (correspondant aux 6 modalites de la variable Y : Niv&Sexe,
plus les eectifs par sexe, plus les eectifs par niveau, plus leectif marginal). On reproduit
dans la table 5.1 la table de contingence de X et Y .
100 ANALYSE DES DONNEES. FABIENNE CASTELL.
Lic.F Lic.H Ma.F Ma.H Doc.F Doc.H Tot
Dr 69373 37317 42371 21693 4029 4342 179125
EG 38387 37157 29466 26929 1983 2552 136474
ES 18574 12388 4183 2884 0 0 38029
AL 48691 17850 17672 5853 4531 2401 96998
La 62736 21291 13186 3874 1839 907 103833
SHS 94346 41050 43016 20447 7787 6972 213618
PLLSH 1779 726 2356 811 13 15 5700
SF 22559 54861 17078 48293 4407 11491 158689
SVT 24318 15004 11090 8457 5641 5232 69742
STAPS 8248 17253 1963 4172 188 328 32152
Table 5.1 Donnees sur les universites
5.7.2 Objectifs. Choix des modalites actives.
On souhaite etudier sur ces donnees :
limpact du sexe sur la discipline choisie ;
limpact de la discipline choisie sur la longueur des etudes ;
faire des regroupements de disciplines pour lesquelles le prol des etudiants est identique ;
etc...
Toutes les modalites de la variable Discipline seront des modalites actives. En ce qui
concerne les colonnes de la table univ, seules les 6 premi`eres colonnes seront actives, linfor-
mation contenue dans les 5 derni`eres colonnes etant dej`a presente dans les 6 premi`eres. Les
colonnes correspondant au sexe, et au niveau de dipl ome seront traitees comme des modalites
supplementaires.
La commande R utilisee pour faire lAFC, est la commande CA du package FactoMine.
> res.AFC<-CA(univ, col.sup=7:12)
Lobjet res.AFC est une liste contenant les resultats de lAFC, du meme type que la liste
de resultat de la commande PCA.
5.7.3 Choix du nombre daxes `a retenir.
Les resultats concernant les valeurs propres sont contenus dans res.AFC$eig. Le tableau
5.2 donne la valeur propre
k
, le pourcentage dinertie correspondant ` a laxe principal
u
k
, et
le pourcentage dinertie correspondant `a lespace principal E
k
. La gure 5.1 donne leboulis des
valeurs propres.
Si on veut garder le nombre daxes necessaires pour prendre en compte 80% de linertie
du nuage, on est amene ` a conserver les deux premiers axes qui expliquent ` a eux seuls,
8% de linertie.
Si on applique la r`egle de leboulis, on est amene ` a conserver 3 axes.
On poursuit lanalyse en conservant seulement les deux premiers axes (qui expliquent 86% de
linertie du nuage).
CHAPITRE 4. Analyse en Composantes Principales. 101
Valeur Propre Part dinertie Part dinertie cumulee
dim 1 0.12 70.72 70.72
dim 2 0.03 15.51 86.23
dim 3 0.02 10.90 97.13
dim 4 0.00 2.63 99.75
dim 5 0.00 0.25 100.00
dim 6 0.00 0.00 100.00
Table 5.2 Valeurs propres et part dinertie associee
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
0
.
1
0
Figure 5.1 Eboulis des valeurs propres
5.7.4 Analyse des resultats.
La fonction CA donnent par defaut le graphique des prols-lignes et des prols-colonnes
(representation simultanee) sur le premier plan. Il est reproduit dans la gure 5.2. Le tableau
des representations des modalites sur les deux premiers axes est donne dans les tables 5.3 et
5.4.
Concernant la variable Niv&Sexe, les modalites supplementaires Niv et Sexe permettent
dinterpreter les deux axes principaux. Le premier axe oppose les femmes (` a gauche du gra-
phique) et les hommes (`a droite du graphique). Le deuxi`eme axe classe le niveau detudes
(Licence en bas du graphe, Master au milieu et Doctorat en haut). Il apparat que les femmes
ont tendance `a faire des etudes plus longues que les hommes.
Concernant la variable Discipline, le graphe montre une proximite (dun point de vue du
prol etudiant) entre les disciplines AL, SHS, Dr. En interpretant les representations barycen-
triques, on peut voir que ces disciplines sont surtout suivies par des femmes au niveau Licence.
102 ANALYSE DES DONNEES. FABIENNE CASTELL.
Dr EG ES AL La SHS PLLSH SF SVT STAPS
Dim 1 0.30 0.46 0.20 0.91 0.79 0.84 0.04 0.98 0.01 0.21
Dim 2 0.13 0.00 0.80 0.02 0.13 0.15 0.18 0.00 0.41 0.67
Table 5.3 Representations des modalites de la variable Discipline
Lic.F Lic.H Ma.F Ma.H Doc.F Doc.H
Dim 1 0.96 0.55 0.14 0.95 0.01 0.46
Dim 2 0.01 0.39 0.33 0.01 0.49 0.26
Table 5.4 Representations des modalites de la variable Niv&Sexe
De facon plus generale, les disciplines `a gauche du graphe attirent plut ot les femmes, et les
disciplines en bas du graphe sont des disciplines o` u les etudes sont courtes.
5.8 Exercice.
On a releve sur n = 10 individus deux variables qualitatives, la variable X ` a 4 modalites
A, B, C, D et la variable Y ` a trois modalites 1, 2, 3. Les resultats sont regroupes dans la
table 5.5 qui donne sous forme dune , les modalites relevees sur un individu.
Ind A B C D 1 2 3
1
2
3
4
5
6
7
8
9
10
Table 5.5 Tableau de presence/absence
1. Donner la table de contingence associee.
2. Quelles sont les deux matrices ` a diagonaliser lors de lAFC de cette table.
3. Donner les valeurs propres de lAFC.
4. Donner les axes principaux de lACP des prols-lignes, et ceux de lACP des prols-
colonnes.
5. Donner les composantes principales des prols-lignes et des prols-colonnes.
6. Faire la representation simultanee des prols-lignes et des prols-colonnes sur le plan
principal.
CHAPITRE 4. Analyse en Composantes Principales. 103
0.4 0.2 0.0 0.2 0.4 0.6 0.8

0
.
6

0
.
4

0
.
2
0
.
0
0
.
2
0
.
4
CA factor map
Dim 1 (70.72%)
D
i
m

2

(
1
5
.
5
1
%
)
G
G
G
G
G
G
G
G
G
G
Dr
EG
ES
AL
La
SHS
PLLSH
SF
SVT
STAPS
Lic.F
Lic.H
Ma.F
Ma.H
Doc.F
Doc.H
F
H
Lic
Ma
Doc
Tot
Figure 5.2 AFC sur les donnees des universites. Plan principal
104 ANALYSE DES DONNEES. FABIENNE CASTELL.
Chapitre 6
References.
un bon investissement : Probabilites, Analyse des donnees et Statistique, de Gilbert
Saporta. Editions Technip.
Pour apprendre R, et autres.. : Statistiques avec R, de Pierre-Andre Cornillon, Arnaud
Guyader, Francois Husson, Nicolas Jegou, Julie Josse, Maela Kloareg, Eric Matzner-
Lober, Laurent Rouviere. Presses Universitaires de Rennes.
ainsi que le site des auteurs du livres :
http ://math.agrocampus-ouest.fr/infoglueDeliverLive/enseignement/support2cours/livres
/statistiques.avec.R
deux sites o` u vous trouverez beaucoup dinformations utiles :
Le site de Ricco Rakotomalala : http ://chirouble.univ-lyon2.fr/ ricco/data-mining/
Le site http ://wikistat.fr/
Le polycopie du cours de M1MASS dAnalyse exploratoire des donnees, fait par
Marie-Christine Roubaud. Je la remercie chaleureusement de mavoir gracieusement
donne ses chiers sources. Les chapitres sur lACP et lAFC en sont une simple retouche.
105

Vous aimerez peut-être aussi