L3 SID
Xavier Gendre
xavier.gendre@math.univ-toulouse.fr
17 dcembre 2012
ii
License
This work is licensed under the Creative Commons Attribution - Pas dUtilisation Commerciale - Partage dans les Mmes Conditions 3.0 France License. To view a copy of this license,
visit http://creativecommons.org/licenses/by-nc-sa/3.0/fr/.
iii
iv
Notations
]E
Cardinal de lensemble E
K (x, y)
(x, y)
S (x, y)
Cov(x, y)
Distance du 2 lindpendance
R+
Ensemble vide
Fx
tM
Transpose de la matrice M
x(1) , . . . , x(n)
Var (x) , x2
vi
iii
Notations
1 Moyenne et variance
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Moyenne pondre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1
1
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
7
7
8
10
11
14
15
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
17
17
20
24
24
27
28
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
33
33
37
38
40
40
41
42
vii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
viii
Matrices symtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Matrices dfinies positives . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Diagonalisation des matrices symtriques . . . . . . . . . . . . . . . . . 44
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
49
49
49
51
51
51
53
55
56
57
59
Chapitre 1
Introduction
Lors de ltude dun phnomne, nous sommes souvent amens observer des variables
qui lui sont relatives. Ces variables peuvent tre de diffrentes natures (grandeurs physiques,
caractristiques biologiques, . . .).
Exemple Si le phnomne est mtorologique, les variables dintrt peuvent tre la temprature t et la classe c des nuages. Un jour dt, nous pourrions observer t1 = 36 C et
c1 = "Cirrus" et, un jour dhiver, avoir les observations t2 = 4 C et c2 = "Cumulus".
Comme lillustre cet exemple, le type dune variable est, a priori, quelconque. Dans ce
premier chapitre, nous considrerons uniquement des variables valeurs relles. Ces variables
sont dites quantitatives car elles refltent une ide de grandeur (temprature, vitesse, ge, . . .).
1.2
Moyenne pondre
Nous supposons que nous avons notre disposition un nombre entier n > 0 dobservations
x1 , . . . , xn R dune variable quantitative x.
Dfinition 1.1. La moyenne x des observations x1 , . . . , xn R pondre par les poids
p1 , . . . , pn > 0 est dfinie par
n
X
1
pi xi .
x=
p1 + + pn
i=1
La variable x est dite centre si x = 0. Les poids sont dits normaliss si ils vrifient
p1 + + pn = 1. Dans ce cas, la moyenne x devient
x=
n
X
i=1
p i xi .
Il est important de remarquer que, quels que soient les poids p1 , . . . , pn , il est toujours
possible de calculer x avec les poids normaliss p1 , . . . , pn donns par
pi =
pi
, i {1, . . . , n}.
p1 + + pn
i=1
i=1
pi =
n
X
i=1
p1 + + pn
pi
=
=1.
p1 + + pn
p1 + + pn
Dans la suite, nous considrerons souvent le cas particulier de la moyenne uniforme pour
laquelle tous les poids sont gaux (i.e. toutes les observations ont la mme importance).
Prenons, par exemple, p1 = = pn = 1. Dans ce cas, nous avons p1 = = pn = 1/n et
nous retrouvons la moyenne usuelle
n
x=
1X
xi .
n
i=1
Plus gnralement, dire que lobservation xi "pse" un poids pi revient considrer que la
valeur xi intervient dans le calcul de x avec la proportion pi .
Exemple Un lotissement contient n = 10 maisons dont 6 mesurent 80 m2 et 4 mesurent
120 m2 . Afin de calculer la moyenne uniforme des surfaces, une premire faon consiste
revenir la dfinition 1.1,
1
(80 + {z
+ 80} + |120 + {z
+ 120}) = 96 m2 .
10 |
6 fois
4 fois
La seconde manire consiste considrer que les habitations de 80 m2 reprsentent 6/10 des
maisons du lotissement et que celles de 120 m2 en reprsentent 4/10. Ainsi, nous pouvons
calculer la surface moyenne en ne considrant plus que le groupe des habitats de 80 m2 et
celui des 120 m2 pour obtenir
6
4
80 +
120 = 96 m2 .
10
10
Autrement dit, nous avons calcul la moyenne de x1 = 80 et de x2 = 120 pondre par les
poids p1 = 6/10 et p2 = 4/10.
Cette seconde faon de faire le calcul est un exemple de dcomposition par groupes du
calcul de la moyenne. Elle se gnralise par le Thorme 1.1 suivant.
Rappel Soient G1 , . . . , Gn des parties dun ensemble E, on dit quelles forment une partition
de E si et seulement si
(i) G1 Gn = E
et
(ii) i, j {1, . . . , n}, i 6= j Gi Gj = .
pi xi
iGk
.
pi
iGk
pi ,
iGk
x=
N
X
1
qk xk .
q1 + + qN
k=1
N
X
qk X
1
X
p i xi
p1 + + pn
pi iGk
k=1
iGk
1
p1 + + pn
1
p1 + + pn
N
X
pi xi
k=1 iGk
n
X
p i xi = x .
i=1
Exercice 1.1. Montrer que si les poids p1 , . . . , pn > 0 sont normaliss alors les poids q1 , . . . , qN
dfinis dans le Thorme 1.1 sont aussi normaliss.
Le Thorme 1.1 est particulirement utile lorsque la variable x ne peut prendre quun
nombre N fini de valeurs distinctes y1 , . . . , yN . En effet, dans ce cas, nous pouvons dfinir les
groupes G1 , . . . , GN par
Gk = {i {1, . . . , n} tels que xi = yk } , k {1, . . . , N } .
(1.1)
Le groupe Gk contient donc tous les indices i tels que lobservation xi soit gale la valeur
yk . Par consquent, nous savons que xk = yk . De plus, G1 , . . . , GN forment une partition de
{1, . . . , n}. Si nous notons nk leffectif du groupe Gk , k {1, . . . , N }, le Thorme 1.1 nous
1X
x=
n k yk
n
k=1
car qk = nk et n1 + + nN = n.
Exercice 1.2. Montrer que les groupes G1 , . . . , GN dfinis par (1.1) forment bien une partition
de {1, . . . , n}.
Enfin, pour les calculs de moyenne, il est souvent pratique dutiliser le fait que la moyenne
est linaire.
Proposition 1.1. Si a et b sont des nombres rels quelconques et que nous considrons les
observations zi = axi + b, i {1, . . . , n}, relatives la variable quantitative z = ax + b, alors
z = ax + b = a x + b .
Prenons, de plus, une variable quantitative y et ses n observations y1 , . . . , yn R. Si nous
considrons les observations zi = xi + yi , i {1, . . . , n}, relatives la variable quantitative
z = x + y, alors
z =x+y =x+y .
Exercice 1.3. Ecrire la preuve de la Proposition 1.1.
1.3
Variance
Nous supposons partir de maintenant que nous disposons dun nombre entier n > 0
dobservations x1 , . . . , xn R dune variable x et de poids p1 , . . . , pn > 0 normaliss.
Dfinition 1.2. La variance Var (x) des observations x1 , . . . , xn est dfinie par
Var (x) =
n
X
pi (xi x)2 .
i=1
p
Var (x) est appel l cart-type. La variable x
La variance est donc la moyenne des carrs des carts x1 x, . . . , xn x pondre par
p1 , . . . , pn . Cette quantit mesure la dispersion des observations autour de x. De plus, elle est
toujours positive.
Exercice 1.4. Montrer que si Var (x) = 0 alors toutes les observations x1 , . . . , xn sont gales
la moyenne x.
La variance est quadratique. En particulier, nous avons la proposition suivante.
Proposition 1.2. Si a et b sont des nombres rels quelconques et que nous considrons les
observations zi = axi + b, i {1, . . . , n}, relatives la variable quantitative z = ax + b, alors
Var (z) = Var (ax + b) = a2 Var (x) .
1.3. VARIANCE
Il faut faire attention car la variance nest pas additive ; cest--dire que, en gnral,
nous navons pas Var (x + y) = Var (x) + Var (y).
Exemple Pour n = 2, supposons que nous ayons observ x1 = 1, x2 = 1, y1 = 0 et y2 = 1
et que les poids soient p1 = p2 = 1/2. Dans ce cas, x = 0 et y = 1/2. Nous avons alors
Var (x) + Var (y) = 1 +
1
5
9
= 6= = Var (x + y) .
4
4
4
n
X
pi x2i .
i=1
pi (xi x)2 =
n
X
pi x2i 2x
n
X
i=1
i=1
p i xi + x2
i=1
n
X
pi
i=1
= x2 2x2 + x2
= x2 x2 .
Exercice 1.6. Soit un entier n > 0. Dduire de la Proposition 1.3 que, pour tout x1 , . . . , xn
R et pour tout p1 , . . . , pn > 0 tels que p1 + + pn = 1, nous avons
!2
n
n
X
X
pi xi
6
pi x2i .
i=1
i=1
(1.2)
Varinter (x) =
N
X
qk (xk x)2
(Variance inter-groupe)
qk k2 .
(Variance intra-groupe)
k=1
et
Varintra (x) =
N
X
k=1
n
X
i=1
N
X
pi (xi x)2
X
k=1 iGk
N X
X
pi (xi xk )2 + 2
k=1 iGk
N
X
N
X
k=1
iGk
k=1
(xk x)2
pi
iGk
k=1
N
X
X
pi (xi xk )
(xk x)
qk k2 + 2
N
X
(xk x)
k=1
pi (xi xk ) +
iGk
N
X
qk (xk x)2 .
k=1
iGk
iGk
Les deux termes qui apparaissent dans la dcomposition (1.2) ne sinterprtent pas de la
mme faon. La variance inter-groupe Varinter (x) est la variance des moyennes et elle traduit
la dispersion entre les groupes. La variance intra-groupe Varintra est la moyenne des variances
et elle correspond la dispersion dans les groupes.
Chapitre 2
Introduction
Une fois que nous disposons des observations dune variable quantitative, il peut tre intressant de regarder comment ces observations sont rparties. Pour rendre compte visuellement
de cette distribution, il existe de nombreuses mthodes graphiques. Nous prsentons dans ce
chapitre certaines parmi les plus utilises.
Dans la suite, nous supposons avoir n > 0 observations x1 , . . . , xn R dune variable
quantitative x et des poids p1 , . . . , pn > 0 normaliss.
2.2
Histogramme
La premire reprsentation laquelle nous allons nous intresser est celle des histogrammes.
Nous considrons N + 1 nombres rels a0 < a1 < < aN tels que toutes les observations
soient regroupes dans les N intervalles [a0 , a1 [, . . . , [aN 1 , aN [. Dans la suite, pour tout k
{1, . . . , N }, nous noterons nk le nombre dobservations xi prsentes dans lintervalle [ak1 , ak [,
nk = ] {i {1, . . . , n} tels que xi [ak1 , ak [} .
Nous appelons frquence de [ak1 , ak [ la quantit fk = nk /n et poids de [ak1 , ak [ la quantit
X
p(k) =
pi .
i tel que
xi [ak1 ,ak [
2.2.1
Nous nous plaons dans le cas simple o les intervalles [ak1 , ak [ sont de longueur constante
(a0 a1 = = aN aN 1 ). Selon le type dhistogramme voulu, la hauteur des rectangles
peut tre une des valeurs suivantes :
7
Exemple Supposons que nos 20 observations aient toutes le mme poids 1/20 et soient
rparties de la faon suivante : 5 valeurs dans [0, 10[, 3 valeurs dans [10, 20[, 5 valeurs dans
[20, 30[ et 7 valeurs dans [30, 40[.
0
0
10
20
30
40
Figure 2.1 Diagramme des effectifs pour des intervalles de mme taille.
Exercice 2.1. Que faut-il modifier sur la Figure 2.1 pour obtenir directement le diagramme
des frquences ?
2.2.2
Nous ne supposons plus que les intervalles soient tous de mme longueur. Si nous tracions
les rectangles comme prcdemment, leurs surfaces seraient fausses et cela donnerait une
mauvaise reprsentation de la distribution des observations.
Il est donc important de normaliser la hauteur des rectangles par la longueur des intervalles :
nk
pour un diagramme des effectifs,
ak ak1
fk
2.2. HISTOGRAMME
Si nous ne renormalisons pas la hauteur des rectangles, la reprsentation est fausse comme
le montre la Figure 2.2. En revanche, la figure 2.3 reprsente le diagramme des frquences
correctement normalis.
0
0
10
20
30
40
Figure 2.2 Diagramme des effectifs incorrect dans le cas dintervalles de longueurs diffrentes
( comparer avec les Figures 2.1 et 2.3).
0.035
0.030
0.025
0.020
0.015
0.010
0.005
0.000
0
10
20
30
40
Figure 2.3 Diagramme des frquences pour des intervalles de longueurs diffrentes.
Exercice 2.2. Si les poids p1 , . . . , pn sont tous gaux 1/n, comment comparer le diagramme
des frquences et celui des poids ?
10
2.3
Poids cumuls
Comme dans la section prcdente, nous considrons N + 1 nombres rels a0 < a1 < <
aN tels que toutes les observations soient regroupes dans les N intervalles [a0 , a1 [, . . . , [aN 1 , aN [.
Le diagramme des poids cumuls est un histogramme particulier construit de la faon
suivante. Pour k {1, . . . , N }, la hauteur hk du rectangle relatif lintervalle [ak1 , ak [ est la
somme des poids de toutes les observations infrieures ak ,
hk =
pi .
i tel que
xi 6ak
De plus, il est courant de superposer cet histogramme une courbe linaire par morceaux
reliant (ak1 , hk1 ) (ak , hk ) pour k allant de 1 N (par convention, on pose h0 = 0). Cette
courbe est donc croissante et prend des valeurs de 0 1 puisque les poids sont normaliss. Elle
illustre la faon dont les observations seraient rparties si cette rpartition tait uniforme sur
chaque intervalle.
Exemple Reprenons encore les 20 observations de mme poids 1/20 des exemples de la
section prcdente. Les figures 2.4 et 2.5 montrent le diagramme des poids cumuls pour deux
choix dintervalles diffrents. Nous remarquons, en particulier, que la longueur des intervalles
ne modifie pas la faon de tracer ces diagrammes contrairement aux histogrammes.
1.0
0.8
0.6
0.4
0.2
0.0
0
10
20
30
40
Figure 2.4 Diagramme des poids cumuls avec [0, 10[, [10, 20[, [20, 30[ et [30, 40[.
11
1.0
0.8
0.6
0.4
0.2
0.0
0
10
20
30
40
Figure 2.5 Diagramme des poids cumuls avec [0, 10[, [10, 30[ et [30, 40[.
2.4
La fonction de rpartition peut tre vue comme un diagramme des poids cumuls particulier
pour lequel il ny aurait quune unique observation dans chaque intervalle. Il sagit dune
fonction Fx constante par morceaux et croissante de 0 1 dfinie pour tout t R par
X
Fx (t) =
pi .
i tel que
xi 6t
Cette fonction fait donc un saut en chaque point xi . Pour la reprsenter, il peut tre pratique
de considrer la version ordonne des observations. Cette version est une permutation des
observations, note x(1) , . . . , x(n) , choisie de telle sorte que nous ayons
x(1) 6 6 x(n) .
Nous savons alors que la fonction de rpartition Fx vaut 0 sur ] , x(1) [, quelle fait un saut
chaque point x(i) et quelle vaut 1 sur [x(n) , +[.
Exemple Considrons que nous avons les n = 5 observations suivantes :
x1 = 3 , x2 = 1 , x3 = 4 , x4 = 3 , x5 = 0 .
La version ordonne de ces observation est donc
x(1) = x2 = 1 , x(2) = x5 = 0 , x(3) = x1 = 3 , x(4) = x4 = 3 , x(5) = x3 = 4 .
Il faut noter que le choix de lordre de x(3) et x(4) est arbitraire puisque les donnes x1 et x4
sont gales. Si nous considrons maintenant que les poids p1 , . . . , p5 sont tous gaux 1/5,
alors la fonction de rpartition est donne par la Figure 2.6.
12
1.0
0.8
0.6
0.4
0.2
0.0
(
2
Dfinition 2.1. Soit [0, 1], nous appelons quantile dordre tout nombre q R tel
que nous ayons une proportion des observations qui soit infrieure ou gale q .
Ainsi, si = i/n pour un i {1, . . . , n}, alors q = qi/n = x(i) . Par convention, si
[0, 1/n[, nous poserons que le quantile dordre vaut q = car il ny a aucune
observation avant x(1) . Enfin, si [(i 1)/n, i/n[ pour un i {1, . . . , n}, alors il existe
[0, 1] tel que = (i 1 + )/n et nous interpolons entre q(i1)/n = x(i1) et qi/n = x(i)
pour obtenir le quantile dordre ,
q = x(i1) + x(i) x(i1) .
(2.1)
Notons que cette dfinition par interpolation est bien compatible avec la convention q =
lorsque [0, x(1) [.
Un des avantages de cette dfinition par interpolation est que les quantiles sont directement lisibles sur le graphe de la fonction de rpartition. Il faut cependant faire attention aux
doublons dans les observations (comme x1 et x4 dans lexemple). Pour cela, nous notons p(i)
le poids de lobservation x(i) et nous introduisons les quantits F (i) pour i {1, . . . , n},
F (i) = p(1) + + p(i) 6 Fx (x(i) ) .
13
Il suffit alors de tracer la courbe linaire par morceaux joignant les points (x(i1) , F (i1) )
et (x(i) , F (i) ) et de lire q sur laxe des abscisses comme tant lantcdent de sur cette
courbe (voir Figure 2.7). Si il ny a aucun doublon parmi les observations, cette courbe relie
simplement les points de saut de Fx . Par contre, si il y a des doublons, certaines parties de la
courbes deviennent des segments verticaux comme cela se voit sur la Figure 2.7 entre x(3) et
x(4) .
1.0
0.8
0.6
0.4
0.2
0.0
(
2
q
0
14
et
q0.75 = x(3) + 0.25 x(4) x(3) = 3 + 0.75(3 3) = 3 .
Ces rsultats se retrouvent graphiquement comme lillustre la Figure 2.8.
1.0
0.8
0.75
0.6
0.5
0.4
0.25
0.2
0.0
(
2
q0.25=0.75
q0.5=1.5
q0.75=3
4
2.5
La bote moustaches (ou box plot en anglais) est un graphe synthtique et trs utilis en
pratique pour reprsenter la distribution des observations dune variable quantitative. Le corps
de ce graphe fait apparatre la mdiane, les deux quartiles et linter-quartile IQ = q0.75 q0.25 .
Nous ajoutons des "moustaches" pour reprsenter les donnes en dehors de linter-quartile.
Les extrmits des moustaches peuvent avoir des significations diffrentes selon les situations
(voir Figure 2.9) :
15
IQ
min
q0.25
q0.5
max
q0.75
IQ
min
q0.25
q0.5
q0.75
q0.75 + 1.5 IQ
Donnes exceptionnelles
Figure 2.9 Les moustaches peuvent indiquer les valeurs minimales et maximales (au dessus)
ou tre limites q0.25 1.5 IQ et q0.75 + 1.5 IQ (au dessous).
2.6
16
affine (type "y = ax + b") pour rendre les distributions comparables. Enfin, si le diagramme
ne fait pas apparatre une droite, nous ne pouvons pas conclure, a priori.
Exemple Nous considrons deux machines A et B qui sont utilises pour remplir des sachets
de 25 grammes dun mdicament. Elles ont toutes les deux t testes n = 1000 fois chacune.
Le tableau suivant donne le relev de ces mille tests, en indiquant, pour chaque machine, le
nombre de fois o elle a donn un sachet dont le poids est indiqu en premire ligne :
Poids
A
B
16
10
0
17
10
0
18
10
10
19
50
10
20
30
10
21
10
20
22
20
40
23
40
162
24
80
0
25
450
488
26
150
10
27
10
140
28
40
50
29
0
30
30
90
30
30
Prenons 1 = 0.1, 2 = 0.2, . . . , 10 = 1.0 et calculons les quantiles associs : q1 (A) = 20,
q2 (A) = 24, q3 (A) = 25, . . . , q7 (A) = 25, q8 (A) = 26, q9 (A) = 28, q10 (A) = 30
et q1 (B) = 23, q2 (B) = 23, q3 (B) = 25, . . . , q7 (B) = 25, q8 (B) = 27, q9 (B) = 28,
q10 (B) = 30. Nous traons donc le diagramme partir des points (q1 (A), q1 (B)) = (20, 23),
(q2 (A), q2 (B)) = (24, 23), . . . La Figure 2.10 montre le diagramme obtenu et suggre que
les deux machines nadmettent par les mmes distributions au vu de lcart la premire
diagonale.
28
26
24
22
20
22
24
26
28
30
Chapitre 3
Introduction
3.2
Un premire faon dtablir un lien entre les variables x et y consiste regarder si les
observations ont tendance varier dans le mme sens.
Dfinition 3.1. La covariance entre les observations de x et celles de y est dfinie par
Cov(x, y) =
n
X
pi (xi x)(yi y) .
i=1
18
et
n
X
pi (xi x)(yi y) =
n
X
i=1
i=1
n
X
pi (axi ax)(yi y) = a
i=1
n
X
i=1
et
Cov(x, y + z) =
n
X
i=1
n
X
pi (xi x)(yi y) +
i=1
n
X
pi (xi x)(zi z)
i=1
= Cov(x, y) + Cov(x, z) .
Remarquons enfin que la covariance dune variable avec elle-mme est sa variance,
Cov(x, x) = Var (x) > 0 .
Comme nous lavons vu au Chapitre 1, la variance nest pas additive. Cependant, il est
possible de dvelopper la variance dune somme de variables quantitatives en faisant intervenir
la covariance.
19
n
X
i=1
n
X
pi (xi x) + 2
n
X
pi (xi x)(yi y) +
i=1
i=1
n
X
pi (yi y)2
i=1
Pour calculer la covariance Cov(x, y), il est souvent pratique dutiliser le rsultat suivant.
Proposition 3.3. La covariance vaut la moyenne des produits moins le produit des moyennes,
Cov(x, y) = xy x y
avec xy =
n
X
pi xi yi .
i=1
n
X
i=1
n
X
pi (xi x)(yi y)
pi xi yi x
i=1
n
X
pi yi y
i=1
n
X
pi xi + x y
i=1
n
X
pi
i=1
= xy 2x y + x y
= xy x y .
En dehors de son signe, la valeur de la covariance Cov(x, y) ne donne pas beaucoup plus
dinformations car elle est dpendante de lchelle des variables x et y. Pour contourner cela,
il faut normaliser les observations et considrer la quantit suivante.
Dfinition 3.2. La corrlation (ou coefficient de corrlation linaire de Pearson)
entre les observations de x et de y est dfinie par
(x, y) = p
Cov(x, y)
Cov(x, y)
p
=
.
x y
Var (x) Var (y)
Il est vident que le signe de la corrlation sinterprte toujours comme celui de la covariance. En particulier, il ny a toujours pas dinterprtation directe lorsque la corrlation est
proche de zro. Cependant, il est possible dinterprter la valeur de la corrlation car celle-ci est
une quantit borne et indpendante de lchelle dans laquelle sont exprimes les observations
de x et de y.
20
p
p
Var (x) Var (y)
|(x, y)| 6 1 .
La valeur de (x, y) nous renseigne donc sur limportance du lien potentiel entre x et y.
Plus particulirement, nous avons que plus |(x, y)| est proche de 1, plus la relation affine
entre les variables x et y est avre comme nous allons le voir dans la section suivante.
Exercice 3.1. Montrer que si les points observs (x1 , y1 ), . . . , (xn , yn ) sont sur une droite
dquation "y = ax + b" alors |(x, y)| = 1. Rciproquement, montrer que si |(x, y)| = 1 alors
les points observs (x1 , y1 ), . . . , (xn , yn ) sont tous aligns le long dune droite dont on donnera
lquation selon que (x, y) = 1 ou que (x, y) = 1. (Utiliser lexercice 1.4 et la preuve du
Thorme 3.1)
3.3
Rgression linaire
Dans toute cette section, nous supposerons que les poids p1 , . . . , pn sont uniformes, i.e.
p1 = = pn = 1/n.
Lorsque nous cherchons tablir une relation entre deux variables quantitatives x et y,
une premire approche simple consiste regarder si il existe une relation affine (i.e. de la
forme y = ax + b avec a, b R) entre elles. Bien entendu, en pratique, il est presque toujours
impossible dtablir une telle relation de faon exacte entre les observations de x et celles de
y. Cependant, nous pouvons chercher la droite qui explique "au mieux" y par rapport x.
21
Cette procdure sappelle la rgression linaire et elle se formalise comme ce qui suit. Nous
cherchons deux nombres rels a et b tels que lerreur commise en expliquant les observations yi
par axi + b, i {1, . . . , n}, soit la plus petite possible au sens des moindres carrs. Autrement
dit, nous cherchons a, b R tels que lerreur moyenne
n
1X
(yi (axi + b))2
n
(3.1)
i=1
soit minimale (voir Figure 3.1). Les valeurs de a et de b telles que cette erreur soit minimale
donnent lquation y = ax + b de la droite de rgression.
(x4,y4)
1.5
(x3,y3)
1.0
0.5
(x5,y5)
0.0
0.5
(x1,y1)
1.0
(x2,y2)
0.5
0.0
0.5
1.0
Figure 3.1 Erreurs (en rouge) commises entre les observations et la droite y = 0.5 x.
Thorme 3.2. Si les variables x et y sont centres et rduites alors lerreur (3.1) est minimale pour a = Cov(x, y) et b = 0. Dans ce cas, lquation de la droite de rgression est
donc
y = Cov(x, y) x .
Dmonstration. Nous commenons par dvelopper lerreur (3.1) en utilisant le fait que x =
22
y = 0,
n
1X
(yi (axi + b))2 =
n
i=1
1X
((yi axi ) b)2
n
i=1
n
n
n
2b X
1X 2
1X
2
(yi axi )
(yi axi ) +
b
n
n
n
n
1X
(yi axi )2 2b(y ax) + b2
n
n
1X
(yi axi )2 + b2 .
n
i=1
i=1
i=1
i=1
i=1
La quantit que nous cherchons minimiser est la somme de deux termes positifs, lun dpendant de a et lautre de b. Nous obtenons donc directement que b = 0. Pour dterminer a, nous
continuons dvelopper cette quantit en utilisant que x2 = Var (x) = 1 et y 2 = Var (y) = 1,
n
1X
(yi axi )2 =
n
i=1
n
n
n
1 X 2 2a X
a2 X 2
yi
yi x i +
xi
n
n
n
i=1
y2
2axy +
i=1
2 2
a x
i=1
= a 2xy a + 1 .
Nous minimisons donc ce polynme du second degr en a = xy = Cov(x, y).
Le rsultat du thorme 3.2 se gnralise des variables quantitatives x et y qui ne sont
plus supposes tre centres rduites de la faon suivante.
Corollaire 3.1. Dans le cas gnral, lerreur (3.1) est minimale pour a = Cov(x, y)/Var (x)
et b = y ax et lquation de la droite de rgression est donne par
Cov(x, y)
Cov(x, y)
y=
x+ y
x .
Var (x)
Var (x)
Dmonstration. Considrons les variables quantitatives x0 et y 0 obtenues en centrant et en
rduisant x et y respectivement,
x0 =
xx
x
y0 =
et
yy
.
y
Pour ces variables, le Thorme 3.2 nous donne lquation de la droite de rgression,
xx yy
xx
yy
0
0 0
0
y = Cov x , y x
= Cov
,
y
x
y
x
Cov(x, y) y
y y =
(x x)
x y
x
Cov(x, y)
Cov(x, y)
y =
x+y
x .
2
x
x2
| {z }
|
{z
}
=a
=b
23
Nous retrouvons dans ce rsultat le fait que si Cov(x, y) > 0, alors les variables varient
dans le mme sens et inversement (voir Figures 3.2 et 3.3).
Exercice 3.2. Le Corollaire 3.1 donne la droite de rgression de y par rapport x dquation
y = ax + b. Si a 6= 0, nous pouvons en dduire que x = a0 y + b0 avec a0 = 1/a et b0 = b/a.
Calculer lquation de la droite de rgression de x sur y (i.e. trouver a
, b R avec x = a
y + b)
0
0
et comparer-la avec x = a y + b . Conclure que les droites de rgression de y sur x et de x sur
y ne sont pas les mmes.
3.0
1.0
2.5
0.5
2.0
0.0
1.5
0.5
1.0
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
Figure 3.2 Tracs des observations (xi , yi ) et de la droite de rgression (en rouge) associe.
A gauche, (x, y) = 0.9855 et droite, (x, y) = 0.9863.
1.0
1.0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
Figure 3.3 Tracs des observations (xi , yi ) et de la droite de rgression (en rouge) associe.
Dans les deux cas, (x, y) = 0 et nous voyons quil nest pas possible dinterprter cette valeur
car les variables x et y peuvent tre indpendantes ( gauche) ou lies ( droite).
24
3.4
Corrlations de rang
Dans toute cette section, nous supposerons que les poids p1 , . . . , pn sont uniformes, i.e.
p1 = = pn = 1/n.
Le coefficient de corrlation de Pearson (x, y) est un bon indicateur de lalignement des
observations et donc de lexistence dune relation affine entre les variables x et y. Cependant,
ces variables peuvent tre lies sans pour autant que cette relation soit affine. Les coefficients de
corrlation que nous allons introduire dans cette section mesurent lexistence dune relation
entre x et y sans en prciser la nature. Ces deux coefficients sont bass sur les rangs des
observations dans leurs versions ordonnes.
3.4.1
Corrlation de Spearman
Pour chaque i {1, . . . , n}, nous dfinissons ri comme le rang de lobservation xi dans la
version ordonne x(1) 6 6 x(n) . De mme, si est le rang de yi parmi les y(1) 6 6 y(n) .
En cas dgalit entre plusieurs observations, les rangs de celles-ci sont tous pris gaux la
valeur moyenne des rangs concerns. Dans la suite, les rangs r1 , . . . , rn et s1 , . . . , sn seront
traits comme les observations des variables de rang r et s respectivement.
Exemple Supposons que nous ayons observ
x1 = 4.2 , x2 = 3.1 , x3 = 5.1 , x4 = 3.1 et x5 = 1.3 .
La version ordonne de nos observations est donc
x(1) = 1.3 , x(2) = 3.1 , x(3) = 3.1 , x(4) = 4.2 et x(5) = 5.1 .
Dans ce classement, le rang de x1 est r1 = 4, celui de x3 est r3 = 5 et celui de x5 est
r5 = 1. Puisque x2 et x4 sont gaux et que leurs rangs auraient d valoir 2 ou 3, nous posons
r2 = r4 = (2 + 3)/2 = 2.5. Au final, nous avons donc
r1 = 4 , r2 = 2.5 , r3 = 5 , r4 = 2.5 et r5 = 1 .
25
0.2
1.0
0.0
0.8
0.2
0.6
0.4
0.4
0.6
0.2
0.8
0.0
1.0
0.2
1.2
1.0
0.5
0.0
0.5
1.0
1.0
0.5
0.0
0.5
1.0
Figure 3.4 Pour ces observations (xi , yi ), la corrlation de Spearman vaut S (x, y) = 0.8787
( gauche) et S (x, y) = 0.8982 ( droite).
Exemple Pour x, nous reprenons les observations de lexemple prcdents et, pour y, nous
observons
y1 = 3.8 , y2 = 0.6 , y3 = 1.2 , y4 = 3.5 et y5 = 3.5 .
Ainsi, les rangs sont donns par
s1 = 5 , s2 = 4 , s3 = 3 , s4 = 1.5 et s5 = 1.5 .
La corrlation de Spearman entre x et y vaut donc
Cov(r, s)
1.05
p
S (x, y) = (r, s) = p
' 0.553 .
=
1.9
1.9
Var (r) Var (s)
Les rangs r et s vrifient certaines proprits qui vitent de refaire systmatiquement les
mmes calculs lorsque nous cherchons obtenir la corrlation de Spearman.
Proposition 3.4. La moyenne des rangs est toujours gale
r=s=
n+1
.
2
n2 1
12
n
S (x, y) = 1
X
6
(ri si )2 .
n(n2 1)
i=1
26
ri =
i=1
n
X
si =
i=1
n
X
k=
k=1
n(n + 1)
.
2
ri2 =
i=1
n
X
s2i =
i=1
n
X
k2 =
k=1
n(n + 1)(2n + 1)
.
6
=
=
(n + 1)(2n + 1) (n + 1)2
6
4
(n + 1)(n 1)
n2 1
=
,
12
12
1X
(ri si )2 =
n
i=1
1X
((ri r) (si s))2
n
i=1
n
n
n
1X
2X
1X
2
(ri r)
(ri r)(si s) +
(si s)2
n
n
n
i=1
i=1
i=1
n2 1
1 X
(ri si )2 et donc
Ainsi, nous obtenons Cov(r, s) =
12
2n
i=1
X
Cov(r, s)
6
p
S (x, y) = (r, s) = p
=1
(ri si )2 .
2 1)
n(n
Var (r) Var (s)
i=1
Rappel Pour un entier n > 0, la somme des nombres entiers de 1 n se calcule facilement
grce la remarque suivante qui consiste faire la somme de deux faons diffrentes (de 1
27
n et de n 1),
n
X
k =
k=1
1
2
n
X
!
n
X
k+
(n + 1 k)
k=1
n
X
k=1
1
2
n
1X
n(n + 1)
(n + 1) =
.
2
2
(k + n + 1 k)
k=1
k=1
La somme des carrs des n premiers nombres entiers se calcule en remarquant que
n
n
X
X
(k + 1)3 =
k 3 1 + (n + 1)3
k=1
et
k=1
n
n
n
n
n
X
X
X
X
X
(k + 1)3 =
k3 + 3
k2 + 3
k+
1.
k=1
k=1
k=1
k=1
k=1
(n + 1) 1 = 3
n
X
k=1
n
X
2(n + 1)3 2 3n(n + 1) 2n
3n(n + 1)
+ n
k2 =
k +
2
6
2
k=1
n
X
k2 =
k=1
3.4.2
n(n + 1)(2n + 1)
.
6
Corrlation de Kendall
Nous supposerons dans cette sous-section quil ny a aucun ex-quo ni parmi les observations de x, ni parmi celles de y.
Nous prsentons maintenant une autre mesure de corrlation base sur les rangs. Pour
cela, nous introduisons la notion de variation concordante. Soient i, j {1, . . . , n} tels que
i < j, nous disons quil y a une variation concordante entre i et j si
ri < rj et si < sj
ou
ri > rj et si > sj .
Remarquons que, en labsence dex-quo parmi les observations, toutes les paires i < j sont
soit concordantes, soit non-concordantes. Nous notons R le nombre de variations concordantes
parmi tous les choix i < j possibles.
Dfinition 3.4. Le coefficient de corrlation de Kendall entre les observations des variables couples x et y est dfini par
K (x, y) =
4R
1 .
n(n 1)
n(n 1)
2
28
Comme pour les autres corrlations, celle de Kendall ne sinterprte pas lorsquelle est
proche de 0. Si |K (x, y)| est proche de 1, nous pouvons en dduire que les carts xi xj et
yi yj , pour i < j, sont lis. Cette situation suggre donc lexistence dune relation entre les
variables x et y.
Exemple Prenons les observations suivantes avec n = 5,
x1 = 4.2 , x2 = 3.1 , x3 = 5.1 , x4 = 2.1 , x5 = 1.3
et
y1 = 3.4 , y2 = 0.6 , y3 = 1.2 , y4 = 3.5 , y5 = 3.8 .
Nous avons les rangs suivants,
r1 = 4 , r2 = 3 , r3 = 5 , r4 = 2 , r5 = 1
et
s1 = 4 , s2 = 3 , s3 = 2 , s4 = 1 , s5 = 5 .
Les paires (i, j) {1, . . . , n}2 telles que i < j qui sont concordantes sont
(1, 2) , (1, 4) , (2, 4) et (3, 4) .
Nous avons donc R = 4 et
K (x, y) =
3.5
44
1 = 0.2 .
54
Distance du 2 lindpendance
Toutes les mthodes que nous avons prsentes dans les sections prcdentes taient relatives des observations de variables quantitatives. Cependant, toutes les variables ne peuvent
pas tre reprsentes comme des mesures de grandeurs physiques. Certaines variables, dites
qualitatives, ne peuvent prendre quun nombre fini dtats (appels aussi des modes). Ces tats
ne sont pas, en gnral, des mesures.
Exemple Supposons que nous observions la couleur des yeux de plusieurs personnes. La variable relative ces observations est qualitative car elle ne peut prendre que des valeurs parmi
{BLEU, MARRON, VERT}. En particulier, il nest ni possible de faire des calculs avec ces
observations, ni de les ordonner pour tudier les corrlations vues prcdemment.
Soit un entier n > 0, nous considrons que nous disposons des observations u1 , . . . , un et
v1 , . . . , vn de deux variables qualitatives couples u et v respectivement. De plus, la variable
u ne peut prendre que des valeurs dans {1 , . . . , r } et la variable v ne peut prendre que des
valeurs dans {1 , . . . , s } avec r, s > 0 deux nombres entiers.
Contrairement aux sections prcdentes, nous allons prsenter une mthode pour justifier
labsence de relation entre les variables u et v, i.e. lindpendance. Pour cela, nous allons
considrer les effectifs suivants, pour tout i {1, . . . , r} et tout j {1, . . . , s},
ni,j = ] {k {1, . . . , n} tels que (uk , vk ) = (i , j )} ,
ni =
s
X
29
j=1
et
nj =
r
X
i=1
Ces effectifs sont gnralement reprsents dans une table de contingence avec ses marges qui
contiennent les effectifs somms ni et nj (voir Figure 3.5). Bien sr, les effectifs en ligne et
en colonne sont relis par
n=
r X
s
X
i=1 j=1
ni,j =
r
X
i=1
ni =
s
X
nj .
j=1
Figure 3.5 Table de contingence pour r = 3 et s = 4 avec ses marges (en rouge) et les
modes (en bleu).
Lobjectif de la mthode que nous prsentons ici va tre de comparer cette table de contingence observe avec une table de contingence thorique qui correspond ce que nous aurions
d observer en cas dindpendance entre les variables u et v. Si ces deux tables sont assez
"proches", alors nous pourrons accepter lide dindpendance entre nos variables.
Considrons i {1, . . . , r} et j {1, . . . , s}, quelle doit tre la valeur thorique ni,j
du nombre dobservations de la paire (i , j ) en cas dindpendance ? Pour rpondre cette
question, il faut comprendre ce que lindpendance implique en terme deffectifs dobservations.
Prenons la ligne des ni observations de i . Si le fait davoir observ u = i ninfluence pas la
30
valeur prise par la variable v, alors les nj observations de j se rpartissent le long de la ligne
des i avec les proportions ni /n. Il faut noter que cet argument est symtrique entre u et v
et que nous pouvons aussi en dduire que les ni observations de i se rpartissent le long de
la colonne de j avec les proportions nj /n. Ainsi, nous obtenons les effectifs thoriques sous
lhypothse dindpendance,
ni,j =
ni nj
.
n
2 =
r X
s
X
(ni,j ni,j )2
.
ni,j
i=1 j=1
La quantit 2 nest pas une distance au sens mathmatique (elle nest pas symtrique,
. . .) mais elle traduit lide de proximit entre les tables de contingence observe et thorique.
Plus 2 sera proche de 0, plus lhypothse dindpendance sera acceptable.
De plus, il est important de noter la normalisation par ni,j des termes de la somme dfinissant 2 . Leurs prsences assurent que les cellules des tables de contingence sont traites de la
mme faon si elles contiennent un effectif important ou faible. En effet, un cart ni,j ni,j = 1
aura plus dimportance si ni,j = 1 que si ni,j = 1000, par exemple.
Afin de donner un ordre de grandeur pour 2 , nous prsentons ici le calcul de la distance
dans un cas particulier qui correspond la situation extrme o u et v ne sont absolument
pas indpendantes. Pour cela, nous considrons que les variables ont les mmes modes (i.e.
r = s et, pour tout i {1, . . . , r}, i = i ) et que les observations sont toujours gales (i.e.
pour tout i {1, . . . , n}, ui = vi ). La table de contingence des effectifs observs ni,j est donc
donne par
n/r 0
0
..
..
..
0
.
.
.
.
[ni,j ]16i,j6r = .
..
..
..
.
.
0
0 0 n/r
Pour tout i, j {1, . . . , r}, nous avons ni = nj = n/r et donc ni,j = n/r2 . Ainsi, la table de
contingence thorique est donne par
ni,j
16i,j6r
..
..
n/r2 . . .
.
.
.
= .
.
.
.
.
.
2
.
.
. n/r
n/r2 n/r2 n/r2
31
r
r
r X
r
X
(ni,j ni,j )2
(ni,j ni,j )2 X
(ni,i ni,i )2 X
=
+
=
ni,j
ni,i
ni,j
i=1
j=1
i=1 j=1
j6=i
r
r
r
r
X
(n/r n/r2 )2 X (0 n/r2 )2 X n(r 1)2 X n
=
+
+
=
n/r2
n/r2
r2
r2
i=1
j=1
j=1
i=1
j6=i
j6=i
n(r 1)2 n(r 1)
+
= n(r 1) .
= r
r2
r2
Plus gnralement, nous avons le rsultat suivant qui nous permet de donner lordre de
grandeur de 2 en cas dabsence totale dindpendance.
Proposition 3.5. Nous avons
2 6 n
Dmonstration. Admis.
p
(r 1)(s 1) .
32
Chapitre 4
Introduction
Dans le chapitre prcdent, nous avons introduit quelques outils permettant de discuter
de lexistence dune relation entre deux variables. Parmi ces outils, certains peuvent tre
gnraliss pour considrer les relations potentielles entre un nombre arbitraire de variables.
Nous nous restreindrons dans ce chapitre ltude dun jeu de donnes relatif n observations
de p variables quantitatives couples.
Ainsi, dans la suite de ce chapitre, nous considrerons p variables quantitatives x1 , . . . , xp et
n vecteurs observs (x11 , . . . , xp1 )0 , . . . , (x1n , . . . , xpn )0 Rp pondrs par des poids p1 , . . . , pn > 0
normaliss. Pour i {1, . . . , n} et j {1, . . . , p}, nous notons donc xji la ime observation de
la j me variable.
Afin de garder des notations simples, pour tout j {1, . . . , p}, nous noterons xj pour
dsigner la j me variable ou pour dsigner le vecteur de ses observations (xj1 , . . . , xjn )0 Rn
selon le contexte. De mme, pour tout i {1, . . . , n}, nous noterons xi = (x1i , . . . , xpi )0 Rp
pour dsigner le vecteur des ime observations de chaque variable.
4.2
Les notions de covariance et de corrlation linaire que nous avons vues taient dfinies
entre deux variables. Elles se gnralisent naturellement p variables en considrant toutes
les paires de variables (xi , xj ) pour i, j {1, . . . , p}. Les valeurs obtenues sont alors prsentes
sous forme matricielle.
Dfinition 4.1. La matrice de covariance = (ij )16i,j6p est la matrice carre de taille
33
34
p p dont les entres sont donnes par ij = Cov(xi , xj ) pour i, j {1, . . . , p}.
Var x1
Cov(x2 , x1 )
..
.
Cov(x1 , x2 )
Var x2
..
.
..
.
Cov(xp1 , x1 ) Cov(xp1 , x2 )
Cov(xp , x1 )
Cov(xp , x2 ) . . .
..
..
.
.
p1
p1
p
Var x
Cov(x , x )
Cov(xp , xp1 )
Var (xp )
Par dfinition, la diagonale de contient les variances des variables. De plus, grce la
Proposition 3.1, nous savons que cette matrice est symtrique, i.e. pour tout i, j {1, . . . , p},
ij = ji .
Dfinition 4.2. La matrice de corrlation C = (Cij )16i,j6p est la matrice carre de taille
p p dont les entres sont donnes par Cij = (xi , xj ) pour i, j {1, . . . , p}.
1
(x2 , x1 )
..
.
(x1 , x2 )
1
..
.
..
.
C=
p1 1
(x , x ) (xp1 , x2 )
(xp , x1 )
(xp , x2 ) . . .
(x1 , xp1 )
(x2 , xp1 )
..
.
(x1 , xp )
(x2 , xp )
..
.
p1
p
1
(x , x )
(xp , xp1 )
1
Cette matrice na que des 1 sur sa diagonale et est galement symtrique car (xi , xj ) =
(xj , xi ) pour tout i, j {1, . . . , p}.
En pratique, nous utiliserons principalement la matrice de covariance. Une des raisons de
ce choix est la simplicit de lcriture matricielle de . Pour illustrer cela, nous considrons la
matrice des donnes centres X. Cette matrice est de taille n p et, pour tout i {1, . . . , n}
et j {1, . . . , p}, lentre Xij vaut xji xj o xj est la moyenne des xj1 , . . . , xjn pondre par
les poids p1 , . . . , pn .
1
x1 x1 x21 x2 xp1 xp
x1 x1 x2 x2 xp xp
2
2
2
X=
..
..
..
.
.
.
.
.
.
x1n x1 xn1 x2
xpn xp
Si lon considre que les donnes ont t obtenues en observant p variables sur n individus,
chaque ligne de X est relative un individu et chaque colonne de X est relative une variable.
Nous introduisons aussi la matrice des poids W qui est la matrice diagonale de taille n n
donne par
p1 0 0
.
0 p2 . . . ..
.
W =
.. . .
..
.
.
. 0
0 0 pn
Proposition 4.1. La matrice de covariance scrit
= tXW X .
35
XW X
ij
=
=
n
X
k=1
n
X
k=1
Xik (W X)kj =
n
X
Xik
k=1
n
X
n
X
Wk` X`j
`=1
pk xik xi xjk xj
k=1
= Cov(xi , xj ) = ij .
Nous avons vu que le coefficient de corrlation linaire (x, y) nous permet de mesurer la
"proximit" des points (x1 , y1 ), . . . , (xn , yn ) R2 une droite. Lorsque nous disposons dun
nombre p de variables, en gnral, il nest plus possible de dcrire la relation entre toutes les
variables en terme de simples droites (du moins, quand p > 2) et il nous faut faire intervenir
la quantit suivante qui gnralise la notion de corrlation linaire.
Dfinition 4.3. Considrons une variable couple y supplmentaire et ses n observations
y1 , . . . , yn R. Le coefficient R de corrlation multiple de y avec les variables x1 , . . . , xp
est la corrlation maximale entre y et toutes les combinaisons linaires des xj , j {1, . . . , p},
R = sup (y, a1 x1 + + ap xp ) avec (a1 , . . . , ap )0 Rp .
Exercice 4.1. A priori, la dfinition donne R [1, 1]. En comparant (y, a1 x1 + + ap xp )
et (y, a1 x1 ap xp ) pour un vecteur (a1 , . . . , ap )0 Rp arbitraire, montrer que nous
avons toujours 0 6 R 6 1.
Comme pour la corrlation linaire, le coefficient de corrlation multiple ne sinterprte pas
lorsquil est proche de zro. Quand R est proche de 1, cela suggre que les points (y1 , x11 , . . . , xp1 ),
. . . , (yn , x1n , . . . , xpn ) Rp+1 sont "proches" dun sous-espace linaire de dimension p. Autrement dit, cela suggre lexistence de a1 , . . . , ap , b R tels que les points observs soient dcrits
de faon "acceptable" par la relation
y = a1 x1 + + ap xp + b .
Dans le cas particulier o p = 1, nous avons R = |(y, x1 )| et nous retrouvons bien la mme
interprtation : quand R est proche de 1, les points (y1 , x11 ), . . . , (yn , x1n ) du plan R2 sont
"proches" dune droite, i.e. dun sous-espace de dimension p = 1.
Exemple Dans le cas p = 2, il est possible de donner une interprtation gomtrique simple du
coefficient R. En effet, dans ce cas, nous cherchons si les points (y1 , x11 , x22 ), . . . , (yn , x1n , x2n )
R3 sont "proches" dun plan (i.e. un sous-espace de dimension p = 2). Pour les donnes
centres, nous avons vu que la covariance est un produit scalaire dont la norme associe est
lcart-type (voir la dmonstration du Thorme 3.1). De plus, nous avons
p
p
Cov(y, a1 x1 + a2 x2 ) = Var (y) Var (a1 x1 + a2 x2 ) (y, a1 x1 + a2 x2 )
et donc la corrlation (y, a1 x1 + a2 x2 ) joue le rle du cosinus de langle entre y y et
a1 (x1 x1 ) + a2 (x2 x2 ) (faire lanalogie avec le produit scalaire usuel entre deux vecteurs u
et v, u v = kuk kvk cos(d
u, v)).
36
yy
a1 (x1 x1 ) + a2 (x2 x2 )
x2 x2
x1 x1
Figure 4.1 La corrlation (y, a1 x1 + a2 x2 ) joue le rle du cos() o est langle form
par y y et a1 (x1 x1 ) + a2 (x2 x2 ).
A laide de cette analogie, nous comprenons que le choix de (a1 , a2 ) R2 qui rend (y, a1 x1 +
a2 x2 ) maximal est celui tel que langle form par y y et a1 (x1 x1 ) + a2 (x2 x2 ) soit
minimal (car cela maximise le cos()). En dautres termes, (y, a1 x1 + a2 x2 ) est maximal
pour (a1 , a2 ) R2 tels que a1 (x1 x1 ) + a2 (x2 x2 ) soit gal la projection orthogonale y
de y y sur le plan engendr par x1 x1 et x2 x2 . Ainsi, nous obtenons que R = (y, y ).
yy
x2 x2
x1 x1
Figure 4.2 La corrlation (y, a1 x1 + a2 x2 ) maximale est atteinte pour (a1 , a2 ) R2 tels
que a1 x1 + a2 x2 soit la projection orthogonale y de y y sur le plan engendr par x1 x1 et
x2 x2 et R = (y, y ).
Le rsultat obtenu dans cet exemple se gnralise p > 2 par des arguments similaires et
mne la proposition suivante.
4.3. INERTIE
37
4.3
Inertie
La variance des observations dune variable quantitative est une mesure de la dispersion
de ces observations par rapport leur moyenne. Pour tendre cette notion des observations
dans Rp , une premire ide consiste faire la somme des variances des coordonnes.
Dfinition 4.4. L inertie standard des n observations (x11 , . . . , xp1 ), . . . , (x1n , . . . , xpn ) Rp
est dfinie par
p
X
I=
Var xj .
j=1
p
X
j=1
n
X
i=1
n
X
i=1
Var x
p X
n
X
j=1 i=1
pi
p
X
(xji gj )2
j=1
pi d22 (xi , g)
pi (xji xj )2
38
o d2 est la distance euclidienne usuelle sur Rp . Cette criture nous amne considrer la
dfinition suivante de linertie base sur une distance d quelconque sur Rp .
Rappel Une distance sur Rp est une fonction d : Rp Rp R+ qui vrifie les points suivants,
pour x, y, z Rp ,
1. d(x, y) = d(y, x) (Symtrie),
2. d(x, x) = 0 x = 0 (Sparation),
3. d(x, z) 6 d(x, y) + d(y, z) (Ingalit triangulaire).
Dfinition 4.5. Etant donne une distance d sur Rp , nous dfinissons l inertie par rapport
d des n observations (x11 , . . . , xp1 ), . . . , (x1n , . . . , xpn ) Rp par
Id =
n
X
pi d2 (xi , g) .
i=1
La distance d est une distance sur lespace des variables et permet de dfinir une notion
dinertie Id mesurant la dispersion des observations en un sens particulier li au choix de d,
par exemple, en donnant une importance diffrente chaque variable (voir les exemples de la
Section 4.4).
Afin de dcrire ce qui induit de la dispersion dans nos donnes, nous serons amens
considrer le rle que joue chaque vecteur dobservations xi dans le calcul de linertie.
Dfinition 4.6. Pour i {1, . . . , n}, nous appelons contribution linertie Id de lindividu
i la proportion
pi d2 (xi , g)
[0, 1] .
Id
Dans le cas de linertie standard I, cette contribution vaut donc
p
pi X j
(xi xj )2 .
I
j=1
4.4
Changement de distance
Nous avons vu que, en rcrivant linertie standard I, nous tions amens considrer la
dfinition plus gnrale de linertie Id par rapport une distance d. Nous allons maintenant
nous intresser une classe particulire de distances construite en suivant la remarque suivante,
pour i {1, . . . , n},
p
X
2
d2 (xi , g) =
(xji gj )2 = tXi Xi
j=1
x1 , . . . , xpi
o Xi = (x1i
xp ) Rp est le ime vecteur ligne de la matrice X des donnes
centres. Etant donne une matrice symtrique dfinie positive M (voir les rappels de la
Section 4.5) de taille p p, nous considrons la distance dM sur Rp dfinie par, pour tout
x, y Rp ,
d2M (x, y) = t(x y)M (x y) .
39
Exercice 4.2. A laide des rappels de la Section 4.5, vrifier que dM est bien une distance
sur Rp .
Ainsi, pour tout i {1, . . . , n}, nous avons d2M (xi , g) = tXi M Xi et nous notons IM linertie
par rapport dM . Nous prsentons quelques choix de M dans la suite de cette section. La
notion dinertie gnralisant celle de variance, nous disposons, en particulier, dun rsultat
analogue au Thorme 1.2.
Thorme 4.1. [Inertie par groupes] Soient N > 0 et G1 , . . . , GN une partition de
{1, . . . , n}. Pour tout k {1, . . . , N }, nous considrons
qk =
pi
et
g (k)
1
xk
..
= . Rp
xpk
iGk
1 X
pi xji , j {1, . . . , p} .
qk
iGk
avec
inter
IM
N
X
qk d2M (g (k) , g)
(Inertie inter-groupe)
k=1
et
intra
IM
N
X
(k)
qk I M
(Inertie intra-groupe)
k=1
(k)
IM =
1 X
pi d2M (xi , g (k) )
qk
iGk
p
X
j=1
Varinter (xj ) +
p
X
j=1
Varintra (xj ) .
40
4.4.1
Distance euclidienne
Si M est la matrice identit Idp de taille p, alors la distance dM est la distance euclidienne
classique sur Rp ,
d2Idp (xi , g) = tXi Idp Xi = tXi Xi = d22 (xi , g), i {1, . . . , n}.
Ce cas correspond ce que nous avons vu dans la section prcdente et linertie standard,
IIdp = I =
n
X
pi d22 (xi , g)
i=1
p
X
Var xj .
j=1
Par analogie avec la contribution dun individu linertie, il est possible ici de dfinir linfluence
de chaque variable sur linertie.
Dfinition 4.7. Pour j {1, . . . , p}, nous appelons contribution linertie standard I
de la variable j la proportion
Var xj
[0, 1].
I
4.4.2
1/Var x1
0 ...
0
..
..
..
.
.
.
0
,
M =
..
..
..
.
.
0
.
p
0
. . . 0 1/Var (x )
cela revient travailler avec avec la distance dM qui est telle que, pour tout i {1, . . . , n},
p
X
(xji xj )2
.
Var (xj )
j=1
n
X
i=1
p
X
j=1
pi tXi M Xi =
n
X
pi
i=1
1
Var (xj )
n
X
i=1
pi (xji
p
X
(xji xj )2
Var (xj )
j=1
xj )2
p
X
Var xj
=
Var (xj )
j=1
= p.
Linertie IM est constante et chaque variable y contribue avec une proportion 1/p.
Exercice 4.4. Faire un parallle entre lutilisation de la distance des variables rduites et la
matrice de corrlation C.
4.4.3
41
Distance de Mahalanobis
Plus gnralement, pour normaliser les observations des variables, le statisticien Mahalanobis proposa, en 1936, de prendre M = 1 , linverse de la matrice de covariance. Bien
entendu, ce choix nest possible que lorsque est une matrice inversible. Cela donne, pour
i {1, . . . , n},
d21 (xi , g) = tXi 1 Xi .
De plus, nous avons le mme rsultat que pour la distance des variables rduites, savoir que
linertie I1 est constante et gale p,
I1
n
X
i=1
n
X
pi Xi
Xi =
n
X
pi
i=1
pi
i=1
p X
p
X
jk
p X
p
X
jk
Xij Xik
j=1 k=1
(xji xj )(xki xk )
j=1 k=1
p X
p
X
j=1 k=1
p
X
1
jk
Cov(x , x ) =
p X
p
X
jk
kj
j=1 k=1
p
X
jj =
Idp jj = p .
j=1
j=1
Par contre, la contribution des variables linertie nest plus ncessairement gale 1/p et ne
sexprime pas simplement.
Lintrt du choix de la distance de Mahalanobis provient de considrations thoriques.
En effet, lutilisation de 1 permet de dcrire les variables xj comme tant des sommes de
variables rduites et non corrles. En particulier, les quantits d2M (xi , g) sexpriment alors en
terme de sommes des contributions isoles de ces nouvelles variables.
Exemple Prenons p = 2, , , R et supposons quil existe deux variables rduites et non
2
corrles u et
Cov(u,v)=0) telles que x1 =
v (i.e.
u 2et x 2 = u + v. Il est facile de montrer
1
2
1
2
2
que Var x = , Cov(x , x ) = et Var x = + . En supposant que 6= 0 et 6= 0,
nous avons donc la matrice de covariance
2
=
2
+ 2
qui est inversible (son dterminant vaut 2 2 > 0) et dont linverse est
2
1
+ 2
.
= 2 2
42
Xi 1 Xi
1
1
1 2
2
= 1
11 Xi1 + 12 + 21 Xi1 Xi2 + 22 Xi2
2 1
2
2 + 2 1
1 )2
1 )(x2 x2 ) +
(x
(x
(x2 x2 )2
x
x
i
i
i
2 2
2 2
2 2 i
1 1
=
(x x1 )2
2 i
2
2 1
1
+ 2 2 (x1i x1 )2
(xi x1 )(x2i x2 ) + 2 (x2i x2 )2
2
!2
!2
(x1i x1 ) x2i x2
x1i x1
+
(ui u) (ui u) + (vi v) 2
2
= (ui u) +
= (ui u)2 + (vi v)2 .
Nous obtenons donc bien que les quantits d21 (xi , g) scrivent comme la somme des contributions des observations ui et vi sparment.
4.5
Nous avons vu dans ce chapitre que les matrices symtriques dfinies positives jouent un
rle important lorsque nous souhaitons tudier un ensemble de p variables couples. Lobjet de
cette section est de faire certains rappels dalgbre linaire sur les proprits de ces matrices
que nous utiliserons dans la suite du cours.
4.5.1
Matrices symtriques
Dfinition 4.8. Considrons une matrice carre M de taille p p. Nous dirons que M est
symtrique si
i, j {1, . . . , p}, Mij = Mji .
Ces matrices ont de bonnes proprits comme nous le verrons par la suite. De plus, cest
pour M symtrique que nous avons dfini la distance dM telle que, pour tout i {1, . . . , n},
d2M (xi , g) = tXi M Xi .
Puisque nous nutilisons que cette proprit de la distance dM , il est facile de voir que nous
pouvons considrer nimporte quelle matrice M 0 de taille p p et quil est toujours possible
de se ramener une matrice symtrique M telle que, pour tout i {1, . . . , n},
d2M 0 (xi , g) = tXi M 0 Xi = tXi M Xi = d2M (xi , g) .
43
En effet, si M 0 est une matrice p p quelconque, nous avons, pour tout v = (v1 , . . . , vp )0 Rp ,
vM 0 v =
p X
p
X
0
Mjk
vj vk
j=1 k=1
X
X
0
0
0 2
vj vk .
Mjk
+ Mkj
=
Mjj
vj +
j=1
j<k
Ainsi, pour symtriser, il nous suffit de considrer la matrice M symtrique dfinie par, pour
tout j, k {1, . . . , p},
0 + M0
Mjk
kj
Mjk =
2
et nous obtenons
d2M (xi , g) =
Xi M Xi
X
X
=
Mjj Xij2 +
(Mjk + Mkj ) Xij Xik
j=1
j<k
!
p
0 + M0
0 + M0
0 + M0
X
X
M
M
Mjj
jj
kj
jk
jk
kj
=
Xij2 +
+
Xij Xik
2
2
2
j=1
j<k
X
X
0
0
0
Xij Xik
=
+ Mkj
Mjj
Xij2 +
Mjk
j=1
j<k
Xi M Xi =
d2M 0 (xi , g)
avons
3 v1
= 2v12 + 3v1 v2 v1 v2 + 2v22
2 v2
= 2v12 + 2v1 v2 + 2v22
2 1 v1
= v1 v2
1 2 v2
avec 1 =
3 + (1)
. Il est donc quivalent de considrer M 0 et sa version symtrise
2
2 1
M=
.
1 2
44
4.5.2
Dfinition 4.9. Considrons une matrice carre M de taille p p. Nous dirons que M est
dfinie positive si
v Rp , tvM v > 0 .
Cette proprits implique en particulier que nous avons bien tXi M Xi > 0, pour tout i
{1, . . . , n}.
Exemple La matrice
2 1
M=
.
1 2
est symtrique dfinie positive. En effet, pour tout (x, y)0 R2 , nous avons
2 1 x
x y
= 2x2 2xy + 2y 2 = x2 + y 2 + (x y)2 > 0 .
1 2
y
La matrice
1 2
M=
2 1
.
est symtrique mais pas dfinie positive. En effet, prenons (1, 1)0 R2 , nous avons
1 2 1
1 1
= 2 < 0 .
1
2 1
4.5.3
Une des proprits particulirement intressantes des matrices symtriques est le rsultat
suivant.
Thorme 4.2. Toute matrice symtrique se diagonalise dans une base orthonorme.
Dmonstration. Voir le cours dalgbre linaire.
Rappel Soit E un espace vectoriel euclidien de dimension d muni dun produit scalaire h, i.
Une base {b1 , . . . , bd } de E est dite orthonorme si, pour tout i, j {1, . . . , d} avec i 6= j,
hbi , bj i = 0 et hbi , bi i = 1.
Afin dobtenir les valeurs propres et les vecteurs propres dune matrice symtrique M ,
il faut procder par tapes. Nous donnons ici un exemple partir de la matrice symtrique
dfinie positive suivante
7 4
M=
.
4 13
Exercice 4.5. Vrifier que M est bien dfinie positive.
Rappel Soit M une matrice de taille p p, nous disons que R est une valeur propre de
M associe au vecteur propre v Rp si et seulement si M v = v.
45
20 + 10
= 15
2
2 =
et
20 10
=5.
2
Remarquons que les deux valeurs propres de M sont positives. Cette remarque est plus
gnralement vraie pour toutes les valeurs propres dune matrice dfinie positive.
Proposition 4.3. Soit M une matrice symtrique de taille p p, si M est dfinie positive
alors toutes ses valeurs propres sont positives.
Dmonstration. Soit R une valeur propre de M et v = (v1 , . . . , vp )0 Rp \ {0} un vecteur
propre non-nul associ. Par dfinition, nous savons que tvM v > 0. De plus, nous avons
t
vM v = tvv =
p
X
vi2 > 0 .
i=1
46
Diagonalisation et interprtations
Soit i {1, . . . , p}, nous notons dsormais ui Rp le vecteur propre normalis associ
la valeur propre i > 0, i.e. ui est tel que u2i1 + + u2ip = 1. Ce vecteur propre sobtient
partir dun vecteur propre vi non-nul associ i en considrant
vi
ui =
kvi k
2 + + v2 .
avec kvi k2 = vi1
ip
Les vecteurs u1 , . . . , up forment une base de Rp . De plus, la matrice M tant symtrique,
nous pouvons considrer que cette base est orthonorme. La matrice de changement de base
allant de la base canonique celle donne par les ui est la matrice P de taille p p dont les
colonnes sont les ui ,
..
.. .
P = ...
.
.
u1p u2p . . . upp
En tant que matrice de changement de base, P est inversible. En outre, la base canonique et la
base forme par les ui tant orthonormes, la matrice P est orthogonale (i.e. P 1 = tP ). Cette
dernire remarque facilite le calcul de linverse P 1 puisquil suffit simplement de considrer
la matrice transpose tP .
Considrons la matrice diagonale D obtenue partir des valeurs propres 1 , . . . , p ,
1 0 . . . 0
.
0 . . . . . . ..
.
D= . .
.. ... 0
..
0 . . . 0 p
Nous avons donc obtenu la diagonalisation de la matrice M ,
M = P DP 1 = P D tP .
Reprenons les vecteurs v1 et v2 de notre exemple. Ils mnent aux vecteurs propres normaliss
1/ 5
2/5
u1 =
et
u2 =
.
2/ 5
1/ 5
Notons que ces vecteurs forment bien une base orthonorme de R2 car ku1 k2 = ku2 k2 = 1 et
tu u = 0. La matrice de changement de base P vaut donc
1 2
1/ 5 2/5
P =
2/ 5 1/ 5
et il est facile de vrifier quelle est inversible (det(C) = 1) et orthogonale,
1/5 2/ 5
1
P =
= tP .
2/ 5 1/ 5
La diagonalisation de M scrit donc
15 0 t
M =P
P .
0 5
47
En dimension p = 2, il est possible dillustrer cette diagonalisation par un dessin comme celui
de la Figure 4.3. La courbe CM reprsente lellipse associe la matrice symtrique positive
M et les droites engendres par les vecteurs propres u1 et u2 sont les deux axes de symtrie
de CM . De plus, remarquons que le demi-grand axe le long de u1 vaut 1 = 15 et celui le long
de u2 vaut 2 = 5.
CM
10
u2
0
u1
5
10
15
10
10
15
Figure 4.3 Ellipse associe la matrice symtrique dfinie positive M et la base orthonorme
de diagonalisation {u1 , u2 }.
48
Chapitre 5
Introduction
Comme dans le chapitre prcdent, nous considrons ici p variables quantitatives couples x1 , . . . , xp pour lesquelles nous disposons de n observations x1 = (x11 , . . . , xp1 )0 , . . . , xn =
(x1n , . . . , xpn )0 Rp pondres par les poids p1 , . . . , pn > 0 normaliss. Afin de simplifier les
notations de ce chapitre, nous supposerons que ces observations sont centres, i.e. xj = 0 pour
tout j {1, . . . , p}. Nous avons donc notre disposition la matrice de taille n p des donnes
centres,
1
1
x1 . . . xp1
x1 x1 . . . xp1 xp
.. . .
.
..
..
..
X=
= .
. .. ,
.
.
.
x1n . . . xpn
x1n x1 . . . xpn xp
et la matrice diagonale de taille n n des poids,
p1 0
0 ...
W =
.. . .
.
.
0 ...
...
..
.
..
.
0
0
..
.
.
0
pn
La matrice X contient donc les observations, chaque colonne correspondant aux n observations
dune variable et chaque ligne correspondant aux p observations pour un individu donn.
Nous nous intressons la question suivante : comment donner une "bonne" reprsentation
graphique de ces donnes x1 , . . . , xn Rp ? Si p = 2, il est possible de tracer le nuage de points
associ aux observations dans le plan. Si p > 2, cette reprsentation nest plus faisable. Pour
reprsenter les observations, nous allons chercher construire un plan sur lequel projeter les
observations tout en essayant de conserver au maximum la structure des donnes.
5.2
Composantes principales
50
Exercice 5.1. Dduire directement de cette proposition que la matrice de corrlation C est
symtrique et dfinie positive.
En particulier, ce rsultat et le Thorme 4.2 impliquent que est diagonalisable en base
orthonorme. De plus, grce la Proposition 4.3, nous pouvons considrer 1 > > p > 0
et des vecteurs u1 , . . . , up Rp orthonorms tels que = P DP 1 = P D tP avec
1 0 . . . 0
1
u1 . . . up1
.
.
.
..
. . ..
0
.. .
D=
et
P = ...
.
.. . .
..
.
.
. 0
1
up . . . upp
0 . . . 0 p
Les colonnes de P sont les vecteurs propres uj = (uj1 , . . . , ujp )0 Rp , pour j {1, . . . , p}, et
elles permettent de dfinir p nouvelles variables c1 , . . . , cp comme des combinaisons linaires
des variables x1 , . . . , xp ,
cj =
p
X
k=1
cj
Les
sont des variables "virtuelles" et sont appeles les variables principales. Pour i
{1, . . . , n} et j {1, . . . , p}, la ime observation de la variables cj est donc donne par
cji
p
X
k=1
ujk xki
p
X
k=1
Comme nous lavons fait pour les observations initiales, nous pouvons considrer le vecteur
C j des n observations de la variable cj , j {1, . . . , p},
j
c1
..
j
C = . Rn .
cjn
Etant donn que les variables x1 , . . . , xp sont supposes centres, il est important de remarquer
quil en va de mme pour les variables c1 , . . . , cp puisque ces dernires en sont des combinaisons
linaires.
Dfinition 5.1. Les vecteurs C 1 , . . . , C p sont appels les composantes principales. La
matrice C de taille n p dont les colonnes sont les composantes principales est la matrice
des composantes principales,
1
c1 . . . cp1
.. .
C = XP = ...
.
1
cn . . . cpn
51
La matrice C doit tre considre de la mme manire que la matrice des donnes centres
X. En effet, chaque ligne correspond aux p observations des variables c1 , . . . , cp pour un individu donn et chaque colonne correspond aux n observations dune des variables principales.
Le principal avantage considrer C plutt que X rside dans la structure de covariance.
Proposition 5.2. La matrice de covariance des variables principales est la matrice diagonale
D. Autrement dit, pour tout j, j 0 {1, . . . , p} avec j 6= j 0 , nous avons Var cj = j et
0
Cov(cj , cj ) = 0.
Dmonstration. Considrons j, j 0 {1, . . . , p} et, grce la bilinarit de la covariance, calculons
!
p
p
X
X
0
0
0
Cov(cj , cj ) = Cov
ujk xk ,
ujk0 xk
=
k=1
k0 =1
p
X j j0
0
uk uk0 Cov xk , xk
k=1 k0 =1
p X
p
p
X
X
p
X
k=1 k0 =1
t
Pkj (P )kj 0
k=1
= ( P P )jj 0 = Djj 0 .
Exercice 5.2. Si certaines des valeurs propres de sont nulles, que cela signifie-t-il pour les
variables initiales x1 , . . . , xp ?
5.3
5.3.1
Reprsentation graphique
Plan principal
Pour i {1, . . . , n}, la ime ligne de la matrice C donnent les coordonnes Ci = (c1i , . . . , cpi )0
du ime individu dans le repre des composantes principales. Les observations des variables
principales sont dans Rp et, pour p > 2, nous ne pouvons toujours pas les reprsenter simplement. Cependant, par construction, nous avons class les variables principales par variance
dcroissante,
1 = Var c1 > 2 = Var c2 > > p = Var (cp ) > 0 .
Rp
Autrement dit, les deux premires composantes principales correspondent aux deux directions
dans lesquelles la "dispersion" des donnes est la plus importante. Cest dans ce plan engendr
par C 1 et C 2 , appel plan principal , que nous reprsenterons nos donnes.
5.3.2
Pour i {1, . . . , n}, les coordonnes du ime individu dans le plan principal sont donc
donnes par les deux premiers lments (c1i , c2i ) de la ime ligne de la matrice C.
La question naturelle de la qualit de cette reprsentation se pose. Comme lillustre la figure
5.1, nous allons raisonner de la mme faon que pour le coefficient de corrlation multiple
R. Cest--dire que nous allons considrer langle i form entre le vecteur ci Rp et la
52
reprsentation du ime individu dans le plan principal dont les coordonnes sont (c1i , c2i ). Plus
cet angle sera petit, meilleure sera la reprsentation du ime individu dans le plan principal,
i.e. plus ci sera proche du plan principal. Pour i {1, . . . , n}, nous mesurons donc la qualit
de la reprsentation du ime individu par la quantit
cos2 i =
(c1i )2 + (c2i )2
.
(c1i )2 + + (cpi )2
(5.1)
ci = (c1i , . . . , cpi )0 Rp
(c1i , c2i )0 P
P
Figure 5.1 Langle i form entre le vecteur ci Rp et la reprsentation du ime individu
dans le plan principal P .
Plus le cosinus carr de (5.1) sera proche de 1, plus la reprsentation du ime individu sera
bonne. Pour faire apparatre cette qualit sur le graphique, la taille du point reprsentant le
ime individu peut tre proportionnelle cos2 i (voir Figure 5.2).
53
Figure 5.2 Nuage de n = 14 points reprsent dans le plan principal avec des tailles
proportionnelles la qualit de la reprsentation.
5.3.3
Afin de comprendre les axes du plan principal, il nous faut savoir quel rle joue chaque
variable xj dans la construction des variables principales. Le rsultat suivant donne une expression des corrlations linaires entre variables initiales et variables principales.
Proposition 5.3. Prenons j, j 0 {1, . . . , p}, nous avons
p
j 0
0
j j0
x ,c
=p
ujj .
j
Var (x )
Dmonstration. Avant de calculer cette corrlation, nous faisons la remarque suivante : tant
donn que la matrice P est orthogonale, nous savons que
C = XP X = CP 1 = C tP .
Ainsi, pour tout i {1, . . . , n} et j {1, . . . , p}, la ime observation centre de la variable xj
vaut
p
p
X
X
j
t
t
Cik Pkj =
cki ukj .
(5.2)
xi = (C P )ij =
k=1
k=1
54
p
X
k=1
j0
Cov x , c
p
X
= Cov
!
0
ck ukj , cj
k=1
p
X
0
0
Cov ck , cj ukj = j 0 ujj
k=1
o la dernire galit dcoule de la Proposition 5.2. Nous avons donc la corrlation linaire
xj , cj
0
0
0
p
Cov xj , cj
j 0 ujj
j 0
0
p
p
p
=p
=
=
ujj .
p
0
j
j
j
j
Var (x ) j 0
Var (x )
Var (x ) Var (c )
Etant donn que nous nous limitons ici au plan principal, chaque variable xj est mettre
en relation avec c1 et c2 . Pour chaque j {1, . . . , p}, nous considrons donc le point Pj donn
par ses coordonnes
(xj , c1 ), (xj , c2 ) =
1 u1j
2 u2j
p
,p
.
Var (xj )
Var (xj )
Ces points sont tous dans le disque unit D = {(x, y) R2 tel que x2 + y 2 6 1}. En effet,
grce la Proposition 5.3, nous avons
1 2
2 2
(x , c ) + (x , c ) 6
p
X
k=1
p
p
X
X
k (ukj )2
1
(x , c ) =
=
k (ukj )2 = 1
Var (xj )
Var (xj )
j
k 2
k=1
k=1
car, en utilisant encore (5.2) et la Proposition 5.2, puisque les variables principales sont dcorrles,
!
p
p
p
X
X
X
j
k k
k 2
k
Var x = Var
c uj =
(uj ) Var c =
k (ukj )2 .
k=1
k=1
k=1
Le cercle des corrlations est le graphique reprsentant les points Pj , j {1, . . . , p}, sous
forme de vecteurs dorigine nulle ainsi que le cercle unit (voir lexemple de la Figure 5.3).
Soit j {1, . . . , p}, plus le point Pj sera proche du cercle, plus la variable xj associe aura de
linfluence sur les axes du plan principal et y sera bien reprsente.
5.4. INERTIE
55
1.0
0.5
0.0
0.5
1.0
1.0
0.5
0.0
0.5
1.0
5.4
Inertie
I(x , . . . , x ) = I(c , . . . , c ) =
p
X
k .
k=1
I(c , . . . , c ) =
p
X
k=1
p
X
k
Var c =
k .
k=1
56
De plus, grce (5.2) et au fait que les variables principales sont dcorrles, nous calculons
facilement linertie standard associe aux variables x1 , . . . , xp ,
I(x1 , . . . , xp ) =
p
X
p
p
X
X
Var xj =
Var
ck ukj
j=1
p X
p
X
j=1
k=1
(ukj )2 Var ck
j=1 k=1
p
p
X
X
p
X
j=1
k=1
(ukj )2 =
k=1
| {z }
=1
5.4.1
Qualit globale
r2 =
1 + 2
.
1 + + 2
La quantit r2 mesure la qualit globale de la reprsentation dans le plan principal, i.e. plus
r2 sera proche de 1, meilleure sera cette reprsentation. Il est possible de se faire une ide de
r2 grce un graphique reprsentant la dcroissance des valeurs propres 1 > > p appel
boulis des valeurs propres (voir Figure 5.4).
5.4. INERTIE
57
2.0
1.5
1.0
0.5
0.0
1
5.4.2
Changement de distance
Etant donne une matrice S dfinie positive de taille p p, il est possible dadapter les
variables considres un problme donn en considrant les "nouvelles" donnes issues de la
matrice XS = XS.
Exemple Afin de mettre la mme chelle les variables x1 , . . . , xp , nous pouvons tre amens
considrer leurs versions rduites. Cela correspond modifier le problme en prenant
1
p
0
.
.
.
0
Var (x1 )
..
..
..
.
.
0
.
.
S=
..
..
..
.
.
.
0
0
... 0 p
p
Var (x )
En effet, pour i {1, . . . , n} et j {1, . . . , p}, il est facile de voir que le ime observation de
la j me variable de XS est donne par
(XS )ij = (XS)ij =
p
X
k=1
Xik Skj =
xji xj
.
xj
58
Par linarit, les colonnes de XS demeurent centres. Pour i {1, . . . , n}, le ime vecteur
ligne de XS , note XS,i Rp , contient donc les observations centres des "nouvelles" variables
relatives au ime individu. Ainsi, pour j {1, . . . , p}, nous avons la ime observation de la j me
variable modifie,
(XS,i )j = (XS)ij =
p
X
k=1
Xik Skj =
p
X
k=1
Autrement dit, XS,i = tSXi o Xi est le ime vecteur ligne de X. Le carr de la distance
euclidienne entre le ime individu et le centre de gravit est donc donn par
t
(XS,i )XS,i = t( tSXi ) tSXi = tXi S tS Xi = tXi M Xi
avec M = S tS qui est, par construction, une matrice symtrique dfinie positive de taille pp.
En transformant les donnes X en XS , nous sommes donc naturellement amens travailler
avec les quantits d2M (xi , g) = tXi M Xi et donc avec linertie IM par rapport la distance dM
sur Rp . En faisant lACP partir de XS au lieu de X, cest linertie IM qui sera conserve
et nous pourrons construire un nouveau plan principal de faon conserver au maximum
linertie IM au lieu de linertie standard I. Cela donne une nouvelle procdure dACP dont
linterprtation gomtrique dpendra du choix de la matrice M .
Annexe A
Exemple dACP
Nous illustrons ici lanalyse en composantes principales sur un cas concret pour des donnes
issues du jeu vido "The Elder Scrolls V : Skyrim" dvelopp par Bethesda Game Studios et
dit par Bethesda Softworks. Il sagit dun jeu de rle dans lequel le joueur a, entre autres
choses, la possibilit dutiliser des arcs (et des arbaltes) pour mener ses qutes bien. Les
caractristiques des ces arcs sont les suivantes 1 :
Nom
Long Bow
Hunting Bow
Orcish Bow
Nord Hero Bow
Dwarven Bow
Elven Bow
Glass Bow
Ebony Bow
Daedric Bow
Dragonbone Bow
Crossbow
Enhanced Crossbow
Dwarven Crossbow
Enhanced Dwarven Crossbow
Poids
5
7
9
7
10
12
14
16
18
20
14
15
20
21
Valeur
30
50
150
200
270
470
820
1440
2500
2725
120
200
350
550
Dgt
6
7
10
11
12
13
15
17
19
20
19
19
22
22
Vitesse
1
0.9375
0.8125
0.875
0.75
0.6875
0.625
0.5625
0.5
0.75
1
1
1
1
Nous disposons donc de n = 14 arcs reprsents par p = 4 variables qui sont le poids de larc,
sa valeur, les dgts quil inflige et la vitesse laquelle il tire les flches. Ltude qui va suivre
est ralise laide du logiciel libre R 2 et le fichier des donnes skyrim_bows est disponible
sur la page de lauteur :
> data <- read.csv(file=
+
"http://www.math.univ-toulouse.fr/~xgendre/ens/l3sid/skyrim_bows")
Nous commenons par regarder lallure gnrale des donnes centres contenues dans la
matrice X en affichant les botes moustaches relatives aux 4 variables. Lchelle des variations
1. Source : http://www.uesp.net/wiki/Skyrim:Weapons#Archery
2. Voir http://www.r-project.org/
59
60
de la variable Value est nettement plus grande que celles des autres variables. Afin de ne
pas concentrer notre tude uniquement sur cette variable, nous choisissons de normaliser les
variables (i.e. nous travaillons avec la distance des variables rduites).
# Donnes centres
> X <- scale(data[,2:5],scale=F)
> boxplot(X)
2000
1500
1
1000
0
500
0
1
500
Weight
Value
Damage
Speed
Weight
Value
Damage
Speed
Nous supposons que les arcs sont tous pondrs de la mme faon, i.e. p1 = = p14 =
1/14. La matrice de covariance = tXX/14 se calcule facilement ainsi que ses valeurs et vecteurs propres. En particulier, nous obtenons la matrice des composantes principales C = XP
dont les deux premires colonnes contiennent les coordonnes des arcs dans le plan principal.
> ACP <- eigen(t(X) %*% X / 14)
> C <- X %*% ACP$vectors
> C
Long Bow
Hunting Bow
Orcish Bow
Nord Hero Bow
Dwarven Bow
Elven Bow
Glass Bow
Ebony Bow
Daedric Bow
Dragonbone Bow
Crossbow
Enhanced Crossbow
Dwarven Crossbow
Enhanced Dwarven Crossbow
[,1]
-2.55391815
-2.11378134
-1.31788780
-1.51591815
-0.82823147
-0.28118170
0.45522681
1.35200475
2.51012547
2.53347110
-0.20575118
-0.04809313
0.89250072
1.12143407
[,2]
0.2486141
0.3102861
0.5009160
0.3036447
0.5847674
0.7233640
0.8433071
1.0786370
1.5020046
0.3498669
-1.3485746
-1.3765868
-1.8717587
-1.8484878
[,3]
0.67448976
0.38825928
-0.14036157
0.10393262
-0.37104812
-0.50605134
-0.56540530
-0.39791838
0.13923517
1.06951370
-0.10187148
-0.05656160
-0.19117039
-0.04504234
[,4]
0.05993000
0.21054795
0.09991514
-0.30871374
-0.02758948
0.09667827
0.07510570
0.01400782
-0.11150169
0.01798606
-0.30729279
-0.17940223
0.12500263
0.23532638
61
Afin de rendre compte graphiquement de la qualit de reprsentation de chaque individu
dans le plan principal, nous calculons les cos2 i (voir (5.1)) et nous reprsentons le ime
individu par un symbole dont la taille est proportionnelle ce cosinus carr.
Daedric Bow
1.5
Ebony Bow
1.0
Glass Bow
Elven Bow
Dwarven Bow
Orcish Bow
0.5
Dragonbone Bow
Hunting Bow
Nord Hero Bow
Long Bow
0.0
0.5
1.0
Crossbow
Enhanced
Crossbow
1.5
Enhanced
Dwarven Crossbow
Dwarven Crossbow
2.0
2
La premire remarque que nous pouvons faire laide de cette reprsentation est quelle permet
de discriminer les arcs (bow en anglais) et les arbaltes (crossbow en anglais). En effet, les arcs
ont tous des ordonnes positives alors que celles des arbaltes sont ngatives. Pour aller plus
loin dans linterprtation des axes, nous considrons le cercle des corrlations.
62
1.0
0.5
Value
0.0
Weight
0.5
Damage
Speed
1.0
1.0
0.5
0.0
0.5
1.0
Nous lisons que la premire variable principale est essentiellement corrle positivement avec
les variables Value, Weight et Damage. Ainsi, les arcs dispendieux, lourds et faisant beaucoup de dgts (e.g. Dragonbone Bow ) auront tendance tre droite sur le plan principal
(i.e. avoir de grandes abscisses). La deuxime variable principale est, quant elle, surtout
corrle ngativement avec la variable Speed : les arcs les plus rapides (principalment les arbaltes) auront donc tendance se trouver en bas du plan principal (i.e. avoir des ordonnes
ngatives).
63
Enfin, pour quantifier la qualit globale de la reprsentation et, donc, valider nos analyses,
nous calculons la part dinertie r2 explique par le plan principal que nous illustrons laide
de lboulis des valeurs propres.
> cat("r2 =",sum(ACP$values[1:2])/sum(ACP$values),\n)
r2 = 0.9403289
> plot(ACP$values,type="b")
2.0
1.5
1.0
0.5
0.0
1.0
1.5
2.0
2.5
3.0
3.5
4.0
64
Index
Base orthonorme, 44
Bote moustaches, 14
Box plot, 14
Centre de gravit, 37
Cercle des corrlations, 54
Composante principale, 50
Contribution linertie
dun individu, 38
dune variable, 40
Corrlation
de Kendall, 27
de Pearson, 19
de Spearman, 24
multiple, 35
Covariance, 17
Diagramme quantile-quantile, 15
Distance, 38
Distance du 2 , 30
Eboulis des valeurs propres, 56
Ecart-type, 4
Fonction de rpartition, 11
Frquence, 7
Histogramme, 7
Inertie
par groupes, 39
par rapport une distance, 38
standard, 37
Mdiane, 13
Matrice
dfinie positive, 44
de corrlation, 34
de covariance, 33
des composantes principales, 50
des donnes centres, 34
des poids, 34
symtrique, 42
Moyenne, 1
par groupes, 3
uniforme, 2
Observations
couples, 17
exceptionnelles, 15
ordonnes, 11
Part dinertie, 56
Partition, 2
Plan principal, 51
Poids
cumuls, 10
normaliss, 1
Q-q plot, 15
Quantile, 12
Quartile, 13
Rgression linaire, 21
Rang, 24
Table de contingence, 29
Valeur propre, 44
Variable
centre, 1
principale, 50
qualitative, 28
quantitative, 1
rduite, 4
Variance, 4
par groupes, 5
Vecteur propre, 44
65