Vous êtes sur la page 1sur 73

Introduction la Statistique Exploratoire

L3 SID

Xavier Gendre
xavier.gendre@math.univ-toulouse.fr

17 dcembre 2012

ii

License
This work is licensed under the Creative Commons Attribution - Pas dUtilisation Commerciale - Partage dans les Mmes Conditions 3.0 France License. To view a copy of this license,
visit http://creativecommons.org/licenses/by-nc-sa/3.0/fr/.

iii

iv

Notations
]E

Cardinal de lensemble E

K (x, y)

Corrlation de Kendall entre les observations des variables couples x et y

(x, y)

Corrlation de Pearson entre les observations des variables couples x et y

S (x, y)

Corrlation de Spearman entre les observations des variables couples x et y

Cov(x, y)

Covariance entre les observations des variables couples x et y

Distance du 2 lindpendance

Ensemble des nombres rels

R+

Ensemble des nombres rels positifs [0, +[

Ensemble vide

Fx

Fonction de rpartition associe aux observations dune variable x

Moyenne des observations dune variable x

Quantile dordre [0, 1]

tM

Transpose de la matrice M

x(1) , . . . , x(n)

Version ordonne des observations x1 , . . . , xn

Var (x) , x2

Variance des observations dune variable x

vi

Table des matires


License

iii

Notations

1 Moyenne et variance
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Moyenne pondre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1
1
1
4

2 Distribution des observations dune variable


2.1 Introduction . . . . . . . . . . . . . . . . . . .
2.2 Histogramme . . . . . . . . . . . . . . . . . .
2.2.1 Intervalles de mme longueur . . . . .
2.2.2 Intervalles de longueurs diffrentes . .
2.3 Poids cumuls . . . . . . . . . . . . . . . . . .
2.4 Fonction de rpartition et quantiles . . . . . .
2.5 Bote moustaches (box plot) . . . . . . . . .
2.6 Diagramme quantile-quantile (q-q plot) . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

7
7
7
7
8
10
11
14
15

3 Observations de deux variables couples


3.1 Introduction . . . . . . . . . . . . . . . .
3.2 Covariance et corrlation linaire . . . .
3.3 Rgression linaire . . . . . . . . . . . .
3.4 Corrlations de rang . . . . . . . . . . .
3.4.1 Corrlation de Spearman . . . .
3.4.2 Corrlation de Kendall . . . . . .
3.5 Distance du 2 lindpendance . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

17
17
17
20
24
24
27
28

4 Observations de plusieurs variables couples


4.1 Introduction . . . . . . . . . . . . . . . . . . .
4.2 Matrices de covariance et de corrlation . . .
4.3 Inertie . . . . . . . . . . . . . . . . . . . . . .
4.4 Changement de distance . . . . . . . . . . . .
4.4.1 Distance euclidienne . . . . . . . . . .
4.4.2 Distance des variables rduites . . . .
4.4.3 Distance de Mahalanobis . . . . . . .
4.5 Matrices symtriques dfinies positives . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

33
33
33
37
38
40
40
41
42

vii

.
.
.
.
.
.
.

.
.
.
.
.
.
.

viii

TABLE DES MATIRES


4.5.1
4.5.2
4.5.3

Matrices symtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Matrices dfinies positives . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Diagonalisation des matrices symtriques . . . . . . . . . . . . . . . . . 44

5 Analyse en composantes principales


5.1 Introduction . . . . . . . . . . . . . .
5.2 Composantes principales . . . . . . .
5.3 Reprsentation graphique . . . . . .
5.3.1 Plan principal . . . . . . . . .
5.3.2 Reprsentation des individus
5.3.3 Interprtation des axes . . . .
5.4 Inertie . . . . . . . . . . . . . . . . .
5.4.1 Qualit globale . . . . . . . .
5.4.2 Changement de distance . . .
A Exemple dACP

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

49
49
49
51
51
51
53
55
56
57
59

Chapitre 1

Moyenne et variance des observations


dune variable
1.1

Introduction

Lors de ltude dun phnomne, nous sommes souvent amens observer des variables
qui lui sont relatives. Ces variables peuvent tre de diffrentes natures (grandeurs physiques,
caractristiques biologiques, . . .).
Exemple Si le phnomne est mtorologique, les variables dintrt peuvent tre la temprature t et la classe c des nuages. Un jour dt, nous pourrions observer t1 = 36 C et
c1 = "Cirrus" et, un jour dhiver, avoir les observations t2 = 4 C et c2 = "Cumulus".
Comme lillustre cet exemple, le type dune variable est, a priori, quelconque. Dans ce
premier chapitre, nous considrerons uniquement des variables valeurs relles. Ces variables
sont dites quantitatives car elles refltent une ide de grandeur (temprature, vitesse, ge, . . .).

1.2

Moyenne pondre

Nous supposons que nous avons notre disposition un nombre entier n > 0 dobservations
x1 , . . . , xn R dune variable quantitative x.
Dfinition 1.1. La moyenne x des observations x1 , . . . , xn R pondre par les poids
p1 , . . . , pn > 0 est dfinie par
n
X
1
pi xi .
x=
p1 + + pn
i=1

La variable x est dite centre si x = 0. Les poids sont dits normaliss si ils vrifient
p1 + + pn = 1. Dans ce cas, la moyenne x devient
x=

n
X
i=1

p i xi .

CHAPITRE 1. MOYENNE ET VARIANCE

Il est important de remarquer que, quels que soient les poids p1 , . . . , pn , il est toujours
possible de calculer x avec les poids normaliss p1 , . . . , pn donns par
pi =

pi
, i {1, . . . , n}.
p1 + + pn

En effet, par dfinition, nous avons


n
n
n
X
X
X
1
pi
x=
xi =
pi xi =
pi xi
p1 + + pn
p1 + + pn
i=1

i=1

i=1

et les poids p1 , . . . , pn sont normaliss car


n
X
i=1

pi =

n
X
i=1

p1 + + pn
pi
=
=1.
p1 + + pn
p1 + + pn

Dans la suite, nous considrerons souvent le cas particulier de la moyenne uniforme pour
laquelle tous les poids sont gaux (i.e. toutes les observations ont la mme importance).
Prenons, par exemple, p1 = = pn = 1. Dans ce cas, nous avons p1 = = pn = 1/n et
nous retrouvons la moyenne usuelle
n

x=

1X
xi .
n
i=1

Plus gnralement, dire que lobservation xi "pse" un poids pi revient considrer que la
valeur xi intervient dans le calcul de x avec la proportion pi .
Exemple Un lotissement contient n = 10 maisons dont 6 mesurent 80 m2 et 4 mesurent
120 m2 . Afin de calculer la moyenne uniforme des surfaces, une premire faon consiste
revenir la dfinition 1.1,
1
(80 + {z
+ 80} + |120 + {z
+ 120}) = 96 m2 .
10 |
6 fois

4 fois

La seconde manire consiste considrer que les habitations de 80 m2 reprsentent 6/10 des
maisons du lotissement et que celles de 120 m2 en reprsentent 4/10. Ainsi, nous pouvons
calculer la surface moyenne en ne considrant plus que le groupe des habitats de 80 m2 et
celui des 120 m2 pour obtenir
6
4
80 +
120 = 96 m2 .
10
10
Autrement dit, nous avons calcul la moyenne de x1 = 80 et de x2 = 120 pondre par les
poids p1 = 6/10 et p2 = 4/10.
Cette seconde faon de faire le calcul est un exemple de dcomposition par groupes du
calcul de la moyenne. Elle se gnralise par le Thorme 1.1 suivant.
Rappel Soient G1 , . . . , Gn des parties dun ensemble E, on dit quelles forment une partition
de E si et seulement si

1.2. MOYENNE PONDRE

(i) G1 Gn = E
et
(ii) i, j {1, . . . , n}, i 6= j Gi Gj = .

Thorme 1.1. [Moyenne par groupes] Soient un entier N > 0 et G1 , . . . , GN une


partition de {1, . . . , n}, nous notons x la moyenne des observations x1 , . . . , xn pondre par
p1 , . . . , pn > 0 et, pour tout k {1, . . . , N }, xk la moyenne des xi pour i Gk ,
X
xk =

pi xi

iGk

.
pi

iGk

Alors, la moyenne x est la moyenne des xk pondre par les poids qk =

pi ,

iGk

x=

N
X
1
qk xk .
q1 + + qN
k=1

Dmonstration. Il suffit de remarquer que q1 + + qN = p1 + + pn et de remplacer les xk


par leurs dfinitions,
N
X
1
qk x k =
q1 + + qN
k=1

N
X
qk X
1
X
p i xi
p1 + + pn
pi iGk
k=1
iGk

1
p1 + + pn
1
p1 + + pn

N
X

pi xi

k=1 iGk
n
X

p i xi = x .

i=1

Exercice 1.1. Montrer que si les poids p1 , . . . , pn > 0 sont normaliss alors les poids q1 , . . . , qN
dfinis dans le Thorme 1.1 sont aussi normaliss.
Le Thorme 1.1 est particulirement utile lorsque la variable x ne peut prendre quun
nombre N fini de valeurs distinctes y1 , . . . , yN . En effet, dans ce cas, nous pouvons dfinir les
groupes G1 , . . . , GN par
Gk = {i {1, . . . , n} tels que xi = yk } , k {1, . . . , N } .

(1.1)

Le groupe Gk contient donc tous les indices i tels que lobservation xi soit gale la valeur
yk . Par consquent, nous savons que xk = yk . De plus, G1 , . . . , GN forment une partition de
{1, . . . , n}. Si nous notons nk leffectif du groupe Gk , k {1, . . . , N }, le Thorme 1.1 nous

CHAPITRE 1. MOYENNE ET VARIANCE

permet de calculer la moyenne uniforme x des observations x1 , . . . , xn en fonction des valeurs


y1 , . . . , yN et des effectifs n1 , . . . , nN ,
N

1X
x=
n k yk
n
k=1

car qk = nk et n1 + + nN = n.
Exercice 1.2. Montrer que les groupes G1 , . . . , GN dfinis par (1.1) forment bien une partition
de {1, . . . , n}.
Enfin, pour les calculs de moyenne, il est souvent pratique dutiliser le fait que la moyenne
est linaire.
Proposition 1.1. Si a et b sont des nombres rels quelconques et que nous considrons les
observations zi = axi + b, i {1, . . . , n}, relatives la variable quantitative z = ax + b, alors
z = ax + b = a x + b .
Prenons, de plus, une variable quantitative y et ses n observations y1 , . . . , yn R. Si nous
considrons les observations zi = xi + yi , i {1, . . . , n}, relatives la variable quantitative
z = x + y, alors
z =x+y =x+y .
Exercice 1.3. Ecrire la preuve de la Proposition 1.1.

1.3

Variance

Nous supposons partir de maintenant que nous disposons dun nombre entier n > 0
dobservations x1 , . . . , xn R dune variable x et de poids p1 , . . . , pn > 0 normaliss.
Dfinition 1.2. La variance Var (x) des observations x1 , . . . , xn est dfinie par
Var (x) =

n
X

pi (xi x)2 .

i=1

Nous noterons aussi Var (x) = x2 o x =


est dite rduite si Var (x) = 1.

p
Var (x) est appel l cart-type. La variable x

La variance est donc la moyenne des carrs des carts x1 x, . . . , xn x pondre par
p1 , . . . , pn . Cette quantit mesure la dispersion des observations autour de x. De plus, elle est
toujours positive.
Exercice 1.4. Montrer que si Var (x) = 0 alors toutes les observations x1 , . . . , xn sont gales
la moyenne x.
La variance est quadratique. En particulier, nous avons la proposition suivante.
Proposition 1.2. Si a et b sont des nombres rels quelconques et que nous considrons les
observations zi = axi + b, i {1, . . . , n}, relatives la variable quantitative z = ax + b, alors
Var (z) = Var (ax + b) = a2 Var (x) .

1.3. VARIANCE

Il faut faire attention car la variance nest pas additive ; cest--dire que, en gnral,
nous navons pas Var (x + y) = Var (x) + Var (y).
Exemple Pour n = 2, supposons que nous ayons observ x1 = 1, x2 = 1, y1 = 0 et y2 = 1
et que les poids soient p1 = p2 = 1/2. Dans ce cas, x = 0 et y = 1/2. Nous avons alors
Var (x) + Var (y) = 1 +

1
5
9
= 6= = Var (x + y) .
4
4
4

Exercice 1.5. Ecrire la preuve de la Proposition 1.2.


Pour calculer Var (x), il est parfois utile dutiliser lexpression donne par la proposition
suivante.
Proposition 1.3. La variance vaut la moyenne des carrs moins le carr de la moyenne,
Var (x) = x2 x2 ,
avec x2 =

n
X

pi x2i .

i=1

Dmonstration. Dveloppons le carr dans la dfinition de la variance,


n
X

pi (xi x)2 =

n
X

pi x2i 2x

n
X

i=1

i=1

p i xi + x2

i=1

n
X

pi

i=1

= x2 2x2 + x2
= x2 x2 .

Exercice 1.6. Soit un entier n > 0. Dduire de la Proposition 1.3 que, pour tout x1 , . . . , xn
R et pour tout p1 , . . . , pn > 0 tels que p1 + + pn = 1, nous avons
!2
n
n
X
X
pi xi
6
pi x2i .
i=1

i=1

Il sagit dun cas particulier de lingalit de Jensen.


Comme pour la moyenne, il est possible de dcomposer lexpression de la variance par
groupes.
Thorme 1.2. [Variance par groupes] En utilisant les mmes hypothses et notations
que dans le Thorme 1.1, nous notons, pour tout k {1, . . . , N }, k2 la variance des xi pour
i Gk ,
1 X
pi (xi xk )2 .
k2 =
qk
iGk

Alors, la variance Var (x) se dcompose en


Var (x) = Varinter (x) + Varintra (x)
avec

(1.2)

CHAPITRE 1. MOYENNE ET VARIANCE

Varinter (x) =

N
X

qk (xk x)2

(Variance inter-groupe)

qk k2 .

(Variance intra-groupe)

k=1

et
Varintra (x) =

N
X
k=1

Dmonstration. Faisons apparatre les xk dans lexpression de la variance,


Var (x) =

n
X
i=1
N
X

pi (xi x)2
X

pi ((xi xk ) + (xk x))2

k=1 iGk

N X
X

pi (xi xk )2 + 2

k=1 iGk

N
X

N
X
k=1

iGk

k=1

(xk x)2

pi

iGk

k=1

N
X
X
pi (xi xk )
(xk x)

qk k2 + 2

N
X

(xk x)

k=1

pi (xi xk ) +

iGk

N
X

qk (xk x)2 .

k=1

Pour conclure, il suffit de remarquer que le terme central est nul,


X
X
X
pi (xi xk ) =
p i xi xk
pi = qk xk xk qk = 0 .
iGk

iGk

iGk

Les deux termes qui apparaissent dans la dcomposition (1.2) ne sinterprtent pas de la
mme faon. La variance inter-groupe Varinter (x) est la variance des moyennes et elle traduit
la dispersion entre les groupes. La variance intra-groupe Varintra est la moyenne des variances
et elle correspond la dispersion dans les groupes.

Chapitre 2

Distribution des observations dune


variable
2.1

Introduction

Une fois que nous disposons des observations dune variable quantitative, il peut tre intressant de regarder comment ces observations sont rparties. Pour rendre compte visuellement
de cette distribution, il existe de nombreuses mthodes graphiques. Nous prsentons dans ce
chapitre certaines parmi les plus utilises.
Dans la suite, nous supposons avoir n > 0 observations x1 , . . . , xn R dune variable
quantitative x et des poids p1 , . . . , pn > 0 normaliss.

2.2

Histogramme

La premire reprsentation laquelle nous allons nous intresser est celle des histogrammes.
Nous considrons N + 1 nombres rels a0 < a1 < < aN tels que toutes les observations
soient regroupes dans les N intervalles [a0 , a1 [, . . . , [aN 1 , aN [. Dans la suite, pour tout k
{1, . . . , N }, nous noterons nk le nombre dobservations xi prsentes dans lintervalle [ak1 , ak [,
nk = ] {i {1, . . . , n} tels que xi [ak1 , ak [} .
Nous appelons frquence de [ak1 , ak [ la quantit fk = nk /n et poids de [ak1 , ak [ la quantit
X
p(k) =
pi .
i tel que
xi [ak1 ,ak [

Pour reprsenter lhistogramme, nous traons un rectangle au-dessus de chaque intervalle.


Afin de calculer les hauteurs de ces rectangles, il faut distinguer deux cas selon que les intervalles ont tous la mme longueur ou non.

2.2.1

Intervalles de mme longueur

Nous nous plaons dans le cas simple o les intervalles [ak1 , ak [ sont de longueur constante
(a0 a1 = = aN aN 1 ). Selon le type dhistogramme voulu, la hauteur des rectangles
peut tre une des valeurs suivantes :
7

CHAPITRE 2. DISTRIBUTION DES OBSERVATIONS DUNE VARIABLE


nk pour un diagramme des effectifs,
fk pour un diagramme des frquences,
p(k) pour un diagramme des poids.

Exemple Supposons que nos 20 observations aient toutes le mme poids 1/20 et soient
rparties de la faon suivante : 5 valeurs dans [0, 10[, 3 valeurs dans [10, 20[, 5 valeurs dans
[20, 30[ et 7 valeurs dans [30, 40[.

0
0

10

20

30

40

Figure 2.1 Diagramme des effectifs pour des intervalles de mme taille.

Exercice 2.1. Que faut-il modifier sur la Figure 2.1 pour obtenir directement le diagramme
des frquences ?

2.2.2

Intervalles de longueurs diffrentes

Nous ne supposons plus que les intervalles soient tous de mme longueur. Si nous tracions
les rectangles comme prcdemment, leurs surfaces seraient fausses et cela donnerait une
mauvaise reprsentation de la distribution des observations.
Il est donc important de normaliser la hauteur des rectangles par la longueur des intervalles :
nk
pour un diagramme des effectifs,

ak ak1
fk

pour un diagramme des frquences,


ak ak1
p(k)

pour un diagramme des poids.


ak ak1
Exemple Reprenons les observations de lexemple prcdent et regroupons les intervalles
[10, 20[ et [20, 30[. Nous avons donc deux intervalles de longueur 10 et un de longueur 20.

2.2. HISTOGRAMME

Si nous ne renormalisons pas la hauteur des rectangles, la reprsentation est fausse comme
le montre la Figure 2.2. En revanche, la figure 2.3 reprsente le diagramme des frquences
correctement normalis.

0
0

10

20

30

40

Figure 2.2 Diagramme des effectifs incorrect dans le cas dintervalles de longueurs diffrentes
( comparer avec les Figures 2.1 et 2.3).

0.035

0.030

0.025

0.020

0.015

0.010

0.005

0.000
0

10

20

30

40

Figure 2.3 Diagramme des frquences pour des intervalles de longueurs diffrentes.

Exercice 2.2. Si les poids p1 , . . . , pn sont tous gaux 1/n, comment comparer le diagramme
des frquences et celui des poids ?

10

2.3

CHAPITRE 2. DISTRIBUTION DES OBSERVATIONS DUNE VARIABLE

Poids cumuls

Comme dans la section prcdente, nous considrons N + 1 nombres rels a0 < a1 < <
aN tels que toutes les observations soient regroupes dans les N intervalles [a0 , a1 [, . . . , [aN 1 , aN [.
Le diagramme des poids cumuls est un histogramme particulier construit de la faon
suivante. Pour k {1, . . . , N }, la hauteur hk du rectangle relatif lintervalle [ak1 , ak [ est la
somme des poids de toutes les observations infrieures ak ,

hk =

pi .

i tel que
xi 6ak

De plus, il est courant de superposer cet histogramme une courbe linaire par morceaux
reliant (ak1 , hk1 ) (ak , hk ) pour k allant de 1 N (par convention, on pose h0 = 0). Cette
courbe est donc croissante et prend des valeurs de 0 1 puisque les poids sont normaliss. Elle
illustre la faon dont les observations seraient rparties si cette rpartition tait uniforme sur
chaque intervalle.
Exemple Reprenons encore les 20 observations de mme poids 1/20 des exemples de la
section prcdente. Les figures 2.4 et 2.5 montrent le diagramme des poids cumuls pour deux
choix dintervalles diffrents. Nous remarquons, en particulier, que la longueur des intervalles
ne modifie pas la faon de tracer ces diagrammes contrairement aux histogrammes.

1.0

0.8

0.6

0.4

0.2

0.0
0

10

20

30

40

Figure 2.4 Diagramme des poids cumuls avec [0, 10[, [10, 20[, [20, 30[ et [30, 40[.

2.4. FONCTION DE RPARTITION ET QUANTILES

11

1.0

0.8

0.6

0.4

0.2

0.0
0

10

20

30

40

Figure 2.5 Diagramme des poids cumuls avec [0, 10[, [10, 30[ et [30, 40[.

2.4

Fonction de rpartition et quantiles

La fonction de rpartition peut tre vue comme un diagramme des poids cumuls particulier
pour lequel il ny aurait quune unique observation dans chaque intervalle. Il sagit dune
fonction Fx constante par morceaux et croissante de 0 1 dfinie pour tout t R par
X
Fx (t) =
pi .
i tel que
xi 6t

Cette fonction fait donc un saut en chaque point xi . Pour la reprsenter, il peut tre pratique
de considrer la version ordonne des observations. Cette version est une permutation des
observations, note x(1) , . . . , x(n) , choisie de telle sorte que nous ayons
x(1) 6 6 x(n) .
Nous savons alors que la fonction de rpartition Fx vaut 0 sur ] , x(1) [, quelle fait un saut
chaque point x(i) et quelle vaut 1 sur [x(n) , +[.
Exemple Considrons que nous avons les n = 5 observations suivantes :
x1 = 3 , x2 = 1 , x3 = 4 , x4 = 3 , x5 = 0 .
La version ordonne de ces observation est donc
x(1) = x2 = 1 , x(2) = x5 = 0 , x(3) = x1 = 3 , x(4) = x4 = 3 , x(5) = x3 = 4 .
Il faut noter que le choix de lordre de x(3) et x(4) est arbitraire puisque les donnes x1 et x4
sont gales. Si nous considrons maintenant que les poids p1 , . . . , p5 sont tous gaux 1/5,
alors la fonction de rpartition est donne par la Figure 2.6.

12

CHAPITRE 2. DISTRIBUTION DES OBSERVATIONS DUNE VARIABLE

1.0

0.8

0.6

0.4

0.2

0.0

(
2

Figure 2.6 Fonction de rpartition de x1 = 3, x2 = 1, x3 = 4, x4 = 3, x5 = 0 avec des


poids uniformes.

Dfinition 2.1. Soit [0, 1], nous appelons quantile dordre tout nombre q R tel
que nous ayons une proportion des observations qui soit infrieure ou gale q .
Ainsi, si = i/n pour un i {1, . . . , n}, alors q = qi/n = x(i) . Par convention, si
[0, 1/n[, nous poserons que le quantile dordre vaut q = car il ny a aucune
observation avant x(1) . Enfin, si [(i 1)/n, i/n[ pour un i {1, . . . , n}, alors il existe
[0, 1] tel que = (i 1 + )/n et nous interpolons entre q(i1)/n = x(i1) et qi/n = x(i)
pour obtenir le quantile dordre ,

q = x(i1) + x(i) x(i1) .
(2.1)
Notons que cette dfinition par interpolation est bien compatible avec la convention q =
lorsque [0, x(1) [.
Un des avantages de cette dfinition par interpolation est que les quantiles sont directement lisibles sur le graphe de la fonction de rpartition. Il faut cependant faire attention aux
doublons dans les observations (comme x1 et x4 dans lexemple). Pour cela, nous notons p(i)
le poids de lobservation x(i) et nous introduisons les quantits F (i) pour i {1, . . . , n},
F (i) = p(1) + + p(i) 6 Fx (x(i) ) .

2.4. FONCTION DE RPARTITION ET QUANTILES

13

Il suffit alors de tracer la courbe linaire par morceaux joignant les points (x(i1) , F (i1) )
et (x(i) , F (i) ) et de lire q sur laxe des abscisses comme tant lantcdent de sur cette
courbe (voir Figure 2.7). Si il ny a aucun doublon parmi les observations, cette courbe relie
simplement les points de saut de Fx . Par contre, si il y a des doublons, certaines parties de la
courbes deviennent des segments verticaux comme cela se voit sur la Figure 2.7 entre x(3) et
x(4) .

1.0

0.8

0.6

0.4

0.2

0.0

(
2

q
0

Figure 2.7 Lecture du quantile q dordre grce la fonction de rpartition.


Dfinition 2.2. La mdiane est le quantile q0.5 dordre 50%. De plus, nous appelons quartiles les quantiles q0.25 et q0.75 25% et 75%.
Exemple Reprenons les valeurs de lexemple prcdent. Pour calculer la mdiane, il faut
trouver le quantile dordre 50%. Or, nous savons que 0.5 = 2.5/5 = (3 1 + 0.5)/5 (i.e. i = 3
et = 0.5 dans (2.1)). Donc, la mdiane vaut

q0.5 = x(2) + 0.5 x(3) x(2) = 0 + 0.5(3 0) = 1.5 .
De la mme faon, nous savons que 0.25 = 1.25/5 = (2 1 + 0.25)/5 et 0.75 = 3.75/5 =
(4 1 + 0.75) et nous calculons les quartiles,

q0.25 = x(1) + 0.25 x(2) x(1) = 1 + 0.25(0 + 1) = 0.75

14

CHAPITRE 2. DISTRIBUTION DES OBSERVATIONS DUNE VARIABLE

et

q0.75 = x(3) + 0.25 x(4) x(3) = 3 + 0.75(3 3) = 3 .
Ces rsultats se retrouvent graphiquement comme lillustre la Figure 2.8.

1.0

0.8

0.75

0.6
0.5

0.4

0.25
0.2

0.0

(
2

q0.25=0.75

q0.5=1.5

q0.75=3
4

Figure 2.8 Lecture de la mdiane et des quartiles de lexemple.

Exercice 2.3. Considrons que nous avons les n = 5 observations suivantes :


x1 = 3 , x2 = 1 , x3 = 5 , x4 = 2 , x5 = 3 .
Tracer la fonction de rpartition Fx et calculer la mdiane et les quartiles. Retrouver ensuite
graphiquement ces rsultats.

2.5

Bote moustaches (box plot)

La bote moustaches (ou box plot en anglais) est un graphe synthtique et trs utilis en
pratique pour reprsenter la distribution des observations dune variable quantitative. Le corps
de ce graphe fait apparatre la mdiane, les deux quartiles et linter-quartile IQ = q0.75 q0.25 .
Nous ajoutons des "moustaches" pour reprsenter les donnes en dehors de linter-quartile.
Les extrmits des moustaches peuvent avoir des significations diffrentes selon les situations
(voir Figure 2.9) :

2.6. DIAGRAMME QUANTILE-QUANTILE (Q-Q PLOT)

15

elles peuvent indiquer les valeurs minimales et maximales des observations,


elles peuvent reprsenter le maximum entre la plus petite valeur et q0.25 1.5 IQ ainsi
que le minimum entre la plus grande valeur et q0.75 + 1.5 IQ (dans ce cas, les donnes
en dehors sont dites exceptionnelles ou outliers),
elles peuvent prendre dautres valeurs, il faut donc prendre garde cela pour interprter
un box plot.

IQ
min

q0.25

q0.5

max

q0.75

IQ

min

q0.25

q0.5

q0.75

q0.75 + 1.5 IQ

Donnes exceptionnelles

Figure 2.9 Les moustaches peuvent indiquer les valeurs minimales et maximales (au dessus)
ou tre limites q0.25 1.5 IQ et q0.75 + 1.5 IQ (au dessous).

2.6

Diagramme quantile-quantile (q-q plot)

En plus de nos observations x1 , . . . , xn de la variable x, nous supposons dans cette section


que nous disposons aussi dun nombre entier m > 0 dobservations y1 , . . . , ym dune variable
quantitative y qui na, a priori, aucun rapport avec x. De plus, pour [0, 1], nous noterons
q (x) et q (y) les quantiles dordre pour les variables x et y respectivement.
Le diagramme quantile-quantile (ou q-q plot en anglais) est un outil graphique qui permet
de comparer les distributions des deux jeux dobservations. Par exemple, en pratique, les donnes x1 , . . . , xn peuvent tre observes pour un phnomne tudier et les donnes y1 , . . . , ym
peuvent tre calcules partir dun modle thorique dcrivant ce phnomne. Le diagramme
quantile-quantile permet alors de vrifier graphiquement la validit du modle en comparant
la distribution observe avec la distribution thorique.
Pour construire le diagramme quantile-quantile, il faut considrer un nombre entier K > 0
de valeurs 0 6 1 6 6 K 6 1 (plus K sera grand, plus notre diagramme pourra tre
prcis). Le diagramme sobtient finalement en traant la courbe linaire par morceaux qui
passe par les points (qk (x), qk (y)) pour k {1, . . . , K}.
Si cette courbe est "proche" de la premire diagonale (la droite "y = x"), alors nous
pourrons conclure que les distributions de x et de y sont similaires. Si la courbe est proche dune
droite qui nest pas la premire diagonale, alors nous pourrons proposer une transformation

16

CHAPITRE 2. DISTRIBUTION DES OBSERVATIONS DUNE VARIABLE

affine (type "y = ax + b") pour rendre les distributions comparables. Enfin, si le diagramme
ne fait pas apparatre une droite, nous ne pouvons pas conclure, a priori.
Exemple Nous considrons deux machines A et B qui sont utilises pour remplir des sachets
de 25 grammes dun mdicament. Elles ont toutes les deux t testes n = 1000 fois chacune.
Le tableau suivant donne le relev de ces mille tests, en indiquant, pour chaque machine, le
nombre de fois o elle a donn un sachet dont le poids est indiqu en premire ligne :
Poids
A
B

16
10
0

17
10
0

18
10
10

19
50
10

20
30
10

21
10
20

22
20
40

23
40
162

24
80
0

25
450
488

26
150
10

27
10
140

28
40
50

29
0
30

30
90
30

30

Prenons 1 = 0.1, 2 = 0.2, . . . , 10 = 1.0 et calculons les quantiles associs : q1 (A) = 20,
q2 (A) = 24, q3 (A) = 25, . . . , q7 (A) = 25, q8 (A) = 26, q9 (A) = 28, q10 (A) = 30
et q1 (B) = 23, q2 (B) = 23, q3 (B) = 25, . . . , q7 (B) = 25, q8 (B) = 27, q9 (B) = 28,
q10 (B) = 30. Nous traons donc le diagramme partir des points (q1 (A), q1 (B)) = (20, 23),
(q2 (A), q2 (B)) = (24, 23), . . . La Figure 2.10 montre le diagramme obtenu et suggre que
les deux machines nadmettent par les mmes distributions au vu de lcart la premire
diagonale.

28

26

24

22

20

22

24

26

28

30

Figure 2.10 Diagramme quantile-quantile de lexemple.

Chapitre 3

Observations de deux variables


couples
3.1

Introduction

La dernire section du chapitre prcdent prsente un exemple de comparaison entre deux


jeux de donnes relatifs des variables x et y. Lorsque ces jeux de donnes sont issus dune
mme exprience, nous parlerons dobservations couples. Dans ce cas, le statisticien peut
naturellement se poser nombre de questions sur leurs liens potentiels : existe-t-il une relation
entre x et y ? Si oui, de quelle nature ? Si non, comment le justifier ? . . .
Dans ce chapitre, nous considrons donc deux jeux de mme taille n > 0 dobservations
couples x1 , . . . , xn et y1 , . . . , yn relatifs des variables quantitatives x et y respectivement.
Ces observations seront pondres par les poids p1 , . . . , pn > 0 normaliss.

3.2

Covariance et corrlation linaire

Un premire faon dtablir un lien entre les variables x et y consiste regarder si les
observations ont tendance varier dans le mme sens.
Dfinition 3.1. La covariance entre les observations de x et celles de y est dfinie par
Cov(x, y) =

n
X

pi (xi x)(yi y) .

i=1

Le signe de la covariance a une signification importante. En effet, la covariance Cov(x, y)


aura tendance tre positive si, pour de nombreux i {1, . . . , n}, nous avons xi > x et yi > y
ou bien si nous avons xi 6 x et yi 6 y. Autrement dit, nous aurons
Cov(x, y) > 0 si les variables x et y ont tendance varier dans le mme sens,
Cov(x, y) < 0 si les variables x et y ont tendance varier en sens inverse.
Lorsque la covariance est proche de 0, il nest pas possible de linterprter directement.
Exemple Si x est la temprature extrieure et si y est le volume de crme glace achet, les
observations de x et de y auront tendance varier dans le mme sens (plus il fait chaud, plus
il y a de glaces consommes) et la covariance sera positive. Si x est la temprature extrieure
17

18

CHAPITRE 3. OBSERVATIONS DE DEUX VARIABLES COUPLES

et si y est la consommation de gaz pour le chauffage, les observations de x et de y volueront


en sens inverse (plus il fait chaud, moins nous chauffons les maisons) et la covariance sera
ngative.
Proposition 3.1. Soient a un nombre rel quelconque et z1 , . . . , zn R les observations dune
variable quantitative z, la covariance vrifie les proprits suivantes :
Bilinarit :
Cov(ax, y) = aCov(x, y)

Cov(x, ay) = aCov(x, y) ,

et

Cov(x, y + z) = Cov(x, y) + Cov(x, z)


et
Cov(x + z, y) = Cov(x, y) + Cov(z, y) ,
Symtrie :
Cov(x, y) = Cov(y, x) ,
Positivit :
Cov(x, x) > 0 .
Dmonstration. La covariance est symtrique par dfinition,
Cov(x, y) =

n
X

pi (xi x)(yi y) =

n
X

pi (yi y)(xi x) = Cov(y, x) .

i=1

i=1

Pour avoir sa bilinarit, par symtrie, il suffit de montrer la linarit en x. La Proposition


1.1 donne
Cov(ax, y) =

n
X

pi (axi ax)(yi y) = a

i=1

n
X

pi (xi x)(yi y) = aCov(x, y)

i=1

et
Cov(x, y + z) =

n
X

pi (xi x) ((yi y) + (zi z))

i=1

n
X

pi (xi x)(yi y) +

i=1

n
X

pi (xi x)(zi z)

i=1

= Cov(x, y) + Cov(x, z) .
Remarquons enfin que la covariance dune variable avec elle-mme est sa variance,
Cov(x, x) = Var (x) > 0 .

Comme nous lavons vu au Chapitre 1, la variance nest pas additive. Cependant, il est
possible de dvelopper la variance dune somme de variables quantitatives en faisant intervenir
la covariance.

3.2. COVARIANCE ET CORRLATION LINAIRE

19

Proposition 3.2. Nous avons


Var (x + y) = Var (x) + 2Cov(x, y) + Var (y) .
Dmonstration. Il suffit de dvelopper la somme qui dfinit la variance de x + y,
Var (x + y) =

n
X

pi ((xi x) + (yi y))2

i=1

n
X

pi (xi x) + 2

n
X

pi (xi x)(yi y) +

i=1

i=1

n
X

pi (yi y)2

i=1

= Var (x) + 2Cov(x, y) + Var (y) .

Pour calculer la covariance Cov(x, y), il est souvent pratique dutiliser le rsultat suivant.
Proposition 3.3. La covariance vaut la moyenne des produits moins le produit des moyennes,
Cov(x, y) = xy x y
avec xy =

n
X

pi xi yi .

i=1

Dmonstration. Dcomposons la somme de la dfinition de la covariance,


Cov(x, y) =
=

n
X
i=1
n
X

pi (xi x)(yi y)
pi xi yi x

i=1

n
X

pi yi y

i=1

n
X

pi xi + x y

i=1

n
X

pi

i=1

= xy 2x y + x y
= xy x y .

En dehors de son signe, la valeur de la covariance Cov(x, y) ne donne pas beaucoup plus
dinformations car elle est dpendante de lchelle des variables x et y. Pour contourner cela,
il faut normaliser les observations et considrer la quantit suivante.
Dfinition 3.2. La corrlation (ou coefficient de corrlation linaire de Pearson)
entre les observations de x et de y est dfinie par
(x, y) = p

Cov(x, y)
Cov(x, y)
p
=
.
x y
Var (x) Var (y)

Il est vident que le signe de la corrlation sinterprte toujours comme celui de la covariance. En particulier, il ny a toujours pas dinterprtation directe lorsque la corrlation est
proche de zro. Cependant, il est possible dinterprter la valeur de la corrlation car celle-ci est
une quantit borne et indpendante de lchelle dans laquelle sont exprimes les observations
de x et de y.

20

CHAPITRE 3. OBSERVATIONS DE DEUX VARIABLES COUPLES

Thorme 3.1. La corrlation est borne par 1 en valeur absolue,


1 6 (x, y) 6 1 .
Dmonstration. Il est possible de voir les observations de x et de y comme deux vecteurs
(x1 x, . . . , xn x)0 et (y1 y, . . . , yn y)0 de Rn . Ainsi, par la Proposition 3.1, la covariance
Cov(x, y) entre x et y est un produit scalaire (i.e. une forme bilinaire symtrique dfinie
positive, voir le cours
pdalgbre linaire) entre ces vecteurs. De plus, la norme associe ce
produit scalaire est Var (x). La preuve du thorme est donc une consquence directe de
lIngalit de Cauchy-Schwarz que nous re-dmontrons ici.
Soit t R, nous considrons la variable quantitative z = x+ty. En utilisant les Propositions
1.2, 3.1 et 3.2, nous obtenons
Var (z) = Var (x + ty) = Var (x) + 2tCov(x, y) + t2 Var (y) .
La variance de z est donc un polynme du second degr en t. Comme Var (z) > 0 pour tout
t R, nous savons que ce polynme a au plus une racine relle et que son discriminant est
ngatif,
= 4Cov(x, y)2 4Var (x) Var (y) 6 0 .
Autrement dit,
Cov(x, y)2 6 Var (x) Var (y) |Cov(x, y)| 6

p
p
Var (x) Var (y)

|(x, y)| 6 1 .

La valeur de (x, y) nous renseigne donc sur limportance du lien potentiel entre x et y.
Plus particulirement, nous avons que plus |(x, y)| est proche de 1, plus la relation affine
entre les variables x et y est avre comme nous allons le voir dans la section suivante.
Exercice 3.1. Montrer que si les points observs (x1 , y1 ), . . . , (xn , yn ) sont sur une droite
dquation "y = ax + b" alors |(x, y)| = 1. Rciproquement, montrer que si |(x, y)| = 1 alors
les points observs (x1 , y1 ), . . . , (xn , yn ) sont tous aligns le long dune droite dont on donnera
lquation selon que (x, y) = 1 ou que (x, y) = 1. (Utiliser lexercice 1.4 et la preuve du
Thorme 3.1)

3.3

Rgression linaire

Dans toute cette section, nous supposerons que les poids p1 , . . . , pn sont uniformes, i.e.
p1 = = pn = 1/n.
Lorsque nous cherchons tablir une relation entre deux variables quantitatives x et y,
une premire approche simple consiste regarder si il existe une relation affine (i.e. de la
forme y = ax + b avec a, b R) entre elles. Bien entendu, en pratique, il est presque toujours
impossible dtablir une telle relation de faon exacte entre les observations de x et celles de
y. Cependant, nous pouvons chercher la droite qui explique "au mieux" y par rapport x.

3.3. RGRESSION LINAIRE

21

Cette procdure sappelle la rgression linaire et elle se formalise comme ce qui suit. Nous
cherchons deux nombres rels a et b tels que lerreur commise en expliquant les observations yi
par axi + b, i {1, . . . , n}, soit la plus petite possible au sens des moindres carrs. Autrement
dit, nous cherchons a, b R tels que lerreur moyenne
n

1X
(yi (axi + b))2
n

(3.1)

i=1

soit minimale (voir Figure 3.1). Les valeurs de a et de b telles que cette erreur soit minimale
donnent lquation y = ax + b de la droite de rgression.

(x4,y4)
1.5

(x3,y3)

1.0

0.5

(x5,y5)

0.0

0.5

(x1,y1)
1.0

(x2,y2)
0.5

0.0

0.5

1.0

Figure 3.1 Erreurs (en rouge) commises entre les observations et la droite y = 0.5 x.
Thorme 3.2. Si les variables x et y sont centres et rduites alors lerreur (3.1) est minimale pour a = Cov(x, y) et b = 0. Dans ce cas, lquation de la droite de rgression est
donc
y = Cov(x, y) x .
Dmonstration. Nous commenons par dvelopper lerreur (3.1) en utilisant le fait que x =

22

CHAPITRE 3. OBSERVATIONS DE DEUX VARIABLES COUPLES

y = 0,
n

1X
(yi (axi + b))2 =
n
i=1

1X
((yi axi ) b)2
n
i=1

n
n
n
2b X
1X 2
1X
2
(yi axi )
(yi axi ) +
b
n
n
n

n
1X
(yi axi )2 2b(y ax) + b2
n

n
1X
(yi axi )2 + b2 .
n

i=1

i=1

i=1

i=1

i=1

La quantit que nous cherchons minimiser est la somme de deux termes positifs, lun dpendant de a et lautre de b. Nous obtenons donc directement que b = 0. Pour dterminer a, nous
continuons dvelopper cette quantit en utilisant que x2 = Var (x) = 1 et y 2 = Var (y) = 1,
n

1X
(yi axi )2 =
n
i=1

n
n
n
1 X 2 2a X
a2 X 2
yi
yi x i +
xi
n
n
n
i=1

y2

2axy +

i=1
2 2
a x

i=1

= a 2xy a + 1 .
Nous minimisons donc ce polynme du second degr en a = xy = Cov(x, y).
Le rsultat du thorme 3.2 se gnralise des variables quantitatives x et y qui ne sont
plus supposes tre centres rduites de la faon suivante.
Corollaire 3.1. Dans le cas gnral, lerreur (3.1) est minimale pour a = Cov(x, y)/Var (x)
et b = y ax et lquation de la droite de rgression est donne par


Cov(x, y)
Cov(x, y)
y=
x+ y
x .
Var (x)
Var (x)
Dmonstration. Considrons les variables quantitatives x0 et y 0 obtenues en centrant et en
rduisant x et y respectivement,
x0 =

xx
x

y0 =

et

yy
.
y

Pour ces variables, le Thorme 3.2 nous donne lquation de la droite de rgression,



xx yy
xx
yy
0
0 0
0
y = Cov x , y x
= Cov
,

y
x
y
x
Cov(x, y) y
y y =

(x x)
x y
x
Cov(x, y)
Cov(x, y)
y =
x+y
x .
2
x
x2
| {z }
|
{z
}
=a

=b

3.3. RGRESSION LINAIRE

23

Nous retrouvons dans ce rsultat le fait que si Cov(x, y) > 0, alors les variables varient
dans le mme sens et inversement (voir Figures 3.2 et 3.3).
Exercice 3.2. Le Corollaire 3.1 donne la droite de rgression de y par rapport x dquation
y = ax + b. Si a 6= 0, nous pouvons en dduire que x = a0 y + b0 avec a0 = 1/a et b0 = b/a.
Calculer lquation de la droite de rgression de x sur y (i.e. trouver a
, b R avec x = a
y + b)
0
0
et comparer-la avec x = a y + b . Conclure que les droites de rgression de y sur x et de x sur
y ne sont pas les mmes.

3.0
1.0

2.5

0.5

2.0

0.0

1.5

0.5

1.0

1.0

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

Figure 3.2 Tracs des observations (xi , yi ) et de la droite de rgression (en rouge) associe.
A gauche, (x, y) = 0.9855 et droite, (x, y) = 0.9863.

1.0

1.0

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.2

0.0

0.0
0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

Figure 3.3 Tracs des observations (xi , yi ) et de la droite de rgression (en rouge) associe.
Dans les deux cas, (x, y) = 0 et nous voyons quil nest pas possible dinterprter cette valeur
car les variables x et y peuvent tre indpendantes ( gauche) ou lies ( droite).

24

3.4

CHAPITRE 3. OBSERVATIONS DE DEUX VARIABLES COUPLES

Corrlations de rang

Dans toute cette section, nous supposerons que les poids p1 , . . . , pn sont uniformes, i.e.
p1 = = pn = 1/n.
Le coefficient de corrlation de Pearson (x, y) est un bon indicateur de lalignement des
observations et donc de lexistence dune relation affine entre les variables x et y. Cependant,
ces variables peuvent tre lies sans pour autant que cette relation soit affine. Les coefficients de
corrlation que nous allons introduire dans cette section mesurent lexistence dune relation
entre x et y sans en prciser la nature. Ces deux coefficients sont bass sur les rangs des
observations dans leurs versions ordonnes.

3.4.1

Corrlation de Spearman

Pour chaque i {1, . . . , n}, nous dfinissons ri comme le rang de lobservation xi dans la
version ordonne x(1) 6 6 x(n) . De mme, si est le rang de yi parmi les y(1) 6 6 y(n) .
En cas dgalit entre plusieurs observations, les rangs de celles-ci sont tous pris gaux la
valeur moyenne des rangs concerns. Dans la suite, les rangs r1 , . . . , rn et s1 , . . . , sn seront
traits comme les observations des variables de rang r et s respectivement.
Exemple Supposons que nous ayons observ
x1 = 4.2 , x2 = 3.1 , x3 = 5.1 , x4 = 3.1 et x5 = 1.3 .
La version ordonne de nos observations est donc
x(1) = 1.3 , x(2) = 3.1 , x(3) = 3.1 , x(4) = 4.2 et x(5) = 5.1 .
Dans ce classement, le rang de x1 est r1 = 4, celui de x3 est r3 = 5 et celui de x5 est
r5 = 1. Puisque x2 et x4 sont gaux et que leurs rangs auraient d valoir 2 ou 3, nous posons
r2 = r4 = (2 + 3)/2 = 2.5. Au final, nous avons donc
r1 = 4 , r2 = 2.5 , r3 = 5 , r4 = 2.5 et r5 = 1 .

Dfinition 3.3. Le coefficient de corrlation de Spearman entre les observations des


variables couples x et y est le coefficient de corrlation linaire entre les rangs r et s,
S (x, y) = (r, s) .
Par dfinition, la corrlation de Spearman est toujours comprise entre 1 et 1 et sa valeur
sinterprte de faon similaire celle de la corrlation de Pearson. En effet, si |S (x, y)| est
proche de 1, la rpartition des points observs (x1 , y1 ), . . . , (xn , yn ) est proche de la courbe
dune fonction monotone (croissante si S (x, y) > 0 et dcroissante si S (x, y) < 0). Nous
pourrons alors conclure lexistence dune relation monotone entre les variables x et y (voir
Figure 3.4). Comme pour la corrlation de Pearson, si S (x, y) est proche de 0, il ny a, a
priori, aucune interprtation.

3.4. CORRLATIONS DE RANG

25

0.2

1.0

0.0

0.8

0.2

0.6

0.4

0.4

0.6

0.2

0.8

0.0

1.0

0.2

1.2
1.0

0.5

0.0

0.5

1.0

1.0

0.5

0.0

0.5

1.0

Figure 3.4 Pour ces observations (xi , yi ), la corrlation de Spearman vaut S (x, y) = 0.8787
( gauche) et S (x, y) = 0.8982 ( droite).

Exemple Pour x, nous reprenons les observations de lexemple prcdents et, pour y, nous
observons
y1 = 3.8 , y2 = 0.6 , y3 = 1.2 , y4 = 3.5 et y5 = 3.5 .
Ainsi, les rangs sont donns par
s1 = 5 , s2 = 4 , s3 = 3 , s4 = 1.5 et s5 = 1.5 .
La corrlation de Spearman entre x et y vaut donc
Cov(r, s)
1.05
p
S (x, y) = (r, s) = p
' 0.553 .
=
1.9
1.9
Var (r) Var (s)

Les rangs r et s vrifient certaines proprits qui vitent de refaire systmatiquement les
mmes calculs lorsque nous cherchons obtenir la corrlation de Spearman.
Proposition 3.4. La moyenne des rangs est toujours gale
r=s=

n+1
.
2

Si il ny a aucun ex-quo ni parmi les observations de x, ni parmi celles de y, alors,


Var (r) = Var (s) =
et

n2 1
12
n

S (x, y) = 1

X
6
(ri si )2 .
n(n2 1)
i=1

26

CHAPITRE 3. OBSERVATIONS DE DEUX VARIABLES COUPLES

Dmonstration. Par construction, il est vident que


n
X

ri =

i=1

n
X

si =

i=1

n
X

k=

k=1

n(n + 1)
.
2

Donc, nous avons r = s = (n + 1)/2.


Labsence dgalit parmi les observations de x et parmi celles de y implique que les rangs
r1 , . . . , rn et s1 , . . . , sn sont des permutations des entiers de 1 n. Par consquent,
n
X

ri2 =

i=1

n
X

s2i =

i=1

n
X

k2 =

k=1

n(n + 1)(2n + 1)
.
6

La variance de r se calcule alors facilement,


Var (r) = r2 r2
n
1 X 2 (n + 1)2
=
ri
n
4
i=1

=
=

(n + 1)(2n + 1) (n + 1)2

6
4
(n + 1)(n 1)
n2 1
=
,
12
12

et de mme pour Var (s) = (n2 1)/12.


Pour le calcul de la corrlation de Spearman et parce que r = s, nous avons
n

1X
(ri si )2 =
n
i=1

1X
((ri r) (si s))2
n
i=1

n
n
n
1X
2X
1X
2
(ri r)
(ri r)(si s) +
(si s)2
n
n
n
i=1

i=1

i=1

= Var (r) 2Cov(r, s) + Var (s)


n2 1
=
2Cov(r, s) .
6
n

n2 1
1 X

(ri si )2 et donc
Ainsi, nous obtenons Cov(r, s) =
12
2n
i=1

X
Cov(r, s)
6
p
S (x, y) = (r, s) = p
=1
(ri si )2 .
2 1)
n(n
Var (r) Var (s)
i=1

Rappel Pour un entier n > 0, la somme des nombres entiers de 1 n se calcule facilement
grce la remarque suivante qui consiste faire la somme de deux faons diffrentes (de 1

3.4. CORRLATIONS DE RANG

27

n et de n 1),
n
X

k =

k=1

1
2

n
X

!
n
X
k+
(n + 1 k)

k=1
n
X

k=1

1
2

n
1X
n(n + 1)
(n + 1) =
.
2
2

(k + n + 1 k)

k=1

k=1

La somme des carrs des n premiers nombres entiers se calcule en remarquant que
n
n
X
X
(k + 1)3 =
k 3 1 + (n + 1)3
k=1

et

k=1

n
n
n
n
n
X
X
X
X
X
(k + 1)3 =
k3 + 3
k2 + 3
k+
1.
k=1

k=1

k=1

k=1

k=1

En identifiant les deux galits et en utilisant le rsultat prcdent, nous obtenons,


3

(n + 1) 1 = 3

n
X
k=1

n
X
2(n + 1)3 2 3n(n + 1) 2n
3n(n + 1)
+ n
k2 =
k +
2
6
2

k=1

n
X

k2 =

k=1

3.4.2

n(n + 1)(2n + 1)
.
6

Corrlation de Kendall

Nous supposerons dans cette sous-section quil ny a aucun ex-quo ni parmi les observations de x, ni parmi celles de y.
Nous prsentons maintenant une autre mesure de corrlation base sur les rangs. Pour
cela, nous introduisons la notion de variation concordante. Soient i, j {1, . . . , n} tels que
i < j, nous disons quil y a une variation concordante entre i et j si
ri < rj et si < sj

ou

ri > rj et si > sj .

Remarquons que, en labsence dex-quo parmi les observations, toutes les paires i < j sont
soit concordantes, soit non-concordantes. Nous notons R le nombre de variations concordantes
parmi tous les choix i < j possibles.
Dfinition 3.4. Le coefficient de corrlation de Kendall entre les observations des variables couples x et y est dfini par
K (x, y) =

4R
1 .
n(n 1)

Exercice 3.3. Montrer que


06R6
et en dduire que 1 6 K (x, y) 6 1.

n(n 1)
2

28

CHAPITRE 3. OBSERVATIONS DE DEUX VARIABLES COUPLES

Comme pour les autres corrlations, celle de Kendall ne sinterprte pas lorsquelle est
proche de 0. Si |K (x, y)| est proche de 1, nous pouvons en dduire que les carts xi xj et
yi yj , pour i < j, sont lis. Cette situation suggre donc lexistence dune relation entre les
variables x et y.
Exemple Prenons les observations suivantes avec n = 5,
x1 = 4.2 , x2 = 3.1 , x3 = 5.1 , x4 = 2.1 , x5 = 1.3
et
y1 = 3.4 , y2 = 0.6 , y3 = 1.2 , y4 = 3.5 , y5 = 3.8 .
Nous avons les rangs suivants,
r1 = 4 , r2 = 3 , r3 = 5 , r4 = 2 , r5 = 1
et
s1 = 4 , s2 = 3 , s3 = 2 , s4 = 1 , s5 = 5 .
Les paires (i, j) {1, . . . , n}2 telles que i < j qui sont concordantes sont
(1, 2) , (1, 4) , (2, 4) et (3, 4) .
Nous avons donc R = 4 et
K (x, y) =

3.5

44
1 = 0.2 .
54

Distance du 2 lindpendance

Toutes les mthodes que nous avons prsentes dans les sections prcdentes taient relatives des observations de variables quantitatives. Cependant, toutes les variables ne peuvent
pas tre reprsentes comme des mesures de grandeurs physiques. Certaines variables, dites
qualitatives, ne peuvent prendre quun nombre fini dtats (appels aussi des modes). Ces tats
ne sont pas, en gnral, des mesures.
Exemple Supposons que nous observions la couleur des yeux de plusieurs personnes. La variable relative ces observations est qualitative car elle ne peut prendre que des valeurs parmi
{BLEU, MARRON, VERT}. En particulier, il nest ni possible de faire des calculs avec ces
observations, ni de les ordonner pour tudier les corrlations vues prcdemment.
Soit un entier n > 0, nous considrons que nous disposons des observations u1 , . . . , un et
v1 , . . . , vn de deux variables qualitatives couples u et v respectivement. De plus, la variable
u ne peut prendre que des valeurs dans {1 , . . . , r } et la variable v ne peut prendre que des
valeurs dans {1 , . . . , s } avec r, s > 0 deux nombres entiers.
Contrairement aux sections prcdentes, nous allons prsenter une mthode pour justifier
labsence de relation entre les variables u et v, i.e. lindpendance. Pour cela, nous allons
considrer les effectifs suivants, pour tout i {1, . . . , r} et tout j {1, . . . , s},
ni,j = ] {k {1, . . . , n} tels que (uk , vk ) = (i , j )} ,

3.5. DISTANCE DU 2 LINDPENDANCE

ni =

s
X

29

ni,j = ] {k {1, . . . , n} tels que uk = i }

j=1

et
nj =

r
X

ni,j = ] {k {1, . . . , n} tels que vk = j } .

i=1

Ces effectifs sont gnralement reprsents dans une table de contingence avec ses marges qui
contiennent les effectifs somms ni et nj (voir Figure 3.5). Bien sr, les effectifs en ligne et
en colonne sont relis par
n=

r X
s
X
i=1 j=1

ni,j =

r
X
i=1

ni =

s
X

nj .

j=1

Figure 3.5 Table de contingence pour r = 3 et s = 4 avec ses marges (en rouge) et les
modes (en bleu).
Lobjectif de la mthode que nous prsentons ici va tre de comparer cette table de contingence observe avec une table de contingence thorique qui correspond ce que nous aurions
d observer en cas dindpendance entre les variables u et v. Si ces deux tables sont assez
"proches", alors nous pourrons accepter lide dindpendance entre nos variables.
Considrons i {1, . . . , r} et j {1, . . . , s}, quelle doit tre la valeur thorique ni,j
du nombre dobservations de la paire (i , j ) en cas dindpendance ? Pour rpondre cette
question, il faut comprendre ce que lindpendance implique en terme deffectifs dobservations.
Prenons la ligne des ni observations de i . Si le fait davoir observ u = i ninfluence pas la

30

CHAPITRE 3. OBSERVATIONS DE DEUX VARIABLES COUPLES

valeur prise par la variable v, alors les nj observations de j se rpartissent le long de la ligne
des i avec les proportions ni /n. Il faut noter que cet argument est symtrique entre u et v
et que nous pouvons aussi en dduire que les ni observations de i se rpartissent le long de
la colonne de j avec les proportions nj /n. Ainsi, nous obtenons les effectifs thoriques sous
lhypothse dindpendance,
ni,j =

ni nj
.
n

Dfinition 3.5. La distance du 2 lindpendance est dfinie par

2 =

r X
s
X
(ni,j ni,j )2
.
ni,j
i=1 j=1

La quantit 2 nest pas une distance au sens mathmatique (elle nest pas symtrique,
. . .) mais elle traduit lide de proximit entre les tables de contingence observe et thorique.
Plus 2 sera proche de 0, plus lhypothse dindpendance sera acceptable.
De plus, il est important de noter la normalisation par ni,j des termes de la somme dfinissant 2 . Leurs prsences assurent que les cellules des tables de contingence sont traites de la
mme faon si elles contiennent un effectif important ou faible. En effet, un cart ni,j ni,j = 1
aura plus dimportance si ni,j = 1 que si ni,j = 1000, par exemple.
Afin de donner un ordre de grandeur pour 2 , nous prsentons ici le calcul de la distance
dans un cas particulier qui correspond la situation extrme o u et v ne sont absolument
pas indpendantes. Pour cela, nous considrons que les variables ont les mmes modes (i.e.
r = s et, pour tout i {1, . . . , r}, i = i ) et que les observations sont toujours gales (i.e.
pour tout i {1, . . . , n}, ui = vi ). La table de contingence des effectifs observs ni,j est donc
donne par

n/r 0
0

..
..
..
0
.
.
.

.
[ni,j ]16i,j6r = .

..
..
..
.
.
0
0 0 n/r
Pour tout i, j {1, . . . , r}, nous avons ni = nj = n/r et donc ni,j = n/r2 . Ainsi, la table de
contingence thorique est donne par

ni,j


16i,j6r

n/r2 n/r2 n/r2

..
..
n/r2 . . .
.
.

.
= .

.
.
.
.
.
2
.
.
. n/r
n/r2 n/r2 n/r2

3.5. DISTANCE DU 2 LINDPENDANCE

31

Nous pouvons maintenant calculer 2 ,

r
r
r X
r
X
(ni,j ni,j )2
(ni,j ni,j )2 X
(ni,i ni,i )2 X
=
+
=

ni,j
ni,i
ni,j

i=1
j=1
i=1 j=1

j6=i

r
r
r
r
X
(n/r n/r2 )2 X (0 n/r2 )2 X n(r 1)2 X n
=
+
+
=

n/r2
n/r2
r2
r2

i=1
j=1
j=1
i=1

j6=i
j6=i


n(r 1)2 n(r 1)
+
= n(r 1) .
= r
r2
r2

Plus gnralement, nous avons le rsultat suivant qui nous permet de donner lordre de
grandeur de 2 en cas dabsence totale dindpendance.
Proposition 3.5. Nous avons
2 6 n
Dmonstration. Admis.

p
(r 1)(s 1) .

32

CHAPITRE 3. OBSERVATIONS DE DEUX VARIABLES COUPLES

Chapitre 4

Observations de plusieurs variables


couples
4.1

Introduction

Dans le chapitre prcdent, nous avons introduit quelques outils permettant de discuter
de lexistence dune relation entre deux variables. Parmi ces outils, certains peuvent tre
gnraliss pour considrer les relations potentielles entre un nombre arbitraire de variables.
Nous nous restreindrons dans ce chapitre ltude dun jeu de donnes relatif n observations
de p variables quantitatives couples.
Ainsi, dans la suite de ce chapitre, nous considrerons p variables quantitatives x1 , . . . , xp et
n vecteurs observs (x11 , . . . , xp1 )0 , . . . , (x1n , . . . , xpn )0 Rp pondrs par des poids p1 , . . . , pn > 0
normaliss. Pour i {1, . . . , n} et j {1, . . . , p}, nous notons donc xji la ime observation de
la j me variable.
Afin de garder des notations simples, pour tout j {1, . . . , p}, nous noterons xj pour
dsigner la j me variable ou pour dsigner le vecteur de ses observations (xj1 , . . . , xjn )0 Rn
selon le contexte. De mme, pour tout i {1, . . . , n}, nous noterons xi = (x1i , . . . , xpi )0 Rp
pour dsigner le vecteur des ime observations de chaque variable.

4.2

Matrices de covariance et de corrlation

Les notions de covariance et de corrlation linaire que nous avons vues taient dfinies
entre deux variables. Elles se gnralisent naturellement p variables en considrant toutes
les paires de variables (xi , xj ) pour i, j {1, . . . , p}. Les valeurs obtenues sont alors prsentes
sous forme matricielle.
Dfinition 4.1. La matrice de covariance = (ij )16i,j6p est la matrice carre de taille
33

34

CHAPITRE 4. OBSERVATIONS DE PLUSIEURS VARIABLES COUPLES

p p dont les entres sont donnes par ij = Cov(xi , xj ) pour i, j {1, . . . , p}.


Var x1
Cov(x2 , x1 )
..
.

Cov(x1 , x2 )
Var x2
..
.

..
.

Cov(xp1 , x1 ) Cov(xp1 , x2 )
Cov(xp , x1 )
Cov(xp , x2 ) . . .

Cov(x1 , xp1 ) Cov(x1 , xp )


Cov(x2 , xp1 ) Cov(x2 , xp )

..
..

.
.


p1
p1
p
Var x
Cov(x , x )
Cov(xp , xp1 )
Var (xp )

Par dfinition, la diagonale de contient les variances des variables. De plus, grce la
Proposition 3.1, nous savons que cette matrice est symtrique, i.e. pour tout i, j {1, . . . , p},
ij = ji .
Dfinition 4.2. La matrice de corrlation C = (Cij )16i,j6p est la matrice carre de taille
p p dont les entres sont donnes par Cij = (xi , xj ) pour i, j {1, . . . , p}.

1
(x2 , x1 )
..
.

(x1 , x2 )
1
..
.

..
.

C=
p1 1
(x , x ) (xp1 , x2 )
(xp , x1 )
(xp , x2 ) . . .

(x1 , xp1 )
(x2 , xp1 )
..
.

(x1 , xp )
(x2 , xp )
..
.

p1
p
1
(x , x )
(xp , xp1 )
1

Cette matrice na que des 1 sur sa diagonale et est galement symtrique car (xi , xj ) =
(xj , xi ) pour tout i, j {1, . . . , p}.
En pratique, nous utiliserons principalement la matrice de covariance. Une des raisons de
ce choix est la simplicit de lcriture matricielle de . Pour illustrer cela, nous considrons la
matrice des donnes centres X. Cette matrice est de taille n p et, pour tout i {1, . . . , n}
et j {1, . . . , p}, lentre Xij vaut xji xj o xj est la moyenne des xj1 , . . . , xjn pondre par
les poids p1 , . . . , pn .
1

x1 x1 x21 x2 xp1 xp
x1 x1 x2 x2 xp xp
2
2

2
X=

..
..
..
.
.

.
.
.
.
x1n x1 xn1 x2

xpn xp

Si lon considre que les donnes ont t obtenues en observant p variables sur n individus,
chaque ligne de X est relative un individu et chaque colonne de X est relative une variable.
Nous introduisons aussi la matrice des poids W qui est la matrice diagonale de taille n n
donne par

p1 0 0

.
0 p2 . . . ..
.
W =
.. . .

..
.
.
. 0
0 0 pn
Proposition 4.1. La matrice de covariance scrit
= tXW X .

4.2. MATRICES DE COVARIANCE ET DE CORRLATION

35

Dmonstration. Puisque tX est de taille p n, W de taille n n et X de taille n p, la


matrice tXW X est bien de taille p p. De plus, pour tout i, j {1, . . . , p}, nous avons
t

XW X


ij

=
=

n
X
k=1
n
X
k=1

Xik (W X)kj =

Wkk Xki Xkj =

n
X

Xik

k=1
n
X

n
X

Wk` X`j

`=1




pk xik xi xjk xj

k=1

= Cov(xi , xj ) = ij .

Nous avons vu que le coefficient de corrlation linaire (x, y) nous permet de mesurer la
"proximit" des points (x1 , y1 ), . . . , (xn , yn ) R2 une droite. Lorsque nous disposons dun
nombre p de variables, en gnral, il nest plus possible de dcrire la relation entre toutes les
variables en terme de simples droites (du moins, quand p > 2) et il nous faut faire intervenir
la quantit suivante qui gnralise la notion de corrlation linaire.
Dfinition 4.3. Considrons une variable couple y supplmentaire et ses n observations
y1 , . . . , yn R. Le coefficient R de corrlation multiple de y avec les variables x1 , . . . , xp
est la corrlation maximale entre y et toutes les combinaisons linaires des xj , j {1, . . . , p},


R = sup (y, a1 x1 + + ap xp ) avec (a1 , . . . , ap )0 Rp .
Exercice 4.1. A priori, la dfinition donne R [1, 1]. En comparant (y, a1 x1 + + ap xp )
et (y, a1 x1 ap xp ) pour un vecteur (a1 , . . . , ap )0 Rp arbitraire, montrer que nous
avons toujours 0 6 R 6 1.
Comme pour la corrlation linaire, le coefficient de corrlation multiple ne sinterprte pas
lorsquil est proche de zro. Quand R est proche de 1, cela suggre que les points (y1 , x11 , . . . , xp1 ),
. . . , (yn , x1n , . . . , xpn ) Rp+1 sont "proches" dun sous-espace linaire de dimension p. Autrement dit, cela suggre lexistence de a1 , . . . , ap , b R tels que les points observs soient dcrits
de faon "acceptable" par la relation
y = a1 x1 + + ap xp + b .
Dans le cas particulier o p = 1, nous avons R = |(y, x1 )| et nous retrouvons bien la mme
interprtation : quand R est proche de 1, les points (y1 , x11 ), . . . , (yn , x1n ) du plan R2 sont
"proches" dune droite, i.e. dun sous-espace de dimension p = 1.
Exemple Dans le cas p = 2, il est possible de donner une interprtation gomtrique simple du
coefficient R. En effet, dans ce cas, nous cherchons si les points (y1 , x11 , x22 ), . . . , (yn , x1n , x2n )
R3 sont "proches" dun plan (i.e. un sous-espace de dimension p = 2). Pour les donnes
centres, nous avons vu que la covariance est un produit scalaire dont la norme associe est
lcart-type (voir la dmonstration du Thorme 3.1). De plus, nous avons
p
p
Cov(y, a1 x1 + a2 x2 ) = Var (y) Var (a1 x1 + a2 x2 ) (y, a1 x1 + a2 x2 )
et donc la corrlation (y, a1 x1 + a2 x2 ) joue le rle du cosinus de langle entre y y et
a1 (x1 x1 ) + a2 (x2 x2 ) (faire lanalogie avec le produit scalaire usuel entre deux vecteurs u
et v, u v = kuk kvk cos(d
u, v)).

36

CHAPITRE 4. OBSERVATIONS DE PLUSIEURS VARIABLES COUPLES

yy

a1 (x1 x1 ) + a2 (x2 x2 )
x2 x2

x1 x1
Figure 4.1 La corrlation (y, a1 x1 + a2 x2 ) joue le rle du cos() o est langle form
par y y et a1 (x1 x1 ) + a2 (x2 x2 ).
A laide de cette analogie, nous comprenons que le choix de (a1 , a2 ) R2 qui rend (y, a1 x1 +
a2 x2 ) maximal est celui tel que langle form par y y et a1 (x1 x1 ) + a2 (x2 x2 ) soit
minimal (car cela maximise le cos()). En dautres termes, (y, a1 x1 + a2 x2 ) est maximal
pour (a1 , a2 ) R2 tels que a1 (x1 x1 ) + a2 (x2 x2 ) soit gal la projection orthogonale y
de y y sur le plan engendr par x1 x1 et x2 x2 . Ainsi, nous obtenons que R = (y, y ).

yy

x2 x2

x1 x1
Figure 4.2 La corrlation (y, a1 x1 + a2 x2 ) maximale est atteinte pour (a1 , a2 ) R2 tels
que a1 x1 + a2 x2 soit la projection orthogonale y de y y sur le plan engendr par x1 x1 et
x2 x2 et R = (y, y ).

Le rsultat obtenu dans cet exemple se gnralise p > 2 par des arguments similaires et
mne la proposition suivante.

4.3. INERTIE

37

Proposition 4.2. Considrons le vecteur centr Y = (y1 y, . . . , yn y)0 Rn et notons


Im(X) lespace engendr par les colonnes de X. Si dim(Im(X)) = p, la projection orthogonale
y de Y sur Im(X) est donne par
y = X( tXX)1 tXY .
De plus, nous avons R = (y, y ).
Dmonstration. Nous allons montrer que si dim(Im(X)) = p alors M = X( tXX)1 tX est la
projection orthogonale sur Im(X). Par dfinition, pour tout z Rp ,
M z = X (( tXX)1 tXz) Im(X) .
De plus, M est idempotente car
M 2 = X( tXX)1 tX X( tXX)1 tX
= X( tXX)1 ( tXX)( tXX)1 tX
= X( tXX)1 tX = M .
La matrice M tant symtrique, il sagit bien de la projection orthogonale sur Im(X). Enfin,
pour montrer que R = (y, y ), il suffit de raisonner comme dans lexemple pour obtenir que
la corrlation est maximale lorsque (a1 , . . . , ap )0 Rp est tel que a1 x1 + + ap xp = y .

4.3

Inertie

La variance des observations dune variable quantitative est une mesure de la dispersion
de ces observations par rapport leur moyenne. Pour tendre cette notion des observations
dans Rp , une premire ide consiste faire la somme des variances des coordonnes.
Dfinition 4.4. L inertie standard des n observations (x11 , . . . , xp1 ), . . . , (x1n , . . . , xpn ) Rp
est dfinie par
p
X

I=
Var xj .
j=1

Linertie standard tend lide de dispersion autour de la moyenne et le rle de cette


moyenne est jou par le vecteur g des moyennes des variables, appel centre de gravit,

x1

g = ... Rp .
xp
En effet, il est possible de rcrire linertie standard de la faon suivante,
I =

p
X
j=1
n
X
i=1

n
X
i=1

Var x

p X
n
X
j=1 i=1

pi

p
X

(xji gj )2

j=1

pi d22 (xi , g)

pi (xji xj )2

38

CHAPITRE 4. OBSERVATIONS DE PLUSIEURS VARIABLES COUPLES

o d2 est la distance euclidienne usuelle sur Rp . Cette criture nous amne considrer la
dfinition suivante de linertie base sur une distance d quelconque sur Rp .
Rappel Une distance sur Rp est une fonction d : Rp Rp R+ qui vrifie les points suivants,
pour x, y, z Rp ,
1. d(x, y) = d(y, x) (Symtrie),
2. d(x, x) = 0 x = 0 (Sparation),
3. d(x, z) 6 d(x, y) + d(y, z) (Ingalit triangulaire).

Dfinition 4.5. Etant donne une distance d sur Rp , nous dfinissons l inertie par rapport
d des n observations (x11 , . . . , xp1 ), . . . , (x1n , . . . , xpn ) Rp par
Id =

n
X

pi d2 (xi , g) .

i=1

La distance d est une distance sur lespace des variables et permet de dfinir une notion
dinertie Id mesurant la dispersion des observations en un sens particulier li au choix de d,
par exemple, en donnant une importance diffrente chaque variable (voir les exemples de la
Section 4.4).
Afin de dcrire ce qui induit de la dispersion dans nos donnes, nous serons amens
considrer le rle que joue chaque vecteur dobservations xi dans le calcul de linertie.
Dfinition 4.6. Pour i {1, . . . , n}, nous appelons contribution linertie Id de lindividu
i la proportion
pi d2 (xi , g)
[0, 1] .
Id
Dans le cas de linertie standard I, cette contribution vaut donc
p
pi X j
(xi xj )2 .
I
j=1

4.4

Changement de distance

Nous avons vu que, en rcrivant linertie standard I, nous tions amens considrer la
dfinition plus gnrale de linertie Id par rapport une distance d. Nous allons maintenant
nous intresser une classe particulire de distances construite en suivant la remarque suivante,
pour i {1, . . . , n},
p
X
2
d2 (xi , g) =
(xji gj )2 = tXi Xi
j=1

x1 , . . . , xpi

o Xi = (x1i
xp ) Rp est le ime vecteur ligne de la matrice X des donnes
centres. Etant donne une matrice symtrique dfinie positive M (voir les rappels de la
Section 4.5) de taille p p, nous considrons la distance dM sur Rp dfinie par, pour tout
x, y Rp ,
d2M (x, y) = t(x y)M (x y) .

4.4. CHANGEMENT DE DISTANCE

39

Exercice 4.2. A laide des rappels de la Section 4.5, vrifier que dM est bien une distance
sur Rp .
Ainsi, pour tout i {1, . . . , n}, nous avons d2M (xi , g) = tXi M Xi et nous notons IM linertie
par rapport dM . Nous prsentons quelques choix de M dans la suite de cette section. La
notion dinertie gnralisant celle de variance, nous disposons, en particulier, dun rsultat
analogue au Thorme 1.2.
Thorme 4.1. [Inertie par groupes] Soient N > 0 et G1 , . . . , GN une partition de
{1, . . . , n}. Pour tout k {1, . . . , N }, nous considrons

qk =

pi

et

g (k)

1
xk
..
= . Rp
xpk

iGk

o xjk est la moyenne des xji pour i Gk ,


xjk =

1 X
pi xji , j {1, . . . , p} .
qk
iGk

Etant donne une matrice symtrique dfinie positive M , linertie IM se dcompose en


inter
intra
IM = IM
+ IM

avec
inter
IM

N
X

qk d2M (g (k) , g)

(Inertie inter-groupe)

k=1

et
intra
IM

N
X

(k)

qk I M

(Inertie intra-groupe)

k=1
(k)

o IM est linertie par rapport dM des observations xi = (x1i , . . . , xpi )0 pour i Gk ,


(k)

IM =

1 X
pi d2M (xi , g (k) )
qk
iGk

Dmonstration. Voir la feuille du TD 4.


Exercice 4.3. Vrifier que dans le cas de linertie standard I, nous retrouvons bien
I=

p
X
j=1

Varinter (xj ) +

p
X
j=1

Varintra (xj ) .

40

4.4.1

CHAPITRE 4. OBSERVATIONS DE PLUSIEURS VARIABLES COUPLES

Distance euclidienne

Si M est la matrice identit Idp de taille p, alors la distance dM est la distance euclidienne
classique sur Rp ,
d2Idp (xi , g) = tXi Idp Xi = tXi Xi = d22 (xi , g), i {1, . . . , n}.
Ce cas correspond ce que nous avons vu dans la section prcdente et linertie standard,
IIdp = I =

n
X

pi d22 (xi , g)

i=1

p
X


Var xj .

j=1

Par analogie avec la contribution dun individu linertie, il est possible ici de dfinir linfluence
de chaque variable sur linertie.
Dfinition 4.7. Pour j {1, . . . , p}, nous appelons contribution linertie standard I
de la variable j la proportion

Var xj
[0, 1].
I

4.4.2

Distance des variables rduites

Afin de mettre toutes les variables la mme chelle, nous pouvons


pconsidrer leurs versions
j
j
rduites, i.e. considrer les observations centres rduites (xi x )/ Var (xj ). En prenant M
comme la matrice p p diagonale des inverses des variances,


1/Var x1
0 ...
0

..
..
..

.
.
.
0
,

M =

..
..
..

.
.
0
.
p
0
. . . 0 1/Var (x )
cela revient travailler avec avec la distance dM qui est telle que, pour tout i {1, . . . , n},
p
X
(xji xj )2
.
Var (xj )

d2M (xi , g) = tXi M Xi =

j=1

Linertie par rapport dM est donc gale


IM

n
X
i=1
p
X
j=1

pi tXi M Xi =

n
X

pi

i=1

1
Var (xj )

n
X
i=1

pi (xji

p
X
(xji xj )2
Var (xj )
j=1

xj )2


p
X
Var xj
=
Var (xj )
j=1

= p.
Linertie IM est constante et chaque variable y contribue avec une proportion 1/p.
Exercice 4.4. Faire un parallle entre lutilisation de la distance des variables rduites et la
matrice de corrlation C.

4.4. CHANGEMENT DE DISTANCE

4.4.3

41

Distance de Mahalanobis

Plus gnralement, pour normaliser les observations des variables, le statisticien Mahalanobis proposa, en 1936, de prendre M = 1 , linverse de la matrice de covariance. Bien
entendu, ce choix nest possible que lorsque est une matrice inversible. Cela donne, pour
i {1, . . . , n},
d21 (xi , g) = tXi 1 Xi .
De plus, nous avons le mme rsultat que pour la distance des variables rduites, savoir que
linertie I1 est constante et gale p,

I1

n
X
i=1
n
X

pi Xi

Xi =

n
X

pi

i=1

pi

i=1

p X
p
X


jk

p X
p
X


jk

Xij Xik

j=1 k=1

(xji xj )(xki xk )

j=1 k=1

p X
p
X

j=1 k=1
p
X
1


jk

Cov(x , x ) =

p X
p
X


jk

kj

j=1 k=1
p
X

jj =
Idp jj = p .

j=1

j=1

Par contre, la contribution des variables linertie nest plus ncessairement gale 1/p et ne
sexprime pas simplement.
Lintrt du choix de la distance de Mahalanobis provient de considrations thoriques.
En effet, lutilisation de 1 permet de dcrire les variables xj comme tant des sommes de
variables rduites et non corrles. En particulier, les quantits d2M (xi , g) sexpriment alors en
terme de sommes des contributions isoles de ces nouvelles variables.
Exemple Prenons p = 2, , , R et supposons quil existe deux variables rduites et non
2
corrles u et
Cov(u,v)=0) telles que x1 =
 v (i.e.
 u 2et x 2 = u + v. Il est facile de montrer
1
2
1
2
2
que Var x = , Cov(x , x ) = et Var x = + . En supposant que 6= 0 et 6= 0,
nous avons donc la matrice de covariance
2

=
2
+ 2


qui est inversible (son dterminant vaut 2 2 > 0) et dont linverse est

 2

1
+ 2
.
= 2 2

42

CHAPITRE 4. OBSERVATIONS DE PLUSIEURS VARIABLES COUPLES

Pour i {1, . . . , n}, nous avons donc


d21 (xi , g) =

Xi 1 Xi


1
1
1 2
2
= 1
11 Xi1 + 12 + 21 Xi1 Xi2 + 22 Xi2
2 1
2
2 + 2 1
1 )2
1 )(x2 x2 ) +
(x

(x

(x2 x2 )2
x
x
i
i
i
2 2
2 2
2 2 i
1 1
=
(x x1 )2
2 i
2
2 1
1
+ 2 2 (x1i x1 )2
(xi x1 )(x2i x2 ) + 2 (x2i x2 )2
2

!2
!2
(x1i x1 ) x2i x2
x1i x1
+



(ui u) (ui u) + (vi v) 2
2
= (ui u) +
= (ui u)2 + (vi v)2 .

Nous obtenons donc bien que les quantits d21 (xi , g) scrivent comme la somme des contributions des observations ui et vi sparment.

4.5

Matrices symtriques dfinies positives et diagonalisation

Nous avons vu dans ce chapitre que les matrices symtriques dfinies positives jouent un
rle important lorsque nous souhaitons tudier un ensemble de p variables couples. Lobjet de
cette section est de faire certains rappels dalgbre linaire sur les proprits de ces matrices
que nous utiliserons dans la suite du cours.

4.5.1

Matrices symtriques

Dfinition 4.8. Considrons une matrice carre M de taille p p. Nous dirons que M est
symtrique si
i, j {1, . . . , p}, Mij = Mji .
Ces matrices ont de bonnes proprits comme nous le verrons par la suite. De plus, cest
pour M symtrique que nous avons dfini la distance dM telle que, pour tout i {1, . . . , n},
d2M (xi , g) = tXi M Xi .
Puisque nous nutilisons que cette proprit de la distance dM , il est facile de voir que nous
pouvons considrer nimporte quelle matrice M 0 de taille p p et quil est toujours possible
de se ramener une matrice symtrique M telle que, pour tout i {1, . . . , n},
d2M 0 (xi , g) = tXi M 0 Xi = tXi M Xi = d2M (xi , g) .

4.5. MATRICES SYMTRIQUES DFINIES POSITIVES

43

En effet, si M 0 est une matrice p p quelconque, nous avons, pour tout v = (v1 , . . . , vp )0 Rp ,
vM 0 v =

p X
p
X

0
Mjk
vj vk

j=1 k=1

X
X

0
0
0 2
vj vk .
Mjk
+ Mkj
=
Mjj
vj +

j=1

j<k

Ainsi, pour symtriser, il nous suffit de considrer la matrice M symtrique dfinie par, pour
tout j, k {1, . . . , p},
0 + M0
Mjk
kj
Mjk =
2
et nous obtenons
d2M (xi , g) =

Xi M Xi

X
X
=
Mjj Xij2 +
(Mjk + Mkj ) Xij Xik

j=1
j<k

!
p
0 + M0
0 + M0
0 + M0

X
X
M
M
Mjj
jj
kj
jk
jk
kj
=
Xij2 +
+
Xij Xik

2
2
2
j=1
j<k

X
X

0
0
0
Xij Xik
=
+ Mkj
Mjj
Xij2 +
Mjk

j=1

j<k

Xi M Xi =

d2M 0 (xi , g)

Exemple Prenons la matrice carre suivante




2 3
0
.
M =
1 2
Pour tout v = (v1 , v2 )0 R2 , nous


 2
v1 v2
1

avons
 
3 v1
= 2v12 + 3v1 v2 v1 v2 + 2v22
2 v2
= 2v12 + 2v1 v2 + 2v22

 

 2 1 v1
= v1 v2
1 2 v2

avec 1 =

3 + (1)
. Il est donc quivalent de considrer M 0 et sa version symtrise
2


2 1
M=
.
1 2

44

4.5.2

CHAPITRE 4. OBSERVATIONS DE PLUSIEURS VARIABLES COUPLES

Matrices dfinies positives

Dfinition 4.9. Considrons une matrice carre M de taille p p. Nous dirons que M est
dfinie positive si
v Rp , tvM v > 0 .
Cette proprits implique en particulier que nous avons bien tXi M Xi > 0, pour tout i
{1, . . . , n}.
Exemple La matrice



2 1
M=
.
1 2
est symtrique dfinie positive. En effet, pour tout (x, y)0 R2 , nous avons

 

 2 1 x
x y
= 2x2 2xy + 2y 2 = x2 + y 2 + (x y)2 > 0 .
1 2
y
La matrice

1 2
M=
2 1


.

est symtrique mais pas dfinie positive. En effet, prenons (1, 1)0 R2 , nous avons
 


 1 2 1
1 1
= 2 < 0 .
1
2 1

4.5.3

Diagonalisation des matrices symtriques

Une des proprits particulirement intressantes des matrices symtriques est le rsultat
suivant.
Thorme 4.2. Toute matrice symtrique se diagonalise dans une base orthonorme.
Dmonstration. Voir le cours dalgbre linaire.
Rappel Soit E un espace vectoriel euclidien de dimension d muni dun produit scalaire h, i.
Une base {b1 , . . . , bd } de E est dite orthonorme si, pour tout i, j {1, . . . , d} avec i 6= j,
hbi , bj i = 0 et hbi , bi i = 1.
Afin dobtenir les valeurs propres et les vecteurs propres dune matrice symtrique M ,
il faut procder par tapes. Nous donnons ici un exemple partir de la matrice symtrique
dfinie positive suivante


7 4
M=
.
4 13
Exercice 4.5. Vrifier que M est bien dfinie positive.
Rappel Soit M une matrice de taille p p, nous disons que R est une valeur propre de
M associe au vecteur propre v Rp si et seulement si M v = v.

4.5. MATRICES SYMTRIQUES DFINIES POSITIVES

45

Recherche des valeurs propres


Les valeurs propres 1 , . . . , p de M sont les racines du polynme caractristique de M ,
i.e. il faut rsoudre en R
det(M Idp ) = 0 .
Calculons ce dterminant dans notre cas,


7
4
det(M Id2 ) = det
4 13
= (7 )(13 ) 16 = 2 20 + 75 .
Nous obtenons donc que les deux valeurs propres de M sont
1 =

20 + 10
= 15
2

2 =

et

20 10
=5.
2

Remarquons que les deux valeurs propres de M sont positives. Cette remarque est plus
gnralement vraie pour toutes les valeurs propres dune matrice dfinie positive.
Proposition 4.3. Soit M une matrice symtrique de taille p p, si M est dfinie positive
alors toutes ses valeurs propres sont positives.
Dmonstration. Soit R une valeur propre de M et v = (v1 , . . . , vp )0 Rp \ {0} un vecteur
propre non-nul associ. Par dfinition, nous savons que tvM v > 0. De plus, nous avons
t

vM v = tvv =

p
X

vi2 > 0 .

i=1

Nous en dduisons que > 0.


Recherche des vecteurs propres
Par dfinition, pour i {1, . . . , p}, un vecteur propre vi associ la valeur propre i est
tel que M vi = i vi . Pour le trouver, il faut donc rsoudre en x Rp
(M i Idp )x = 0 .
Pour notre exemple, il nous faut trouver x = (x1 , x2 )0 R2 tel que
pour 1 = 15, nous avons

 

8 4 x1
8x1 4x2 = 0
= 0
2x1 = x2 .
4 2 x2
4x1 2x2 = 0
 
1
En prenant x1 = 1, nous obtenons un vecteur propre v1 =
.
2
pour 2 = 5, nous avons

 

2 4 x1
2x1 4x2
= 0
= 0
x1 = 2x2 .
4 8
x2
4x1 + 8x2 = 0
 
2
En prenant x2 = 1, nous obtenons un vecteur propre v2 =
.
1

46

CHAPITRE 4. OBSERVATIONS DE PLUSIEURS VARIABLES COUPLES

Diagonalisation et interprtations
Soit i {1, . . . , p}, nous notons dsormais ui Rp le vecteur propre normalis associ
la valeur propre i > 0, i.e. ui est tel que u2i1 + + u2ip = 1. Ce vecteur propre sobtient
partir dun vecteur propre vi non-nul associ i en considrant
vi
ui =
kvi k
2 + + v2 .
avec kvi k2 = vi1
ip
Les vecteurs u1 , . . . , up forment une base de Rp . De plus, la matrice M tant symtrique,
nous pouvons considrer que cette base est orthonorme. La matrice de changement de base
allant de la base canonique celle donne par les ui est la matrice P de taille p p dont les
colonnes sont les ui ,

u11 u21 . . . up1

..
.. .
P = ...
.
.
u1p u2p . . . upp

En tant que matrice de changement de base, P est inversible. En outre, la base canonique et la
base forme par les ui tant orthonormes, la matrice P est orthogonale (i.e. P 1 = tP ). Cette
dernire remarque facilite le calcul de linverse P 1 puisquil suffit simplement de considrer
la matrice transpose tP .
Considrons la matrice diagonale D obtenue partir des valeurs propres 1 , . . . , p ,

1 0 . . . 0

.
0 . . . . . . ..

.
D= . .
.. ... 0
..

0 . . . 0 p
Nous avons donc obtenu la diagonalisation de la matrice M ,
M = P DP 1 = P D tP .
Reprenons les vecteurs v1 et v2 de notre exemple. Ils mnent aux vecteurs propres normaliss
 
 
1/ 5
2/5
u1 =
et
u2 =
.
2/ 5
1/ 5
Notons que ces vecteurs forment bien une base orthonorme de R2 car ku1 k2 = ku2 k2 = 1 et
tu u = 0. La matrice de changement de base P vaut donc
1 2


1/ 5 2/5
P =
2/ 5 1/ 5
et il est facile de vrifier quelle est inversible (det(C) = 1) et orthogonale,


1/5 2/ 5
1
P =
= tP .
2/ 5 1/ 5
La diagonalisation de M scrit donc


15 0 t
M =P
P .
0 5

4.5. MATRICES SYMTRIQUES DFINIES POSITIVES

47

En dimension p = 2, il est possible dillustrer cette diagonalisation par un dessin comme celui
de la Figure 4.3. La courbe CM reprsente lellipse associe la matrice symtrique positive
M et les droites engendres par les vecteurs propres u1 et u2 sont les deux axes de symtrie
de CM . De plus, remarquons que le demi-grand axe le long de u1 vaut 1 = 15 et celui le long
de u2 vaut 2 = 5.

CM

10

u2
0
u1
5

10

15

10

10

15

Figure 4.3 Ellipse associe la matrice symtrique dfinie positive M et la base orthonorme
de diagonalisation {u1 , u2 }.

48

CHAPITRE 4. OBSERVATIONS DE PLUSIEURS VARIABLES COUPLES

Chapitre 5

Analyse en composantes principales


5.1

Introduction

Comme dans le chapitre prcdent, nous considrons ici p variables quantitatives couples x1 , . . . , xp pour lesquelles nous disposons de n observations x1 = (x11 , . . . , xp1 )0 , . . . , xn =
(x1n , . . . , xpn )0 Rp pondres par les poids p1 , . . . , pn > 0 normaliss. Afin de simplifier les
notations de ce chapitre, nous supposerons que ces observations sont centres, i.e. xj = 0 pour
tout j {1, . . . , p}. Nous avons donc notre disposition la matrice de taille n p des donnes
centres,

1
1
x1 . . . xp1
x1 x1 . . . xp1 xp
.. . .

.
..
..
..
X=
= .
. .. ,
.
.
.
x1n . . . xpn
x1n x1 . . . xpn xp
et la matrice diagonale de taille n n des poids,

p1 0

0 ...
W =
.. . .
.
.
0 ...

...
..
.
..
.
0

0
..
.
.

0
pn

La matrice X contient donc les observations, chaque colonne correspondant aux n observations
dune variable et chaque ligne correspondant aux p observations pour un individu donn.
Nous nous intressons la question suivante : comment donner une "bonne" reprsentation
graphique de ces donnes x1 , . . . , xn Rp ? Si p = 2, il est possible de tracer le nuage de points
associ aux observations dans le plan. Si p > 2, cette reprsentation nest plus faisable. Pour
reprsenter les observations, nous allons chercher construire un plan sur lequel projeter les
observations tout en essayant de conserver au maximum la structure des donnes.

5.2

Composantes principales

Le point de dpart de notre tude est le simple rsultat suivant.


Proposition 5.1. La matrice de covariance = tXW X est symtrique et dfinie positive.
49

50

CHAPITRE 5. ANALYSE EN COMPOSANTES PRINCIPALES

Dmonstration. La symtrie de est vidente. Pour la dfinie positivit, nous considrons


v Rp et nous avons
n
X
t
vv = tv tXW Xv = t(Xv)W (Xv) =
pi (Xv)2i > 0 .
i=1

Exercice 5.1. Dduire directement de cette proposition que la matrice de corrlation C est
symtrique et dfinie positive.
En particulier, ce rsultat et le Thorme 4.2 impliquent que est diagonalisable en base
orthonorme. De plus, grce la Proposition 4.3, nous pouvons considrer 1 > > p > 0
et des vecteurs u1 , . . . , up Rp orthonorms tels que = P DP 1 = P D tP avec

1 0 . . . 0
1

u1 . . . up1

.
.
.
..
. . ..
0

.. .

D=
et
P = ...
.
.. . .

..
.
.
. 0
1
up . . . upp
0 . . . 0 p
Les colonnes de P sont les vecteurs propres uj = (uj1 , . . . , ujp )0 Rp , pour j {1, . . . , p}, et
elles permettent de dfinir p nouvelles variables c1 , . . . , cp comme des combinaisons linaires
des variables x1 , . . . , xp ,
cj =

p
X

ujk xk = uj1 x1 + + ujp xp , j {1, . . . , p} .

k=1

cj

Les
sont des variables "virtuelles" et sont appeles les variables principales. Pour i
{1, . . . , n} et j {1, . . . , p}, la ime observation de la variables cj est donc donne par
cji

p
X
k=1

ujk xki

p
X

Pkj Xik = (XP )ij .

k=1

Comme nous lavons fait pour les observations initiales, nous pouvons considrer le vecteur
C j des n observations de la variable cj , j {1, . . . , p},
j
c1
..
j
C = . Rn .
cjn

Etant donn que les variables x1 , . . . , xp sont supposes centres, il est important de remarquer
quil en va de mme pour les variables c1 , . . . , cp puisque ces dernires en sont des combinaisons
linaires.
Dfinition 5.1. Les vecteurs C 1 , . . . , C p sont appels les composantes principales. La
matrice C de taille n p dont les colonnes sont les composantes principales est la matrice
des composantes principales,
1

c1 . . . cp1

.. .
C = XP = ...
.
1
cn . . . cpn

5.3. REPRSENTATION GRAPHIQUE

51

La matrice C doit tre considre de la mme manire que la matrice des donnes centres
X. En effet, chaque ligne correspond aux p observations des variables c1 , . . . , cp pour un individu donn et chaque colonne correspond aux n observations dune des variables principales.
Le principal avantage considrer C plutt que X rside dans la structure de covariance.
Proposition 5.2. La matrice de covariance des variables principales est la matrice diagonale
D. Autrement dit, pour tout j, j 0 {1, . . . , p} avec j 6= j 0 , nous avons Var cj = j et
0
Cov(cj , cj ) = 0.
Dmonstration. Considrons j, j 0 {1, . . . , p} et, grce la bilinarit de la covariance, calculons
!
p
p
X
X
0
0
0
Cov(cj , cj ) = Cov
ujk xk ,
ujk0 xk
=

k=1
k0 =1
p


X j j0
0
uk uk0 Cov xk , xk
k=1 k0 =1
p X
p
p
X
X

p
X

Pkj Pk0 j 0 kk0 =

k=1 k0 =1
t

Pkj (P )kj 0

k=1

= ( P P )jj 0 = Djj 0 .

Exercice 5.2. Si certaines des valeurs propres de sont nulles, que cela signifie-t-il pour les
variables initiales x1 , . . . , xp ?

5.3
5.3.1

Reprsentation graphique
Plan principal

Pour i {1, . . . , n}, la ime ligne de la matrice C donnent les coordonnes Ci = (c1i , . . . , cpi )0
du ime individu dans le repre des composantes principales. Les observations des variables
principales sont dans Rp et, pour p > 2, nous ne pouvons toujours pas les reprsenter simplement. Cependant, par construction, nous avons class les variables principales par variance
dcroissante,


1 = Var c1 > 2 = Var c2 > > p = Var (cp ) > 0 .

Rp

Autrement dit, les deux premires composantes principales correspondent aux deux directions
dans lesquelles la "dispersion" des donnes est la plus importante. Cest dans ce plan engendr
par C 1 et C 2 , appel plan principal , que nous reprsenterons nos donnes.

5.3.2

Reprsentation des individus

Pour i {1, . . . , n}, les coordonnes du ime individu dans le plan principal sont donc
donnes par les deux premiers lments (c1i , c2i ) de la ime ligne de la matrice C.
La question naturelle de la qualit de cette reprsentation se pose. Comme lillustre la figure
5.1, nous allons raisonner de la mme faon que pour le coefficient de corrlation multiple
R. Cest--dire que nous allons considrer langle i form entre le vecteur ci Rp et la

52

CHAPITRE 5. ANALYSE EN COMPOSANTES PRINCIPALES

reprsentation du ime individu dans le plan principal dont les coordonnes sont (c1i , c2i ). Plus
cet angle sera petit, meilleure sera la reprsentation du ime individu dans le plan principal,
i.e. plus ci sera proche du plan principal. Pour i {1, . . . , n}, nous mesurons donc la qualit
de la reprsentation du ime individu par la quantit

cos2 i =

(c1i )2 + (c2i )2
.
(c1i )2 + + (cpi )2

(5.1)

ci = (c1i , . . . , cpi )0 Rp

(c1i , c2i )0 P

P
Figure 5.1 Langle i form entre le vecteur ci Rp et la reprsentation du ime individu
dans le plan principal P .

Plus le cosinus carr de (5.1) sera proche de 1, plus la reprsentation du ime individu sera
bonne. Pour faire apparatre cette qualit sur le graphique, la taille du point reprsentant le
ime individu peut tre proportionnelle cos2 i (voir Figure 5.2).

5.3. REPRSENTATION GRAPHIQUE

53

Figure 5.2 Nuage de n = 14 points reprsent dans le plan principal avec des tailles
proportionnelles la qualit de la reprsentation.

5.3.3

Interprtation des axes

Afin de comprendre les axes du plan principal, il nous faut savoir quel rle joue chaque
variable xj dans la construction des variables principales. Le rsultat suivant donne une expression des corrlations linaires entre variables initiales et variables principales.
Proposition 5.3. Prenons j, j 0 {1, . . . , p}, nous avons
p


j 0
0
j j0
x ,c
=p
ujj .
j
Var (x )
Dmonstration. Avant de calculer cette corrlation, nous faisons la remarque suivante : tant
donn que la matrice P est orthogonale, nous savons que
C = XP X = CP 1 = C tP .
Ainsi, pour tout i {1, . . . , n} et j {1, . . . , p}, la ime observation centre de la variable xj
vaut
p
p
X
X
j
t
t
Cik Pkj =
cki ukj .
(5.2)
xi = (C P )ij =
k=1

k=1

54

CHAPITRE 5. ANALYSE EN COMPOSANTES PRINCIPALES

Autrement dit, nous avons la variable xj =

p
X

ck ukj et la covariance, pour j 0 {1, . . . , p},

k=1

j0

Cov x , c

p
X

= Cov

!
0
ck ukj , cj

k=1

p
X



0
0
Cov ck , cj ukj = j 0 ujj

k=1

o la dernire galit dcoule de la Proposition 5.2. Nous avons donc la corrlation linaire

xj , cj


0



0
0
p
Cov xj , cj
j 0 ujj
j 0
0
p
p
p
=p
=
=
ujj .
p
0
j
j
j
j
Var (x ) j 0
Var (x )
Var (x ) Var (c )

Etant donn que nous nous limitons ici au plan principal, chaque variable xj est mettre
en relation avec c1 et c2 . Pour chaque j {1, . . . , p}, nous considrons donc le point Pj donn
par ses coordonnes

(xj , c1 ), (xj , c2 ) =


1 u1j
2 u2j
p
,p
.
Var (xj )
Var (xj )

Ces points sont tous dans le disque unit D = {(x, y) R2 tel que x2 + y 2 6 1}. En effet,
grce la Proposition 5.3, nous avons

1 2

2 2

(x , c ) + (x , c ) 6

p
X
k=1

p
p
X
X
k (ukj )2
1
(x , c ) =
=
k (ukj )2 = 1
Var (xj )
Var (xj )
j

k 2

k=1

k=1

car, en utilisant encore (5.2) et la Proposition 5.2, puisque les variables principales sont dcorrles,
!
p
p
p
  X
X
X

j
k k
k 2
k
Var x = Var
c uj =
(uj ) Var c =
k (ukj )2 .
k=1

k=1

k=1

Le cercle des corrlations est le graphique reprsentant les points Pj , j {1, . . . , p}, sous
forme de vecteurs dorigine nulle ainsi que le cercle unit (voir lexemple de la Figure 5.3).
Soit j {1, . . . , p}, plus le point Pj sera proche du cercle, plus la variable xj associe aura de
linfluence sur les axes du plan principal et y sera bien reprsente.

5.4. INERTIE

55

1.0

0.5

0.0

0.5

1.0
1.0

0.5

0.0

0.5

1.0

Figure 5.3 Cercle des corrlations de p = 6 variables.

5.4

Inertie

Lobjectif initial tait de donner une "bonne" reprsentation des donnes x1 , . . . , xn Rp


dans le plan qui puisse rendre compte de la structure de ces observations. Dans le cadre de ce
chapitre, nous utiliserons linertie standard I comme critre de qualit pour cette reprsentation,
p
X

I = I(x1 , . . . , xp ) =
Var xj .
j=1

Ce choix est, en particulier, motiv par le rsultat suivant.


Proposition 5.4. LACP conserve linertie standard,
1

I(x , . . . , x ) = I(c , . . . , c ) =

p
X

k .

k=1

Dmonstration. La Proposition 5.2 donne


1

I(c , . . . , c ) =

p
X
k=1

p
  X
k
Var c =
k .
k=1

56

CHAPITRE 5. ANALYSE EN COMPOSANTES PRINCIPALES

De plus, grce (5.2) et au fait que les variables principales sont dcorrles, nous calculons
facilement linertie standard associe aux variables x1 , . . . , xp ,

I(x1 , . . . , xp ) =

p
X

p
p
X
 X
Var xj =
Var
ck ukj

j=1
p X
p
X

j=1

k=1

 
(ukj )2 Var ck

j=1 k=1
p
p
X
X

p
X

j=1

k=1

(ukj )2 =

k=1

| {z }
=1

car u1 , . . . , up est une base orthonorme de Rp .

5.4.1

Qualit globale

Il est possible de considrer la contribution des variables principales linertie standard I,


pour j {1, . . . , k},

Var cj
j
=
.
I
1 + + p
Plus cette contribution sera grande, plus la dispersion dans la direction de la composante
principale associe sera importante. Par construction, les deux composantes principales qui
ont les plus grandes contributions sont C 1 et C 2 et nous utiliserons ces deux contributions
pour quantifier la qualit de la reprsentation dans le plan principal.

Dfinition 5.2. La part dinertie explique par le plan principal est

r2 =

1 + 2
.
1 + + 2

La quantit r2 mesure la qualit globale de la reprsentation dans le plan principal, i.e. plus
r2 sera proche de 1, meilleure sera cette reprsentation. Il est possible de se faire une ide de
r2 grce un graphique reprsentant la dcroissance des valeurs propres 1 > > p appel
boulis des valeurs propres (voir Figure 5.4).

5.4. INERTIE

57

2.0

1.5

1.0

0.5

0.0
1

Figure 5.4 Eboulis de p = 6 valeurs propres.

5.4.2

Changement de distance

Etant donne une matrice S dfinie positive de taille p p, il est possible dadapter les
variables considres un problme donn en considrant les "nouvelles" donnes issues de la
matrice XS = XS.
Exemple Afin de mettre la mme chelle les variables x1 , . . . , xp , nous pouvons tre amens
considrer leurs versions rduites. Cela correspond modifier le problme en prenant

1
p
0
.
.
.
0

Var (x1 )

..
..
..

.
.
0
.
.

S=

..
..
..

.
.
.
0

0
... 0 p
p
Var (x )
En effet, pour i {1, . . . , n} et j {1, . . . , p}, il est facile de voir que le ime observation de
la j me variable de XS est donne par
(XS )ij = (XS)ij =

p
X
k=1

Xik Skj =

xji xj

.
xj

58

CHAPITRE 5. ANALYSE EN COMPOSANTES PRINCIPALES

Par linarit, les colonnes de XS demeurent centres. Pour i {1, . . . , n}, le ime vecteur
ligne de XS , note XS,i Rp , contient donc les observations centres des "nouvelles" variables
relatives au ime individu. Ainsi, pour j {1, . . . , p}, nous avons la ime observation de la j me
variable modifie,
(XS,i )j = (XS)ij =

p
X
k=1

Xik Skj =

p
X

Sjk (Xi )k = ( tSXi )j .

k=1

Autrement dit, XS,i = tSXi o Xi est le ime vecteur ligne de X. Le carr de la distance
euclidienne entre le ime individu et le centre de gravit est donc donn par

t
(XS,i )XS,i = t( tSXi ) tSXi = tXi S tS Xi = tXi M Xi
avec M = S tS qui est, par construction, une matrice symtrique dfinie positive de taille pp.
En transformant les donnes X en XS , nous sommes donc naturellement amens travailler
avec les quantits d2M (xi , g) = tXi M Xi et donc avec linertie IM par rapport la distance dM
sur Rp . En faisant lACP partir de XS au lieu de X, cest linertie IM qui sera conserve
et nous pourrons construire un nouveau plan principal de faon conserver au maximum
linertie IM au lieu de linertie standard I. Cela donne une nouvelle procdure dACP dont
linterprtation gomtrique dpendra du choix de la matrice M .

Annexe A

Exemple dACP
Nous illustrons ici lanalyse en composantes principales sur un cas concret pour des donnes
issues du jeu vido "The Elder Scrolls V : Skyrim" dvelopp par Bethesda Game Studios et
dit par Bethesda Softworks. Il sagit dun jeu de rle dans lequel le joueur a, entre autres
choses, la possibilit dutiliser des arcs (et des arbaltes) pour mener ses qutes bien. Les
caractristiques des ces arcs sont les suivantes 1 :
Nom
Long Bow
Hunting Bow
Orcish Bow
Nord Hero Bow
Dwarven Bow
Elven Bow
Glass Bow
Ebony Bow
Daedric Bow
Dragonbone Bow
Crossbow
Enhanced Crossbow
Dwarven Crossbow
Enhanced Dwarven Crossbow

Poids
5
7
9
7
10
12
14
16
18
20
14
15
20
21

Valeur
30
50
150
200
270
470
820
1440
2500
2725
120
200
350
550

Dgt
6
7
10
11
12
13
15
17
19
20
19
19
22
22

Vitesse
1
0.9375
0.8125
0.875
0.75
0.6875
0.625
0.5625
0.5
0.75
1
1
1
1

Nous disposons donc de n = 14 arcs reprsents par p = 4 variables qui sont le poids de larc,
sa valeur, les dgts quil inflige et la vitesse laquelle il tire les flches. Ltude qui va suivre
est ralise laide du logiciel libre R 2 et le fichier des donnes skyrim_bows est disponible
sur la page de lauteur :
> data <- read.csv(file=
+
"http://www.math.univ-toulouse.fr/~xgendre/ens/l3sid/skyrim_bows")
Nous commenons par regarder lallure gnrale des donnes centres contenues dans la
matrice X en affichant les botes moustaches relatives aux 4 variables. Lchelle des variations
1. Source : http://www.uesp.net/wiki/Skyrim:Weapons#Archery
2. Voir http://www.r-project.org/

59

60

ANNEXE A. EXEMPLE DACP

de la variable Value est nettement plus grande que celles des autres variables. Afin de ne
pas concentrer notre tude uniquement sur cette variable, nous choisissons de normaliser les
variables (i.e. nous travaillons avec la distance des variables rduites).
# Donnes centres
> X <- scale(data[,2:5],scale=F)
> boxplot(X)

# Donnes centres rduites


> X <- scale(data[,2:5])
> boxplot(X)

2000

1500
1
1000
0

500
0

1
500

Weight

Value

Damage

Speed

Weight

Value

Damage

Speed

Nous supposons que les arcs sont tous pondrs de la mme faon, i.e. p1 = = p14 =
1/14. La matrice de covariance = tXX/14 se calcule facilement ainsi que ses valeurs et vecteurs propres. En particulier, nous obtenons la matrice des composantes principales C = XP
dont les deux premires colonnes contiennent les coordonnes des arcs dans le plan principal.
> ACP <- eigen(t(X) %*% X / 14)
> C <- X %*% ACP$vectors
> C
Long Bow
Hunting Bow
Orcish Bow
Nord Hero Bow
Dwarven Bow
Elven Bow
Glass Bow
Ebony Bow
Daedric Bow
Dragonbone Bow
Crossbow
Enhanced Crossbow
Dwarven Crossbow
Enhanced Dwarven Crossbow

[,1]
-2.55391815
-2.11378134
-1.31788780
-1.51591815
-0.82823147
-0.28118170
0.45522681
1.35200475
2.51012547
2.53347110
-0.20575118
-0.04809313
0.89250072
1.12143407

[,2]
0.2486141
0.3102861
0.5009160
0.3036447
0.5847674
0.7233640
0.8433071
1.0786370
1.5020046
0.3498669
-1.3485746
-1.3765868
-1.8717587
-1.8484878

[,3]
0.67448976
0.38825928
-0.14036157
0.10393262
-0.37104812
-0.50605134
-0.56540530
-0.39791838
0.13923517
1.06951370
-0.10187148
-0.05656160
-0.19117039
-0.04504234

[,4]
0.05993000
0.21054795
0.09991514
-0.30871374
-0.02758948
0.09667827
0.07510570
0.01400782
-0.11150169
0.01798606
-0.30729279
-0.17940223
0.12500263
0.23532638

61
Afin de rendre compte graphiquement de la qualit de reprsentation de chaque individu
dans le plan principal, nous calculons les cos2 i (voir (5.1)) et nous reprsentons le ime
individu par un symbole dont la taille est proportionnelle ce cosinus carr.

> cos2theta <- rowSums(C[,1:2]^2)/rowSums(C^2)


> plot(C[,1:2],cex=cos2theta); abline(h=0); abline(v=0)
> text(C[,1:2],labels=rownames(C),pos=3)

Daedric Bow

1.5
Ebony Bow

1.0

Glass Bow
Elven Bow
Dwarven Bow
Orcish Bow

0.5

Dragonbone Bow

Hunting Bow
Nord Hero Bow
Long Bow

0.0

0.5

1.0
Crossbow
Enhanced
Crossbow

1.5
Enhanced
Dwarven Crossbow
Dwarven Crossbow

2.0
2

La premire remarque que nous pouvons faire laide de cette reprsentation est quelle permet
de discriminer les arcs (bow en anglais) et les arbaltes (crossbow en anglais). En effet, les arcs
ont tous des ordonnes positives alors que celles des arbaltes sont ngatives. Pour aller plus
loin dans linterprtation des axes, nous considrons le cercle des corrlations.

62

ANNEXE A. EXEMPLE DACP


> rho <- ACP$vectors[,1:2] %*% diag(sqrt(ACP$values[1:2]))
[,1]
[,2]
Weight 0.8867973 -0.3533824
Value
0.8071258 0.4097793
Damage 0.8208823 -0.4780940
Speed -0.4690172 -0.7997447
> symbols(x=0,y=0,circles=1,inches=F)
> arrows(0,0,rho[,1],rho[,2])

1.0

0.5

Value

0.0

Weight
0.5
Damage

Speed

1.0
1.0

0.5

0.0

0.5

1.0

Nous lisons que la premire variable principale est essentiellement corrle positivement avec
les variables Value, Weight et Damage. Ainsi, les arcs dispendieux, lourds et faisant beaucoup de dgts (e.g. Dragonbone Bow ) auront tendance tre droite sur le plan principal
(i.e. avoir de grandes abscisses). La deuxime variable principale est, quant elle, surtout
corrle ngativement avec la variable Speed : les arcs les plus rapides (principalment les arbaltes) auront donc tendance se trouver en bas du plan principal (i.e. avoir des ordonnes
ngatives).

63
Enfin, pour quantifier la qualit globale de la reprsentation et, donc, valider nos analyses,
nous calculons la part dinertie r2 explique par le plan principal que nous illustrons laide
de lboulis des valeurs propres.
> cat("r2 =",sum(ACP$values[1:2])/sum(ACP$values),\n)
r2 = 0.9403289
> plot(ACP$values,type="b")

2.0

1.5

1.0

0.5

0.0
1.0

1.5

2.0

2.5

3.0

3.5

4.0

64

ANNEXE A. EXEMPLE DACP

Index
Base orthonorme, 44
Bote moustaches, 14
Box plot, 14
Centre de gravit, 37
Cercle des corrlations, 54
Composante principale, 50
Contribution linertie
dun individu, 38
dune variable, 40
Corrlation
de Kendall, 27
de Pearson, 19
de Spearman, 24
multiple, 35
Covariance, 17
Diagramme quantile-quantile, 15
Distance, 38
Distance du 2 , 30
Eboulis des valeurs propres, 56
Ecart-type, 4
Fonction de rpartition, 11
Frquence, 7
Histogramme, 7
Inertie
par groupes, 39
par rapport une distance, 38
standard, 37
Mdiane, 13
Matrice
dfinie positive, 44
de corrlation, 34
de covariance, 33
des composantes principales, 50
des donnes centres, 34

des poids, 34
symtrique, 42
Moyenne, 1
par groupes, 3
uniforme, 2
Observations
couples, 17
exceptionnelles, 15
ordonnes, 11
Part dinertie, 56
Partition, 2
Plan principal, 51
Poids
cumuls, 10
normaliss, 1
Q-q plot, 15
Quantile, 12
Quartile, 13
Rgression linaire, 21
Rang, 24
Table de contingence, 29
Valeur propre, 44
Variable
centre, 1
principale, 50
qualitative, 28
quantitative, 1
rduite, 4
Variance, 4
par groupes, 5
Vecteur propre, 44

65