Académique Documents
Professionnel Documents
Culture Documents
Analysed On Nees
Analysed On Nees
L3 MASS
F. Castell.
2
Table des matières
1 Introduction. 7
3
4 TABLE DES MATIÈRES
6 Références. 103
6 TABLE DES MATIÈRES
Chapitre 1
Introduction.
L’objet de ce cours est de donner quelques outils couramment employés en statistique pour
traiter des données multidimensionnelles. Ces données correspondent souvent à l’observation de
nombreuses variables aléatoires sur plusieurs individus, le mot individu étant à prendre en un
sens très large. Ces données sont représentées sous forme d’un tableau où chaque ligne représente
les variables mesurées sur un individu. Le but est d’extraire le maximum d’informations de ce
tableau de données. Suivant la nature de la question posée, et suivant la nature des données,
plusieurs méthodes sont possibles. Voici quelques exemples de questions que nous chercherons
à aborder dans ce cours.
1. Analyse des relations entre plusieurs variables.
On a relevé auprès d’un échantillon de personnes des descripteurs d’utilisation de différents
média, des temps d’activités quotidiennes et d’autres caractéristiques telles que l’âge, le
sexe, le niveau d’éducation, le lieu de résidence.... etc.
On souhaite savoir quelles sont les variables liées entre elles sans qu’aucune des variables
ne soit vraiment privilégiée.
Si les variables auxquelles on s’intéresse sont toutes des variables quantitatives, il s’agit
d’un problème d’analyse en composante principale (ACP). S’il s’agit de deux va-
riables qualitatives, on parle d’analyse factorielle des correspondances (AFC). S’il
s’agit de p ≥ 3 variables qualitatives, on parle d’analyse des correspondances mul-
tiples (ACM).
En plus de décrire les liens entre variables, ces méthodes permettent :
— d’”éliminer” des variables peu pertinentes, car l’information qu’elles apportent est
déjà contenue dans les autres variables ;
— de donner des représentations graphiques les plus fidèles possible, de l’ensemble des
données sur un graphe plan (ou de dimension 3).
Elles sont souvent une première étape, dite exploratoire ou descriptive, avant de
mettre en oeuvre d’autres méthodes, qui nécessitent des hypothèses sur les données.
2. Etude de l’influence des variables sur une variable particulière.
On peut s’intéresser au type de média choisi en fonction du sexe, de l’âge, du sport
pratiqué, etc... Ici, on met en exergue une des variables, dite variable à expliquer,
(ou variable d’intérêt, variable réponse). On veut analyser l’influence des autres
variables (dites variables explicatives, ou variables régresseurs) sur la variable
7
8 Analyse des Données. Fabienne CASTELL
Références :
un bon investissement : ”Probabilités, Analyse des données et Statistique”, de Gilbert
Saporta. Editions Technip.
Pour apprendre R, et autres.. : ”Statistiques avec R”, de Pierre-André Cornillon,
Arnaud Guyader, François Husson, Nicolas Jégou, Julie Josse, Maela Kloareg, Eric
Matzner-Lober, Laurent Rouviére. Presses Universitaires de Rennes.
ainsi que le site des auteurs du livres :
http ://math.agrocampus-ouest.fr/infoglueDeliverLive/enseignement/support2cours/livres/statistiq
deux sites où vous trouverez beaucoup d’informations utiles :
— Le site de Ricco Rakotomalala : http ://chirouble.univ-lyon2.fr/ ricco/data-mining/
— Le site http ://wikistat.fr/
Chapitre 2
Statistique descriptive
unidimensionnelle.
9
10 ANALYSE DES DONNEES. FABIENNE CASTELL.
yj nj Nj fj Fj
2 1 1 1/25 1/25
3 2 3 2/25 3/25
4 3 6 3/25 6/25
5 5 11 5/25 11/25
6 3 14 3/25 14/25
7 4 18 4/25 18/25
8 4 22 4/25 22/25
9 2 24 2/25 24/25
10 1 25 1/25 1
On a n
1X
Fn (x) = 1Ixi ≤x (2.2)
n i=1
La figure 2.1 donne ces deux graphes sur les données de l’exemple 2.1.
CHAPITRE 2. Statistique descriptive unidimensionnelle. 11
0.2
0.15
frequence
0.1
0.05
0
2 3 4 5 6 7 8 9 10
Nombre de mois entre fin des etudes et premier CDI
1
frequence cumulee
0.8
0.6
0.4
0.2
0
0 2 4 6 8 10 12
Nombre de mois entre fin des etudes et premier CDI
Figure 2.1 – Diagramme bâtons et diagramme cumulatif des données de l’exemple 2.1.
Caractéristiques de dispersion : elles donnent une idée de la variabilité de la série, i.e. une
idée de la façon dont la série varie autour de sa ”tendance centrale”.
— Variance empirique : σn2 (x) = n1 ni=1 (xi − x̄n )2 = rj=1 fj (yj − x̄n )2 ;
P P
— Ecart interquartile : q3/4 − q1/4 .
0.8
frequence cumulee
0.72
0.6
0
0 2 4 6 8 10 12
Nombre de mois entre fin des etudes et premier CDI
10
médiane
8
Quantile d’ordre !
6
Tout l’intervalle est
4 quantile d’ordre 0.72
2 0.72
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
!
à vous. Une façon automatique de procéder (adoptée par défaut par les logiciels) est de
diviser l’intervalle [xmin ; xmax ] (où xmin = min(xi ) et xP
max = max(xi ))P
en k intervalles
de même longueur h = (xmax − xmin )/k. Dans ce cas, j=1 nj |Ij | = h rj=1 nj = hn =
r
où la dernière approximation suppose que l’intervalle Ij soit de petite longueur, et que
la densité fX soit régulière. Ainsi pour une partition assez fine, la fonction hn : x ∈ Ij 7→
1 n
n n
H (x)/ |Ij | = n|Ijj | est une bonne approximation de fX .
Estimation de densité. L’histogramme normalisé présenté précédemment a le défaut de dépendre
du choix de la partition, et ce choix affecte beaucoup la qualité de l’estimation de la
densité. Aussi, d’autres méthodes d’estimation de la densité ont été développées. Une
méthode courante est la méthode du noyau qui propose d’estimer fX par
n
1 X x − xi
ĥn,λ (x) = K ,
nλ i=1 λ
où
— la fonction K (le noyau) est une fonction positive,
2 paire, d’intégrale 1 (par exemple
la densité de la loi N(0, 1) : K(x) = √2π exp − x2 ) ;
1
Des résultats plus sophistiqués (et qui nous dépassent ici) étudient les ”meilleures façons”
de choisir λ en fonction de n et des données (λ = λ̂n (x1 , · · · , xn )) de telle sorte que
limn→∞ λ̂n = 0 et que limn→∞ ĥn,λ̂n (x) = fX (x) le ”plus vite” possible.
0.5799 3.4561 0.4609 3.908 4.3653 -0.6389 0.9086 4.8374 1.6108 -2.7677
La figure 2.4 donne les différentes représentations graphiques. Les caractéristiques numériques
sont :
— Moyenne empirique : x̄n = 1.67207 ;
— Mediane empirique : m̂n = 1.259778 ;
— Variance empirique : σn2 (x) = 5.97284 ;
— Ecart inter-quartile empirique : dˆn = 3.304417.
0.20
0.12
0.15
0.08
hn(x)
hn(x)
0.10
0.04
0.05
0.00
0.00
−4 −2 0 2 4 6 −5 0 5
x N = 10 Bandwidth = 1.388
4
0.8
2
0.6
Fn(x)
0.4
0
0.2
−2
−2 0 2 4
Figure 2.4 – Les différentes représentations graphiques sur les données de l’exemple 2.1.
nominales. Pour les variables qualitatives, les caractéristiques numériques n’ont aucun sens.
On se contente donc des représentations graphiques (diagramme en colonnes, diagramme
en barre ou camembert) , qui donnent pour chaque modalité yj de la variable qualitative
n
regardée, son effectif nj , ou sa fréquence fj = nj . Ces différentes représentations sont données
dans la figure 2.5 pour les données de l’exemple 2.3 dû à Fisher sur un échantillon de n = 3883
écossais.
Exemple 2.1:
Diagramme en colonnes
0.3
0.2
0.1
0.0
Blond Brun
Roux
Roux Noir Blond
Chât
Noir
Chât
Brun
Figure 2.5 – Les différentes représentations graphiques sur les données de l’exemple 2.3.
se justifier par le théorème de la limite centrale lorsque la taille de l’échantillon est grand.
Mais, dans la plupart des cas, elle n’est pas forcément justifiée. Cela pose évidemment problème
puisque toute l’analyse statistique qui suit, dépend fortement de la validité du modèle supposé.
Quand on veut utiliser ces méthodes, on doit donc faire face aux deux problèmes suivants :
1. Peut-on raisonnablement supposer que (x1 , · · · , xn ) est la réalisation d’un n-échantillon
de la loi N(µ, σ 2 ) ?
2. Si ce n’est pas le cas, que faire ?
”Q-Q-plot” est donc ”proche” de la droite y = µ+σx ; l’ordonnée à l’origine donne le paramètre
de position µ, et la pente donne le paramètre de dispersion σ.
Réponse théorique.
Si on suppose que (x1 , · · · , xn ) est une réalisation d’un n-échantillon de la loi de fonction de
répartition F connue, alors G = Φ−1 ◦ F . On a en effet la proposition :
Preuve : On fait la preuve dans le cas où F est continue et strictement croissante. Dans ce
cas, F est une bijection de R dans ]0, 1[. Notons F −1 sa fonction inverse. Calculons la fonction
de répartition de Y .
Cette proposition n’est pas très utile en pratique, puisqu’on ne connaı̂t pas F en général,
un des buts de l’étude statistique étant justement d’avoir des informations sur F .
En pratique.
On peut essayer de ”deviner” une fonction G. A ce titre, le Q-Q-plot peut s’avérer utile. En
effet, si on reconnaı̂t visuellement une ”forme” pour le Q-Q-plot du type y = H(x) pour une
fonction H, alors on peut prendre G = H −1 . En effet,
2
1
0
hλ, 0(x)
−1
−2
−3
λ=0
λ = 0.2
λ = 0.5
λ=1
−4
λ=2
λ = 10
−2 0 2 4 6 8 10
Pour λ > 0, la fonction gλ,θ est strictement croissante de ] − θ, +∞[ sur ] − λ1 , +∞[. Les
données transformées sont donc toujours strictement supérieures à − λ1 , et ne peuvent donc pas
à proprement parler être issues d’une loi normale (dont le support est R). Il ne peut donc s’agir
que de ”s’approcher de la normalité”. Pour pallier à ce défaut, Bickel & Doksum on proposé de
modifier les transformations précédentes, en les étendant sur R :
(
log(x + θ) si λ = 0, x > −θ
hλ,θ (x) = sgn(x+θ)|x+θ|λ −1 , . (2.3)
λ
si λ > 0
Les graphes des fonctions hλ,θ (x) pour θ = 0 et différentes valeurs de λ sont donnés dans la
figure 2.6. Des procédures automatiques pour choisir les paramètres λ et θ ont fait l’objet de
diverses études. Elles sont implémentées sous R (fonction boxcox du package MASS pour les
fonctions de Box & Cox). Elles sont basées sur des estimations par maximum de vraisemblance.
On suppose qu’il existe des paramètres (λ, θ) tels que les données transformées (y1 , · · · , yn ) =
(hλ,θ (x1 ), · · · hλ,θ (xn )) sont une réalisation d’un n-échantillon de N(µ, σ 2 ) . Cette hypothèse
permet d’identifier la loi de la variable X en fonction des quatre paramètres (λ, θ, µ, σ 2 ). En
20 ANALYSE DES DONNEES. FABIENNE CASTELL.
où fµ,σ2 désigne la densité de la loi N(µ, σ 2 ). En dérivant par rapport à x, on en déduit que
la densité de la variable X est fµ,σ2 (hλ,θ (x))h0λ,θ (x). Par conséquent, la log vraisemblance du
modèle est
n
X n
X
2
Ln (λ, θ, µ, σ ) = log(fµ,σ2 (hλ,θ (xi ))) + log(h0λ,θ (xi ))
i=1 i=1
n n
n n 1 X X
2
= − log(2π) − log(σ ) − 2 2
(hλ,θ (xi ) − µ) + log(h0λ,θ (xi ))
2 2 2σ i=1 i=1
Les paramètres (λ, θ, µ, σ 2 ) sont alors identifiés par maximum de vraisemblance. Lorsque (λ, θ)
est fixé, la maximisation en (µ, σ 2 ) donne, comme dans le cas des échantillons gaussiens :
n
1X
µ̂(λ, θ) = hλ,θ (xi ) ;
n i=1
n
2 1X
σ̂ (λ, θ) = (hλ,θ (xi ) − µ̂(λ, θ))2 .
n i=1
On a alors à maximiser en (λ, θ) la fonction
n
n n n X
Ln (λ, θ, µ̂(λ, θ), σ̂ 2 (λ, θ)) = − log(2π) − log(σ̂ 2 (λ, θ)) − + log(h0λ,θ (xi ))
2 2 2 i=1
En reprenant l’expression de hλ,θ (x), on peut voir que h0λ,θ (x) = |x + θ|λ−1 . On a donc à
maximiser en (λ, θ) la fonction
n
n X
− log(σ̂ 2 (λ, θ)) + (λ − 1) |xi + θ| .
2 i=1
Exemple 2.1: On fait une normalisation des données qui se trouvent dans le fichier
Chap1BoxCox.csv. La figure 2.7 donne différentes représentations des données brutes. Il ap-
paraı̂t clairement sur ces diagrammes que la distribution des données est assez éloignée d’une
normale. Ceci est confirmé par un test de normalité (ici, le test de Kolmogorov) qui donne
une Pvaleur égale à 5 10−49 . Après mise en oeuvre de la fonction boxcox, les diagrammes
correspondant aux données transformées sont donnés dans la figure 2.8. Les choses se sont
améliorées. Mais il reste tout de même des écarts à la loi normale, en particulier dans les pe-
tites valeurs. La Pvaleur du test de normalité est maintenant de 6%, ce qui est nettement mieux
que précédemment, mais qui reste cependant suffisamment faible pour qu’on puisse rejeter la
normalité des données transformées. Pour les données de cet exemple, les transformations de
Box-Cox ne permettent pas de normaliser les données.
CHAPITRE 2. Statistique descriptive unidimensionnelle. 21
Estimateur à noyau
1.0
●
^, σ
N(µ ^) ●
●●●●●
●
●●●
●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
1.2
●
●
●●
●
●
●
●
●●
●
●
●●
●●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
1
●
●●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
0.8
●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
1.0
●
●
●●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●●
0.6
●
●
●
0
●
0.8
Quantile Empirique
●
●
●
●
●
●
●
●
Density
●
●
0.6
0.4
−1
●
0.4
●
●
●
●
●
0.2
●
●
●
●
0.2
●●
●
−2
●●
Empirique
0.0
0.0
●
^, σ
N(µ ^)
Estimateur à noyau
1.0
●
^, σ
N(µ ^)
●
●●
●
60
●●
●
●
●
0.03
●●
0.8
●
●●
●
●
●
●●
●
●
●
●
●●
●
●●
●
●
50
●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●●
●●
●
0.6
●●
●
●
●
●
●
40
●
●
●
●
Quantile Empirique
●
●●
●●
●
●
0.02
●
●●
●●
●
●
●
●
●
●
●
●
Density
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
30
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
0.4
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
20
●
●
●
●●
0.01
●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
0.2
●
●
●
●●
●
●
●
●●
●
●
●
●
10
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
0.00
Empirique ●
0.0
●●
●
0
● ●
● ●●●●●●●●
●●
^, σ
N(µ ^)
0 20 40 60 80 0 20 40 60 80 0 20 40 60
^, σ
Quantile de N(µ ^)
N = 1000 Bandwidth = 2.492
2.5 Exercices
2.5.1 Une seule variable quantitative discrète.
Exercice 1: : Adapter les définitions d’effectifs, effectifs cumulés, fréquences, fréquences cu-
mulées, moyenne... etc, au cas où les individus sont affectés des poids (wi ). Reprendre les
données de l’exemple 2.1 en supposant que les individus ne sont plus des étudiants, mais des
promotions entières (le chiffre du nombre de mois séparant la fin des études et le premier CDI
étant alors une moyenne sur la promotion). Les effectifs des différentes promotions regardées
étaient : 5 6 6 8 10 7 6 11 9 9 7 6 5 8 8 12 9 10 10 12 11 10 10 9 8. Affecter les poids qu’il
convient à chaque promotion. Dessiner alors la fonction de répartition empirique, la fonction
quantile empirique, et calculer moyenne empirique et médiane empirique.
Exercice 2: : Reproduire le diagramme de la figure 2.3 en utilisant R. Ecrire un programme R
prenant en entrée une série de données quantitatives discrètes (x1 , · · · , xn ), une série de poids
(w1 , · · · , wn ) et rendant le diagramme-boı̂te correspondant. Le faire tourner sur les données de
l’exercice précédent.
1.0
●
0.8
0.6
F(x)
●
0.4
●
0.2
0.0
0 2 4 6 8
Une fonction de répartition n’est pas forcément continue. Par exemple, la fonction de répartition
d’une variable X qui prend trois valeurs 0, 2, 7, avec les probabilités
est une fonction en escalier représentée dans la figure 2.9. En revanche, une fonction de répartition
est toujours continue à droite (ce qui signifie que pour tout t0 ∈ R, limt&t0 F (t) = F (t0 )) et
CHAPITRE 2. Statistique descriptive unidimensionnelle. 25
F(x)
1
u3
u2
u1
admet des limites à gauche (ce qui signifie que pour tout t0 ∈ R, limt%t0 F (t) existe sans être
nécessairement égale à F (t0 ). On note cette limite F (t0 )− ). Dans l’exemple de la figure 2.9, on
a F (2)− = 1/4 et F (2) = 1/2. Il est alors facile de voir que pour tout t0 ∈ R, on a
Ainsi, si la fonction de répartition F est continue en t0 , alors P(X = t0 ) = 0 et F (t0 ) = P(X <
t0 ). C’est en particulier le cas si X a une densité f , auquel cas
Z t
F (t) = f (x) dx
−∞
Concernant le point 1., on peut vérifier sur la figure 2.10 que F (F −1 (u2 )) > u2 .
Preuve :
1. Comme F −1 (u) = inf {x, F (x) ≥ u}, on peut trouver une suite de points xn vérifant
F (xn ) ≥ u, et décroissant vers F −1 (u). Comme F est continue à droite, on a alors
u ≤ limn→∞ F (xn ) = F (F −1 (u)).
2. Comme F −1 (u) = inf {x, F (x) ≥ u}, si F (x) ≥ u on a nécessairement F −1 (u) ≤ x.
Réciproquement, supposons que F −1 (u) ≤ x. Comme F est croissante, on a F (F −1 (u)) ≤
F (x). On déduit alors de 1. que F (x) ≥ u.
3. On sait déjà que F (F −1 (u)) ≥ u. Montrons que F (F −1 (u)) ≤ u. Pour cela on considère
une suite xn telle xn croı̂t vers F −1 (u), et telle que pour tout n xn < F −1 (u). Par 2., on
a F (xn ) < u. Comme F est continue, on a alors F (F −1 (u)) = limn→+∞ F (xn ) ≤ u.
Un résultat fondamental pour les tests de comparaison d’échantillons, mais aussi pour la
simulation numériques de variables aléatoires est le résultat suivant, qui dit qu’on peut trans-
former une variable aléatoire uniforme sur [0; 1] en une variable de loi fixée.
Proposition 2.6.2 Soit F la fonction de répartition d’une probabilité. Soit F −1 l’inverse
généralisée de F définie par (2.4).
1. Soit U une variable aléatoire de loi uniforme sur [0; 1]. Alors la variable aléatoire F −1 (U )
a pour fonction de répartition F .
2. Réciproquement, si X est une variable aléatoire de fonction de répartition F , et si F est
continue, alors la variable F (X) est de loi uniforme sur [0; 1].
Preuve :
1. On utilise le point 2. de la proposition 2.6.1. Pour tout t ∈ R,
Z F (t) Z F (t)
−1
P F (U ) ≤ t = P [U ≤ F (t)] = 1I[0;1] (x) dx = dx ;
−∞ 0
Fn(x)
1 ●
1
n
Figure 2.11 – Représentation de F̂n (t). X(1) , · · · , X(n) est le réarrangement par ordre croissant
de X1 , · · · , Xn
La loi des grands nombres dit en effet que pout tout t ∈ R, limn→+∞ F̂n (t) = P(X1 ≤ t) = F (t),
et on peut montrer que la convergence est uniforme (théorème de Glivenko-Cantelli). La fonction
de répartition empirique permet donc d’avoir une idée de la distribution dont sont issues les
données.
Si on note X(1) , · · · , X(n) la suite des X1 , · · · , Xn ordonnée par ordre croissant, et si on posant
X(0) = −∞, X(n+1) = +∞, on a par définition de F̂n (t),
i
F̂n (t) = , ∀t ∈ [X(i) ; X(i+1) [ (i = 0, . . . , n) .
n
F̂n est donc une fonction en escalier, dont les marches sont de hauteur 1/n et dont les sauts
sont situés sur les points de l’échantillon de données (cf figure 2.11).
28 ANALYSE DES DONNEES. FABIENNE CASTELL.
Chapitre 3
Statistique descriptive
bidimensionnelle.
Dans tout ce chapitre, on suppose qu’on a mesuré deux variables X et Y sur un échantillon
de n individus. La donnée de départ est donc un n-échantillon ((x1 , y1 ), · · · , (xn , yn )) du couple
de variables (X, Y ). On cherche ici à savoir s’il existe une relation entre ces deux variables,
autrement dit si connaı̂tre la valeur de X nous donne des informations sur la valeur de Y .
29
30 ANALYSE DES DONNEES. FABIENNE CASTELL.
● ●
160
● ● ● ● ● ●
● ●
● ●
● ● ● ●
2
● ● ● ● ● ●
140
Maximum de la concentration en ozone
● ●
● ●
120
● ● ● ●
1
● ● ● ● ● ●
● ● ● ● ●
●●● ● ●●●
●● ●●
● ● ● ●
100
● ●● ● ● ●● ●
● ●● ● ● ●● ●
● ●
● ●
●● ● ●● ●
0
● ●
●● ● ● ●● ● ●
●● ● ●● ●● ● ●● ● ●● ●● ●
80
●
● ● ●
● ●
● ● ● ●● ● ● ● ● ●● ●
● ●● ● ●●
● ● ● ● ●● ● ●●
● ● ●
● ●
●●
●●● ●● ●
● ●● ●●
●●● ●● ●
● ●●
● ●● ● ● ●● ●
●● ●● ● ●● ●● ●
● ● ● ● ● ● ● ●
−1
● ●● ● ●●
60
● ● ● ● ● ● ● ●
● ●
●● ● ●● ●
● ●
● ●
40
15 20 25 30 −2 −1 0 1 2 3
Température Température
Proposition 3.1.1 :
1. r ∈ [−1; +1].
2. r = 1 (resp. −1) si et seulement si il existe un réel a > 0 (resp < 0), un réel b tel que
yi = axi + b pour tout i ∈ {1, · · · , n}.
3. r est une estimation consistante de ρ = cor(X, Y ) = √ cov(X,Y ) ;
var(X)var(Y )
Preuve :
~ et Y~ les vecteurs de Rn définis par :
Notons X
x1 − x̄n y1 − ȳn
~ =
X .. ~ ..
, Y = .
. .
xn − x̄n yn − ȳn
hX; ~i
~ Y
On a alors r = . Autrement dit, r n’est autre que le cosinus de l’angle formé par les
kX~ kkY~ k
deux vecteurs X~ et Y~ .
D E
~ ~
~
~
1. L’inégalité de Cauchy-Schwartz X; Y ≤
X
Y
montre que r ∈ [−1, 1].
~
2. Si r ∈ {−1; +1}, il y a égalité dans l’inégalité de Cauchy-Schwartz. L’angle formé par X
et Y~ vaut 0 ou π. Autrement dit, X ~ et Y~ sont deux vecteurs colinéaires de même sens
CHAPITRE 3. Statistique descriptive bidimensionnelle. 31
Y~ = aX
~ ⇔ ∀i ∈ {1, · · · , n} , yi − ȳn = a(xi − x̄n )
⇔ ∀i ∈ {1, · · · , n} , yi = axi + (ȳn − ax̄n ) .
où X̄n = n1 ni=1 Xi , et σn2 (X) = n1 ni=1 (Xi − X̄n )2 . Par la loi des grands nombres,
P P
limn→∞ X̄n = E(X). Un calcul simple montre que
n n n
1X 2 1X 1X
σn2 (X) = Xi − X̄n2 , (Xi − X̄n )(Yi − Ȳn ) = Xi Yi − X̄n Ȳn .
n i=1 n i=1 n i=1
La loi des grands nombres montre alors que limn→∞ σn2 (X) = E(X 2 ) − E(X)2 = var(X),
limn→∞ σn2 (Y ) = var(Y ) et limn→∞ n1 ni=1 (Xi − X̄n )(Yi − Ȳn ) = E(XY ) − E(X)E(Y ) =
P
cov(X, Y ). On en déduit que limn→∞ R = cor(X, Y ).
Sous les hypothèses faites de normalité, cette proposition permet de tester (H0 ) : ”ρ = 0”
r
contre (H1 ) : ”ρ 6= 0”. Notez en effet que la fonction r ∈] − 1, +1[7→ √1−r 2 ∈ R est une
fonction impaire
√ et croissante. Dire que |R| ≥ t (t > 0) revient donc à dire que |T | ≥ u (où
t
u = 1−t2 n − 2). On choisit donc une règle de décision du type :
√
Ainsi, il ne peut pas en théorie se poser de problèmes d’ex-aequo. Sous cette hypothèse, si
deux valeurs xi sont égales, cela est dû à une troncature lors de la transcription des données.
Dans ce cadre, r = (r1 , · · · , rn ) et s = (s1 , · · · , sn ) sont bien définis, et sont des permutations
de {1, · · · , n}. Spearman a proposé de mesurer la corrélation entre les deux variables par le
coefficient de corrélation linéaire entre r et s :
cov(r, s)
rS = p .
var(r) var(s)
On obtient finalement : n
6 X
rS = 1 − 2
(ri − si )2 . (3.3)
n(n − 1) i=1
Le coefficient de corrélation de Spearman vérifie les propriétés suivantes :
Proposition 3.1.3 1. rs ∈ [−1; +1] ;
2. rS = +1 si et seulement si les deux classements sont identiques (x et y ”varient dans le
même sens”) ;
3. rS = −1 si et seulement si ri = n + 1 − si pour tout i ∈ {1, · · · , n}. Autrement dit,
rS = −1 ssi les deux classements sont inversés (x et y ”varient dans des sens opposés”).
4. Supposons que ((x1 , y1 ), · · · , (xn , yn )) est une réalisation de ((X1 , Y1 ), · · · , (Xn , Yn )), n-
échantillon d’un couple de variables (X, Y ) à densité. Supposons de plus que les variables
X et Y sont indépendantes. Alors, la loi de la variable aléatoire RS (définie à partir
des (Xi , Yi ) de la même façon que rS est définie à partir des (xi , yi )), ne dépend que de
n, est indépendante de la loi de (X, Y ), et est symétrique.
La loi de la variable RS est tabulée. Cette proposition permet de tester (H0 ) : ”X et Y sont
indépendantes” contre (H1 ) : ”X et Y sont liées”. La région de rejet du test est du type :
1. Si |RS | > t, on rejette (H0 ) : X et Y sont liées ;
2. Si |RS | ≤ t, on ne rejette pas (H0 ) : rien de significatif ne permet d’affirmer que X et Y
sont liées ;
Le seuil critique t est à choisir en fonction du niveau α de test qu’on s’est fixé :
α = P(H0 ) [ rejeter (H0 )] = PX⊥Y [|RS | > t] ,
et t est le quantile d’ordre 1 − α2 de la loi de Spearman correspondant à n.
Par rapport au test de corrélation linéaire, l’avantage du test de Spearman est de ne faire
aucune hypothèse sur la loi du couple (X, Y ) (pas d’hypothèse de normalité).
Dans R, le coefficient de corrélation de Spearman est obtenu par l’option method="spearman"
de la fonction cor. Le test correspondant s’obtient à partir de la fonction cor.test en utilisant
la même option.
Exemple 3.1: On a relevé sur 5 individus deux variables (x, y). La tableau ci-dessous
donne pour chaque individu i les valeurs (xi , ri , yi , si ) :
xi 0.59 0.11 0.08 0.3 0.4
ri 5 2 1 3 4
yi 0.71 0.43 0.47 0.57 0.61
si 5 1 2 3 4
|ri − si | 0 1 1 0 0
On obtient rS = 9/10. La Pvaleur du test de corrélation des rangs de Spearman est P [|RS | > 0.9] =
0.0833. On peut donc conclure que les deux variables sont liées (avec 8,33 % de chances d’avoir
tort).
Ri = k ⇔ X(k) = Xi .
Notez que la loi de la variable R ◦ S −1 est également la loi uniforme sur Σn . En effet,
X X
P R ◦ S −1 = σ = P R ◦ S −1 = σ; S = τ =
P [R = σ ◦ τ ; S = τ ]
τ ∈Σn τ ∈Σn
X X 1 1 1
= P [R = σ ◦ τ ] P [S = τ ] = =
τ ∈Σn τ ∈Σ
n! n! n!
n
36 ANALYSE DES DONNEES. FABIENNE CASTELL.
Ainsi RS a même loi que 1− n(n26−1) nj=1 (Uj −j)2 où U est une variable uniforme sur Σn .
P
Cela prouve que la loi de RS ne dépend pas de la loi du couple (X, Y ) dans l’hypothèse
où X et Y sont indépendantes.
Concernant la symétrie de la loi de RS , il s’agit de voir que RS et −RS ont même loi
sous l’hypothèse d’indépendance de X et Y . On vient de voir Pque sous cette hypothèse,
la loi de RS est la même que celle de la variable 1 − n(n26−1) nj=1 (Uj − j)2 . Notons Ũ la
permutation définie par Ũj = n + 1 − Uj . Si U est uniforme sur Σn , il en est de même
pour Ũ . Par conséquent, RS a même loi que la variable
n
6 X
1− (Ũj − j)2
n(n2 − 1) j=1
n
6 X
= 1− (n + 1 − Uj − j)2
n(n2 − 1) j=1
" n n n
#
6 X X X
= 1− 2
(n + 1 − j)2 + Uj2 − 2 Uj (n + 1 − j)
n(n − 1) j=1 j=1 j=1
" n n n
#
6 X X X
= 1− 2 j 2 − 2(n + 1) j+2 Uj j
n(n2 − 1) j=1 j=1 j=1
" n n
# n
6 X
2
X 6 X
= 1− 2 j − 2(n + 1) j + (−2Uj j)
n(n2 − 1) j=1 j=1
n(n 2 − 1)
j=1
" n n
# n
6 X
2
X 6 X
= 1− 2
2 j − 2(n + 1) j + 2
(Uj − j)2 − j 2 − Uj2
n(n − 1) j=1 j=1
n(n − 1) j=1
n n n
6 X
2 24 X
2 12(n + 1) X
= (Uj − j) + 1 − j + j
n(n2 − 1) j=1 n(n2 − 1) j=1 n(n2 − 1) j=1
n
6 X
= 2
(Uj − j)2 − 1
n(n − 1) j=1
en utilisant les identités nj=1 j = n(n + 1)/2 et nj=1 j 2 = n(n + 1)(2n + 1)/12. Par
P P
conséquent RS a même loi que −RS sous l’hypothèse d’indépendance de X et Y .
4. σ12 (y), · · · , σP
2
r (y) les variances empiriques de la variable Y sur chaque sous-échantillon :
1
σj (y) = nj i∈Ωj (yi − ȳj )2 .
2
Les liens entre les quantités empiriques sur les sous-échantillons et sur l’échantillon initial
sont donnés par les relations :
1
PLar
deuxième identité est une décomposition de la variance en deux termes. Le premier
2
n j=1 nj (ȳj − ȳ) est appelé variance intercatégories : il s’agit de mesurer la variabilité
entre sous population. Chacune des sous-populations est identifiée à la moyennePsur la sous-
population, et affectée d’un poids proportionnel à son effectif. Le deuxième terme n1 rj=1 nj σj2 (y)
est appelé variance intracatégories. Il s’agit d’une moyenne de la variabilité de la variable
Y à l’intérieur de chacune des sous-populations.
Les liens entre les quantités empiriques et la distribution théorique sont donnés par la
proposition suivante :
Proposition 3.2.2 Supposons que ((x1 , y1 ) · · · (xn , yn )) est une réalisation d’un n-échantillon
((X1 , Y1 ) · · · (Xn , Yn )) du couple de variables (X, Y ). Notons Nj , Ȳj et σj2 (Y ) les variables
aléatoires correspondantes à nj , ȳj , et σj2 (y). On a pour tout j ∈ {1, · · · , r},
N
1. limn→∞ nj = P [X = cj ] ;
2. limn→∞ Ȳj = E [Y |X = cj ] ;
3. limn→∞ σj2 (Y ) = var [Y |X = cj ].
2. Ȳj = N1j ni=1 1Icj (Xi )Yi = Nnj n1 ni=1 1Icj (Xi )Yi . Par la loi des grands nombres, on a
P P
N
limn→∞ nj = P [X = cj ] et limn→∞ n1 ni=1 1Icj (Xi )Yi = E 1Icj (X)Y . Par conséquent,
P
E[ 1Icj (X)Y ]
limn→∞ Ȳj = P[X=c j]
= E [Y |X = cj ].
3. Commencons par récrire la variable σj2 (Y ) en développant le carré.
n n n
1 X 1 X n 1X
σj2 (Y
)= 2
1Icj (Xi )(Yi −Ȳj ) = 2 2
1Icj (Xi )Yi −Ȳj = 1Icj (Xi )Yi2 −Ȳj2 .
Nj i=1 Nj i=1 Nj n i=1
N
grands nombres, limn→∞ nj = P [X = cj ], limn→∞ ni=1 1Icj (Xi )Yi2 =
P
Par
la loi des
E 1Icj (X)Y 2 et limn→∞ Ȳj = E [Y |X = cj ]. Par conséquent,
2
E 1Ic (X)Y
lim σj2 (Y ) = − E [Y |X = cj ]2 = E Y 2 |X = cj − E [Y |X = cj ]2
j
n→∞ P [X = cj ]
= var(Y |X = cj ) .
Représentation graphique.
Pour avoir une idée des distributions conditionnelles, on peut faire le graphe des boı̂tes à
moustaches de la variable y sur chaque sous-population. On peut alors dessiner sur un même
graphe (i.e. en utilisant les mêmes échelles), les r boı̂tes à moustaches de la variable y pour
chaque modalité de la variables x. Dans l’hypothèse où X et Y sont indépendantes, toutes ces
boı̂tes à moustaches se ressemblent. Les différences visibles entre ces boı̂tes permettent de se
faire une idée de l’influence de la variable X sur la variable Y .
Rapport de corrélation.
Une autre quantité qui permet de juger de la liaison entre X et Y est le rapport dit de
corrélation empirique entre la variance intercatégories et la variance empirique totale :
1
Pr
2 n j=1nj (ȳj − ȳ)2
e = .
σn2 (y)
Si les variables X et Y sont indépendantes, pour tout j ∈ {1, · · · , r}, ȳj ' ȳ, et e2 ' 0. En
utilisant la décomposition de la variance de la proposition 3.2.1, on voit aussi que e2 ∈ [0, 1],
et que e2 = 1 signifie que la variance intracatégorie est nulle. Dans ce cas, dans chacun des
sous-échantillons, la variable y est constante ; la valeur de la variable X fixe donc la valeur de
Y.
Pour savoir si e2 est significativement non nul, on peut utiliser la proposition suivante, qui
suppose que les lois conditionnelles de Y pour chaque modalité de X sont des lois
gaussiennes de même variance. Plus précisément, on suppose que
(ANOVA) ((x1 , y1 ), · · · , (xn , yn )) est une réalisationP
d’un n-échantillon (X1 , Y1 ), · · · , (Xn , Yn )
j=1 µj 1IX=cj + où ∼ N(0, σ ) est
r 2
d’un couple de variables (X, Y ) tel que Y =
indépendante de X.
E2
r−1
1−E 2
∼ F(r − 1, n − r) .
n−r
Notez que sous l’hypothèse (ANOVA), on est dans un modèle d’analyse de variance à un
facteur (cf cours de Stats 2). En réordonnant l’échantillon en fonction des modalités de la
variable x, on a le modèle
où les ij sont i.i.d N(0, σ 2 ). Ce modèle se récrit sous la forme matricielle
1 0 ··· 0
. . . .
Y11
.. .. .. ..
· · ·
.. 1 0 0
. 0 1 ··· 0
Y1n1 . . . . µ
. .. .. .. .. .1
Y~ = + = X~µ + , ∼ Nn (0, σ Id) .
2
.. = .. (3.4)
Y 0 1 · · · 0
r1 .. .. .. .. µr
. . . . .
..
0 0 ··· 1
Yrnr .. .. .. ..
. . . .
0 0 ··· 1
Sous l’hypothèse (ANOVA), la proposition 3.2.3 permet de tester l’indépendance entre X et
Y . Plus précisément, on teste (H0 ) : ”µ1 = · · · = µr ” (X et Y sont indépendantes) contre
(H1 ) : ∃i 6= j tels que µi 6= µj ” (X et Y sont liées). La région de rejet est du type :
E2
r−1
— Si 1−E 2
> t, on rejette (H0 ) et on décide que X et Y sont liées.
n−r
E2
— Si r−1
1−E 2
≤ t, on ne rejette pas (H0 ). Rien de significatif ne permet d’assurer que X et Y
n−r
sont liées.
La valeur critique t est fixée en fonction du niveau de test α qu’on s’est fixé :
" 2 #
E
r−1
α = P(H0 ) [ Rejeter (H0 )] = Pµ1 =···=µr 1−E 2
> t = P [F(r − 1, n − r) > t] ;
n−r
Finalement,
2
πV (Y~ ) − πW (Y~ )
2
1
~ ~
πV (Y ) − πW (Y )
E2
~
2
dim(V ) − dim(W )
Y − πW (Y~ )
r−1 = dim(V ) − dim(W )
=
2 .
1 − E2
2
~ ~
~ ~
Y − πV (Y )
Y − πV (Y )
n−r 1
2
n − dim(V ) n − dim(V )
~
Y − πW (Y~ )
Le théorème de Cochran (cf cours de Stats 2), assure que sous l’hypothèse (ANOVA) et
2
kπV (Y~ )−πW (Y~ )k
sous l’hypothèse d’égalité des moyennes, σ 2 est une variable du χ2dim(V )−dim(W )
2
kY~ −πV (Y~ )k
indépendante de la variable σ2
qui suit une loi du χ2n−dim(V ) . On en déduit que
E2
r−1
1−E 2
suit sous une loi de Fisher F(r − 1, n − r).
n−r
42 ANALYSE DES DONNEES. FABIENNE CASTELL.
160
●
●
●
●
●
140
●
Concentration en ozone
120
100
80
60
●
40
vent
3.2.4 Exemple
On considère les données du fichier ozone.txt dont on a extrait la variable y : max03
(concentration en ozone maximale pendant la journée), et la variable x : Vent (Direction du
vent, prenant 4 modalités, E,O,N,S). La figure 3.3 donne les quatre boı̂tes à moustaches des
sous-échantillons correspondant aux quatre modalités.
Au vu de ce graphe, il semble bien qu’il y ait une liaison entre la concentration en ozone et
la direction du vent.
Pour tester cette liaison, nous souhaitons calculer le rapport de corrélation empirique et
utiliser le test de la proposition 3.2.3. Pour cela, nous commençons par vérifier que faire l’hy-
pothèse (ANOVA) sur nos données n’est pas aberrant. La figure 3.4 donne les graphes ”quantiles
empiriques-quantiles de la normale” pour les quatre sous-échantillons. Les P-valeurs d’un test
de Kolmogorov d’ajustement à la loi normale pour les quatre sous-échantillons sont
Le graphe ”QQplot” correspondant à la modalité ”Ouest” ressemble assez peu à une droite,
ce qui est confirmé par la très faible valeur de la Pvaleur, qui nous amène à rejeter l’hypothèse de
normalité au moins pour ce sous-échantillon. On essaie donc de transformer les données par la
procédure de Box et Cox. La figure 3.5 donne les graphes ”quantiles empiriques-quantiles de la
normale” pour les quatre sous-échantillons après transformation des données. Les P-valeurs du
test de Kolmogorov d’ajustement à la loi normale pour les quatre sous-échantillons sont mainte-
CHAPITRE 3. Statistique descriptive bidimensionnelle. 43
Est Nord
● ●
140
●
Quantile Empirique
Quantile Empirique
●
● ● ●
● ●
80 100
● ● ●● ●
● ●
●●
●
80
●
●●●●●
●●
●●
● ● ● ● ●●
●
60
60
● ●
40
● ●
Ouest Sud
● ● ●
●
●
140
● ●
●
140
●
Quantile Empirique
Quantile Empirique
●
● ● ●
●
●● ● ●
100
●
80 100
●
●● ●
● ●
●●● ● ●
80
●● ●
● ●
●●●●●
●●●●● ●
●●●●● ●
●●●●●●● ●
● ●●●●
60
60
●
● ● ● ● ●
Est Nord
1.95
● ● ●
●
●
● ● ●
●
Quantile Empirique
Quantile Empirique
1.90
●
1.90
● ● ●● ●
●
● ●●
●
●
●●●●●
● ● ●●
1.85
1.85
● ● ● ● ●●
●
● ●
1.80
1.80
● ●
1.84 1.86 1.88 1.90 1.92 1.94 1.96 1.80 1.85 1.90 1.95
^, σ
Quantile de N(µ ^) ^, σ
Quantile de N(µ ^)
Ouest Sud
● ● ●
1.94
1.94
● ●
● ● ● ●
●
Quantile Empirique
Quantile Empirique
●
● ● ●
●● ● ●
1.90
1.90
●
●
●● ●
● ●
●●● ● ●
●● ●
●
1.86
●●● ●
1.86
●●●●●●
● ●
●●●●●● ●
●
●●●●● ●
●●
● ●●
● ●
1.82
1.82
● ●
● ●
1.80 1.85 1.90 1.95 1.82 1.84 1.86 1.88 1.90 1.92 1.94 1.96
^, σ
Quantile de N(µ ^) ^, σ
Quantile de N(µ ^)
Test de Kolmogorov-Smirnov :
Il est utilisé lorsque on a observé (x1 , · · · , xn ) et (y1 , · · · , ym ) réalisations de deux échantillons
(X1 , · · · , Xn ) et (Y1 , · · · , Ym ) indépendants. On suppose que les fonctions de répartition
de X et Y (notées F et G) sont continues. On veut tester (H0 ) : ”F = G” contre
(H1 ) : ”F 6= G”.
Le test de Kolmogorov-Smirnov consiste à estimer F et G par les fonctions de répartition
empiriques
n
1X
F̂n (x) = 1IXi ≤x ,
n i=1
m
1X
Ĝm (x) = 1IY ≤x ,
m j=1 j
et à mesurer l’écart entre F et G au moyen de la statistique
Dn,m = sup F̂n (x) − Ĝm (x) .
x
Proposition 3.2.4 Si on suppose que F et G sont continues, la loi de Dn,m sous (H0 ) ne
dépend que de n et m, i.e. ne dépend pas de F (= G).
Cette loi est tabulée pour de petites valeurs de n et m. Pour de plus grandes valeurs de n et
m, on a le résultat asymptotique :
r ∞
mn X
P Dn,m ≥ t → P [D ≥ t] = 2 (−1)k+1 exp(−2k 2 t2 ) .
n+m k=1
Pour tester (H0 ) : ”F = G” contre (H1 ) : ”F 6= G”, on prend alors la règle de décision suivante :
CHAPITRE 3. Statistique descriptive bidimensionnelle. 45
— Si Dn,m > t, on rejette (H0 ) : ”F = G” et on décide que les deux échantillons ne sont
pas de même loi.
— Si Dn,m ≤ t, on ne rejette pas (H0 ) : rien de significatif ne permet de dire que les deux
échantillons ne sont pas de même loi.
t est choisi en fonction du niveau α désiré.
Preuve de la proposition 3.2.4 : On fait la démonstration dans le cas où F est continue et
strictement croissante. Dans ce cas, F est une bijection de R dans ]0; 1[ et son inverse F −1 est
une bijection de ]0; 1[ dans R. On a donc
−1 −1
sup F̂n (x) − Ĝm (x) = sup F̂n (F (u)) − Ĝm (F (u)) ,
x∈R u∈]0;1[
Pour tout u ∈]0; 1[, F̂n (F −1 (u)) = n1 ni=1 1IF (Xi )≤u et Ĝm (F −1 (u)) = m1 m
P P
j=1 1IF (Yj )≤u . Po-
sons Ui = F (Xi ) et Vj = F (Yj ). Sous l’hypothèse (H0 ), (X1 , · · · , Xn , Y1 , · · · , Ym ) est un
(n + m)-échantillon de loi de fonction de répartition F continue. (U1 , · · · , Un , V1 , · · · , Vm ) est
par
la proposition 2.6.2,
un (n + m)-échantillon de loi uniforme sur [0; 1]. Ainsi, sous (H0 ),
sup F̂n (x) − Ĝm (x) a même loi que sup Ûn (u) − V̂m (u) , où Ûn (x) et V̂m (x) sont les
x∈R u∈[0,1]
fonctions de répartition empiriques de deux échantillons indépendants de loi uniforme sur [0; 1].
La loi de Dn,m ne dépend donc pas de F .
Dans le cas où F est continue et croissante, la démonstration précédente s’adapte en prenant
pour F −1 l’inverse généralisée de F (cf expression (2.4), chapitre 2).
Preuve : Soit σ ∈ Σn .
n(n + m + 1)
E(W ) = ,
2
nm(n + m + 1)
σ 2 (W ) = ,
12
(loi)
W − E(W )
−→ N(0, 1) .
σ(W ) n,m→∞
a≤n/m≤b
Preuve : Nous nous contenterons de démontrer les deux premières assertions. Dans toute la
démonstration, nous noterons N = n + m.
CHAPITRE 3. Statistique descriptive bidimensionnelle. 47
N
X
R(i) = 1IZj <Zi + 1. Par conséquent
j=1
n
X n X
X N
W = R(i) = n + 1IZj <Xi
i=1 i=1 j=1
n X
n n X
m
X X n(n − 1)
=n+ 1IXj <Xi + 1IYj <Xi = n + +U
i=1 j=1 i=1 j=1
2
n X
X m
où on a noté U = 1IYj <Xi . Sous (H0 ), Yj et Xi sont indépendantes et de même loi. Par
i=1 j=1
nm
conséquent P (Yj < Xi ) = P (Xi < Yj ) = 1/2. On en déduit que E(U ) = , ce qui donne la
2
première assertion de la proposition.
En ce qui concerne la seconde, on a Var(W ) = Var(U ) = E(U 2 ) − E(U )2 . Il s’agit donc de
calculer E(U 2 ).
X X
E(U 2 ) = P (Yj < Xi ) + P (Yj < Xi ; Yl < Xk )
i,j
i,j,k,l
(i,j)6=(k,l)
On obtient donc
nm 1 1
E(U 2 ) = + (mn(n − 1) + nm(m − 1)) + m(m − 1)n(n − 1)
2 3 4
nm
= (3nm + n + m + 1) ,
12
nm(n + m + 1)
soit Var(U ) = .
12
Test de Kruskal-Wallis.
Lorsque la variable X a r > 2 modalités, on est en présence de r sous-échantillons dont on
veut savoir s’ils sont issus d’une même distribution. Notons (y11 , · · · , y1n1 ), (y21 , · · · , y2n2 ), · · ·
(yr1 , · · · , yrnr ), ces r sous-échantillons. On suppose qu’ils sont la réalisation de r échantillons
indépendants (Y11 , · · · , Y1n1 ), (Y21 , · · · , Y2n2 ), · · · (Yr1 , · · · , Yrnr ), de lois de fonction de répartition
F1 , · · · , Fr supposées continues. On souhaite tester (H0 ) : ”F1 = · · · = Fr ” contre (H1 ) : ”∃i, j
tels que Fi 6= Fj ”.
Pour construire le test de Kruskal-Wallis, on commence par calculer
— le rang Rij de Yij parmi les n = n1 + · · · + nr valeurs ;
48 ANALYSE DES DONNEES. FABIENNE CASTELL.
Proposition 3.2.8 Sous (H0 ), la loi de KWn ne dépend que de (n1 , · · · , nr ) (i.e. ne dépend
pas de F = F1 = · · · = Fr )
Preuve : Sous (H0 ), (Y11 , · · · , Y1n1 , · · · , Yr1 , · · · , Yrnr ) est un n-échantillon de la loi de fonction
de répartition F continue. Par conséquent, sa statistique de rang (R11 , · · · , R1n1 , · · · , Rr1 , · · · , Rrnr )
est une variable de loi uniforme sur les permutations de n éléments (proposition 3.2.6).
La statistique KWn permet de tester (H0 ) : ”F1 = · · · = Fr ” contre (H1 ) : ”∃i, j tels que
Fi 6= Fj ”. Sous (H0 ), les moyennes des rangs Ri• devraient être proches (et donc proches de
la moyenne des rangs sur l’échantillon total =(n + 1)/2). KWn devrait donc être ”petit” sous
(H0 ). La règle de décision est alors la suivante :
— Si KWn > t, on rejette (H0 ), et on conclut que les différents échantillons n’ont pas la
même loi ;
— Si KWn ≤ t, on ne rejette pas (H0 ). Rien de significatif ne permet de dire que les
échantillons ont des lois différentes.
La valeur critique t est fixé en fonction du niveau α de test : α = P(H0 ) [KWn > t], et t est le
quantile d’ordre 1 − α de la loi de la statistique de Kruskal-Wallis de paramètres (n1 , · · · , nr )
On peut aussi remarquer que Wi = ni Ri• est la somme des rangs du i-ème échantillon dans le
réarrangement de l’ensemble des échantillons. C’est donc la statistique du test de Wilcoxon de
comparaison du ième échantillon à l’ensemble des r − 1 autres échantillons. En particulier, sous
(H0 ), on a
ni (n + 1) ni (n − ni )(n + 1)
E(Wi ) = , et var(Wi ) =
2 12
On a donc sous (H0 )
r 2 r
12 X Wi n + 1 12 X 1
KWn = ni − = (Wi − E(Wi ))2
n(n + 1) i=1 ni 2 n(n + 1) i=1 ni
r
1X (Wi − E(Wi ))2
= (n − ni )
n i=1 var(Wi )
CHAPITRE 3. Statistique descriptive bidimensionnelle. 49
E(KWn ) = r − 1 .
Cette expression suggère aussi que lorsque les ni sont grands, KWn tend sous (H0 ) vers une
variable du χ2 à r − 1 degrés de liberté (cf l’expression
P de la moyenne). Le nombre de degrés
de liberté vient de la liaison entre les variables Wi : ri=1 Wi = n(n + 1)/2.
Lorsque r = 2, n1 + n2 = n et W1 + W2 = n(n + 1)/2. Donc var(W1 ) = var(W2 ) et
2
1 −E(W1 ))
W1 − E(W1 ) = −(W2 − E(W2 )). On a donc KWn = (Wvar (W1 )
et le test de Kruskal-Wallis est
le même que le test de Wilcoxon.
Exemple 3.1: On reprend les données du fichier ozone.txt dont on a extrait la variable y :
max03 (concentration en ozone maximale pendant la journée), et la variable x : Vent (Direction
du vent, prenant 4 modalités, E,O,N,S). Pour savoir s’il y a un lien entre la direction du vent
et la concentration en ozone, on effectue un test de Kruskal-Wallis de comparaison des 4 sous-
échantillons correspondant aux quatre directions de vent. La fonction R permettant de faire
ce test est la fonction kruskal.test. La Pvaleur du test est 0.003431. On peut donc conclure
(avec 0.34 % de chances d’avoir tort) qu’il y a une liaison entre la direction du vent et la
concentration en ozone.
Dans le cas où X et Y sont indépendantes, P(X = c; Y = d) = P(X = c)P(Y = d), et la loi
conditionnelle d ∈ D 7→ P(Y = d|X = c) est indépendante de la valeur de c.
50 ANALYSE DES DONNEES. FABIENNE CASTELL.
On note
l
X n
X
ni• = nij = 1Ici (xk ) ;
j=1 k=1
r
X n
X
n•j = nij = 1Idj (yk ) .
i=1 k=1
Nij
lim = P [X = ci ; Y = dj ] .
n→∞ n
Ni• 1
Pn Ni•
2. n
= n k=1 1Ici (Xk ). Par la loi des grands nombres, on a limn→∞ n
= P [X = ci ].
3. idem.
ij N Nij n Nij P[X=ci ;Y =dj ]
4. limn→∞ Ni• = limn→∞ n Ni•
. Par la loi des grands nombres, limn→∞ Ni•
= P[X=ci ]
=
P [Y = dj |X = ci ].
Le vecteur ni1
, · · · , nni•il
est appelé i-ème profil-ligne. Il est une estimation de la loi
ni•
n1j nrj
conditionnelle de Y sachant que X = ci . De façon analogue, le vecteur n•j , · · · , n•j est appelé
j-ème profil-colonne. Il est une estimation de la loi conditionnelle de X sachant que Y = dj .
CHAPITRE 3. Statistique descriptive bidimensionnelle. 51
Test du χ2 d’indépendance.
Pour juger de la liaison entre X et Y , on peut aussi faire un test du χ2 d’indépendance (cf
cours de Stat 2), basé sur la statistique
r X
l Ni• N•j 2
X (Nij − n
)
Tn = Ni• N•j
.
i=1 j=1 n
N N
Si X et Y sont indépendantes, nij ' P(X = ci , Y = dj ) = P(X = ci )P(Y = dj ) ' Nni• n•j , et
Tn a tendance à être petit. Pour savoir si Tn est significativement non nul ou pas, on s’appuie
sur le résultat suivant :
3.3.4 Exemple
On reprend les données du fichier ozone.txt dont on a extrait la variable y : Pluie (qui
prend deux modalités { Pluie , Sec}, et la variable x : Vent (Direction du vent, prenant 4
modalités, E,O,N,S). On obtient la table de contingence :
52 ANALYSE DES DONNEES. FABIENNE CASTELL.
Profils−lignes Profils−colonnes
1.0
1.0
Sud
0.8
0.8
Ouest
Sec
0.6
0.6
pluie
vent
0.4
0.4
Nord
0.2
0.2
Est
Pluie
0.0
0.0
Pluie Sec Est Nord Ouest Sud
pluie vent
● ●
●
●
2
●
40
●
● ● ● ●
● ● ● ●●
● ● ● ●● ●
● ● ●● ●
●●
1
●●
20
●● ●● ● ●
● ● ● ●
● ● ●● ● ●
●
● ●● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ●
●● ● ●
● ● ● ● ● ●●●● ●● ● ●
● ● ● ● ● ● ● ●
y
y
● ● ●
0
●●● ●●● ● ●
● ●● ●● ●● ●
0
● ● ● ● ● ●
● ● ● ●●● ●●●● ●
●
● ●
●
● ● ● ●●
● ● ●●●●
●
● ●
● ●●● ●● ● ● ●● ● ●●
●● ● ● ●● ● ●● ● ● ●
●● ● ●
−20
●
−1
● ● ● ● ● ●
● ●
● ● ●
● ●
● ● ●
−40
−2
●
● ●
x x
●● ●
500
●
● ●
● ● ●
40
●
●● ● ● ● ● ●
●
●
● ●
● ●● ● ● ● ●
20
● ●
●
300
●● ● ● ●●
●● ● ● ●
● ●● ●
● ● ●● ● ● ● ● ●
● ● ●
● ● ● ●●
●●
● ●
y
y
●
0
● ●● ●● ● ●
●● ●
● ● ● ●●
●● ●● ● ● ●
●● ●
● ●●●●● ● ●
100
● ●●●● ● ●
● ●● ● ●● ● ● ●
−40 −20
● ●
● ● ● ● ● ●
● ●● ● ● ● ●● ●●● ●●● ● ●
● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ●
●● ● ● ●
●●● ●●● ●
●● ● ● ●● ● ● ●
● ●
● ● ● ●
● ● ● ●
−100
●
● ● ●
x x
3.4 Exercices
3.4.1 Deux variables quantitatives
Exercice 1: Commenter les nuages de la figure 3.7. Les variables vous semblent-elles liées ?
Sous quelle forme ?
Exercice 2:
1. Récupérer le fichier ozone.txt.
2. En extraire les variables quantitatives.
3. Pour chaque couple de variables quantitatives, tracer le nuage de points correspon-
dant (fonction plot) et repérer les couples de variables semblant avoir une dépendance
linéaire.
4. Pour les couples précédents, calculer les coefficients de corrélation linéaire empirique.
5. Tester la normalité de chacune des variables sélectionnées. Est-ce-que cela suffit à tester
la normalité des couples de variables ?
6. Dans les cas où la normalité des couples s’avère plausible, les coefficients de corrélation
linéaires empiriques sont-ils significativement non nuls ?
1
2. Dans Rn , soit e1 = √1 1I, e2 , · · · , en n vecteurs orthornormés formant une bon de Rn .
n
Soit X̃1 , · · · , X̃n les coordonnées de X ~ = Pn X̃i ei .
~ dans cette base : X
i=1
√
(a) Montrer que X̃1 = nX̄n .
X̃1 e01
~ := .. = .. X. ~
(b) Montrer que X̃ . . ~ En déduire que X̃ est un vecteur gaussien
X̃
n e0n
√
nµX
0
2
de moyenne et de matrice de covariance σX Id.
..
.
0
(c) En déduire que X̄n et X̃2 , · · · , X̃n sont des variables indépendantes, que X̄n ∼
N(µX , σX
2
/n) et que X̃i ∼ N(0, σX 2
) pour i ≥ 2.
3. En définissant les variables ỸiPen fonction de Y~ de la même façon que les X̃ en fonction
Pin−1
n
~ montrer que R = √P X̃ Ỹ Zi T i
de X, n
i=2
2
√Pn 2 , et que R a même loi que √Pn−1 2 √
i i i=1
Pn−1 2 ,
i=2 X̃i i=2 Ỹi i=1 Zi i=1 Ti
où les variables Z1 , · · · , Zn−1 , T1 , · · · , Tn−1 sont i .i.d de loi N(0, 1).
4. Soit t = (t1 , · · · , td )0 un vecteur de Rd tel que ktk = 1. Soit Z1 , · · · , Zd i.i.d de loi N(0, 1).
~ i
hZ;t ~ = (Z1 , · · · , Zd )0 . Soit f2 , · · · , fd des vecteurs
On considère la variable S = Z~ , où Z
k k D E
normés de Rd tels que f1 := t, f2 , · · · , fd soit une bon de Rd . On pose Z̃i = Z; ~ fi
S
√
(c) En déduire que √1−S 2 d − 1 est une variable de Student à d − 1 degrés de liberté.
R
√
5. Conclure que √1−R 2 n − 2 est une variable de Student à n − 2 degrés de liberté.
1. Calculer les effectifs, les moyennes et variances empiriques pour chaque modalité.
2. Calculer la variance inter-catégories, la variance intra-catégories et le rapport de corrélation
empirique.
3. Faire un test de normalité de chaque sous-échantillon.
4. Selon le résultat du test précédent, choisir un test d’indépendance entre x et y. Conclure.
Exercice 6:
1. A partir des données du fichier ozone.txt, obtenir les résultats concernant la liaison entre
direction du vent et concentration en ozone présentés en exemple dans le cours
2. Etudier la liaison entre la concentration en ozone, et le fait qu’il pleuve ou pas.
Exercice 8: A partir des données du fichier ozone.txt, étudier la liaison entre la concentration
en ozone, et le fait qu’il pleuve ou pas.
56 ANALYSE DES DONNEES. FABIENNE CASTELL.
Chapitre 4
L’ACP est une des plus anciennes méthodes factorielles. Elle a été conçue par Karl Peason
(1901) et intégrée à la statistique par Harold Hotelling (1933). Elle est utilisée lorsqu’on observe
sur n individus, p variables quantitatives X 1 , X 2 , . . ., X p présentant des liaisons multiples que
l’on veut analyser. Ces observations sont regroupées dans un tableau (matrice) rectangulaire X
ayant n lignes (individus) et p colonnes (variables) :
où xji est la valeur observée de la j-ième variable X j sur le i-ème individu de l’échantillon.
Exemple 4.1: Cet exemple est tiré du livre ”Statistique avec R”, et le fichier de données
decathlon.csv peut-être téléchargé sur le site d’agrocampus Rennes. Il concerne les résultats
d’athlètes (les individus) aux 10 épreuves du décathlon (les variables). Il s’agit d’analyser les
liaisons entre les performances aux différentes épreuves, de savoir si certaines épreuves se res-
semblent (une bonne performance à telle épreuve augurant alors d’une bonne performance à
telle autre), de déterminer des profils d’athlètes (endurant, rapide, ... etc). Ainsi, sur les 10
épreuves, on se doute bien que les performances au 100m, 110 m haies, et saut en longueur vont
être corrélées. Est-il vraiment utile de garder dans le tableau de données ces trois épreuves ? Ne
peut-on pas se contenter d’en garder une seule ? Ou d’en ”fabriquer” une qui serait un ”résumé”
de ces trois épreuves ? De façon générale, ne peut-on pas réduire la dimension du tableau de
données, en ne conservant qu’un petit nombre de variables qui apportent autant d’information
que l’ensemble des variables mesurées ?
Le but de l’ACP est de répondre à ce genre de questions. Il s’agit d’une méthode de des-
cription et de résumé d’un tableau de données (n, p). Son objectif principal est de remplacer
ce tableau de données par un tableau de dimension réduite (n, q) (q < p). Un des avantages
de cette réduction de dimension est par exemple, de pouvoir obtenir des représentations gra-
phiques des données. En effet, lorsque p = 2, chaque individu peut-être représenté par un point
57
58 ANALYSE DES DONNEES. FABIENNE CASTELL.
dans un plan, et le tableau de données initial peut être visualisé graphiquement par un nuage
de points dans un plan. Dès que p ≥ 4, une représentation graphique du nuage de points est
difficile, et l’un des buts de l’ACP est de trouver ”la meilleure” représentation plane du nuage
de points, ce qui revient à chercher un tableau (n, q = 2) qui approche ”au mieux” le tableau
de données initial. On cherche en particulier une représentation plane :
— qui minimise les déformations du nuage initial ;
— qui fait apparaı̂tre les liaisons entre les variables initiales ;
— qui permet de résumer l’information contenue dans le tableau initial (n, p) dans un
tableau de plus faible dimension (n, q), q < p, (en fait q = 2, 3), en la détruisant le moins
possible.
Cette réduction va être obtenue en remplaçant les variables initiales xj , j = 1, . . . , p par un
petit nombre de nouvelles variables cj , j = 1, . . . , q, appelées composantes principales, qui
sont non corrélées, et combinaisons linéaires des xj . Ces nouvelles variables vont être obtenues
en analysant la structure des covariances, ou des corrélations, entre les variables initiales.
Avant de décrire plus précisément la méthode, il faut en souligner quelques limites :
1. l’ACP ne permet pas le traitement de variables qualitatives ;
2. l’ACP ne détecte que d’éventuelles liaisons linéaires entre variables.
L’ACP présente de nombreuses variantes selon les transformations apportées au tableau de
données. Parmi ces variantes, l’ACP sur un tableau où les colonnes sont centrées et réduites,
appelée ACP normée est la plus fréquemment utilisée.
4.1 Définitions
4.1.1 Espace des individus.
Espace vectoriel des individus
On associe à chaque individu i, un vecteur xi contenant les valeurs de chaque variable pour
l’individu considéré :
Chaque individu peut alors être représenté par un point dans Rp , appelé espace des individus.
Le cas le plus fréquent est de considérer que tous les individus ont la même importance :
pi = 1/n, pour tout i = 1, · · · , n. Si les individus sont par exemple des pays, on peut être amené
à prendre
Population du pays i
pi = .
Population totale
On appelle nuage des individus, l’ensemble des points xi munis de leurs poids : M =
{(xi , pi ) ; i = 1, . . . , n}.
g = X 0 D 1I , (4.1)
où 1I désigne le vecteur de Rn dont toutes les coordonées sont égales à 1. On a en effet pour
tout j ∈ {1, · · · , p},
n n
n X n
xjk pk = x¯j .
X X X
0
gj = (X )jk (D 1I)k = Xkj Dki 1Ii =
k=1 k=1 i=1 k=1
Pour ramener l’origine du repère au barycentre des individus (i.e centrer le nuage autour de
son barycentre), on centre les variables. A chaque variable observée xj , on associe sa variable
centrée y j :
x̄j
x̄j
y j = xj − .. = xj − x̄j 1I .
.
x̄j
A partir du tableau X, on obtient un tableau de données Y :
V = X 0 DX − gg 0 = Y 0 DY . (4.2)
60 ANALYSE DES DONNEES. FABIENNE CASTELL.
mais ce n’est pas forcément la plus adaptée. Par exemple, on peut vouloir donner des impor-
tances différentes à chaque variable, auquel cas on choisira plutôt de prendre pour distance
q
d(x1 , x2 ) = m1 (x11 − x12 )2 + m2 (x21 − x22 )2 + · · · + mp (xp1 − xp2 )2 .
√
Cela revient à multiplier par mj chaque variable X j . Cependant, cette formule sous-entend que
les axes sont orthogonaux (formule de Pythagore), mais en statistique c’est par pure convention
que l’on représente les variables sur des axes orthogonaux, on aurait pu prendre des axes
obliques. Ainsi, la distance entre deux individus x1 et x2 peut être définie de manière générale
par : p
dM (x1 , x2 ) = (x1 − x2 )0 M (x1 − x2 ) = ||x1 − x2 ||M ,
où M est une matrice symétrique définie positive : pour tout u ∈ Rp , u0 M u ≥ 0 et si u0 M u = 0
alors u = 0Rp . Une telle matrice admet p valeurs propres réelles strictement positives.
En pratique, on utilise le plus souvent l’une des métriques suivantes :
— M = Id . La distance est la distance euclidienne usuelle, et on parle d’ACP canonique
ou simple. Elle s’utilise lorsque les variable sont homogènes (même dimension) et de
même ordre de grandeur.
62 ANALYSE DES DONNEES. FABIENNE CASTELL.
— M = D1/S 2 , où D1/S 2 est la matrice diagonale des inverses des variances définie par
D1/S 2 = D1/S D1/S . Le choix de cette métrique revient à diviser chaque variable (colonne)
par son écart-type. On parle alors d’ACP normée. Ici la distance ne dépend plus des
unités de mesure puisque xji /sj est une grandeur sans dimension. Cette métrique donne à
chaque caractère la même importance quelle que soit sa dispersion. Elle s’utilise lorsque
les variable ne sont pas homogènes, ou ne sont pas de même ordre de grandeur.
L’inertie mesure la dispersion des points individus autour du centre de gravité g, elle est parfois
appelée variance du nuage. L’inertie du nuage M est évidemment égale à l’inertie du nuage
centré N. Dans la suite du chapitre, on supposera que le nuage est centré.
Proposition 4.1.2
n n
1 XX
I= pi pj ||xi − xj ||2M ,
2 i=1 j=1
c’est à dire l’inertie correspond à la moyenne des carrés de toutes les distances entre les indi-
vidus.
Preuve : Notons hx, yiM le produit scalaire associé à M : hx, yiM = x0 M y.
n n
1 XX
pi pj ||xi − xj ||2M
2 i=1 j=1
n n
1 XX
= pi pj ||xi − g + g − xj ||2M
2 i=1 j=1
n
n X n
n X n
n X
!
1 X X X
= pi pj ||xi − g||2M + pi pj ||xj − g||2M + 2 pi pj hxi − g, xj − giM
2 i=1 j=1 i=1 j=1 i=1 j=1
* n +
n n n
1 X X X X
= pi ||xi − g||2M + pj ||xj − g||2M + 2 pi (xi − g); pj (xj − g)
2 i=1 j=1 i=1 j=1 M
n
X
= pi ||xi − g||2M ,
i=1
CHAPITRE 4. Analyse en Composantes Principales. 63
Pn
puisque i=1 pi (xi − g) = 0 par définition de g.
IF (N) = I(N̂F ) ,
Par exemple, si u est un vecteur M-normé (i.e ||u||M = 1), et ∆u est la droite vectorielle
engendrée par u , la projection orthogonale de yi sur ∆u est ŷiu = hyi ; uiM u = (yi0 M u) u, et
l’inertie expliquée par ∆u est donnée par
n n n n
!
X X X X
I∆u = I(N̂ ) =u u 2
pi ||ŷi ||M = 0 2
pi (yi M u) = 0 0 0
pi u M y i y i M u = u M 0
p i yi yi M u
i=1 i=1 i=1 i=1
0
= u MV Mu .
I = IF + IF ⊥ .
La quantité IF ⊥ peut donc être considérée comme une mesure de la déformation du nuage
lors de la projection sur F :
X n
IF ⊥ = pi ||yi − ŷiF ||2M .
i=1
Par conséquent,
n n
2
F⊥
X X
pi kyi k2M
F
I = = pi
ŷi + ŷi
M
i=1 i=1
n n n
⊥
2
2
D E
⊥
X X X
= pi
ŷiF
M + pi
ŷiF
+ 2 pi yiF ; yiF
M M
i=1 i=1 i=1
= IF + IF ⊥ .
F1 F2 F1 F2
On a donc ŷ F = (ŷ
d F ) + (ŷ
d F ) . Comme F ⊂ F , (ŷ
1
d F) = ŷ F1 . De même, (ŷ
d F) = ŷ F2 .
Par conséquent,
n n
X
F
2 X
2
pi
ŷiF1 + ŷiF2
M
IF = pi y i M =
i=1 i=1
n n n
X
F
2 X
F
2 X
pi yiF1 ; yiF2 M
= pi ŷi M +
1
pi ŷi M + 2
2
I = Trace(M V ) = Trace(V M ) .
Par conséquent,
Pn
1. Si M = Id , alors I = i=1 s2j est la somme des variances empiriques des p va-
riables.
2. Si M = D1/S 2 , alors I = p. Dans ce cas, l’inertie est égale au nombre de variables et ne
dépend pas de leurs valeurs.
Preuve : On a kyi k2M = yi0 M yi = Trace(yi0 M yi ) puisqu’il s’agit d’une quantité scalaire. En
utilisant :
— Trace(AB) = Trace(BA) pour toute matrice A de taille (n, p) et toute matrice B de
taille (p, n),
CHAPITRE 4. Analyse en Composantes Principales. 65
xj1
j
xj2
x = = j-ième colonne de X.
..
.
xjn
Chaque variable X j peut alors alors être représentée par un vecteur de Rn appelé espace
vectoriel des variables.
Si on veut juger de la ”proximité” entre deux variables, il faut encore une fois munir Rn d’une
distance qui rende compte de cette proximité, i.e. choisir une matrice M (n, n) symétrique et
définie positive. Ici, un choix naturel consiste à prendre M = D, la matrice diagonale
des poids (dite métrique des poids). En effet, si y 1 , y 2 , . . ., y p sont les variables centrées
associées à x1 , x2 , . . ., xp , on a
— < y j , y k >D = ni=1 pi yij yik = cov(xj , xk ) ;
P
— ||y j ||2D = s2j .
De plus l’angle θjk entre les vecteurs y j et y k est donné par
En résumé, lorsque les variables sont centrées et représentées par des vecteurs de Rn muni de
la métrique des poids :
— la longueur du vecteur correspond à l’écart-type de la variable associée ,
— le cosinus de l’angle de deux vecteurs représente la corrélation linéaire des deux variables
associées.
66 ANALYSE DES DONNEES. FABIENNE CASTELL.
Ek ⊕ ∆uk+1
où uk+1 est un vecteur M-orthogonal à Ek et ∆uk+1 est une droite vectorielle M -orthogonale à
Ek portant l’inertie maximale parmi toutes les droites vectorielles M -orthogonales à Ek .
Définition 4.2.3 Les axes ∆u1 , · · · , ∆up sont appelés axes principaux d’inertie de l’ACP.
Le théorème 4.2.2 dit que les sous-espaces principaux Ek (les solutions de (Pk )) sont emboı̂tés
et peuvent se calculer de façon itérative selon la procédure :
— Rechercher un axe ∆u1 maximisant l’inertie expliquée I∆u1 . On note E1 = ∆u1 .
— Rechercher un axe ∆u2 orthogonal à E1 , maximisant l’inertie expliquée I∆u2 . On note
E2 = E1 ⊕ ∆u2 .
— ...
— Rechercher un axe ∆uk orthogonal à Ek−1 maximisant l’inertie expliquée I∆uk . On note
Ek = Ek−1 ⊕ ∆uk .
CHAPITRE 4. Analyse en Composantes Principales. 67
3. Pour tout k < p, le s.e.v Ek engendré par les k premiers vecteurs u1 ,. . ., uk , est un s.e.v.
principal de dimension k, et l’inertie expliquée par Ek est donnée par
IEk = λ1 + · · · + λk .
2. On a déjà vu que le premier axe principal d’inertie est engendré par le vecteur propre
u1 associé à la plus grande valeur propre λ1 de V M . Pour les autres axes principaux, on
utilise le fait que la k-ième valeur propre λk vérifie :
λk = max hu, V M uiM ; kukM = 1; hu; uj iM = 0, j = 1, · · · k − 1 .
Remarques :
Pp
1. En prenant k = p, on retrouve I = Trace(V M ) = j=1 λj .
2. Notez que V M = Y 0 DY M . Si r = Rang(Y ) (≤ min(p, n)), on a
cj1
j
cj2
c = = Y M uj .
..
.
cjn
exemple {(c1i , c2i ) ; i = 1, · · · , n} est le nuage projeté sur le 1er plan principal (∆u1 , ∆u2 ).
La décomposition du vecteur yi sur la base des vecteurs principaux (u1 , u2 , · · · , up ) s’écrit
p r
X X
yi = cji uj = cji uj ,
j=1 j=1
Remarque : Pour j > r, les CP cj sont égales au vecteur nul de Rn car l’inertie expliquée
par ces axes est nulle.
Dans l’espace des variables Rn , muni de la métrique des poids D, on a vu que le produit scalaire
de deux variables n’est autre que leur covariance. On rappelle que pour j > r, cj = 0. Pour
j ≤ r, λj > 0 et on définit
cj
dj = p .
λj
Le point 2. de la proposition 4.2.7 signifie que (d1 , · · · , dr ) est un système D-orthonormé de
l’espace des variables Rn . Il n’en constitue pas nécessairement une base (puisque r ≤ min(n, p)),
sauf dans le cas où r = n ≤ p. dj s’appelle le j-ième facteur principal.
Nous reviendrons plus loin sur une interprétation du point 3.
2. On a vu (cf (4.1)) que le barycentre des données (cji ) est donné par l’expression matri-
cielle :
c̄ = C 0 D 1I = U 0 M Y 0 D 1I = U 0 M ȳ = 0 ,
puisque les données (yij ) sont centrées. Par ailleurs, en utilisant l’expression matricielle
de la covariance empirique donnée dans (4.2), on obtient
cov(ci , cj ) ij = C 0 DC = U 0 M Y 0 DY M U = U 0 M V M U .
Notez que
1 λ1
p 1 p 1 p 1 p
V M U = V M u · · · u = V M u · · · V M u = λ1 u · · · λp u = u · · · u 0 0 .
λp
On en déduit que (cov(xi , xj ))ij = U 0 M U diag(λ1 , · · · , λp ). Pour terminer, il suffit de
remarquer que
(u1 )0 (u1 )0 M u1 · · · (u1 )0 M up
U 0 M U = ... M u1 · · · up =
.. ..
. .
p 0 p0 1 p0 p
(u ) u Mu · · · u Mu
hu1 ; u1 iM · · · hu1 ; up iM
= .. ..
= Idp ,
. .
hup ; u1 iM · · · hup , up iM
2. Les vecteurs principaux de l’ACP dans l’espace des variables sont les vecteurs propres
normés de la matrice Y M Y 0 D. Ceux correspondant aux valeurs propres non nulles sont
donc c1 , · · · , cr normés à 1, à savoir les facteurs principaux d1 , · · · , dr de l’ACP(Y, D, M )
des individus.
3. Les composantes principales c̃1 , · · · , c̃r non nulles de l’ACP(Y 0 , M, D) dans l’espace des
variables, sont les coordonnées des y i sur les r premiers axes principaux d1 , · · · , dr :
1 1 λj
c̃j = Y 0 Ddj = p Y 0 Dcj = p Y 0 DY M uj = p uj = λj uj .
p
λj λj λj
Les facteurs principaux d˜1 , · · · , d˜r non nuls de l’ACP(Y 0 , M, D) dans l’espace des va-
riables sont donc :
c̃j
d˜j = = uj .
kc̃j kM
Définition 4.4.1 Pour tout k, l ≤ p (k 6= l), la projection du nuage N sur le plan principal
(∆uk , ∆ul ) est appelé carte des individus.
Plus cette qualité est proche de 1, plus le nuage de points initial est ”concentré” autour de
Ek , et plus fidèle est son image projetée sur Ek .
CHAPITRE 4. Analyse en Composantes Principales. 73
— Si cos2 (yi , ŷiEk ) est proche de 1, l’individu i appartient ”presque” à Ek , et il est donc bien
représenté sur Ek .
— Si cos2 (yi , ŷiEk ) est proche de 0, l’individu i est mal représenté sur Ek .
Ainsi, la qualité de représentation de l’individu i sur le premier plan principal E2 est mesurée
par
2 E2 ||ŷiE2 ||2M (c1i )2 + (c2i )2
cos (yi , ŷi ) = = Pp j 2 .
||yi ||2M j=1 (ci )
Remarque : Dans une carte des individus, on ne peut tirer de conclusions sur les individus
(regrougements, individus exceptionnels, etc. . .) que si ces individus sont bien représentés dans
le plan principal considéré.
pi (cki )2
est la part d’inertie portée par ∆uk , provenant de l’individu i. On définit alors la contri-
pi (cki )2
bution de l’individu i au k-ième axe principal comme le rapport = pi (dki )2 .
λk
74 ANALYSE DES DONNEES. FABIENNE CASTELL.
Si tous les individus ont le même poids 1/n dans l’analyse, alors les contributions n’ap-
portent pas plus d’information que les coordonnées, et les individus ayant de fortes contribu-
tions peuvent être détectés sur les boı̂tes à moustaches des composantes principales c1 , · · · , cr ,
ou des facteurs principaux d1 , · · · , dr .
Généralement, on considère que la contribution d’un individu à un axe est importante, si
elle excède son poids pi .
Individus supplémentaires :
Il s’agit d’individus qui ne font pas partie de l’échantillon ayant servi pour l’ACP, et qu’on
représente sur les axes principaux. Soit s un tel individu, représenté par un vecteur de Rp . Ses
coordonnées dans le repère d’origine g et d’axes ∆u1 , · · · , ∆up sont données par hs − g, uk iM .
Définition 4.4.4 Pour tout k et l ≤ r, la projection du nuage V sur le plan principal engendré
par (dk , dl ) est appelée carte des variables.
La qualité globale de la représentation du nuage V sur le s.e principal Fk est mesurée par
λ1 + · · · + λk
Pp .
j=1 λj
— Si cos2 (y j , ŷ j,F2 ) est proche de 1, alors la variable y j est bien représentée dans F2 .
— Si cos2 (y j , ŷ j,F2 ) est proche de 0, alors la variable y j est mal représentée sur F2 .
On se place ici dans le cadre d’une ACP normée où M = D1/S 2 = diag(1/s21 , · · · , 1/s2p ).
Rappelons que ceci revient à centrer et réduire les données au préalable de l’analyse, et à
prendre pour métrique M = Ip dans l’espace des individus. Considérons Z le tableau centré
réduit :
xj − x̄j
Z = [z 1 , z 2 , . . . , z p ] , où pour tout j = 1, . . . , p, z j = .
sj
Remarques :
1. L’étude des corrélations des variables z j avec la CP ck permet d’interpréter ck en fonc-
tion des z j . Cette étude des corrélations peut se faire par l’étude des proximités des
projections ẑ j avec le point (1, 0) du plan (v k , v l ).
2. Les cartes des variables facilitent l’interprétation de la matrice des corrélations des va-
0 0 0
riables. Si deux variables z j et z j sont bien représentées par leurs projections ẑ j et ẑ j
sur le plan (v k , v l ) alors :
0
— la proximité des projections ẑ j et ẑ j indique une forte corrélation linaire entre z j et
0
zj ,
0
— des points ẑ j et ẑ j diamétralement opposés indiquent une corrélation négative proche
de −1,
0
— des directions de ẑ j et de ẑ j presque orthogonales indiquent une faible corrélation
0
entre z j et z j .
76 ANALYSE DES DONNEES. FABIENNE CASTELL.
qui représente la matrice Y comme une somme de matrices de rang 1. Cette relation
montre que l’on peut “reconstituer” le tableau centré initial à partir des valeurs propres λj ,
des vecteurs principaux uj ∈ Rp et des facteurs principaux dj ∈ Rn associés, obtenus dans
l’analyse des individus et des variables respectivement. Cette relation est appelée formule de
reconstitution.
Si on se limite aux k (k < r) premiers termes, on obtient une approximation du tableau
initial :
X k
λj dj u0j .
p
Y ≈ Ỹ =
j=1
La matrice Ỹ est de taille (n, p), et de rang k. En effet, pour tout j0 ∈ {1, · · · , p},
k k p
X p j 0
X p j λj0 dj0 si j0 ≤ k ,
Ỹ M uj0 = λj d uj M uj0 = δj,j0 λj d =
0 si j0 > k .
j=1 j=1
initiales. Dans le cas d’une ACP normée, ne sont donc retenues que les valeurs propres
supérieures à 1. Ce critère a tendance à surestimer le nombre d’axes pertinents.
— L’éboulis des valeurs propres : C’est un graphique présentant la décroissance des
valeurs propres. Il est obtenu en traçant les valeurs propres λj en fonction de leur indice
j. Le principe consiste à chercher un “coude” dans le graphe. Les axes à retenir sont
alors ceux dont les valeurs propres se situent avant le “coude”.
Pour décrire une carte des variables ou des individus, on adoptera le plan sui-
vant :
1. Donner le pourcentage d’inertie expliquée par le plan considéré et chacun des axes ;
2. Indiquer les variables (resp.les individus) mal représenté(e)s dans ce plan pour les exclure
de la description ;
3. Utiliser les contributions
— des variables pour interpréter les axes en termes de variables de départ
— des individus pour identifier ceux qui sont influents pour l’orientation d’un axe et
ceux qui ont une contribution excessive. Ces individus sont source d’instabilité (le fait
d’enlever un tel individu de l’analyse modifiant de manière importante les résultats).
Il est important de vérifier qu’il ne s’agit pas de données erronées et de faire une
nouvelle analyse en les considérant en supplémentaires.
4. Pour une carte des variables : étudier les angles entre les projections des variables
en termes de covariance ou de corrélation dans le cas d’une ACP normée pour dégager
éventuellement des groupes de variables. Vérifier les tendances visualisées sur la carte
par un examen de la matrice de corrélation.
5. Pour une carte d’individus : étudier les proximités ou les oppositions entre les points
en termes de ”comportement” et dégager éventuellement des groupes d’individus et des
comportements singuliers de certains. Vérifier les caractéristiques dégagées par un exa-
men des données de départ.
78 ANALYSE DES DONNEES. FABIENNE CASTELL.
4.8 Exemple.
On reprend ici les données du fichier decathlon.csv (package FactoMineR), qui décrivent
les performances d’athlètes aux épreuves du décathlon.
— des ”profils” d’athlètes (rapides, endurants, etc...) en fonction des performances aux
différentes épreuves ;
— des ressemblances entre épreuves.
L’ACP va donc porter sur les 10 premières variables. En ce qui concerne les individus, on va
construire l’ACP sur les athlètes qui ont participé aux JO d’Athènes. On va donc faire une
ACP sur un tableau de taille (28,10). Comme les variables sont dans des unités différentes, on
fait une ACP normée.
Pour cela, on utilise la fonction PCA de R qui fait partie du package FactoMineR.
3.5
3.0
2.5
2.0
1.5
1.0
0.5
0.0
Représentations Contributions
Dim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3 Dim.4
100m 0.633 0.064 0.063 0.005 17.86 3.26 4.49 0.56
Long.jump 0.629 0.105 0.024 3.4 e-05 17.76 5.36 1.69 0.003
Shot.put 0.395 0.387 0.0005 1.78 e-02 11.16 19.68 0.035 1.97
High.jump 0.391 0.222 0.0001 1.11 e-02 11.05 11.30 0.011 1.23
400m 0.539 0.244 0.052 1.23 e-02 15.20 12.42 3.71 1.36
110m.hurdle 0.502 0.054 0.001 1.2 e-02 14.17 2.74 0.13 1.33
Discus 0.293 0.445 0.0003 3.84 e-02 8.29 22.60 0.022 4.25
Pole.vault 0.032 0.106 0.389 3.73 e-01 0.90 5.4 27.42 41.36
Javeline 0.082 0.114 0.271 4.29 e-01 2.31 5.83 19.09 47.58
1500m 0.044 0.224 0.616 2.9 e-03 1.25 11.37 43.36 0.32
Table 4.2 – Représentations et Contributions des différentes variables aux quatre premières
composantes principales.
CHAPITRE 4. Analyse en Composantes Principales. 81
1.0
Discus
Shot.put
1500m
0.5
400m High.jump
Javeline
100m
110m.hurdle
Dim 2 (19.7%)
0.0
Long.jump
Pole.vault
-0.5
-1.0
Dim 1 (35.45%)
Le premier axe factoriel explique 35% de l’inertie. Les variables qui ont le plus contribué à
cet axe sont les variables , 100m, Long.jump, 400m, 110m.Hurdle, qui sont aussi très bien
représentées sur cet axe. Cet axe correspond donc à une ”épreuve fictive” qui mesure des
performances en vitesse. On voit sur le cercle des corrélations que le saut en longueur est
négativement corrélé au 100m, 110m haies, et 400m. Cela est évident : plus l’athlète court vite,
plus son temps aux épreuves de course est faible, mais plus il saute loin.
Le deuxième axe factoriel explique 19% de l’inertie. Les variables qui contribuent le plus
à cet axe sont le lancer de poids Shot.put et le lancer de disque Discus. Cet axe correspond
donc à une variable fictive qui mesure des performances en lancer. Toutefois, le lancer de javelot
contribue très peu à cet axe, et y est mal représenté. Il semble donc que le lancer de javelot
fasse appel à d’autres qualités que le lancer de poids et du disque. On peut noter que le 400m
et le saut en hauteur sont bien représentés sur le premier plan factoriel, et contribue de façon
à peu près équivalente aux deux axes. Toutefois, ces deux épreuves sont en opposition selon le
facteur 1.
Le troisième axe explique 14 % de l’inertie. Les variables qui contribuent le plus à cet axe
sont le 1500m, et dans une moindre mesure le saut à la perche et le lancer de javelot. Ce
troisième axe oppose le saut à la perche et le javelot.
Le quatrième axe explique 9 % de l’inertie. Les variables qui contribuent le plus à cet axe sont
la saut à la perche et le lancer de javelot. Notez que ces deux variables contribuent également
de façon significative au troisième axe.
82 ANALYSE DES DONNEES. FABIENNE CASTELL.
1.0
Javeline
Pole.vault
0.5 Shot.put
Dim 4 (9.03%)
110m.hurdle
400m
100m
0.0
Long.jump
1500m
High.jump
Discus
-0.5
-1.0
Dim 3 (14.22%)
Figure 4.3 – Cercle des corrélations dans le plan factoriel correspondant aux axes 3 et 4.
4.9 Exercices
Exercice 1: Soit M le nuage des cinqs points suivants de R2 :
Représentations Contributions
Dim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3 Dim.4
Sebrle 0.66 0.11 0.002 0.15 13.89 4.25 0.12 12.47
Clay 0.68 0.038 0.005 0.07 13.56 1.37 0.26 5.55
Karpov 0.80 0.007 0.005 0.133 18.43 0.32 0.32 11.91
Macey 0.36 0.18 0.154 0.12 3.79 3.37 3.99 4.91
Warners 0.46 0.37 0.102 0.03 3.76 5.41 2.05 1.007
Zsivoczky 0.08 0.27 0.18 0.05 0.50 2.92 2.72 1.17
Hernu 0.16 0.08 0.18 0.01 0.49 0.48 1.39 0.12
Nool 0.003 0.33 0.10 0.43 0.03 5.70 2.53 15.96
Bernard 0.36 0.002 0.001 0.39 2.58 0.033 0.033 10.96
Schwarzl 0.002 0.52 0.128 0.059 0.008 3.958 1.35 0.98
Pogorelov 0.011 0.065 0.55 0.009 0.068 0.68 7.96 0.21
Schoenbeck 0.005 0.03 0.11 0.36 0.015 0.15 0.79 4.1
Barras 0.01 0.03 0.61 0.084 0.085 0.27 7.11 1.52
Smith 0.021 0.11 0.23 0.11 0.23 2.31 6.22 4.91
Averyanov 0.008 0.49 0.04 0.013 0.049 5.50 0.66 0.34
Ojaniemi 0.002 0.127 0.007 0.002 0.014 1.14 0.09 0.04
Smirnov 0.10 0.29 0.39 0.026 0.41 2.06 3.88 0.40
Qi 0.159 0.010 0.30 0.035 0.550 0.064 2.62 0.482
Drews 0.014 0.809 0.063 0.025 0.18 17.81 1.943 1.22
Parkhomenko 0.15 0.306 0.047 0.255 1.79 6.26 1.34 11.38
Terek 0.071 0.005 0.49 0.005 0.83 0.12 14.3 0.24
Gomez 0.066 0.18 0.36 0.004 0.43 2.17 5.91 0.11
Turi 0.33 0.003 0.069 0.014 3.39 0.069 1.72 0.55
Lorenzo 0.503 0.17 0.19 0.0005 6.94 4.42 6.78 0.029
Karlivans 0.57 0.003 0.001 0.14 5.60 0.065 0.04 5.61
Korkizoglou 0.12 0.19 0.51 0.04 2.22 6.02 22.65 3.21
Uldal 0.85 0.001 0.027 0.0001 8.68 0.03 0.70 0.006
Casarsa 0.45 0.504 0.006 0.005 11.38 22.94 0.38 0.49
Table 4.3 – Représentations et Contributions des différents athlètes aux quatre premières axes
principaux.
84 ANALYSE DES DONNEES. FABIENNE CASTELL.
Casarsa
Parkhomenko
Korkizoglou
2
Sebrle
Zsivoczky Macey
Smith
Clay
Dim 2 (19.7%)
Pogorelov
Barras Karpov
Turi Terek
Uldal Bernard
Karlivans Qi
0
Schoenbeck
Hernu
Ojaniemi
Smirnov
Gomez
Lorenzo Schwarzl
Averyanov
Nool Warners
-2
Drews
-4
-4 -2 0 2 4 6
Dim 1 (35.45%)
Figure 4.4 – Nuage des individus projeté sur le premier plan principal.
CHAPITRE 4. Analyse en Composantes Principales. 85
Nool
2
Sebrle
Parkhomenko
Clay
Schoenbeck
1
Barras
Zsivoczky Schwarzl
Dim 4 (9.03%)
Smirnov Turi
Terek
Ojaniemi
Uldal
Lorenzo
0
Korkizoglou
SmithMacey
-1
Karlivans
Bernard
Karpov
-2
-2 -1 0 1 2 3
Dim 3 (14.22%)
Figure 4.5 – Nuage des individus projeté sur le plan principal correspondant aux axes princi-
paux 3 et 4.
86 ANALYSE DES DONNEES. FABIENNE CASTELL.
Exercice 2: Faire une ACP sur les données wine du package FactoMineR.
Chapitre 5
L’analyse factorielle des correspondances a été proposée dans les années soixante par J.P.
Benzécri afin d’étudier la liaison (dite encore correspondance) entre deux variables qualitatives.
Cette méthode permet d’analyser des tables de contingence obtenues en observant deux va-
riables qualitatives X et Y sur un ensemble de n individus, et certains tableaux binaires
(tableaux dits de ”présence-absence”). C’est une méthode très utilisée en analyse des données
textuelles.
Exemple 5.1: (cf livre de G. Saporta) On observe sur 10.000 étudiants les deux variables
qualitatives X=”CSP du père” et Y =”Type d’études supérieures poursuivies”.
Exemple 5.2: On analyse les réponses de 2000 personnes à une question ouverte et on
s’intéresse au tableau croisant les 21 mots les plus utilisés avec 5 niveaux de diplômes des
personnes interrogées. Ici A correspond aux formes (variable qualitative avec 21 modalités) et
B aux diplômes (5 modalités).
Un individu= une occurence d’une forme.
L’Analyse Factorielle des Correspondances (AFC) peut être présentée comme une analyse
en composantes principales avec une métrique spéciale, la métrique du khi-deux.
5.1 Rappels
5.1.1 Table de contingence et profils.
Supposons que la variable X a r modalités (notées l1 , · · · , lr ), et que la variable Y a c
modalités (notées d1 , · · · , dc ). Nous avons vu au chapitre 3.3 que les données peuvent être
résumées dans une table de contingence N , dont les entrées sont les effectifs de chaque couple
(li , dj ) :
nij = nbre d’individus sur lesquels on a observé les modalités li de X et dj de Y
n
X
= 1Ixk =li 1Iyk =dj .
k=1
87
88 ANALYSE DES DONNEES. FABIENNE CASTELL.
On peut également calculer le pourcentage par rapport à tn . Ceci met en évidence les asso-
n n
ciations significatives entre modalités des deux variables. Le signe de la différence nij − i.n .j
indique s’il s’agit d’une association sur-représentée (positive) ou sous-représentée (négative).
Nous rappelons que la quantité tn est la statistique du test du χ2 d’indépendance qui permet
de tester (H0 ) : ”Les variables X et Y sont indépendantes” contre (H1 ) :”X et Y sont liées”. En
effet, sous (H0 ), tn est une réalisation d’une variable aléatoire Tn suivant une loi du χ2(r−1)(c−1)
dans la limite des grands échantillons.
Remarque : D’autres indices ont été abondamment proposés pour mesurer la dépendance
entre deux variables. On pourra voir par exemple l’ ouvrage de Goodman et Kruskal : Measures
of association for cross-classifications, Springer-verlag, New-York (1979).
Tr = Dr−1 N et Tc = N Dc−1 .
Propriétés :
1. Le centre de gravité gr du nuage Mr (profil-moyen des lignes) a pour coordonnées :
n
n
.1
f .1
gr = ... = ... ∈ Rc .
n.c
n
f.c
90 ANALYSE DES DONNEES. FABIENNE CASTELL.
Preuve :
1. gr = ri=1 fi. Li . Ainsi pour tout j ∈ {1, · · · , c},
P
r r r
X ni. X ni. nij X nij n.j
gr (j) = Li (j) = = = .
i=1
n i=1
n ni. i=1
n n
c c
X X nij ni.
Li (j) = = = 1.
j=1 j=1
ni. ni.
Ainsi chaque profil ligne Li est dans Hc−1 . Comme gr est une combinaison linéaire des
Li , gr est aussi dans Hc−1 .
Propriétés :
1. Le centre de gravité gc du nuage Mc (profil-moyen des colonnes) a pour coordonnées :
n
1.
n
f1.
.. .. r
gc = . = . ∈R .
nr.
n
fr.
Par analogie avec les notations du chapitre sur l’ACP, on a donc pour l’ACP des profils-
colonnes
— Tableau des données : X = Tc = Dc−1 N 0 de taille (c, r) ;
— Tableau des données centrées : Y = X − 1Ir gc0 ;
— Matrice des poids D = diag nn.1 , · · · , nn.c = n1 Dc de taille (c, c) ;
— Espace des profils-colonnes : Rr , plus précisément Hr−1 .
n n
Dans le cas de l’indépendance ”empirique” où nij = i.n .j , les nuages Mr et Mc sont donc
réduits à un seul point, leur centre de gravité. Pour continuer l’ACP des profils-lignes et des
profils-colonnes, il faut maintenant définir une métrique dans l’espace des profils-lignes, et une
métrique dans l’espace des profils-colonnes.
Théorème 5.2.3 Supposons que deux colonnes de N , Cj et Cj 0 ont même profil, càd
nij nij 0
= pour tout i = 1, · · · , r . (5.2)
n.j n.j 0
Regroupons-les en une seule colonne, notée j ⊕ j 0 , d’effectifs nij + nij 0 , et d’effectif marginal
n.j + n.j 0 . On obtient une nouvelle table de contingence notée Ñ , de taille (r, c − 1), à laquelle
est associée une nouvelle métrique du chi2, notée d˜χ2 , sur les profils-lignes L̃i de Ñ (qui sont
des éléments de Rc−1 ). Cette opération ne modifie pas les distances entre profils-lignes, i.e.,
pour tout i, i0 ∈ {1, · · · , r},
dχ2 (Li , Li0 ) = d˜χ2 (L̃i , L̃i0 ) .
Preuve : Les seuls termes qui diffèrent entre dχ2 (Li , Li0 ) et d˜χ2 (L̃i , L̃i0 ) sont les termes qui
concernent les colonnes j et j 0 . On a donc
dχ2 (Li , Li0 ) − d˜χ2 (L̃i , L̃i0 )
2 2 2
n nij ni0 j n nij 0 ni0 j 0 n nij + nij 0 ni0 j + ni0 j 0
= − + − − − .
n.j ni. ni0 . n.j 0 ni. ni0 . n.j + n.j 0 ni. ni0 .
n 2 n 2 n
= a + b − (a + b)2 ,
n.j n.j 0 n.j + n.j 0
n n 0 n 0 n 0 0
où on a noté a = niji. − ni 0j et b = niji. − ni 0j . En développant le carré, et en regroupant les
i . i .
termes en a2 et b2 , il vient
n n n n n
dχ2 (Li , Li0 ) − d˜χ2 (L̃i , L̃i0 ) = − 2
a + − b2 − 2 ab
n.j n.j + n.j 0 n.j 0 n.j + n.j 0 n.j + n.j 0
n.j 0 n.j n
= n a2 + n b2 − 2 ab
n.j (n.j + n.j 0 ) n.j 0 (n.j + n.j 0 ) n.j + n.j 0
n
n2.j 0 a2 + n2.j b2 − 2n.j 0 n.j ab
=
n.j n.j 0 (n.j + n.j 0 )
n
= (n.j 0 a − n.j b)2
n.j n.j 0 (n.j + n.j 0 )
2
n nij ni0 j nij 0 ni0 j 0
= n.j 0 − n.j 0 − n.j + n.j
n.j n.j 0 (n.j + n.j 0 ) ni. ni0 . ni. ni0 .
2
n 1 1
= (n.j 0 nij − n.j nij 0 ) + (n.j ni0 j 0 − n.j 0 ni0 j )
n.j n.j 0 (n.j + n.j 0 ) ni. ni0 .
= 0,
puisque d’après (5.2), nij n.j 0 = nij 0 n.j et ni0 j n.j 0 = ni0 j 0 n.j .
5.2.4 Inertie
Inertie associée au nuage des profils-lignes :
r
X
I(Mr ) = fi. d2χ2 (Li , gr )
i=1
r c 2
X ni. X n nij n.j
= −
i=1
n j=1
n.j n i. n
r X c 2
X ni. n nij n.j 1
= − = tn .
i=1 j=1
n n.j ni. n n
On a déjà vu que le nuage des profils-lignes était situé sur le sous-espace Hr−1 . Par conséquent,
l’inertie portée par l’axe orthogonal à ce sous-espace est nulle, et le vecteur directeur de cet axe
est donc un vecteur propre de V M associé à la valeur propre 0. On peut voir que cet axe n’est
autre que la droite (Ogr ). En effet, si x ∈ Hr−1 ,
c
0 0
X n
< Ogr , gr x >χ2 = (x − gr ) M gr = n(x − gr ) Dc−1 gr = gr (j)(x(j) − gr (j))
j=1
n .j
c c c
X n n.j n.j X X n.j
= (xj − )= xj − = 1 − 1 = 0.
j=1
n.j n n j=1 j=1
n
Donc, gr est vecteur propre de V M associée à la valeur propre 0. On peut aussi noter que gr
est vecteur propre de la matrice ngr gr0 Dc−1 , associée à la valeur propre 1. En effet,
ngr gr0 Dc−1 gr = n hgr , gr iDc−1 gr = gr ,
n 2 n
puisque n hgr , gr iDc−1 = cj=1 nn.j gr (j)2 = cj=1 nn.j n.j = cj=1 n.j = 1. La matrice ngr gr0 Dc−1
P P P
est en fait la matrice de projection orthogonale sur (Ogr ). En effet, si un vecteur x est orthogonal
(au sens du chi2) à gr , ngr gr0 Dc−1 x = hgr , xiχ2 gr = 0. On a donc montré le résultat suivant :
Proposition 5.3.1 Soit L la matrice
L = N 0 Dr−1 N Dc−1 = Tr0 Tc .
1. L et V M se diagonalise dans la même base orthonormée (pour la métrique du chi2).
2. gr est vecteur propre de V M associée à la valeur propre 0, et vecteur propre de L associé
à la valeur propre 1.
3. Les autres vecteurs propres sont orthogonaux à gr , et sont associés aux mêmes valeurs
propres pour L et V M .
D’après cette proposition, il est donc inutile de centrer le tableau des profils-lignes. De
manière pratique, on effectuera donc une ACP non centrée. Puis à la valeur propre 1 associée à
l’axe (Ogr ), on fera correspondre la valeur propre 0 pour se ramener à une étude centrée en gr .
Composantes principales.
Notons (uk , k ∈ {1, · · · , r − 1}) les vecteurs principaux autres que gr (définis par Luk =
λk uk , λk 6= 1). Les composantes principales donnent les coordonnées des profils-lignes sur
chaque axe : pour tout i ∈ {1, · · · , r},
ck (i) = hLi , uk iχ2 = nL0i Dc−1 uk
c
X nij
= n uk (j) .
n n
j=1 .j i.
Ceci se récrit
ck = Tr (nDc−1 )uk = nDr−1 N Dc−1 uk .
Nous rappelons que les composantes principales sont centrées, et de variance λk .
CHAPITRE 5. Analyse Factorielle des Correspondances. 95
Cette fois, la matrice à diagonaliser est V M = N Dc−1 N 0 Dr−1 − ngc gc0 Dr−1 . Comme pour les
profils-lignes, on montre que gc est vecteur propre de V M associée à la valeur propre 0, et que
diagonaliser V M revient à diagonaliser la matrice C = N Dc−1 N 0 Dr−1 = Tc Tr0 .
Si ck est une composante principale de l’ACP des profils-lignes, on a Dr ck = nN Dc−1 uk , et
donc
C(Dr ck ) = nN Dc−1 N 0 Dr−1 N Dc−1 uk = nN Dc−1 Luk = nλk N Dc−1 uk = λk Dr ck .
Ainsi Dr ck est vecteur propre de C associé à la valeur propre λk . Si on note vk les vecteurs
principaux de l’ACP des profils-colonnes correspondant aux valeurs propres non nulles, on a
k
donc vk = DDcrkc , avec
k r kχ2
r
Dr ck
2 2 = (Dr ck )0 (nDr−1 )(Dr ck ) = n(ck )0 Dr ck = n
X
χ
ni. ck (i)2 = n2 var(ck ) = n2 λk .
i=1
1 ni. k
vk (i) = √ c (i) .
λk n
Composantes principales.
Notons (c̃k ) les composantes principales de l’ACP des profils-colonnes. (c̃k ) donne les coor-
données des profils-colonnes sur l’axe de vecteur directeur vk :
r
X nij
k
c̃ (j) = hvk , Cj iχ2 = nCj0 Dr−1 vk =n vk (i) ,
i=1
ni. n.j
ce qui se récrit :
c̃k = nTc0 Dr−1 vk = nDc−1 N 0 Dr−1 vk .
Nous rappelons que les composantes principales c̃k sont centrées, et de variance λk .
Théorème 5.3.2 Soit p = rang(L) = rang(C). Pour tout k ≤ p, il existe une relation dite de
transition, entre les vecteurs propres uk et vk :
1
vk = √ Tc uk ,
λk
1
uk = √ Tr0 vk
λk
√
Preuve : Rappelons que Dr ck = n λk vk . Par ailleurs, on a ck = nDr−1 N Dc−1 uk , et donc
Dr ck = nN Dc−1 uk . On en déduit que
1 1
vk = √ N Dc−1 uk = √ Tc uk .
λk λk
√
En multipliant cette identité par Tr0 , on obtient Tr0 vk = √1 Luk
λk
= λk uk .
Le résultat précédent conduit aux relations fondamentales de l’AFC reliant les composantes
principales entre elles, dites les relations quasi-barycentriques :
c
1 X nij
ck (i) = √ c̃k (j) ,
λk j=1 ni.
r
1 X nij
c̃k (j) = √ ck (i) .
λk i=1 n.j
Preuve :
1 1 1
ck = nDr−1 N Dc−1 uk = √ nDr−1 N Dc−1 Tr0 vk = √ nDr−1 N Dc−1 N 0 Dr−1 vk = √ Dr−1 N c̃k .
λk λk λk
En écrivant cette relation coordonnées par coordonnées, on obtient pour tout i ∈ {1, · · · , r},
c
1 X nij k
ck (i) = √ c̃ (j) .
λk j=1 ni.
Exercice : En utilisant les relations quasi-barycentriques, montrer que les valeurs propres λk
de l’AFC sont inférieures ou égales à 1.
Les composants prinipales et les valeurs propres expliquent donc en quoi les nij s’écartent des
ni. n.j
n
.
Preuve : On décompose le vecteur gr~Li dans la base orthonormée donnée par les uk . On a
par définition des composantes principales ck (i) :
p p p p
X X 1 k X 1 k X 1 D
Li − gr = k
c (i)uk = 0
√ c (i)Tr vk = 0 −1
√ c (i)N Dr vk = √ ck (i) c c̃k .
k=1 k=1
λk k=1
λk k=1
λk n
En écrivant cette relation coordonnées par coordonnées, on obtient pour tout j ∈ {1, · · · , c},
p
nij n.j X 1 k n.j k
− = √ c (i) c̃ (j)
ni. n k=1
λk n
p
ni. n.j ni. n.j X 1 k
⇔ nij − = √ c (i)c̃k (j)
n n k=1 λk
98 ANALYSE DES DONNEES. FABIENNE CASTELL.
(c, c) (r, r)
uk : Luk = λk uk Vecteurs principaux vk : Cvk = λk vk
avec λk 6= 1 avec λk 6= 1
uk =√1 T 0 vk vk = √1 Tc uk
λk r λk
k −1 −1 k −1 0 −1
c = nD r N D c uk Composantes principales c̃ = nDc N Dr vk
n n
ck (i) = n cj=1 ni.ijn.j uk (j) c̃ (j) = n ri=1 ni.ijn.j vk (i)
k
P P
√ √
Dr ck = n λk vk Dc c̃k = n λk uk
Pc nij k Pr nij k
ck (i) = √1 c̃k (j) = √1
λk j=1 ni. c̃ (j) λk i=1 nj. c (i)
Eléments supplémentaires :
Les points supplémentaires sont des profils qui n’entrent pas dans la construction des axes
mais qui sont représentés dans les plans factoriels. Leur position est interprétée en terme de
quasi-barycentre.
Si on dispose par exemple d’une modalité supplémentaire l0 de la variable X, on peut
calculer la coordonnée du profil-ligne correspondant l0 sur l’axe k en utilisant les formules
quasi-barycentriques :
c
k 1 X n0j k
c (0) = √ c̃ (j) .
λk j=1 n0.
D’autre part on peut également évaluer la qualité de représentation des points supplémentaires
sur l’axe k par le calcul du cos2 .
plus les effectifs par sexe, plus les effectifs par niveau, plus l’effectif marginal). On reproduit
dans la table 5.1 la table de contingence de X et Y .
On poursuit l’analyse en conservant seulement les deux premiers axes (qui expliquent 86% de
l’inertie du nuage).
Concernant la variable ”Discipline”, le graphe montre une proximité (d’un point de vue du
profil étudiant) entre les disciplines AL, SHS, Dr. En interprétant les représentations barycen-
triques, on peut voir que ces disciplines sont surtout suivies par des femmes au niveau Licence.
De façon plus générale, les disciplines à gauche du graphe attirent plutôt les femmes, et les
disciplines en bas du graphe sont des disciplines où les études sont courtes.
5.8 Exercice.
On a relevé sur n = 10 individus deux variables qualitatives, la variable X à 4 modalités
{A, B, C, D} et la variable Y à trois modalités {1, 2, 3}. Les résultats sont regroupés dans la
table 5.5 qui donne sous forme d’une ?, les modalités relevées sur un individu.
Ind A B C D 1 2 3
1 ? ?
2 ? ?
3 ? ?
4 ? ?
5 ? ?
6 ? ?
7 ? ?
8 ? ?
9 ? ?
10 ? ?
CA factor map
Doc.F
Doc
0.4
Doc.H
PLLSH
● SVT
●
Ma.F
0.2
Ma
SHS
AL F ● Dr
●
Ma.H
SF
Dim 2 (15.51%)
●
Tot EG
0.0
Lic.F ● ●
●
H
Lic
La Lic.H
−0.2
ES
−0.4
STAPS
−0.6
Dim 1 (70.72%)
Figure 5.2 – AFC sur les données des universités. Plan principal
Chapitre 6
Références.
105