Vous êtes sur la page 1sur 105

Aix Marseille Université

L3 MASS

Cours d’Analyse des données.

F. Castell.
2
Table des matières

1 Introduction. 7

2 Statistique descriptive unidimensionnelle. 9


2.1 Une seule variable quantitative discrète. . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Différentes représentations. . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.2 Caractéristiques numériques . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Une seule variable quantitative continue. . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Représentations graphiques. . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Caractéristiques numériques. . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Une seule variable qualitative. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Vers la statistique inférentielle. Normalisation de données quantitatives. . . . . . 16
2.4.1 Comment tester la normalité ? . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2 Que faire si l’hypothèse de normalité n’est pas satisfaite ? . . . . . . . . . 18
2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5.1 Une seule variable quantitative discrète. . . . . . . . . . . . . . . . . . . 22
2.5.2 Une seule variable quantitative continue. . . . . . . . . . . . . . . . . . . 22
2.5.4 Normalisation de données quantitatives . . . . . . . . . . . . . . . . . . . 23
2.6 Pour aller plus loin : fonctions de répartition, simulation. . . . . . . . . . . . . . 24
2.6.1 Fonction de répartition. . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6.2 Fonction de répartition empirique. . . . . . . . . . . . . . . . . . . . . . . 27

3 Statistique descriptive bidimensionnelle. 29


3.1 Deux variables quantitatives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.1 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.2 Coefficient de corrélation linéaire empirique. . . . . . . . . . . . . . . . . 29
3.1.3 Coefficient de corrélation des rangs de Spearman. . . . . . . . . . . . . . 32
3.2 Une variable quantitative et une variable qualitative. . . . . . . . . . . . . . . . 36
3.2.1 Distribution théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.2 Quantités empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.3 Comment juger de la liaison entre X et Y ? . . . . . . . . . . . . . . . . 38
3.2.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.5 Que faire lorsque l’hypothèse de normalité n’est pas satisfaite ? . . . . . . 42
3.3 Deux variables qualitatives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3.1 Distribution théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3
4 TABLE DES MATIÈRES

3.3.2 Quantités empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49


3.3.3 Comment juger de la liaison entre X et Y? . . . . . . . . . . . . . . . . 50
3.3.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4.1 Deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4.2 Une variable qualitative et une variable quantitative . . . . . . . . . . . . 54
3.4.3 Deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4 Analyse en Composantes Principales. 55


4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.1.1 Espace des individus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.1.2 Inertie d’un nuage de points. . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.1.3 Espace métrique des variables. . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2 Principes de l’ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.1 Le problème. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.2 Espaces et axes principaux. . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.3 Composantes Principales (CP) . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2.4 Résumé d’une analyse en composantes principales. . . . . . . . . . . . . . 68
4.3 ACP dans l’espace des variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4 Les représentations graphiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4.1 Représentation des individus. . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4.2 Représentation des variables. . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.5 Reconstitution des données de départ. . . . . . . . . . . . . . . . . . . . . . . . . 74
4.6 Pratique de l’ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.6.1 Nombre d’axes à retenir. . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.6.2 Interprétation de l’ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.7 Tableau récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.8 Exemple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.8.1 Description du jeu de données. . . . . . . . . . . . . . . . . . . . . . . . . 76
4.8.2 Objectif. Choix des variables et des individus actifs. . . . . . . . . . . . . 76
4.8.3 Choix du nombre d’axes à retenir. . . . . . . . . . . . . . . . . . . . . . . 77
4.8.4 Carte des variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.8.5 Carte des individus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5 Analyse Factorielle des Correspondances (AFC). 85


5.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.1.1 Table de contingence et profils. . . . . . . . . . . . . . . . . . . . . . . . 85
5.1.2 Ecart à l’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.2 Principes de l’AFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2.1 Nuage des profils-lignes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2.2 Nuage des profils-colonnes . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.2.3 Métrique du khi2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2.4 Inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
TABLE DES MATIÈRES 5

5.3 ACP des deux nuages profils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91


5.3.1 ACP des profils-lignes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.3.2 ACP des profils-colonnes. . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.3.3 Relations de transition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.4 Formules de reconstitution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.5 Tableau récapitulatif : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.6 Aides à l’interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.7 Exemple traité sous R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.7.1 Description des données. . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.7.2 Objectifs. Choix des modalités actives. . . . . . . . . . . . . . . . . . . . 98
5.7.3 Choix du nombre d’axes à retenir. . . . . . . . . . . . . . . . . . . . . . . 98
5.7.4 Analyse des résultats. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.8 Exercice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

6 Références. 103
6 TABLE DES MATIÈRES
Chapitre 1

Introduction.

L’objet de ce cours est de donner quelques outils couramment employés en statistique pour
traiter des données multidimensionnelles. Ces données correspondent souvent à l’observation de
nombreuses variables aléatoires sur plusieurs individus, le mot individu étant à prendre en un
sens très large. Ces données sont représentées sous forme d’un tableau où chaque ligne représente
les variables mesurées sur un individu. Le but est d’extraire le maximum d’informations de ce
tableau de données. Suivant la nature de la question posée, et suivant la nature des données,
plusieurs méthodes sont possibles. Voici quelques exemples de questions que nous chercherons
à aborder dans ce cours.
1. Analyse des relations entre plusieurs variables.
On a relevé auprès d’un échantillon de personnes des descripteurs d’utilisation de différents
média, des temps d’activités quotidiennes et d’autres caractéristiques telles que l’âge, le
sexe, le niveau d’éducation, le lieu de résidence.... etc.
On souhaite savoir quelles sont les variables liées entre elles sans qu’aucune des variables
ne soit vraiment privilégiée.
Si les variables auxquelles on s’intéresse sont toutes des variables quantitatives, il s’agit
d’un problème d’analyse en composante principale (ACP). S’il s’agit de deux va-
riables qualitatives, on parle d’analyse factorielle des correspondances (AFC). S’il
s’agit de p ≥ 3 variables qualitatives, on parle d’analyse des correspondances mul-
tiples (ACM).
En plus de décrire les liens entre variables, ces méthodes permettent :
— d’”éliminer” des variables peu pertinentes, car l’information qu’elles apportent est
déjà contenue dans les autres variables ;
— de donner des représentations graphiques les plus fidèles possible, de l’ensemble des
données sur un graphe plan (ou de dimension 3).
Elles sont souvent une première étape, dite exploratoire ou descriptive, avant de
mettre en oeuvre d’autres méthodes, qui nécessitent des hypothèses sur les données.
2. Etude de l’influence des variables sur une variable particulière.
On peut s’intéresser au type de média choisi en fonction du sexe, de l’âge, du sport
pratiqué, etc... Ici, on met en exergue une des variables, dite variable à expliquer,
(ou variable d’intérêt, variable réponse). On veut analyser l’influence des autres
variables (dites variables explicatives, ou variables régresseurs) sur la variable

7
8 Analyse des Données. Fabienne CASTELL

d’intérêt. La tableau suivant donne la terminologie des méthodes utilisées suivant la


nature des données :

Variable à expliquer Variable à expliquer


quantitative qualitative
Var explicatives Classification supervisée ,
quantitatives Régression Analyse discriminante
Var explicatives
qualitatives analyse de variance AFC, ACM

Références :
un bon investissement : ”Probabilités, Analyse des données et Statistique”, de Gilbert
Saporta. Editions Technip.
Pour apprendre R, et autres.. : ”Statistiques avec R”, de Pierre-André Cornillon,
Arnaud Guyader, François Husson, Nicolas Jégou, Julie Josse, Maela Kloareg, Eric
Matzner-Lober, Laurent Rouviére. Presses Universitaires de Rennes.
ainsi que le site des auteurs du livres :
http ://math.agrocampus-ouest.fr/infoglueDeliverLive/enseignement/support2cours/livres/statistiq
deux sites où vous trouverez beaucoup d’informations utiles :
— Le site de Ricco Rakotomalala : http ://chirouble.univ-lyon2.fr/ ricco/data-mining/
— Le site http ://wikistat.fr/
Chapitre 2

Statistique descriptive
unidimensionnelle.

Avant de rentrer dans l’analyse de données multidimensionnelles, nous allons commencer


par rappeler quelques concepts de base permettant de décrire une série de données.
Nous considérons ici que nous avons mesuré une variable sur n individus dans la population.
On obtient donc une série d’observations notées (x1 , · · · , xn ). On peut aussi associer à l’indi-
vidu i, un poids wi (”w” pour ”weight”) représentant son importance dans la population. Par
exemple, si les individus représentent des régions, on peut vouloir associer à chaque région un
poids proportionnel au nombre d’habitants de la région. La série des poids w = (w1 , · · · , wn )
vérifie :
n
X
∀i ∈ {1, · · · , n} , wi ≥ 0 ; wi = 1. (2.1)
i=1

Si tous les individus ont même poids, alors wi = n1 .

2.1 Une seule variable quantitative discrète.


Une variable quantitative discrète est une variable prenant des valeurs discrètes (entières
ou décimales). Théoriquement le nombre de valeurs possibles est au plus dénombrable ; en
pratique il est souvent assez faible. On peut penser par exemple au nombre de déplacements
journaliers d’une personne, au nombre d’enfants par famille, au nombre de mois séparant la fin
des études et le premier emploi en CDI, .... etc.
Exemple 2.1: On a noté le nombre de mois séparant la fin des études et le premier emploi
en CDI de 25 étudiants issu d’un master MASS. Les résultats sont les suivants et sont des
données fictives : 9 5 5 6 5 10 7 5 8 8 8 4 7 8 4 3 4 5 7 7 6 3 2 6 9 .
On notera (x1 , · · · , xn ) la série de données, et (y1 , · · · , yr ) les valeurs possibles pour ces
données, ordonnées par ordre croissant (y1 < · · · < yr ).

9
10 ANALYSE DES DONNEES. FABIENNE CASTELL.

yj nj Nj fj Fj
2 1 1 1/25 1/25
3 2 3 2/25 3/25
4 3 6 3/25 6/25
5 5 11 5/25 11/25
6 3 14 3/25 14/25
7 4 18 4/25 18/25
8 4 22 4/25 22/25
9 2 24 2/25 24/25
10 1 25 1/25 1

Table 2.1 – Tableau représentant les données de l’exemple 2.1.

2.1.1 Différentes représentations.


Lorsque tous les individus ont même poids (wi = 1/n pour tout i), ces données sont souvent
représentées sous forme d’un tableau donnant pour chaque valeur possible yj (1 ≤ j ≤ r) :
— l’effectif nj qui lui est associé,
nj = nombre d’individus pour lesquels la variable mesurée vaut yj
= card {i ≤ n; xi = yj } ;
On a évidemment rj=1 nj = n.
P
— l’effectif cumulé Nj ,
j
X
Nj = ni ;
i=1
— la fréquence fj = nj /n ; P
— la fréquence cumulée Fj = ji=1 fj = Nj /n.
Question : Comment adapter ces définitions au cas où l’individu i est affecté d’un poids
wi ?
Ce tableau peut-être représenté sous forme de diagrammes.
Diagramme en bâtons : C’est le graphe de yj 7→ fj (ou de yj 7→ nj ).
Diagramme cumulatif : C’est le graphe de yj 7→ Fj (ou de yj 7→ Nj ). Plus précisément,
il s’agit du graphe de la fonction de répartition empirique Fn définie par :

 0 si x < y1
Fn (x) = Fj si yj ≤ x < yj+1 , pour 1 ≤ j ≤ r − 1
1 si x ≥ yr

On a n
1X
Fn (x) = 1Ixi ≤x (2.2)
n i=1
La figure 2.1 donne ces deux graphes sur les données de l’exemple 2.1.
CHAPITRE 2. Statistique descriptive unidimensionnelle. 11

0.2

0.15

frequence
0.1

0.05

0
2 3 4 5 6 7 8 9 10
Nombre de mois entre fin des etudes et premier CDI

1
frequence cumulee

0.8

0.6

0.4

0.2

0
0 2 4 6 8 10 12
Nombre de mois entre fin des etudes et premier CDI

Figure 2.1 – Diagramme bâtons et diagramme cumulatif des données de l’exemple 2.1.

2.1.2 Caractéristiques numériques

Caractéristiques de position : elles donnent un ordre de grandeur de la série.


— Moyenne empirique : x̄n = n1 ni=1 xi = rj=1 fj yj ;
P P
— Quantiles empiriques : La fonction ”quantile empirique” est la fonction inverse de
la fonction de répartition empirique. Pour α ∈ [0.1], le quantile empirique d’ordre
α est une valeur de qα telle que Fn (qα ) ≥ α et Fn (qα− ) ≤ α. Notez qu’une telle valeur
n’est pas nécessairement unique (cf diagramme 2.2). Une médiane empirique est
un quantile empirique d’ordre α = 1/2, i.e. c’est une valeur de la variable observée
en dessous de laquelle et au dessus de laquelle les effectifs sont égaux ; le premier
quartile et le troisième quartile correspondent respectivement à α = 1/4 et α =
3/4.

Caractéristiques de dispersion : elles donnent une idée de la variabilité de la série, i.e. une
idée de la façon dont la série varie autour de sa ”tendance centrale”.
— Variance empirique : σn2 (x) = n1 ni=1 (xi − x̄n )2 = rj=1 fj (yj − x̄n )2 ;
P P
— Ecart interquartile : q3/4 − q1/4 .

Une représentation synthétique de ces caractéristiques est donnée par le diagramme-boı̂te


(”boxplot” en anglais”), qui donne les quartiles, la médiane, et les valeurs extrêmes de la série.
Sa représentation est donnée dans la figure 2.3.
12 ANALYSE DES DONNEES. FABIENNE CASTELL.

0.8

frequence cumulee
0.72

0.6

0.4 Tout l’intervalle est


Quantile d’ordre ! quantile d’ordre 0.72
0.2
!

0
0 2 4 6 8 10 12
Nombre de mois entre fin des etudes et premier CDI

10

médiane
8
Quantile d’ordre !

6
Tout l’intervalle est
4 quantile d’ordre 0.72

2 0.72

0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
!

Figure 2.2 – Quantiles empiriques sur les données de l’exemple 2.1.


10
8
6
4
2

Figure 2.3 – Diagramme-boı̂te sur les données de l’exemple 2.1.


CHAPITRE 2. Statistique descriptive unidimensionnelle. 13

2.2 Une seule variable quantitative continue.


Une variable quantitative est dite continue lorsqu’elle peut prendre à priori un continuum
de valeurs possibles, comme par exemple la température. Dans ce cadre, on se retrouve avec
une série de données (x1 , · · · , xn ) où la plupart des xi sont distincts, le cas de xi égaux résultant
essentiellement de la ”troncature” des données (écriture à la deuxième décimale par exemple).
Là encore, chacun des individus peut être affecté d’un poids, la série des poids étant notée
(w1 , · · · , wn ). Ici, on supposera que tous les individus ont même poids.

2.2.1 Représentations graphiques.


Courbe cumulative ou Fonction de répartition empirique : elle est définie de la même façon
que dans le cas discret. C’est le graphe de la fonction de répartition empirique définie par
(2.2). Si on note (x(1) , · · · , x(n) ) la suite des (x1 , · · · , xn ) ordonnée par ordre croissant, et
si on pose x(0) = −∞, x(n+1) = +∞, on a par définition de Fn (x),
i
Fn (x) = , ∀x ∈ [x(i) ; x(i+1) [ (i = 0, . . . , n) .
n
Fn est donc une fonction en escalier, dont les marches sont de hauteur 1/n et dont les
sauts sont situés sur les points de l’échantillon de données (cf figure 2.4). On peut aussi
la représenter comme une fonction linéaire par morceaux (cf figure 2.4).
Quand on suppose que les données (x1 , · · · , xn ) sont une réalisation de n variables
aléatoires i.i.d. (X1 , · · · , Xn ) (ce qu’on notera (x1 , · · · , xn ) = (X1 (ω), · · · , Xn (ω)) où ω
désigne l’échantillon particulier qu’on est en train de regarder), et que les Xi sont de
même fonction de répartition F , la fonction de répartition empirique permet de se faire
une idée de F . La loi des grands nombres dit en effet que pout tout x ∈ R,
n
1X
lim Fn (x) = lim 1IXi (ω)≤x = P(X1 ≤ x) = F (x) ,
n→+∞ n→+∞ n
i=1

et on peut montrer que la convergence est uniforme (théorème de Glivenko-Cantelli).


Histogramme et histogramme normalisé : Le diagramme en bâtons est remplacé par la no-
tion d’histogramme. On partitionne l’ensemble (disons R) dans lequel vivent les va-
riables xi :
R = ∪ri=1 Ii ; Ii ∩ Ij = ∅ si i 6= j .
A chacun des ensembles Ij , on associe son effectif
n
X
nj = card {xi tel que xi ∈ Ij } = 1IIj (xi ) .
i=1

L’histogramme associé à ce découpage est la courbe x ∈ Ij 7→ Hn (x) = nj .


Notez que l’histogramme dépend fortement du choix de la partition.
Notez aussi que Hn (x) dx = rj=1 nj |Ij | =
R P
6 1 en général. Si on veut normaliser de façon
à ce que l’histogramme soit une densité de probabilité, différentes possibilités s’offrent
14 ANALYSE DES DONNEES. FABIENNE CASTELL.

à vous. Une façon automatique de procéder (adoptée par défaut par les logiciels) est de
diviser l’intervalle [xmin ; xmax ] (où xmin = min(xi ) et xP
max = max(xi ))P
en k intervalles
de même longueur h = (xmax − xmin )/k. Dans ce cas, j=1 nj |Ij | = h rj=1 nj = hn =
r

n(xmax − xmin )/k. L’histogramme normalisé est alors la courbe


k nj
x ∈ Ij 7→ hn (x) = .
xmax − xmin n
Quand les intervalles Ij ne sont pas de même longueur, on peut normaliser l’histogramme
de façon à s’assurer que l’histogramme normalisé soit ”une approximation de la densité”.
C’est ce qui expliqué dans les lignes qui suivent.
Histogramme et estimation de densité : Quand on suppose que les données (x1 , · · · , xn ) sont
une réalisation de n variables aléatoires i.i.d. (X1 , · · · , Xn ), et si on suppose que les Xi
sont de densité commune fX , alors pour tout x ∈ Ij ,
n
1 1X
Hn (x) = 1IIj (Xi (ω)) .
n n i=1

Par la loi des grands nombres, on a alors pour (presque) tout ω,


n Z
1X
lim 1IIj (Xi (ω)) = P [X1 ∈ Ij ] = fX (y) dy ≈ fX (x) |Ij | ,
n→+∞ n Ij
i=1

où la dernière approximation suppose que l’intervalle Ij soit de petite longueur, et que
la densité fX soit régulière. Ainsi pour une partition assez fine, la fonction hn : x ∈ Ij 7→
1 n
n n
H (x)/ |Ij | = n|Ijj | est une bonne approximation de fX .
Estimation de densité. L’histogramme normalisé présenté précédemment a le défaut de dépendre
du choix de la partition, et ce choix affecte beaucoup la qualité de l’estimation de la
densité. Aussi, d’autres méthodes d’estimation de la densité ont été développées. Une
méthode courante est la méthode du noyau qui propose d’estimer fX par
n  
1 X x − xi
ĥn,λ (x) = K ,
nλ i=1 λ

où
— la fonction K (le noyau) est une fonction positive,
 2  paire, d’intégrale 1 (par exemple
la densité de la loi N(0, 1) : K(x) = √2π exp − x2 ) ;
1

— le paramètre dit de lissage λ est à choisir (strictement positif..).


En effet, la loi des grands nombres dit à nouveau que
n       
x − Xi x − X1 x−y
Z
1 X 1 1
lim K = E K = K fX (y) dy
n→∞ nλ λ λ λ λ λ
i=1
Z
= K(z)fX (x − λz) dz
CHAPITRE 2. Statistique descriptive unidimensionnelle. 15

où la dernière égalité


R vient du changement de variable
R z = (x − y)/λ. Si fX est régulière,
on voit que limλ→0 K(z)fX (x − λz) dz = fX (x) K(z) dz = fX (x). Ainsi,

lim lim ĥn,λ (x) = fX (x) .


λ→0 n→∞

Des résultats plus sophistiqués (et qui nous dépassent ici) étudient les ”meilleures façons”
de choisir λ en fonction de n et des données (λ = λ̂n (x1 , · · · , xn )) de telle sorte que
limn→∞ λ̂n = 0 et que limn→∞ ĥn,λ̂n (x) = fX (x) le ”plus vite” possible.

2.2.2 Caractéristiques numériques.


Ce sont les mêmes que dans le cas discret :
Caractéristiques de position :
— Moyenne empirique : x̄n = n1 ni=1 xi ;
P
— Quantiles empiriques : La fonction ”quantile empirique” est la fonction inverse de
la fonction de répartition empirique. Selon que la fonction de répartition empirique
est vue comme une fonction en escalier ou comme une fonction linéaire par morceaux,
on aboutit à deux notions légèrement différentes pour les quantiles. L’avantage de la
représentation ”linéaire par morceau” pour la fonction de répartition empirique, est
de lever les ambiguités dues aux ”marches” de l’escalier. C’est cette solution qui est
en général adoptée par les logiciels.
Caractéristiques de dispersion :
— Variance empirique : σn2 (x) = n1 ni=1 (xi − x̄n )2 ;
P
— Ecart interquartile : q3/4 − q1/4 .
Diagramme-boı̂te : représentation synthétique des caractéristiques de position et de disper-
sion.
Exemple 2.1: Voici sur le jeu de données suivant une illustration des différentes notions
introduites précédemment.

0.5799 3.4561 0.4609 3.908 4.3653 -0.6389 0.9086 4.8374 1.6108 -2.7677

La figure 2.4 donne les différentes représentations graphiques. Les caractéristiques numériques
sont :
— Moyenne empirique : x̄n = 1.67207 ;
— Mediane empirique : m̂n = 1.259778 ;
— Variance empirique : σn2 (x) = 5.97284 ;
— Ecart inter-quartile empirique : dˆn = 3.304417.

2.3 Une seule variable qualitative.


Comme leur nom l’indique, les variables qualitatives décrivent une ”qualité” de l’individu
(sexe, profession, marque d’un produit, ....etc). Si les ”qualités” regardées sont ordonnées (men-
tion à un concours par exemple), on parle de variables ordinales. Sinon, on parle de variables
16 ANALYSE DES DONNEES. FABIENNE CASTELL.

Histogramme normalisé Estimateur à noyau

0.20

0.12
0.15

0.08
hn(x)

hn(x)
0.10

0.04
0.05
0.00

0.00
−4 −2 0 2 4 6 −5 0 5

x N = 10 Bandwidth = 1.388

Courbes cumulatives Diagramme boîte


1.0

4
0.8

2
0.6
Fn(x)

0.4

0
0.2

−2
−2 0 2 4

Figure 2.4 – Les différentes représentations graphiques sur les données de l’exemple 2.1.

nominales. Pour les variables qualitatives, les caractéristiques numériques n’ont aucun sens.
On se contente donc des représentations graphiques (diagramme en colonnes, diagramme
en barre ou camembert) , qui donnent pour chaque modalité yj de la variable qualitative
n
regardée, son effectif nj , ou sa fréquence fj = nj . Ces différentes représentations sont données
dans la figure 2.5 pour les données de l’exemple 2.3 dû à Fisher sur un échantillon de n = 3883
écossais.
Exemple 2.1:

Blond Roux Châtain Brun Noir de jais


nj 1136 216 1526 955 50

2.4 Vers la statistique inférentielle. Normalisation de don-


nées quantitatives.
Lorsque l’on veut aller plus loin qu’une simple description des données, i.e. lorsqu’ on veut
faire de la prédiction ou des tests, le statisticien est amené à faire des hypothèses sur son jeu
de données, qui définissent un modèle statistique. En particulier, beaucoup de méthodes sta-
tistiques (dites paramétriques) suppose que les données (x1 , · · · , xn ) sont une réalisation parti-
culière de n variables (X1 , · · · , Xn ) indépendantes (indépendance des individus dans l’échantillon),
de même loi (les individus proviennent d’une population ”homogène”). Pour des données quanti-
tatives, cette loi est souvent supposée être une loi normale N(µ, σ 2 ) (on dit alors que (x1 , · · · , xn )
est une réalisation d’un n-échantillon de la loi N(µ, σ 2 )). Cette hypothèse de normalité peut
CHAPITRE 2. Statistique descriptive unidimensionnelle. 17

Diagramme en colonnes

0.3
0.2
0.1
0.0

Blond Roux Chât Brun Noir

Diagramme baton Camembert

Blond Brun
Roux
Roux Noir Blond
Chât

Noir
Chât

Brun

Figure 2.5 – Les différentes représentations graphiques sur les données de l’exemple 2.3.

se justifier par le théorème de la limite centrale lorsque la taille de l’échantillon est grand.
Mais, dans la plupart des cas, elle n’est pas forcément justifiée. Cela pose évidemment problème
puisque toute l’analyse statistique qui suit, dépend fortement de la validité du modèle supposé.
Quand on veut utiliser ces méthodes, on doit donc faire face aux deux problèmes suivants :
1. Peut-on raisonnablement supposer que (x1 , · · · , xn ) est la réalisation d’un n-échantillon
de la loi N(µ, σ 2 ) ?
2. Si ce n’est pas le cas, que faire ?

2.4.1 Comment tester la normalité ?


Pour tester la normalité, on peut utiliser un des tests d’ajustement vus dans le cours de
”Statistique 2” (test d’ajustement du χ2 , de Kolmogorov, de Shapiro....). Pour avoir une idée
plus visuelle de l’écart à la normalité, on peut aussi tracer sur un même graphe la fonction
de répartition empirique des données préalablement centrées et réduites, et la fonction de
répartition Φ de la N(0, 1). Bien plus visuel est le diagramme de type ”Q-Q-plot” (littéralement
graphe Quantile-Quantile) qui trace les quantiles empiriques en fonction des quantiles de la loi
à laquelle on fait l’ajustement. S’il s’agit de la loi normale, ce graphe est donc le graphe de
{(Φ−1 (α), Qn (α)), α ∈ [0; 1]}, où Qn est la fonction quantile empirique, i.e. l’inverse de la fonc-
tion de répartition empirique Fn .
Si les données sont la réalisation d’un n-échantillon de N(0, 1), alors Fn ∼ F = Φ, et donc
Qn ∼ Φ−1 . Le ”Q-Q-plot” est donc proche de la droite y = x.
 d’un n-échantillon de N(µ, σ ), alors Fn (x) ' F (x) = P(X−1
2
Si les données sont issus 1 ≤ x) =
X1 −µ x−µ x−µ
P( σ ≤ σ ) = Φ σ , et on a donc en inversant cette relation Qn (α) ' µ + σΦ (α). Le
18 ANALYSE DES DONNEES. FABIENNE CASTELL.

”Q-Q-plot” est donc ”proche” de la droite y = µ+σx ; l’ordonnée à l’origine donne le paramètre
de position µ, et la pente donne le paramètre de dispersion σ.

2.4.2 Que faire si l’hypothèse de normalité n’est pas satisfaite ?


On a dans ce cas essentiellement deux options : soit on s’affranchit de l’hypothèse de norma-
lité en utilisant une autre méthode statistique qui n’en a pas besoin (souvent une méthode dite
”non paramétrique” qui ne fait pas d’hypothèse forte sur la loi dont sont issues les données),
soit on essaie de transformer les données par une fonction G de telle sorte que les données
transformées (y1 , · · · , yn ) = (G(x1 ), · · · , G(xn )) puissent être considérées comme une réalisation
d’un n-échantillon de N(µ, σ 2 ). Le problème est alors de trouver une telle transformation G que
l’on choisira de préférence croissante pour conserver l’ordre des données.

Réponse théorique.
Si on suppose que (x1 , · · · , xn ) est une réalisation d’un n-échantillon de la loi de fonction de
répartition F connue, alors G = Φ−1 ◦ F . On a en effet la proposition :

Proposition 2.4.1 : Si X est une variable de fonction de répartition F continue, Y = Φ−1 ◦


F (X) est une variable de loi N(0, 1).

Preuve : On fait la preuve dans le cas où F est continue et strictement croissante. Dans ce
cas, F est une bijection de R dans ]0, 1[. Notons F −1 sa fonction inverse. Calculons la fonction
de répartition de Y .

P(Y ≤ x) = P(Φ−1 (F (X)) ≤ x) = P(F (X) ≤ Φ(x)) = P(X ≤ F −1 (Φ(x))) = F (F −1 (Φ(x))


= Φ(x) .

La fonction de répartition de Y étant la fonction de répartition de N(0, 1), Y ∼ N(0, 1).


Cette démonstration se généralise au cas général où F n’est pas supposée strictement crois-
sante. La seule difficulté est de donner un sens à la fonction F −1 . On introduit alors la notion
d’inverse généralisée (cf section 2.6). .

Cette proposition n’est pas très utile en pratique, puisqu’on ne connaı̂t pas F en général,
un des buts de l’étude statistique étant justement d’avoir des informations sur F .

En pratique.
On peut essayer de ”deviner” une fonction G. A ce titre, le Q-Q-plot peut s’avérer utile. En
effet, si on reconnaı̂t visuellement une ”forme” pour le Q-Q-plot du type y = H(x) pour une
fonction H, alors on peut prendre G = H −1 . En effet,

∀α ∈]0, 1[ , F −1 (α) = H(Φ−1 (α))


⇔ ∀α ∈]0, 1[ , Φ−1 (α) = H −1 (F −1 (α))
⇔ ∀x ∈ R , Φ(x) = F (H(x)) = P(X ≤ H(x)) = P(H −1 (X) ≤ x)
CHAPITRE 2. Statistique descriptive unidimensionnelle. 19

2
1
0
hλ, 0(x)

−1
−2
−3

λ=0
λ = 0.2
λ = 0.5
λ=1
−4

λ=2
λ = 10

−2 0 2 4 6 8 10

Figure 2.6 – Les transformations de Bickel & Doksum

Les transformations de Box-Cox.


Lorsqu’on n’a pas d’idée a priori de la fonction G, Box et Cox ont proposé de la chercher
dans la famille de transformations dépendant de deux paramètres λ > 0 et θ ∈ R :

log(x + θ) si λ = 0
gλ,θ (x) = (x+θ)λ −1 , x > −θ .
λ
si λ > 0

Pour λ > 0, la fonction gλ,θ est strictement croissante de ] − θ, +∞[ sur ] − λ1 , +∞[. Les
données transformées sont donc toujours strictement supérieures à − λ1 , et ne peuvent donc pas
à proprement parler être issues d’une loi normale (dont le support est R). Il ne peut donc s’agir
que de ”s’approcher de la normalité”. Pour pallier à ce défaut, Bickel & Doksum on proposé de
modifier les transformations précédentes, en les étendant sur R :
(
log(x + θ) si λ = 0, x > −θ
hλ,θ (x) = sgn(x+θ)|x+θ|λ −1 , . (2.3)
λ
si λ > 0

Les graphes des fonctions hλ,θ (x) pour θ = 0 et différentes valeurs de λ sont donnés dans la
figure 2.6. Des procédures automatiques pour choisir les paramètres λ et θ ont fait l’objet de
diverses études. Elles sont implémentées sous R (fonction boxcox du package MASS pour les
fonctions de Box & Cox). Elles sont basées sur des estimations par maximum de vraisemblance.
On suppose qu’il existe des paramètres (λ, θ) tels que les données transformées (y1 , · · · , yn ) =
(hλ,θ (x1 ), · · · hλ,θ (xn )) sont une réalisation d’un n-échantillon de N(µ, σ 2 ) . Cette hypothèse
permet d’identifier la loi de la variable X en fonction des quatre paramètres (λ, θ, µ, σ 2 ). En
20 ANALYSE DES DONNEES. FABIENNE CASTELL.

effet pour tout x ∈ R, en utilisant la croissance de hλ,θ ,


Z hλ,θ (x)
P [X ≤ x] = P [hλ,θ (X) ≤ hλ,θ (x)] = fµ,σ2 (y) dy ,
−∞

où fµ,σ2 désigne la densité de la loi N(µ, σ 2 ). En dérivant par rapport à x, on en déduit que
la densité de la variable X est fµ,σ2 (hλ,θ (x))h0λ,θ (x). Par conséquent, la log vraisemblance du
modèle est
n
X n
X
2
Ln (λ, θ, µ, σ ) = log(fµ,σ2 (hλ,θ (xi ))) + log(h0λ,θ (xi ))
i=1 i=1
n n
n n 1 X X
2
= − log(2π) − log(σ ) − 2 2
(hλ,θ (xi ) − µ) + log(h0λ,θ (xi ))
2 2 2σ i=1 i=1

Les paramètres (λ, θ, µ, σ 2 ) sont alors identifiés par maximum de vraisemblance. Lorsque (λ, θ)
est fixé, la maximisation en (µ, σ 2 ) donne, comme dans le cas des échantillons gaussiens :
n
1X
µ̂(λ, θ) = hλ,θ (xi ) ;
n i=1
n
2 1X
σ̂ (λ, θ) = (hλ,θ (xi ) − µ̂(λ, θ))2 .
n i=1
On a alors à maximiser en (λ, θ) la fonction
n
n n n X
Ln (λ, θ, µ̂(λ, θ), σ̂ 2 (λ, θ)) = − log(2π) − log(σ̂ 2 (λ, θ)) − + log(h0λ,θ (xi ))
2 2 2 i=1

En reprenant l’expression de hλ,θ (x), on peut voir que h0λ,θ (x) = |x + θ|λ−1 . On a donc à
maximiser en (λ, θ) la fonction
n
n X
− log(σ̂ 2 (λ, θ)) + (λ − 1) |xi + θ| .
2 i=1

Exemple 2.1: On fait une normalisation des données qui se trouvent dans le fichier
Chap1BoxCox.csv. La figure 2.7 donne différentes représentations des données brutes. Il ap-
paraı̂t clairement sur ces diagrammes que la distribution des données est assez éloignée d’une
normale. Ceci est confirmé par un test de normalité (ici, le test de Kolmogorov) qui donne
une Pvaleur égale à 5 10−49 . Après mise en oeuvre de la fonction boxcox, les diagrammes
correspondant aux données transformées sont donnés dans la figure 2.8. Les choses se sont
améliorées. Mais il reste tout de même des écarts à la loi normale, en particulier dans les pe-
tites valeurs. La Pvaleur du test de normalité est maintenant de 6%, ce qui est nettement mieux
que précédemment, mais qui reste cependant suffisamment faible pour qu’on puisse rejeter la
normalité des données transformées. Pour les données de cet exemple, les transformations de
Box-Cox ne permettent pas de normaliser les données.
CHAPITRE 2. Statistique descriptive unidimensionnelle. 21

1.4 Densités Fonctions de répartition Graphe Quantile−Quantile

Estimateur à noyau

1.0

^, σ
N(µ ^) ●
●●●●●

●●●


●●


●●


●●

●●


●●


●●

●●


●●




●●


●●



●●



●●


●●





●●


●●


●●



1.2



●●




●●


●●
●●


●●



●●





1

●●



●●

●●



●●


●●



●●


●●

0.8



●●



●●

●●





●●

●●



●●



●●



●●







●●


1.0



●●

●●

●●
●●














●●

●●




●●






●●

0.6


0

0.8

Quantile Empirique








Density



0.6

0.4

−1

0.4





0.2





0.2

●●

−2
●●

Empirique
0.0

0.0


^, σ
N(µ ^)

−2 −1 0 1 2 3 −2 −1 0 1 2 3 −0.5 0.0 0.5 1.0 1.5 2.0


^, σ
Quantile de N(µ ^)
N = 1000 Bandwidth = 0.06752

Figure 2.7 – Ecart à la normalité des données brutes

Densités Fonctions de répartition Graphe Quantile−Quantile


70

Estimateur à noyau
1.0


^, σ
N(µ ^)

●●

60

●●



0.03

●●
0.8


●●



●●




●●

●●


50


●●








●●
●●









●●


●●


●●


●●



●●

●●
●●

0.6

●●





40





Quantile Empirique


●●
●●


0.02


●●
●●








Density










●●
●●








●●
●●







●●
30




●●











0.4




●●

●●


●●











●●







●●
●●



●●

20




●●
0.01

●●



●●



●●







●●




0.2




●●



●●




10


●●



●●



●●





0.00

Empirique ●
0.0

●●

0

● ●
● ●●●●●●●●
●●
^, σ
N(µ ^)

0 20 40 60 80 0 20 40 60 80 0 20 40 60
^, σ
Quantile de N(µ ^)
N = 1000 Bandwidth = 2.492

Figure 2.8 – Ecart à la normalité des données transformées


22 ANALYSE DES DONNEES. FABIENNE CASTELL.

2.5 Exercices
2.5.1 Une seule variable quantitative discrète.
Exercice 1: : Adapter les définitions d’effectifs, effectifs cumulés, fréquences, fréquences cu-
mulées, moyenne... etc, au cas où les individus sont affectés des poids (wi ). Reprendre les
données de l’exemple 2.1 en supposant que les individus ne sont plus des étudiants, mais des
promotions entières (le chiffre du nombre de mois séparant la fin des études et le premier CDI
étant alors une moyenne sur la promotion). Les effectifs des différentes promotions regardées
étaient : 5 6 6 8 10 7 6 11 9 9 7 6 5 8 8 12 9 10 10 12 11 10 10 9 8. Affecter les poids qu’il
convient à chaque promotion. Dessiner alors la fonction de répartition empirique, la fonction
quantile empirique, et calculer moyenne empirique et médiane empirique.
Exercice 2: : Reproduire le diagramme de la figure 2.3 en utilisant R. Ecrire un programme R
prenant en entrée une série de données quantitatives discrètes (x1 , · · · , xn ), une série de poids
(w1 , · · · , wn ) et rendant le diagramme-boı̂te correspondant. Le faire tourner sur les données de
l’exercice précédent.

2.5.2 Une seule variable quantitative continue.


Exercice 3: On a observé les 10 données suivantes :

0.8140209 -0.3069065 -0.1498516 0.4691868 -1.3875180 0.1511367 0.7778028 1.2516469


-1.4545156 0.1996476

1. Tracer l’histogramme correspondant au découpage

R =] − ∞, −3]∪] − 3, −2]∪] − 2, −1]∪] − 1, 0]∪]0, 1]∪]1, 2]∪]2, 3]∪]3, +∞[ .

2. Tracer la fonction de répartition empirique ;


3. Calculer moyenne, médiane, écart inter-quartile.
4. Mêmes questions lorsque les deux premiers individus ont un poids deux fois plus impor-
tant que les autres.

Exercice 4: Approximation de la densité par un histogramme.


Pour différentes valeurs de n,
1. générer un échantillon (x1 , · · · , xn ) d’une variable N(0, 1) ;
2. tracer l’histogramme normalisé hn correspondant à un découpage de [-4,4] en 100 parties
de même longueur ;
3. en voyant hn comme une fonction continue à droite, calculer les quantités

dn = sup |hn (x) − φ(x)| ,


x

où φ(x) désigne la densité de la loi N(0, 1)


CHAPITRE 2. Statistique descriptive unidimensionnelle. 23

4. Tracer le graphe n → dn . Commenter.


Exercice 5: Approximation de la fonction de répartition par la fonction de répartition empi-
rique.
Pour différentes valeurs de n,
1. générer un échantillon (x1 , · · · , xn ) d’une variable N(0, 1) ;
2. tracer la courbe cumulative Fn ;
3. en voyant Fn comme une fonction continue à droite, calculer les quantités

dn = sup |Fn (x) − Φ(x)| ,


x

où Φ(x) désigne la fonction de répartition de la loi N(0, 1) ;


4. tracer le graphe n → dn . Commenter.
Exercice 6: Sensibilité d’un histogramme au choix du découpage.
Générer un échantillon (x1 , · · · , xn ) de taille n = 10000 d’une variable N(0, 1). Pour différents
choix d’une partition P de R en 30 intervalles disjoints,
1. calculer l’histogramme HP de (x1 , · · · , xn ) correspondant à la partition P ;
2. en voyant HP comme une fonction continue à droite, calculer les quantités

dP = sup |HP (x) − φ(x)| ,


x

où φ(x) désigne la densité de la loi N(0, 1).


3. Tracer le nuage de points (P, dP ). Commenter.
Exercice 7: Estimation de la densité par une méthode à noyau.
Pour différentes valeurs de n,
1. générer un échantillon (x1 , · · · , xn ) d’une variable N(0, 1) ;
2. tracer l’estimateur à noyau φ̂n donné par la fonction density de R ;
3. calculer les quantités
dn = sup φ̂n (x) − φ(x) ,

x

où φ(x) désigne la densité de la loi N(0, 1)


4. Tracer le graphe n → dn . Commenter.

2.5.4 Normalisation de données quantitatives


Exercice 8:
1. Récupérer le jeu de données Chap1BoxCox.csv.
2. Quel test de normalité pouvez vous mettre en oeuvre sur ce jeu de données ? Rappeler
le principe de ce test (hypothèses, statistique utilisée et loi de cette statistique sous
l’hypothèse nulle), avant de le mettre en oeuvre avec R.
24 ANALYSE DES DONNEES. FABIENNE CASTELL.

1.0

0.8
0.6
F(x)

0.4


0.2
0.0

0 2 4 6 8

Figure 2.9 – Un exemple de fonction de répartition non continue.

3. Tracer le graphe quantile-quantile adapté (fonctions qqplot, qqnorm). Commenter.


4. Au vu de ce graphe, proposer éventuellement une transformation des données permettant
de les normaliser.
5. Mettre en oeuvre avec R la normalisation de Box-Cox (fonction boxcox du package
MASS).

2.6 Pour aller plus loin : fonctions de répartition, simu-


lation.
2.6.1 Fonction de répartition.
Soit X une variable aléatoire. On rappelle que sa fonction de répartition est la fonction
F : t ∈ R 7→ P(X ≤ t) ∈ [0, 1]. Une fonction de répartition est croissante et vérifie

lim F (t) = 0 , lim F (t) = +∞ .


t→−∞ t→+∞

Une fonction de répartition n’est pas forcément continue. Par exemple, la fonction de répartition
d’une variable X qui prend trois valeurs 0, 2, 7, avec les probabilités

P(X = 0) = 1/4 , P(X = 2) = 1/4 , P(X = 7) = 1/2 .

est une fonction en escalier représentée dans la figure 2.9. En revanche, une fonction de répartition
est toujours continue à droite (ce qui signifie que pour tout t0 ∈ R, limt&t0 F (t) = F (t0 )) et
CHAPITRE 2. Statistique descriptive unidimensionnelle. 25

F(x)
1

u3

u2

u1

F−1(u1) F−1(u2) F−1(u3) x

Figure 2.10 – Représentation de F −1 (u)

admet des limites à gauche (ce qui signifie que pour tout t0 ∈ R, limt%t0 F (t) existe sans être
nécessairement égale à F (t0 ). On note cette limite F (t0 )− ). Dans l’exemple de la figure 2.9, on
a F (2)− = 1/4 et F (2) = 1/2. Il est alors facile de voir que pour tout t0 ∈ R, on a

P(X = t0 ) = F (t0 ) − F (t0 )− .

Ainsi, si la fonction de répartition F est continue en t0 , alors P(X = t0 ) = 0 et F (t0 ) = P(X <
t0 ). C’est en particulier le cas si X a une densité f , auquel cas
Z t
F (t) = f (x) dx
−∞

est continue partout.


A toute fonction de répartition, on peut associer son inverse généralisé F −1 : [0; 1] →
7 R
défini par :
F −1 (t) = inf {x, F (x) ≥ t} . (2.4)
Si F est continue et strictement croissante, F est une bijection de R dans (0, 1), et l’inverse
généralisée de F coı̈ncide avec l’inverse au sens usuel de F . L’inverse généralisée est représentée
sur la figure 2.10, et vérifie les propriétés suivantes :

Proposition 2.6.1 Pour tout u ∈ [0, 1], et tout t ∈ R


1. F (F −1 (u)) ≥ u.
2. u ≤ F (t) ⇔ F −1 (u) ≤ t.
26 ANALYSE DES DONNEES. FABIENNE CASTELL.

3. Si F est continue, F (F −1 (u)) = u.

Concernant le point 1., on peut vérifier sur la figure 2.10 que F (F −1 (u2 )) > u2 .
Preuve :
1. Comme F −1 (u) = inf {x, F (x) ≥ u}, on peut trouver une suite de points xn vérifant
F (xn ) ≥ u, et décroissant vers F −1 (u). Comme F est continue à droite, on a alors
u ≤ limn→∞ F (xn ) = F (F −1 (u)).
2. Comme F −1 (u) = inf {x, F (x) ≥ u}, si F (x) ≥ u on a nécessairement F −1 (u) ≤ x.
Réciproquement, supposons que F −1 (u) ≤ x. Comme F est croissante, on a F (F −1 (u)) ≤
F (x). On déduit alors de 1. que F (x) ≥ u.
3. On sait déjà que F (F −1 (u)) ≥ u. Montrons que F (F −1 (u)) ≤ u. Pour cela on considère
une suite xn telle xn croı̂t vers F −1 (u), et telle que pour tout n xn < F −1 (u). Par 2., on
a F (xn ) < u. Comme F est continue, on a alors F (F −1 (u)) = limn→+∞ F (xn ) ≤ u.

Un résultat fondamental pour les tests de comparaison d’échantillons, mais aussi pour la
simulation numériques de variables aléatoires est le résultat suivant, qui dit qu’on peut trans-
former une variable aléatoire uniforme sur [0; 1] en une variable de loi fixée.
Proposition 2.6.2 Soit F la fonction de répartition d’une probabilité. Soit F −1 l’inverse
généralisée de F définie par (2.4).
1. Soit U une variable aléatoire de loi uniforme sur [0; 1]. Alors la variable aléatoire F −1 (U )
a pour fonction de répartition F .
2. Réciproquement, si X est une variable aléatoire de fonction de répartition F , et si F est
continue, alors la variable F (X) est de loi uniforme sur [0; 1].
Preuve :
1. On utilise le point 2. de la proposition 2.6.1. Pour tout t ∈ R,
Z F (t) Z F (t)
 −1 
P F (U ) ≤ t = P [U ≤ F (t)] = 1I[0;1] (x) dx = dx ;
−∞ 0

car F (t) ∈ [0; 1]. Donc P [F −1 (U ) ≤ t] = F (t). La fonction de répartition de F −1 (U ) est


donc F .
2. Pour tout t ∈ R,

0 si t ≤ 0 ;
P [F (X) < t] = car F prend ses valeurs dans [0; 1] .
1 si t > 1 ,
Soit donc t ∈]0; 1].
P [F (X) < t] = P [X < F −1 (t)] par 2. de la proposition (2.6.1) ;
= P [X ≤ F −1 (t)] car F est continue et P [X = F −1 (t)] = 0;
= F (F −1 (t))
= t en utilisant 3. de la proposiion (2.6.1).
CHAPITRE 2. Statistique descriptive unidimensionnelle. 27

Fn(x)
1 ●

1
n

X(1) X(2) X(n−1) X(n) x

Figure 2.11 – Représentation de F̂n (t). X(1) , · · · , X(n) est le réarrangement par ordre croissant
de X1 , · · · , Xn

2.6.2 Fonction de répartition empirique.


Supposons que l’observation soit constituée d’un n-échantillon (X1 , · · · , Xn ) de loi de fonc-
tion de répartition F inconnue. On peut estimer F par la fonction de répartition empirique
de l’échantillon n
1X
F̂n (t) = 1IXi ≤t .
n i=1

La loi des grands nombres dit en effet que pout tout t ∈ R, limn→+∞ F̂n (t) = P(X1 ≤ t) = F (t),
et on peut montrer que la convergence est uniforme (théorème de Glivenko-Cantelli). La fonction
de répartition empirique permet donc d’avoir une idée de la distribution dont sont issues les
données.
Si on note X(1) , · · · , X(n) la suite des X1 , · · · , Xn ordonnée par ordre croissant, et si on posant
X(0) = −∞, X(n+1) = +∞, on a par définition de F̂n (t),

i
F̂n (t) = , ∀t ∈ [X(i) ; X(i+1) [ (i = 0, . . . , n) .
n

F̂n est donc une fonction en escalier, dont les marches sont de hauteur 1/n et dont les sauts
sont situés sur les points de l’échantillon de données (cf figure 2.11).
28 ANALYSE DES DONNEES. FABIENNE CASTELL.
Chapitre 3

Statistique descriptive
bidimensionnelle.

Dans tout ce chapitre, on suppose qu’on a mesuré deux variables X et Y sur un échantillon
de n individus. La donnée de départ est donc un n-échantillon ((x1 , y1 ), · · · , (xn , yn )) du couple
de variables (X, Y ). On cherche ici à savoir s’il existe une relation entre ces deux variables,
autrement dit si connaı̂tre la valeur de X nous donne des informations sur la valeur de Y .

3.1 Deux variables quantitatives.


On suppose ici que les deux variables X et Y sont des variables quantitatives. Cette partie
donne quelques outils pour juger de la liaison entre ces deux variables.

3.1.1 Représentation graphique


Une première étape pour juger de la liaison entre deux variables est de représenter le nuage
de points : l’individu i est représenté dans un repère orthonormé par le point (xi , yi ). La figure
3.1 donne le nuage de points des données du fichier ozone.txt correspondant aux variables
x :”maximum journalier de la concentration en ozone dans l’air” (max03) et y :”température”
(T12). Le centre de gravité de ce nuage est (x̄n , y¯n ) (noté avec le symbole ♦ sur le graphe.)
Vu que les variables X et Y sont en général exprimées dans des unités qui n’ont rien à
voir entre elles (par exemple, poids et taille), il est parfois préférable de centrer et réduire ces
variables, i.e. de tracer le nuage des points (x̃i , ỹi ) où x̃i = xσin−x̄
(x)
n
(et de même pour ỹi ). Le
centre de gravité de ce nuage est (0, 0) et les données sont des nombres sans dimension.

3.1.2 Coefficient de corrélation linéaire empirique.


Définition et propriétés.
Le coefficient de corrélation linéaire empirique est la quantité
1
Pn
n i=1 (xi − x̄n )(yi − ȳn )
r= . (3.1)
σn (x)σn (y)

29
30 ANALYSE DES DONNEES. FABIENNE CASTELL.

Données brutes Données centrées et réduites

● ●

160
● ● ● ● ● ●
● ●
● ●
● ● ● ●

2
● ● ● ● ● ●

140
Maximum de la concentration en ozone

Maximum de la concentration en ozone


● ●

● ●
● ●
120

● ● ● ●

1
● ● ● ● ● ●
● ● ● ● ●
●●● ● ●●●
●● ●●
● ● ● ●
100

● ●● ● ● ●● ●
● ●● ● ● ●● ●
● ●
● ●
●● ● ●● ●

0
● ●
●● ● ● ●● ● ●
●● ● ●● ●● ● ●● ● ●● ●● ●
80


● ● ●
● ●
● ● ● ●● ● ● ● ● ●● ●
● ●● ● ●●
● ● ● ● ●● ● ●●
● ● ●
● ●
●●
●●● ●● ●
● ●● ●●
●●● ●● ●
● ●●
● ●● ● ● ●● ●
●● ●● ● ●● ●● ●
● ● ● ● ● ● ● ●

−1
● ●● ● ●●
60

● ● ● ● ● ● ● ●
● ●
●● ● ●● ●

● ●
● ●
40

15 20 25 30 −2 −1 0 1 2 3

Température Température

Figure 3.1 – Représentation du nuage de points.

Il vérifie les propriétés suivantes :

Proposition 3.1.1 :
1. r ∈ [−1; +1].
2. r = 1 (resp. −1) si et seulement si il existe un réel a > 0 (resp < 0), un réel b tel que
yi = axi + b pour tout i ∈ {1, · · · , n}.
3. r est une estimation consistante de ρ = cor(X, Y ) = √ cov(X,Y ) ;
var(X)var(Y )

Preuve :
~ et Y~ les vecteurs de Rn définis par :
Notons X
   
x1 − x̄n y1 − ȳn
~ =
X ..  ~ ..
, Y = .
 
 . .
xn − x̄n yn − ȳn

hX; ~i
~ Y
On a alors r = . Autrement dit, r n’est autre que le cosinus de l’angle formé par les
kX~ kkY~ k
deux vecteurs X~ et Y~ .
D E
~ ~ ~ ~
1. L’inégalité de Cauchy-Schwartz X; Y ≤ X Y montre que r ∈ [−1, 1].
~
2. Si r ∈ {−1; +1}, il y a égalité dans l’inégalité de Cauchy-Schwartz. L’angle formé par X
et Y~ vaut 0 ou π. Autrement dit, X ~ et Y~ sont deux vecteurs colinéaires de même sens
CHAPITRE 3. Statistique descriptive bidimensionnelle. 31

si r = 1 et de sens opposé si r = −1 : il existe un réel a (> 0 si r = 1 ; < 0 si r = −1)


tel que

Y~ = aX
~ ⇔ ∀i ∈ {1, · · · , n} , yi − ȳn = a(xi − x̄n )
⇔ ∀i ∈ {1, · · · , n} , yi = axi + (ȳn − ax̄n ) .

3. Notons R la variable aléatoire dont r est une réalisation :


1
Pn
n i=1 (Xi − X̄n )(Yi − Ȳn )
R= , (3.2)
σn (X)σn (Y )

où X̄n = n1 ni=1 Xi , et σn2 (X) = n1 ni=1 (Xi − X̄n )2 . Par la loi des grands nombres,
P P
limn→∞ X̄n = E(X). Un calcul simple montre que
n n n
1X 2 1X 1X
σn2 (X) = Xi − X̄n2 , (Xi − X̄n )(Yi − Ȳn ) = Xi Yi − X̄n Ȳn .
n i=1 n i=1 n i=1

La loi des grands nombres montre alors que limn→∞ σn2 (X) = E(X 2 ) − E(X)2 = var(X),
limn→∞ σn2 (Y ) = var(Y ) et limn→∞ n1 ni=1 (Xi − X̄n )(Yi − Ȳn ) = E(XY ) − E(X)E(Y ) =
P
cov(X, Y ). On en déduit que limn→∞ R = cor(X, Y ).

Comme le dit la proposition ci-dessus, le coefficient de corrélation linéaire ne permet de


détecter qu’une dépendance linéaire entre les données. Il est possible que deux variables ayant
des dépendances non linéaires entre elles, aient un coefficient de corrélation linéaire faible. Nous
reproduisons dans la figure 3.2 des graphes tirés du Saporta (page 133). Il s’agit d’illustrer les
différents ”défauts” du coefficient de corrélation linéaire. En particulier, le dernier graphe donne
quatre nuages de points très différents, ayant mêmes moyennes empiriques, mêmes variances
empiriques et même coefficient de corrélation empirique. On n’utilisera donc le coefficient
de corrélation linéaire qu’à bon escient, i.e. quand le tracé du nuage de points laisse
supposer une dépendance linéaire.

Test de corrélation linéaire.


Supposons que l’on soit dans une situation où l’emploi du coefficient de corrélation linéaire
est justifié, et que l’on observe une valeur ”élevée” de |r|. Quand peut-on dire que cette valeur
est signification non-nulle ? La proposition suivante permet de répondre à cette question dans
le cas où le couple (X, Y ) est un couple gaussien. Notez que sous cette hypothèse, tester la
non-corrélation revient à tester l’indépendance.
 
µX
Proposition 3.1.2 Soit (X, Y ) un couple gaussien de moyenne et de matrice de
  µ Y
2
σX ρσX σY
covariance . Soit (X1 , Y1 ), · · · (Xn , Yn ) des couples indépendants de même
ρσX σY σY2
loi que (X, Y ) et notons R la variable√ ”corrélation empirique” définie par (3.2).
R
Si ρ = 0, la variable T = 1−R2 n − 2 est une variable de Student à n − 2 degrés de liberté.

32 ANALYSE DES DONNEES. FABIENNE CASTELL.

Figure 3.2 – Les dangers du coefficient de corrélation linéaire, d’après Saporta.


CHAPITRE 3. Statistique descriptive bidimensionnelle. 33

Preuve : elle fait l’objet de l’exercice 3 (section 3.4.1).

Sous les hypothèses faites de normalité, cette proposition permet de tester (H0 ) : ”ρ = 0”
r
contre (H1 ) : ”ρ 6= 0”. Notez en effet que la fonction r ∈] − 1, +1[7→ √1−r 2 ∈ R est une

fonction impaire
√ et croissante. Dire que |R| ≥ t (t > 0) revient donc à dire que |T | ≥ u (où
t
u = 1−t2 n − 2). On choisit donc une règle de décision du type :

— Si |T | > u, on décide de rejeter (H0 ) ;


— Si |T | ≤ u, on décide de ne pas rejeter (H0 ) ;
Le seuil critique u est à choisir en fonction du niveau de test α qu’on s’est fixé. Par définition

α = P(H0 ) [ rejeter (H0 )] = Pρ=0 [|T | > u] = P [|Stn−2 | > u] .

u est donc le quantile d’ordre 1 − α2 de la loi de Student à n − 2 degrés de liberté. Dans R, le


test de corrélation linéaire peut être fait grâce à la fonction cor.test.

3.1.3 Coefficient de corrélation des rangs de Spearman.


Un autre coefficient pour juger de la liaison entre deux variables quantitatives est le coef-
ficient de corrélation des rangs introduit par Spearman. Pour le définir, on associe à chaque
individu i de l’échantillon son rang suivant chacune des variables. Notons ri le rang de l’individu
i suivant la variable x et si son rang suivant la variable y. Ainsi ri = k ∈ {1, · · · , n} signifie que
x(k) = xi où x(1) < x(2) < · · · < x(n) est le réarrangement par ordre croissant de x1 , · · · , xn (cf
exemple). Notez que si on suppose que (x1 , · · · , xn ) est une réalisation d’un n-échantillon d’une
variable X de densité fX , alors
Z Z
P(X1 = X2 ) = fX (x1 )fX (x2 ) dx1 dx2 = 0 .
x1 =x2

Ainsi, il ne peut pas en théorie se poser de problèmes d’ex-aequo. Sous cette hypothèse, si
deux valeurs xi sont égales, cela est dû à une troncature lors de la transcription des données.
Dans ce cadre, r = (r1 , · · · , rn ) et s = (s1 , · · · , sn ) sont bien définis, et sont des permutations
de {1, · · · , n}. Spearman a proposé de mesurer la corrélation entre les deux variables par le
coefficient de corrélation linéaire entre r et s :
cov(r, s)
rS = p .
var(r) var(s)

Notez que puisque r est une permutation, r̄ = n1 ni=1 ri = n1 nj=1 j = n+1


P P
2
, et que var(r) =
1
Pn 2 2 1
Pn 2 (n+1)2 n(n+1)(2n+1) (n+1)2 n2 −1
n i=1 ri − r̄ = n j=1 j − 4
= 6n
− 4 = 12 . Il en est de même pour s.
Ainsi,
1
Pn (n+1)2 n
i=1 ri si − 12 n+1
X
n 4
rS = n2 −1
= 2
ri si − 3 .
12
n(n − 1) i=1
n − 1
2 2 2
Pn Pn 2
Par ailleurs,
Pn 2 Pn en utilisant l’identité
Pn 2 Pn 2xy = x + y − (x − y) , on a 2 i=1 ri s i
Pn = i=1 ri +
2 2 1 2
i=1 si − i=1 (ri − si ) = 2 j=1 j − i=1 (ri − si ) = 3 n(n + 1)(2n + 1) − i=1 (ri − si ) .
34 ANALYSE DES DONNEES. FABIENNE CASTELL.

On obtient finalement : n
6 X
rS = 1 − 2
(ri − si )2 . (3.3)
n(n − 1) i=1
Le coefficient de corrélation de Spearman vérifie les propriétés suivantes :
Proposition 3.1.3 1. rs ∈ [−1; +1] ;
2. rS = +1 si et seulement si les deux classements sont identiques (x et y ”varient dans le
même sens”) ;
3. rS = −1 si et seulement si ri = n + 1 − si pour tout i ∈ {1, · · · , n}. Autrement dit,
rS = −1 ssi les deux classements sont inversés (x et y ”varient dans des sens opposés”).
4. Supposons que ((x1 , y1 ), · · · , (xn , yn )) est une réalisation de ((X1 , Y1 ), · · · , (Xn , Yn )), n-
échantillon d’un couple de variables (X, Y ) à densité. Supposons de plus que les variables
X et Y sont indépendantes. Alors, la loi de la variable aléatoire RS (définie à partir
des (Xi , Yi ) de la même façon que rS est définie à partir des (xi , yi )), ne dépend que de
n, est indépendante de la loi de (X, Y ), et est symétrique.
La loi de la variable RS est tabulée. Cette proposition permet de tester (H0 ) : ”X et Y sont
indépendantes” contre (H1 ) : ”X et Y sont liées”. La région de rejet du test est du type :
1. Si |RS | > t, on rejette (H0 ) : X et Y sont liées ;
2. Si |RS | ≤ t, on ne rejette pas (H0 ) : rien de significatif ne permet d’affirmer que X et Y
sont liées ;
Le seuil critique t est à choisir en fonction du niveau α de test qu’on s’est fixé :
α = P(H0 ) [ rejeter (H0 )] = PX⊥Y [|RS | > t] ,
et t est le quantile d’ordre 1 − α2 de la loi de Spearman correspondant à n.
Par rapport au test de corrélation linéaire, l’avantage du test de Spearman est de ne faire
aucune hypothèse sur la loi du couple (X, Y ) (pas d’hypothèse de normalité).
Dans R, le coefficient de corrélation de Spearman est obtenu par l’option method="spearman"
de la fonction cor. Le test correspondant s’obtient à partir de la fonction cor.test en utilisant
la même option.

Exemple 3.1: On a relevé sur 5 individus deux variables (x, y). La tableau ci-dessous
donne pour chaque individu i les valeurs (xi , ri , yi , si ) :
xi 0.59 0.11 0.08 0.3 0.4
ri 5 2 1 3 4
yi 0.71 0.43 0.47 0.57 0.61
si 5 1 2 3 4
|ri − si | 0 1 1 0 0
On obtient rS = 9/10. La Pvaleur du test de corrélation des rangs de Spearman est P [|RS | > 0.9] =
0.0833. On peut donc conclure que les deux variables sont liées (avec 8,33 % de chances d’avoir
tort).

Preuve de la proposition 3.1.3 :


CHAPITRE 3. Statistique descriptive bidimensionnelle. 35

1. rS ∈ [−1; +1] car rs est un coefficient de corrélation linéaire.


2. En utilisant la formule (3.3), rS = +1 équivaut à ni=1 (ri − si )2 = 0, i.e. pour tout
P
i ∈ {1, · · · , n}, ri = si .
3. rS étant un coefficient de corrélation linéaire, rS = −1 signifie qu’il existe une relation
linéaire entre ri et si . Il existe a < 0 et b tels que pour tout i ∈ {1, · · · , n}, ri = asi + b.
On en déduit que r̄ = as̄ + b. Comme r̄ = s̄ = (n + 1)/2, on a donc b = (1 − a)r̄, et
ri − r̄ = a(si − s̄) pour tout i ∈ {1, · · · , n}. En multipliant cette égalitéq par si − s̄, et en
sommant de i = 1 à n, on obtient la valeur de a = cov(r, s)/var(s) = rS var (r)
var(s) . Comme
var(r) = var(s), a = −1, et donc b = 2r̄ = n + 1. Par conséquent, ri = n + 1 − si pour
tout i ∈ {1, · · · , n}.
4. Soit Ri le rang de Xi dans le réarrangement par ordre croissant de X1 , · · · , Xn :

Ri = k ⇔ X(k) = Xi .

Comme les variables X1 , · · · , Xn sont indépendantes et à densité, la probabilité que


deux de ces variables soient égales est nulle, et il n’y a pas d’ambiguité dans la définition
de R = (R1 , · · · , Rn ). R est une variable aléatoire dont les valeurs possibles sont les
permutations d’ordre n. Notons Σn le groupe des permutations d’ordre n et σ un élément
de Σn . Dire que Xσ(1) < · · · < Xσ(n) , est équivalent à R = σ −1 . Ainsi, pour tout σ ∈ Σn ,
 
P [R = σ] = P Xσ−1 (1) < · · · < Xσ−1 (n)
Z Z
= ··· fX (y1 ) · · · fX (yn ) dy1 · · · dyn
yσ−1 (1) <···<yσ−1 (n)
Z Z
= ··· fX (z1 ) · · · fX (zn ) dz1 · · · dzn ,
z1 <···<zn

par le changement de variables zi = yσ−1 (i) . Ainsi P [R = σ] ne dépend pas de σ. On en


1
déduit que pour tout σ ∈ Σn , P [R = σ] = = n!1 .
card(Σn )
Notons Si le rang de Yi dans le réarrangement par ordre croissant de Y1 , · · · , Yn . De la
même façon, S est une variable uniforme sur Σn .
Par ailleurs, si on suppose que X et Y sont indépendantes, il en est de même de R (qui
ne dépend que de X1 , · · · , Xn ), et de S (qui ne dépend que de Y1 , · · · , Yn ).
n n
6 X 6 X
RS = 1 − 2
(R i − Si ) 2
= 1 − 2
(R ◦ S −1 (j) − j)2 .
n(n − 1) i=1 n(n − 1) j=1

Notez que la loi de la variable R ◦ S −1 est également la loi uniforme sur Σn . En effet,
X   X
P R ◦ S −1 = σ = P R ◦ S −1 = σ; S = τ =
 
P [R = σ ◦ τ ; S = τ ]
τ ∈Σn τ ∈Σn
X X 1 1 1
= P [R = σ ◦ τ ] P [S = τ ] = =
τ ∈Σn τ ∈Σ
n! n! n!
n
36 ANALYSE DES DONNEES. FABIENNE CASTELL.

Ainsi RS a même loi que 1− n(n26−1) nj=1 (Uj −j)2 où U est une variable uniforme sur Σn .
P

Cela prouve que la loi de RS ne dépend pas de la loi du couple (X, Y ) dans l’hypothèse
où X et Y sont indépendantes.
Concernant la symétrie de la loi de RS , il s’agit de voir que RS et −RS ont même loi
sous l’hypothèse d’indépendance de X et Y . On vient de voir Pque sous cette hypothèse,
la loi de RS est la même que celle de la variable 1 − n(n26−1) nj=1 (Uj − j)2 . Notons Ũ la
permutation définie par Ũj = n + 1 − Uj . Si U est uniforme sur Σn , il en est de même
pour Ũ . Par conséquent, RS a même loi que la variable
n
6 X
1− (Ũj − j)2
n(n2 − 1) j=1
n
6 X
= 1− (n + 1 − Uj − j)2
n(n2 − 1) j=1
" n n n
#
6 X X X
= 1− 2
(n + 1 − j)2 + Uj2 − 2 Uj (n + 1 − j)
n(n − 1) j=1 j=1 j=1
" n n n
#
6 X X X
= 1− 2 j 2 − 2(n + 1) j+2 Uj j
n(n2 − 1) j=1 j=1 j=1
" n n
# n
6 X
2
X 6 X
= 1− 2 j − 2(n + 1) j + (−2Uj j)
n(n2 − 1) j=1 j=1
n(n 2 − 1)
j=1
" n n
# n
6 X
2
X 6 X
= 1− 2
2 j − 2(n + 1) j + 2
(Uj − j)2 − j 2 − Uj2
n(n − 1) j=1 j=1
n(n − 1) j=1
n n n
6 X
2 24 X
2 12(n + 1) X
= (Uj − j) + 1 − j + j
n(n2 − 1) j=1 n(n2 − 1) j=1 n(n2 − 1) j=1
n
6 X
= 2
(Uj − j)2 − 1
n(n − 1) j=1

en utilisant les identités nj=1 j = n(n + 1)/2 et nj=1 j 2 = n(n + 1)(2n + 1)/12. Par
P P
conséquent RS a même loi que −RS sous l’hypothèse d’indépendance de X et Y .

3.2 Une variable quantitative et une variable qualitative.


On suppose ici que le couple (X, Y ) est constitué de la variable qualitative X, et de la
variable quantitative Y . Cette partie donne quelques outils pour juger de la liaison entre ces
deux variables. On notera C = {c1 , · · · cr } les issues possibles pour la variable X.

3.2.1 Distribution théorique


Dans ce cadre, plusieurs quantités caractérisent la loi du couple (X, Y ) :
CHAPITRE 3. Statistique descriptive bidimensionnelle. 37

1. - la fonction (t, c) ∈ R × C 7→ P(Y ≤ t; X = c) ;


2. - les fonctions c ∈ C 7→ P(X = c) et t ∈ R 7→ P(Y ≤ t|X = c) (fonction de répartition
conditionnelle) ;
3. - les fonctions c ∈ C 7→ P(X = c) et t ∈ R 7→ fc (t) = d
dt
P(Y ≤ t|X = c) (densité
conditionnelle) quand cette dérivée existe ;
4. ...
Chacune de ces possibilités de description de la loi du couple se déduit des autres. Par exemple,
si l’on connaı̂t la fonction P(Y ≤ t; X = c), on obtient P(X = c) = limt→+∞ P(Y ≤ t; X = c),
≤t;X=c)
et P(Y ≤ t|X = c) = P(YP(X=c) .
Dans le cas où X et Y sont indépendantes, P(Y ≤ t; X = c) = P(Y ≤ t)P(X = c), et les
fonctions t ∈ R 7→ P(Y ≤ t|X = c) et fc (t) sont indépendantes de la valeur de c.

3.2.2 Quantités empiriques.


Chaque modalité de la variable X définit un sous échantillon de l’échantillon initial. On
note
1. n1 , · · · , nr les effectifs de chaque sous-échantillon : nj = ni=1 1Icj (xi ) ;
P

2. Ω1 , · · · , Ωr les sous-échantillons : Ωj = {i ∈ {1, · · · , n} tel que xi = cj } ;


· · · , ȳr les moyennes empiriques de la variable Y sur chaque sous-échantillon : ȳj =
3. ȳ1 ,P
1
nj i∈Ωj yi ;

4. σ12 (y), · · · , σP
2
r (y) les variances empiriques de la variable Y sur chaque sous-échantillon :
1
σj (y) = nj i∈Ωj (yi − ȳj )2 .
2

Les liens entre les quantités empiriques sur les sous-échantillons et sur l’échantillon initial
sont donnés par les relations :

Proposition 3.2.1 Décomposition.


1. ȳ = n1 rj=1 nj ȳj ;
P

2. σ 2 (y) = n1 rj=1 nj (ȳj − ȳ)2 + n1 rj=1 nj σj2 (y).


P P

1
PLar
deuxième identité est une décomposition de la variance en deux termes. Le premier
2
n j=1 nj (ȳj − ȳ) est appelé variance intercatégories : il s’agit de mesurer la variabilité
entre sous population. Chacune des sous-populations est identifiée à la moyennePsur la sous-
population, et affectée d’un poids proportionnel à son effectif. Le deuxième terme n1 rj=1 nj σj2 (y)
est appelé variance intracatégories. Il s’agit d’une moyenne de la variabilité de la variable
Y à l’intérieur de chacune des sous-populations.

Preuve de la proposition 3.2.1 :


1. ȳ = n1 ni=1 yi = n1 rj=1 i∈Ωj yi =
P P P 1
Pr
n j=1 nj ȳj .
38 ANALYSE DES DONNEES. FABIENNE CASTELL.
Pn
2. σ 2 (y) = 1
(yi − ȳ)2 = n1 rj=1 i∈Ωj (yi − ȳj + ȳj − ȳ)2
P P
n i=1
Pr P Pr P Pr P
1 2 1 2 2
= (yi − ȳ j ) + (ȳj − ȳ) + (y − ȳj )(ȳj − ȳ)
n
1
j=1
Pr i∈Ω
2
j
1
Pr n j=1
2
i∈Ω
P j 2
Pr n j=1 Pj i
i∈Ω
= nj σj (y) + n j=1 (ȳj − ȳ) ( i∈Ωj 1) + n j=1 (ȳj − ȳ) i∈Ωj (yi − ȳj )
n Pj=1
r
1
nj σj2 (y) + n1 rj=1 nj (ȳj − ȳ)2 + n2 rj=1 (ȳj − ȳ)(nj ȳj − nj ȳj )
P P
= n j=1
1
Pr 2 1
Pr 2
= n j=1 nj σj (y) + n j=1 nj (ȳj − ȳ) .

Les liens entre les quantités empiriques et la distribution théorique sont donnés par la
proposition suivante :
Proposition 3.2.2 Supposons que ((x1 , y1 ) · · · (xn , yn )) est une réalisation d’un n-échantillon
((X1 , Y1 ) · · · (Xn , Yn )) du couple de variables (X, Y ). Notons Nj , Ȳj et σj2 (Y ) les variables
aléatoires correspondantes à nj , ȳj , et σj2 (y). On a pour tout j ∈ {1, · · · , r},
N
1. limn→∞ nj = P [X = cj ] ;
2. limn→∞ Ȳj = E [Y |X = cj ] ;
3. limn→∞ σj2 (Y ) = var [Y |X = cj ].

Preuve de la proposition 3.2.2 :


N N
1. nj = n1 ni=1 1Icj (Xi ). Par la loi des grands nombres, on a limn→∞ nj = P [X = cj ].
P

2. Ȳj = N1j ni=1 1Icj (Xi )Yi = Nnj n1 ni=1 1Icj (Xi )Yi . Par la loi des grands nombres, on a
P P
N
limn→∞ nj = P [X = cj ] et limn→∞ n1 ni=1 1Icj (Xi )Yi = E 1Icj (X)Y . Par conséquent,
P  
E[ 1Icj (X)Y ]
limn→∞ Ȳj = P[X=c j]
= E [Y |X = cj ].
3. Commencons par récrire la variable σj2 (Y ) en développant le carré.
n n n
1 X 1 X n 1X
σj2 (Y
)= 2
1Icj (Xi )(Yi −Ȳj ) = 2 2
1Icj (Xi )Yi −Ȳj = 1Icj (Xi )Yi2 −Ȳj2 .
Nj i=1 Nj i=1 Nj n i=1
N
grands nombres, limn→∞ nj = P [X = cj ], limn→∞ ni=1 1Icj (Xi )Yi2 =
P
Par
 la loi des 
E 1Icj (X)Y 2 et limn→∞ Ȳj = E [Y |X = cj ]. Par conséquent,
 2

E 1Ic (X)Y
lim σj2 (Y ) = − E [Y |X = cj ]2 = E Y 2 |X = cj − E [Y |X = cj ]2
j
 
n→∞ P [X = cj ]
= var(Y |X = cj ) .

3.2.3 Comment juger de la liaison entre X et Y ?


Notez que dans le cas où les variables X et Y sont indépendantes, les quantités P(Y ≤
t|X = c), dtd P(Y ≤ t|X = c), E(Y |X = c), var(Y |X = c) sont indépendantes de c et valent res-
pectivement P(Y ≤ t), dtd P(Y ≤ t), E(Y ), var(Y ). Ainsi les fonctions de répartition empiriques
de y sur chaque sous-échantillon ”se ressemblent” et sont proches de la fonction de répartition
empirique de y sur l’échantillon global. De même, toutes les moyennes empiriques ȳj (respective-
ment les variances empiriques σj2 (y)) ”se ressemblent” et sont proches de la moyenne empirique
ȳ (respectivement la variance empirique σ 2 (y)).
CHAPITRE 3. Statistique descriptive bidimensionnelle. 39

Représentation graphique.

Pour avoir une idée des distributions conditionnelles, on peut faire le graphe des boı̂tes à
moustaches de la variable y sur chaque sous-population. On peut alors dessiner sur un même
graphe (i.e. en utilisant les mêmes échelles), les r boı̂tes à moustaches de la variable y pour
chaque modalité de la variables x. Dans l’hypothèse où X et Y sont indépendantes, toutes ces
boı̂tes à moustaches se ressemblent. Les différences visibles entre ces boı̂tes permettent de se
faire une idée de l’influence de la variable X sur la variable Y .

Rapport de corrélation.

Une autre quantité qui permet de juger de la liaison entre X et Y est le rapport dit de
corrélation empirique entre la variance intercatégories et la variance empirique totale :
1
Pr
2 n j=1nj (ȳj − ȳ)2
e = .
σn2 (y)

Si les variables X et Y sont indépendantes, pour tout j ∈ {1, · · · , r}, ȳj ' ȳ, et e2 ' 0. En
utilisant la décomposition de la variance de la proposition 3.2.1, on voit aussi que e2 ∈ [0, 1],
et que e2 = 1 signifie que la variance intracatégorie est nulle. Dans ce cas, dans chacun des
sous-échantillons, la variable y est constante ; la valeur de la variable X fixe donc la valeur de
Y.
Pour savoir si e2 est significativement non nul, on peut utiliser la proposition suivante, qui
suppose que les lois conditionnelles de Y pour chaque modalité de X sont des lois
gaussiennes de même variance. Plus précisément, on suppose que
(ANOVA) ((x1 , y1 ), · · · , (xn , yn )) est une réalisationP
d’un n-échantillon (X1 , Y1 ), · · · , (Xn , Yn )
j=1 µj 1IX=cj +  où  ∼ N(0, σ ) est
r 2
d’un couple de variables (X, Y ) tel que Y =
indépendante de X.

Proposition 3.2.3 1. Sous l’hypothèse (ANOVA), la loi de Y sachant que X = cj est la


loi N(µj , σ 2 ). En conséquence, Y et X sont indépendantes ssi µ1 = · · · = µr .
2. Notons E 2 la variable aléatoire correspondant au rapport de corrélation empirique. Sous
l’hypothèse (ANOVA), et si on suppose de plus que µ1 = · · · = µr , alors

E2
r−1
1−E 2
∼ F(r − 1, n − r) .
n−r

Notez que sous l’hypothèse (ANOVA), on est dans un modèle d’analyse de variance à un
facteur (cf cours de Stats 2). En réordonnant l’échantillon en fonction des modalités de la
variable x, on a le modèle

Yij = µi + ij , i ∈ {1, · · · , r} , j ∈ {1, · · · , ni }


40 ANALYSE DES DONNEES. FABIENNE CASTELL.

où les ij sont i.i.d N(0, σ 2 ). Ce modèle se récrit sous la forme matricielle
 
1 0 ··· 0
. . . . 

Y11
   .. .. .. .. 
· · ·
 
 ..   1 0 0 
 .   0 1 ··· 0 

   
 Y1n1   . . . .  µ
 
 .   .. .. .. ..   .1 
Y~ =   +  = X~µ +  ,  ∼ Nn (0, σ Id) .
2
 ..  =    .. (3.4)
 
 Y    0 1 · · · 0 
 r1   .. .. .. ..  µr
 .   . . . . 
 ..   
 0 0 ··· 1 

Yrnr  .. .. .. .. 
 . . . . 
0 0 ··· 1
Sous l’hypothèse (ANOVA), la proposition 3.2.3 permet de tester l’indépendance entre X et
Y . Plus précisément, on teste (H0 ) : ”µ1 = · · · = µr ” (X et Y sont indépendantes) contre
(H1 ) : ∃i 6= j tels que µi 6= µj ” (X et Y sont liées). La région de rejet est du type :
E2
r−1
— Si 1−E 2
> t, on rejette (H0 ) et on décide que X et Y sont liées.
n−r
E2
— Si r−1
1−E 2
≤ t, on ne rejette pas (H0 ). Rien de significatif ne permet d’assurer que X et Y
n−r
sont liées.
La valeur critique t est fixée en fonction du niveau de test α qu’on s’est fixé :
" 2 #
E
r−1
α = P(H0 ) [ Rejeter (H0 )] = Pµ1 =···=µr 1−E 2
> t = P [F(r − 1, n − r) > t] ;
n−r

t est donc le quantile d’ordre 1 − α de la loi de Fisher à r − 1 et n − r degrés de liberté.


Ce test n’a de sens que sous l’hypothèse (AN OV A) de normalité des lois conditionnelles, et
d’égalité des variances. Avant de le mettre en oeuvre, il faudra donc tester la normalité de chacun
des sous-échantillons. Dans l’hypothèse où cette normalité n’est pas rejetée, il faudra ensuite
tester l’égalité des variances de chaque sous-échantillon (test de Fisher d’égalité des variances).
Si la normalité des sous échantillons est rejetée, on peut essayer d’appliquer une transformation
de Box-Cox à la variable y. La fonction boxcox de R permet de trouver ”la meilleure” fonction
hλ,θ telle que les données transformées ỹi = hλ,θ (yi ) puissent être considérées comme issues du
modèle X~µ + .

Preuve de la proposition 3.2.3


1. On calcule la fonction de répartition de Y conditionnelle à X = cj .
P [Y ≤ t; X = cj ]
P [Y ≤ t|X = cj ] = .
P [X = cj ]
Pr
Comme Y = k=1 µk 1Ick (X) + , on a Y = µj +  sur l’ensemble {X = cj }. D’où,
P [µj +  ≤ t; X = cj ] P [µj +  ≤ t] P [X = cj ]
P [Y ≤ t|X = cj ] = = ,
P [X = cj ] P [X = cj ]
CHAPITRE 3. Statistique descriptive bidimensionnelle. 41

puisque  et X sont indépendantes. Donc P [Y ≤ t|X = cj ] = P [µj +  ≤ t] est la fonction


de répartition de µj +  ∼ N(µj , σ 2 ).
2. Pour i ∈ {1, · · · , r}, notons 1Ii le vecteur de Rn correspondant à la i-ème colonne de la
matrice X dans l’équation (3.4). Sous l’hypothèse (ANOVA), le vecteur aléatoire Y~ est
un vecteur de Rn gaussien de vecteur moyenne m ~ = X~µ = j=1 µj 1Ij , et de matrice de
r
P
2 n
covariance σ Id. Notons V le s.e.v de R engendré par les vecteurs ( 1Ij , j ∈ {1, · · · , r}).
Sous l’hypothèse (ANOVA), tester l’égalité des µi revient à se demander
Pr si le vecteur m~
appartient au s.e.v. W de V où W est la droite engendrée par j=1 1Ij = 1I (vecteur
dont toutes les coordonnées sont égales à 1).
Notons πV et πW les projecteurs orthogonaux de Rn sur V et W . Comme les vecteurs
1Ij sont orthogonaux dans Rn , on a
r   r
~
X
~ 1Ij 1Ij X
πV (Y ) = Y; = Ȳj 1Ij .
j=1
k 1Ij k k 1Ij k j=1
 
De la même façon, πW (Y~ ) = Y~ ; 11II 1I = Ȳ 1I. Par conséquent,
k k k 1Ik
r
X 2 Xr
πV (Y~ ) − πW (Y~ ) = ~ ~
(Ȳj − Ȳ ) 1Ij , et πV (Y ) − πW (Y ) = nj (Ȳj − Ȳ )2

j=1 j=1

est la variable aléatoire correspondant à la variance empirique intercatégories.


2
On a aussi σn2 (Y~ ) = 1 Y~ − πW (Y ) . On en déduit que

n
2 2 2 2

π
V (Y~ ) − π W (Y~ )


~
Y − π W (Y~ )



π
V (Y~ ) − π W (Y~ )


~
Y − π V (Y~ )


2
1−E = 1− 2 = 2 = 2 .
~
Y − πW (Y~ )
~ ~ ~ ~
Y − πW (Y ) Y − πW (Y )

Finalement,
2
πV (Y~ ) − πW (Y~ )
2
1

~ ~
πV (Y ) − πW (Y )

E2
~
2
dim(V ) − dim(W )
Y − πW (Y~ )

r−1 = dim(V ) − dim(W )
= 2 .
1 − E2
2
~ ~ ~ ~
Y − πV (Y ) Y − πV (Y )

n−r 1
2
n − dim(V ) n − dim(V )

~
Y − πW (Y~ )

Le théorème de Cochran (cf cours de Stats 2), assure que sous l’hypothèse (ANOVA) et
2
kπV (Y~ )−πW (Y~ )k
sous l’hypothèse d’égalité des moyennes, σ 2 est une variable du χ2dim(V )−dim(W )
2
kY~ −πV (Y~ )k
indépendante de la variable σ2
qui suit une loi du χ2n−dim(V ) . On en déduit que
E2
r−1
1−E 2
suit sous une loi de Fisher F(r − 1, n − r).
n−r
42 ANALYSE DES DONNEES. FABIENNE CASTELL.

160




140

Concentration en ozone

120
100
80
60


40

Est Nord Ouest Sud

vent

Figure 3.3 – Boites à moutaches de la concentration en ozone en fonction de la direction du


vent.

3.2.4 Exemple
On considère les données du fichier ozone.txt dont on a extrait la variable y : max03
(concentration en ozone maximale pendant la journée), et la variable x : Vent (Direction du
vent, prenant 4 modalités, E,O,N,S). La figure 3.3 donne les quatre boı̂tes à moustaches des
sous-échantillons correspondant aux quatre modalités.
Au vu de ce graphe, il semble bien qu’il y ait une liaison entre la concentration en ozone et
la direction du vent.
Pour tester cette liaison, nous souhaitons calculer le rapport de corrélation empirique et
utiliser le test de la proposition 3.2.3. Pour cela, nous commençons par vérifier que faire l’hy-
pothèse (ANOVA) sur nos données n’est pas aberrant. La figure 3.4 donne les graphes ”quantiles
empiriques-quantiles de la normale” pour les quatre sous-échantillons. Les P-valeurs d’un test
de Kolmogorov d’ajustement à la loi normale pour les quatre sous-échantillons sont

Direction du vent Est Nord Ouest Sud


P-valeur 0.27 0.012 0.00000077 0.52

Le graphe ”QQplot” correspondant à la modalité ”Ouest” ressemble assez peu à une droite,
ce qui est confirmé par la très faible valeur de la Pvaleur, qui nous amène à rejeter l’hypothèse de
normalité au moins pour ce sous-échantillon. On essaie donc de transformer les données par la
procédure de Box et Cox. La figure 3.5 donne les graphes ”quantiles empiriques-quantiles de la
normale” pour les quatre sous-échantillons après transformation des données. Les P-valeurs du
test de Kolmogorov d’ajustement à la loi normale pour les quatre sous-échantillons sont mainte-
CHAPITRE 3. Statistique descriptive bidimensionnelle. 43

Est Nord

● ●

100 120 140


140

Quantile Empirique

Quantile Empirique

● ● ●
● ●

80 100
● ● ●● ●
● ●
●●

80


●●●●●
●●
●●
● ● ● ● ●●

60
60

● ●

40
● ●

80 100 120 140 40 60 80 100 120 140


^, σ
Quantile de N(µ ^) ^, σ
Quantile de N(µ ^)

Ouest Sud

● ● ●

140
● ●

140


Quantile Empirique

Quantile Empirique

● ● ●

●● ● ●

100

80 100


●● ●
● ●
●●● ● ●

80
●● ●
● ●
●●●●●
●●●●● ●
●●●●● ●
●●●●●●● ●
● ●●●●

60
60


● ● ● ● ●

20 40 60 80 100 120 140 40 60 80 100 120 140 160


^, σ
Quantile de N(µ ^) ^, σ
Quantile de N(µ ^)

Figure 3.4 – Graphes ”Quantiles Empiriques-Quantiles de la loi Normale” pour la concentra-


tion en ozone en fonction de la direction du vent.

Est Nord
1.95

● ● ●



● ● ●

Quantile Empirique

Quantile Empirique
1.90


1.90

● ● ●● ●

● ●●


●●●●●
● ● ●●
1.85
1.85

● ● ● ● ●●

● ●
1.80
1.80

● ●

1.84 1.86 1.88 1.90 1.92 1.94 1.96 1.80 1.85 1.90 1.95
^, σ
Quantile de N(µ ^) ^, σ
Quantile de N(µ ^)

Ouest Sud

● ● ●
1.94
1.94

● ●
● ● ● ●

Quantile Empirique

Quantile Empirique


● ● ●
●● ● ●
1.90
1.90



●● ●
● ●
●●● ● ●
●● ●

1.86

●●● ●
1.86

●●●●●●
● ●
●●●●●● ●

●●●●● ●
●●
● ●●
● ●
1.82
1.82

● ●
● ●

1.80 1.85 1.90 1.95 1.82 1.84 1.86 1.88 1.90 1.92 1.94 1.96
^, σ
Quantile de N(µ ^) ^, σ
Quantile de N(µ ^)

Figure 3.5 – Graphes ”Quantiles Empiriques-Quantiles de la loi Normale” pour la concentra-


tion en ozone en fonction de la direction du vent, après transformation des données.
44 ANALYSE DES DONNEES. FABIENNE CASTELL.

Direction du vent Est Nord Ouest Sud


nant :
P-valeur 0.005 0.29 0.004 0.59
Même après transformation, l’hypothèse de normalité est rejetée pour les modalités ”Ouest” et
”Est”.

3.2.5 Que faire lorsque l’hypothèse de normalité n’est pas satisfaite ?


Lorsque l’hypothèse (ANOVA) n’est pas vérifiée , on ne peut pas utiliser le rapport de
corrélation empirique pour juger de la liaison entre X et Y . Dans ce cas, on utilise des tests
non paramétriques de comparaison d’échantillons indépendants. Si la variable X a deux mo-
dalités, chacun des sous-échantillons correspondant à une modalité est indépendant de l’autre,
et on veut savoir si ces deux sous-échantillons sont de même loi. On peut alors utiliser un test
de comparaison de Kolmogorov-Smirnov, ou un test de la somme des rangs (Mann-Whitney-
Wilcoxon). Lorsque X a r modalités, on est en présence de r sous-échantillons dont on veut
savoir s’ils ont même loi ou pas. On peut dans ce cas utiliser le test de Kruskal-Wallis, qui est
une généralisation du test de la somme des rangs. Nous rappelons les principes de ces différents
tests dans ce qui suit.

Test de Kolmogorov-Smirnov :
Il est utilisé lorsque on a observé (x1 , · · · , xn ) et (y1 , · · · , ym ) réalisations de deux échantillons
(X1 , · · · , Xn ) et (Y1 , · · · , Ym ) indépendants. On suppose que les fonctions de répartition
de X et Y (notées F et G) sont continues. On veut tester (H0 ) : ”F = G” contre
(H1 ) : ”F 6= G”.
Le test de Kolmogorov-Smirnov consiste à estimer F et G par les fonctions de répartition
empiriques
n
1X
F̂n (x) = 1IXi ≤x ,
n i=1
m
1X
Ĝm (x) = 1IY ≤x ,
m j=1 j
et à mesurer l’écart entre F et G au moyen de la statistique
 
Dn,m = sup F̂n (x) − Ĝm (x) .

x

Proposition 3.2.4 Si on suppose que F et G sont continues, la loi de Dn,m sous (H0 ) ne
dépend que de n et m, i.e. ne dépend pas de F (= G).

Cette loi est tabulée pour de petites valeurs de n et m. Pour de plus grandes valeurs de n et
m, on a le résultat asymptotique :
r  ∞
mn X
P Dn,m ≥ t → P [D ≥ t] = 2 (−1)k+1 exp(−2k 2 t2 ) .
n+m k=1

Pour tester (H0 ) : ”F = G” contre (H1 ) : ”F 6= G”, on prend alors la règle de décision suivante :
CHAPITRE 3. Statistique descriptive bidimensionnelle. 45

— Si Dn,m > t, on rejette (H0 ) : ”F = G” et on décide que les deux échantillons ne sont
pas de même loi.
— Si Dn,m ≤ t, on ne rejette pas (H0 ) : rien de significatif ne permet de dire que les deux
échantillons ne sont pas de même loi.
t est choisi en fonction du niveau α désiré.

Preuve de la proposition 3.2.4 : On fait la démonstration dans le cas où F est continue et
strictement croissante. Dans ce cas, F est une bijection de R dans ]0; 1[ et son inverse F −1 est
une bijection de ]0; 1[ dans R. On a donc
   
−1 −1
sup F̂n (x) − Ĝm (x) = sup F̂n (F (u)) − Ĝm (F (u)) ,

x∈R u∈]0;1[

Pour tout u ∈]0; 1[, F̂n (F −1 (u)) = n1 ni=1 1IF (Xi )≤u et Ĝm (F −1 (u)) = m1 m
P P
j=1 1IF (Yj )≤u . Po-
sons Ui = F (Xi ) et Vj = F (Yj ). Sous l’hypothèse (H0 ), (X1 , · · · , Xn , Y1 , · · · , Ym ) est un
(n + m)-échantillon de loi de fonction de répartition F continue. (U1 , · · · , Un , V1 , · · · , Vm ) est
par 
la proposition 2.6.2,
 un (n + m)-échantillon  de loi uniforme  sur [0; 1]. Ainsi, sous (H0 ),
sup F̂n (x) − Ĝm (x) a même loi que sup Ûn (u) − V̂m (u) , où Ûn (x) et V̂m (x) sont les

x∈R u∈[0,1]
fonctions de répartition empiriques de deux échantillons indépendants de loi uniforme sur [0; 1].
La loi de Dn,m ne dépend donc pas de F .
Dans le cas où F est continue et croissante, la démonstration précédente s’adapte en prenant
pour F −1 l’inverse généralisée de F (cf expression (2.4), chapitre 2).

Test de la somme des rangs, ou de Mann-Whitney-Wilcoxon.


Ce test s’utilise dans le même cadre que le test de Kolmogorov-Smirnov. Il se construit de la
façon suivante. Posons (Z1 , · · · , Zn+m ) = (X1 , · · · , Xn , Y1 , · · · , Ym ). Sous (H0 ), (Z1 , · · · , Zn+m )
est un (n + m)-échantillon de loi de fonction de répartition F .

Définition 3.2.5 La statistique de rang de (Z1 , · · · , Zn+m ) est la permutation aléatoire R :


Ω → Σn+m définie par ∀i ∈ {1, · · · , n + m},
n+m
X
R(i) = 1IZj <Zi + 1
j=1
= rang (numéro de place) occupé par Zi dans le réarrangement
par ordre croissant de Z1 , · · · , Zn+m

Exemple. Supposons que pour un échantillon ω particulier, on ait

(Z1 (ω), Z2 (ω), Z3 (ω), Z4 (ω), Z5 (ω)) = (2, 1.5, 6, 3.3, 1) ,

on a R1 (ω) = 3, R2 (ω) = 2, R3 (ω) = 5, R4 (ω) = 4, R5 (ω) = 1.


Remarque Si F est continue, R est bien (sous (H0 )) une permutation de l’ensemble {1, · · · , n + m},
car il n’y a pas de problèmes d’ex-aequo.
46 ANALYSE DES DONNEES. FABIENNE CASTELL.

Le test de la somme des rangs est basée sur la statistique


n
X
W = R(i)
i=1
= somme des rangs des Xi dans le réarrangement
par ordre croissant de X1 , · · · , Xn , Y1 , · · · , Ym .

Dans l’exemple précédent, si on suppose que n = 2, et m = 3, on obtient W (ω) = 5.


Supposons en effet que l’on veuille tester (H0 ) : ”F = G” contre (H1 ) : ”F > G”. Sous
(H1 ), X a tendance à être plus petite que Y (par exemple, si X ≤ Y , on a pour tout t,
G(t) = P (Y ≤ t) ≤ P (X ≤ t) = F (t)). Par conséquent, W devrait être faible. On prendra
donc une région de rejet du type R = {W ≤ t}. Pour déterminer t, on a besoin de connaı̂tre la
loi de W sous (H0 ). Le test de la somme des rangs s’appuie alors sur le résultat suivant, déjà
utilisé dans la démonstration de la proposition 3.1.3 :

Proposition 3.2.6 Soit Z1 , · · · , Zn un n-échantillon de loi de fonction de répartition F conti-


nue. La loi de sa statistique de rang R est la loi uniforme sur l’ensemble des permutations
Σn .

Preuve : Soit σ ∈ Σn .

P (R = σ) = RP (Zσ−1 (1) < · · · < Zσ−1 (n) )


= zσ(1) <···<zσ(n) dF (z1 ) · · · dF (zn ) |
R
= z1 <···<zn dF (z1 ) · · · dF (zn )

Par conséquent, P (R = σ) est indépendant de σ, et P (R = σ) = 1/(n!).

En particulier, la loi de R ne dépend pas de F . On en déduit que sous (H0 ), la loi de W


est indépendante de F (=G). Pour de petites valeurs de n et m, la loi de W sous (H0 ) est
tabulée, et t se lit dans la table dès que le niveau du test a été fixé. Sinon, on pourra utiliser la
proposition

Proposition 3.2.7 Sous l’hypothèse (H0 ),

n(n + m + 1)
E(W ) = ,
2
nm(n + m + 1)
σ 2 (W ) = ,
12
(loi)
W − E(W )
−→ N(0, 1) .
σ(W ) n,m→∞
a≤n/m≤b

Preuve : Nous nous contenterons de démontrer les deux premières assertions. Dans toute la
démonstration, nous noterons N = n + m.
CHAPITRE 3. Statistique descriptive bidimensionnelle. 47

N
X
R(i) = 1IZj <Zi + 1. Par conséquent
j=1

n
X n X
X N
W = R(i) = n + 1IZj <Xi
i=1 i=1 j=1
n X
n n X
m
X X n(n − 1)
=n+ 1IXj <Xi + 1IYj <Xi = n + +U
i=1 j=1 i=1 j=1
2

n X
X m
où on a noté U = 1IYj <Xi . Sous (H0 ), Yj et Xi sont indépendantes et de même loi. Par
i=1 j=1
nm
conséquent P (Yj < Xi ) = P (Xi < Yj ) = 1/2. On en déduit que E(U ) = , ce qui donne la
2
première assertion de la proposition.
En ce qui concerne la seconde, on a Var(W ) = Var(U ) = E(U 2 ) − E(U )2 . Il s’agit donc de
calculer E(U 2 ).
X X
E(U 2 ) = P (Yj < Xi ) + P (Yj < Xi ; Yl < Xk )
i,j
i,j,k,l
(i,j)6=(k,l)

Il est facile de vérifier que sous (H0 ),



1/4 si j 6= l et i 6= k ,
P (Yj < Xi ; Yl < Xk ) =
1/3 si j = l ou i = k , et(i, j) 6= (k, l) .

On obtient donc
nm 1 1
E(U 2 ) = + (mn(n − 1) + nm(m − 1)) + m(m − 1)n(n − 1)
2 3 4
nm
= (3nm + n + m + 1) ,
12
nm(n + m + 1)
soit Var(U ) = .
12

Test de Kruskal-Wallis.
Lorsque la variable X a r > 2 modalités, on est en présence de r sous-échantillons dont on
veut savoir s’ils sont issus d’une même distribution. Notons (y11 , · · · , y1n1 ), (y21 , · · · , y2n2 ), · · ·
(yr1 , · · · , yrnr ), ces r sous-échantillons. On suppose qu’ils sont la réalisation de r échantillons
indépendants (Y11 , · · · , Y1n1 ), (Y21 , · · · , Y2n2 ), · · · (Yr1 , · · · , Yrnr ), de lois de fonction de répartition
F1 , · · · , Fr supposées continues. On souhaite tester (H0 ) : ”F1 = · · · = Fr ” contre (H1 ) : ”∃i, j
tels que Fi 6= Fj ”.
Pour construire le test de Kruskal-Wallis, on commence par calculer
— le rang Rij de Yij parmi les n = n1 + · · · + nr valeurs ;
48 ANALYSE DES DONNEES. FABIENNE CASTELL.

— la moyenne des rangs associée à chaque échantillon : Ri• = n1i nj=1


P i
Rij ;
— l’écartPentre la moyenne
Pn des rangs de chaque échantillon et la moyenne de tous les rangs
1 1 n+1
(= n i,j Rij = n k=1 k = 2 ) :
r  2
12 X n+1
KWn = ni Ri• − .
n(n + 1) i=1 2

Proposition 3.2.8 Sous (H0 ), la loi de KWn ne dépend que de (n1 , · · · , nr ) (i.e. ne dépend
pas de F = F1 = · · · = Fr )

Preuve : Sous (H0 ), (Y11 , · · · , Y1n1 , · · · , Yr1 , · · · , Yrnr ) est un n-échantillon de la loi de fonction
de répartition F continue. Par conséquent, sa statistique de rang (R11 , · · · , R1n1 , · · · , Rr1 , · · · , Rrnr )
est une variable de loi uniforme sur les permutations de n éléments (proposition 3.2.6).

La statistique KWn permet de tester (H0 ) : ”F1 = · · · = Fr ” contre (H1 ) : ”∃i, j tels que
Fi 6= Fj ”. Sous (H0 ), les moyennes des rangs Ri• devraient être proches (et donc proches de
la moyenne des rangs sur l’échantillon total =(n + 1)/2). KWn devrait donc être ”petit” sous
(H0 ). La règle de décision est alors la suivante :
— Si KWn > t, on rejette (H0 ), et on conclut que les différents échantillons n’ont pas la
même loi ;
— Si KWn ≤ t, on ne rejette pas (H0 ). Rien de significatif ne permet de dire que les
échantillons ont des lois différentes.
La valeur critique t est fixé en fonction du niveau α de test : α = P(H0 ) [KWn > t], et t est le
quantile d’ordre 1 − α de la loi de la statistique de Kruskal-Wallis de paramètres (n1 , · · · , nr )

En développant le carré dans l’expression de KWn , on obtient


r
12 X
2
KWn = ni Ri• − 3(n + 1) .
n(n + 1) i=1

On peut aussi remarquer que Wi = ni Ri• est la somme des rangs du i-ème échantillon dans le
réarrangement de l’ensemble des échantillons. C’est donc la statistique du test de Wilcoxon de
comparaison du ième échantillon à l’ensemble des r − 1 autres échantillons. En particulier, sous
(H0 ), on a
ni (n + 1) ni (n − ni )(n + 1)
E(Wi ) = , et var(Wi ) =
2 12
On a donc sous (H0 )
r  2 r
12 X Wi n + 1 12 X 1
KWn = ni − = (Wi − E(Wi ))2
n(n + 1) i=1 ni 2 n(n + 1) i=1 ni
r
1X (Wi − E(Wi ))2
= (n − ni )
n i=1 var(Wi )
CHAPITRE 3. Statistique descriptive bidimensionnelle. 49

On déduit immédiatement de cette expression que sous (H0 )

E(KWn ) = r − 1 .

Cette expression suggère aussi que lorsque les ni sont grands, KWn tend sous (H0 ) vers une
variable du χ2 à r − 1 degrés de liberté (cf l’expression
P de la moyenne). Le nombre de degrés
de liberté vient de la liaison entre les variables Wi : ri=1 Wi = n(n + 1)/2.
Lorsque r = 2, n1 + n2 = n et W1 + W2 = n(n + 1)/2. Donc var(W1 ) = var(W2 ) et
2
1 −E(W1 ))
W1 − E(W1 ) = −(W2 − E(W2 )). On a donc KWn = (Wvar (W1 )
et le test de Kruskal-Wallis est
le même que le test de Wilcoxon.

Exemple 3.1: On reprend les données du fichier ozone.txt dont on a extrait la variable y :
max03 (concentration en ozone maximale pendant la journée), et la variable x : Vent (Direction
du vent, prenant 4 modalités, E,O,N,S). Pour savoir s’il y a un lien entre la direction du vent
et la concentration en ozone, on effectue un test de Kruskal-Wallis de comparaison des 4 sous-
échantillons correspondant aux quatre directions de vent. La fonction R permettant de faire
ce test est la fonction kruskal.test. La Pvaleur du test est 0.003431. On peut donc conclure
(avec 0.34 % de chances d’avoir tort) qu’il y a une liaison entre la direction du vent et la
concentration en ozone.

3.3 Deux variables qualitatives.


On suppose ici que le couple (X, Y ) est constitué de deux variables qualitatives X et Y . On
notera C = {c1 , · · · cr } les modalités de la variable X, et D = {d1 , · · · dl } les modalités de la
variable Y .

3.3.1 Distribution théorique


Dans ce cadre, on peut caractériser la loi du couple (X, Y ) par :
1. - la fonction (c, d) ∈ C × D 7→ P(X = c; Y = d) ;
2. - les fonctions c ∈ C 7→ P(X = c) (loi marginale en X), et d ∈ D 7→ P(Y = d|X = c)
(loi conditionnelle) ;
3. ...
On a
X P(X = c; Y = d)
P(X = c) = P(X = c; Y = d) et P(Y = d|X = c) = .
d∈D
P(X = c)

Dans le cas où X et Y sont indépendantes, P(X = c; Y = d) = P(X = c)P(Y = d), et la loi
conditionnelle d ∈ D 7→ P(Y = d|X = c) est indépendante de la valeur de c.
50 ANALYSE DES DONNEES. FABIENNE CASTELL.

3.3.2 Quantités empiriques.


Les données sont présentées dans une table de contingence qui donne les effectifs
conjoints de chaque couple de modalités : pour tout (i, j) ∈ {1, · · · , r} × {1, · · · , l},
n
X
nij = 1I(ci ,dj ) (xk , yk ) .
k=1

On note
l
X n
X
ni• = nij = 1Ici (xk ) ;
j=1 k=1
r
X n
X
n•j = nij = 1Idj (yk ) .
i=1 k=1

Ces quantités sont appelés effectifs marginaux.


Les liens entre les quantités empiriques et la distribution théorique sont donnés par la
proposition suivante :
Proposition 3.3.1 Supposons que ((x1 , y1 ) · · · (xn , yn )) est une réalisation d’un n-échantillon
((X1 , Y1 ) · · · (Xn , Yn )) du couple de variables (X, Y ). Notons Nij , Ni• et N•j les variables aléatoires
correspondantes à nij , ni• , et n•j . On a pour tout i ∈ {1, · · · , r}, et tout j ∈ {1, · · · , l},
Nij
1. limn→∞ n
= P [X = ci ; Y = dj ] ;
Ni•
2. limn→∞ n
= P [X = ci ] ;
N•j
3. limn→∞ n
= P [Y = dj ] ;
Nij
4. limn→∞ Ni•
= P [Y = dj |X = ci ] ;
Nij
5. limn→∞ N•j
= P [X = ci |Y = dj ] ;

Preuve de la proposition 3.3.1 :


N
1. nij = n1 nk=1 1I(ci ,dj ) (Xk , Yk ). Par la loi des grands nombres, on a
P

Nij
lim = P [X = ci ; Y = dj ] .
n→∞ n

Ni• 1
Pn Ni•
2. n
= n k=1 1Ici (Xk ). Par la loi des grands nombres, on a limn→∞ n
= P [X = ci ].
3. idem.
ij N Nij n Nij P[X=ci ;Y =dj ]
4. limn→∞ Ni• = limn→∞ n Ni•
. Par la loi des grands nombres, limn→∞ Ni•
= P[X=ci ]
=
P [Y = dj |X = ci ].
 
Le vecteur ni1
, · · · , nni•il
est appelé i-ème profil-ligne. Il est une estimation de la loi
ni•
 
n1j nrj
conditionnelle de Y sachant que X = ci . De façon analogue, le vecteur n•j , · · · , n•j est appelé
j-ème profil-colonne. Il est une estimation de la loi conditionnelle de X sachant que Y = dj .
CHAPITRE 3. Statistique descriptive bidimensionnelle. 51

3.3.3 Comment juger de la liaison entre X et Y ?


Représentation graphique.
Dans le cas où X et Y sont indépendantes, la loi conditionnelle d ∈ D 7→ P [Y = d|X = c]
est indépendante de la valeur c. Ainsi tous les profils-lignes ont tendance à se ressembler. De la
même façon, la loi conditionnelle c ∈ C 7→ P [X = c|Y = d] est indépendante de la valeur d, et
tous les profils-colonnes ont aussi tendance à se ressembler.
On peut alors représenter graphiquement les profils-lignes (ou les profils-colonnes) sous
forme de diagrammes en barres parallèles (mosaı̈c plot, cf figure 3.6). Les différences visibles
entre ces barres permettent de se faire une idée de la liaison des variables X et Y .

Test du χ2 d’indépendance.
Pour juger de la liaison entre X et Y , on peut aussi faire un test du χ2 d’indépendance (cf
cours de Stat 2), basé sur la statistique

r X
l Ni• N•j 2
X (Nij − n
)
Tn = Ni• N•j
.
i=1 j=1 n

N N
Si X et Y sont indépendantes, nij ' P(X = ci , Y = dj ) = P(X = ci )P(Y = dj ) ' Nni• n•j , et
Tn a tendance à être petit. Pour savoir si Tn est significativement non nul ou pas, on s’appuie
sur le résultat suivant :

Proposition 3.3.2 Soit ((X1 , Y1 ), · · · , (Xn , Yn )) un n-échantillon du couple de variables qua-


litatives (X, Y ). Si on suppose que X et Y sont indépendantes, alors pour tous réels a, b,

lim P [Tn ∈ [a; b]] = P(Z ∈ [a; b]) , Z ∼ χ2(r−1)(l−1) .


n→+∞

Cette proposition permet de tester (H0 ) : ”X et Y sont indépendantes” contre (H1 ) : ”X et Y


sont liées” lorsque la taille de l’échantillon est assez grande (en pratique n ≥ 30, et pour tout
n n
i, j, i•n •j ≥ 5). La règle de décision du test est donnée par :
— si Tn > t, on rejette (H0 ), et on conclut que X et Y sont liées ;
— si Tn ≤ t, on ne rejette pas (H0 ) ; rien de significatif ne permet d’assurer que X et Y
sont liées.
t est choisi en fonction du niveau α de test :

α = P(H0 ) [ Rejeter (H0 )] = P(Z > t) avec Z ∼ χ2(r−1)(l−1) .

3.3.4 Exemple
On reprend les données du fichier ozone.txt dont on a extrait la variable y : Pluie (qui
prend deux modalités { Pluie , Sec}, et la variable x : Vent (Direction du vent, prenant 4
modalités, E,O,N,S). On obtient la table de contingence :
52 ANALYSE DES DONNEES. FABIENNE CASTELL.

Profils−lignes Profils−colonnes

1.0

1.0
Sud

0.8

0.8
Ouest

Sec
0.6

0.6
pluie
vent

0.4

0.4
Nord

0.2

0.2
Est

Pluie
0.0

0.0
Pluie Sec Est Nord Ouest Sud

pluie vent

Figure 3.6 – Profils-lignes et Profils-colonnes sur les données du fichier ozone.txt

vent \pluie Pluie Sec Total


Est 2 8 10
Nord 10 21 31
Ouest 26 24 50
Sud 5 16 21
Total 43 69 112

La représentation des profils-lignes et des profils-colonnes sous forme de diagrammes en


barres parallèles est donnée dans la Figure 3.6.
Au vu de ces graphiques, les deux variables ”Direction du vent” et ”Pluie” semblent liées.
Pour en être sûr, on effectue un test du χ2 d’indépendance. On vérifie tout d’abord qu’on est
n n
bien dans les conditions d’application du test. On a n = 112 ≥ 30 et pour tout i, j i•n •j ≥
10(43)/112 = 3.83 ≤ 5. On n’est pas dans les conditions d’application du test. On a alors deux
possibilités :
— soit regrouper des classes de façon à ce que tous les ”effectifs théoriques” soient supérieurs
à 5
— soit demander le calcul de la loi de Tn par simulation Monte-Carlo.
On choisit la seconde solution. On obtient une P-valeur du test d’indépendance de 0.05597. On
peut donc conclure (avec 5.6 % de chances d’avoir tort) qu’il y a une liaison entre la direction
du vent et la présence ou absence de pluie.
CHAPITRE 3. Statistique descriptive bidimensionnelle. 53

● ●

2

40

● ● ● ●
● ● ● ●●
● ● ● ●● ●
● ● ●● ●
●●

1
●●

20
●● ●● ● ●
● ● ● ●
● ● ●● ● ●

● ●● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ●
●● ● ●
● ● ● ● ● ●●●● ●● ● ●
● ● ● ● ● ● ● ●
y

y
● ● ●

0
●●● ●●● ● ●
● ●● ●● ●● ●

0
● ● ● ● ● ●
● ● ● ●●● ●●●● ●

● ●

● ● ● ●●
● ● ●●●●

● ●
● ●●● ●● ● ● ●● ● ●●
●● ● ● ●● ● ●● ● ● ●
●● ● ●

−20

−1
● ● ● ● ● ●
● ●
● ● ●
● ●
● ● ●

−40
−2


● ●

−20 −10 0 10 20 −20 −10 0 10 20

x x

●● ●

500

● ●
● ● ●
40


●● ● ● ● ● ●


● ●
● ●● ● ● ● ●
20

● ●

300
●● ● ● ●●
●● ● ● ●
● ●● ●
● ● ●● ● ● ● ● ●
● ● ●
● ● ● ●●
●●
● ●
y

y

0

● ●● ●● ● ●
●● ●
● ● ● ●●
●● ●● ● ● ●
●● ●
● ●●●●● ● ●

100
● ●●●● ● ●
● ●● ● ●● ● ● ●
−40 −20

● ●
● ● ● ● ● ●
● ●● ● ● ● ●● ●●● ●●● ● ●
● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ●
●● ● ● ●
●●● ●●● ●
●● ● ● ●● ● ● ●
● ●
● ● ● ●
● ● ● ●

−100

● ● ●

−20 −10 0 10 20 −20 −10 0 10 20

x x

Figure 3.7 – Exemple de nuages de points.

3.4 Exercices
3.4.1 Deux variables quantitatives
Exercice 1: Commenter les nuages de la figure 3.7. Les variables vous semblent-elles liées ?
Sous quelle forme ?
Exercice 2:
1. Récupérer le fichier ozone.txt.
2. En extraire les variables quantitatives.
3. Pour chaque couple de variables quantitatives, tracer le nuage de points correspon-
dant (fonction plot) et repérer les couples de variables semblant avoir une dépendance
linéaire.
4. Pour les couples précédents, calculer les coefficients de corrélation linéaire empirique.
5. Tester la normalité de chacune des variables sélectionnées. Est-ce-que cela suffit à tester
la normalité des couples de variables ?
6. Dans les cas où la normalité des couples s’avère plausible, les coefficients de corrélation
linéaires empiriques sont-ils significativement non nuls ?

Exercice 3: Preuve de la proposition 3.1.2.


Dans tout l’exercice, on se place dans l’hypothèse où (X, Y ) est un couple gaussien de coefficient
de corrélation ρ = 0. Soit (X1 , Y1 ), · · · (Xn , Yn ) des couples indépendants de même loi que (X, Y )
et notons R la variable corrélation empirique définie par (3.2).
54 ANALYSE DES DONNEES. FABIENNE CASTELL.

~ et Y~ sont deux vecteurs gaussiens de Rn indépendants, avec


1. Montrer que les vecteurs X  
1
 .. 
X ∼ N (µX 1I; σX Id), Y ∼ N (µY 1I; σY Id), et 1I :=  . .
~ 2 ~ 2

1
2. Dans Rn , soit e1 = √1 1I, e2 , · · · , en n vecteurs orthornormés formant une bon de Rn .
n
Soit X̃1 , · · · , X̃n les coordonnées de X ~ = Pn X̃i ei .
~ dans cette base : X
i=1

(a) Montrer que X̃1 = nX̄n .
   
X̃1 e01
~ :=  ..  =  ..  X. ~
(b) Montrer que X̃  .   .  ~ En déduire que X̃ est un vecteur gaussien
X̃
n e0n
 √
nµX
 0 
2
de moyenne   et de matrice de covariance σX Id.
 
..
 . 
0
(c) En déduire que X̄n et X̃2 , · · · , X̃n sont des variables indépendantes, que X̄n ∼
N(µX , σX
2
/n) et que X̃i ∼ N(0, σX 2
) pour i ≥ 2.
3. En définissant les variables ỸiPen fonction de Y~ de la même façon que les X̃ en fonction
Pin−1
n
~ montrer que R = √P X̃ Ỹ Zi T i
de X, n
i=2
2
√Pn 2 , et que R a même loi que √Pn−1 2 √
i i i=1
Pn−1 2 ,
i=2 X̃i i=2 Ỹi i=1 Zi i=1 Ti
où les variables Z1 , · · · , Zn−1 , T1 , · · · , Tn−1 sont i .i.d de loi N(0, 1).
4. Soit t = (t1 , · · · , td )0 un vecteur de Rd tel que ktk = 1. Soit Z1 , · · · , Zd i.i.d de loi N(0, 1).
~ i
hZ;t ~ = (Z1 , · · · , Zd )0 . Soit f2 , · · · , fd des vecteurs
On considère la variable S = Z~ , où Z
k k D E
normés de Rd tels que f1 := t, f2 , · · · , fd soit une bon de Rd . On pose Z̃i = Z; ~ fi

(a) Quelle est la loi de (Z̃1 , · · · , Z̃d ) ?


(b) Montrer que √ S= √PZ̃d1 2 .
1−S 2
i=2 Z̃i

S

(c) En déduire que √1−S 2 d − 1 est une variable de Student à d − 1 degrés de liberté.
R

5. Conclure que √1−R 2 n − 2 est une variable de Student à n − 2 degrés de liberté.

Exercice 4: test de corrélation de Spearman.


1. On suppose que n = 5.
(a) Quelles sont les valeurs prises par la variable RS ?
(b) Quelle est la loi de la variable RS sous l’hypothèse d’indépendance de X et Y ?
(c) En déduire la Pvaleur du test de corrélation de Spearman de l’exemple 3.1.3.
2. En utilisant la fonction cor.test, refaire les tests de corrélation sur les données du
fichier ozone.txt.
CHAPITRE 3. Statistique descriptive bidimensionnelle. 55

3.4.2 Une variable qualitative et une variable quantitative


Exercice 5: On a observé sur n = 10 individus une variable quantitative y et une variable
qualitative x prenant 3 modalités A,B,C. Les résultats sont les suivants :
y -0.97 -0.52 0.19 -0.03 0.55 1.08 0.39 0.38 2.63 0.82
x A A B A B C B B C B

1. Calculer les effectifs, les moyennes et variances empiriques pour chaque modalité.
2. Calculer la variance inter-catégories, la variance intra-catégories et le rapport de corrélation
empirique.
3. Faire un test de normalité de chaque sous-échantillon.
4. Selon le résultat du test précédent, choisir un test d’indépendance entre x et y. Conclure.

Exercice 6:
1. A partir des données du fichier ozone.txt, obtenir les résultats concernant la liaison entre
direction du vent et concentration en ozone présentés en exemple dans le cours
2. Etudier la liaison entre la concentration en ozone, et le fait qu’il pleuve ou pas.

3.4.3 Deux variables qualitatives .


Exercice 7: On a observé sur n = 10 individus deux variables quantitatives : x prenant 2
modalités H,F, et y prenant trois modalités 0,B,A. Les résultats sont les suivants :
x H H F F H H F F H H
y O O B B O A B O O O

1. Calculer la table de contingence.


2. Faire une représentation graphique des profils-lignes et des profils-colonnes.
3. Tester l’indépendance entre x et y. Conclure.

Exercice 8: A partir des données du fichier ozone.txt, étudier la liaison entre la concentration
en ozone, et le fait qu’il pleuve ou pas.
56 ANALYSE DES DONNEES. FABIENNE CASTELL.
Chapitre 4

Analyse en Composantes Principales.

L’ACP est une des plus anciennes méthodes factorielles. Elle a été conçue par Karl Peason
(1901) et intégrée à la statistique par Harold Hotelling (1933). Elle est utilisée lorsqu’on observe
sur n individus, p variables quantitatives X 1 , X 2 , . . ., X p présentant des liaisons multiples que
l’on veut analyser. Ces observations sont regroupées dans un tableau (matrice) rectangulaire X
ayant n lignes (individus) et p colonnes (variables) :

x11 x21 . . . xp1


 
 x12 x22 . . . xp2 
X=
 
.. .. .. .. 
 . . . . 
xn xn . . . xpn
1 2

où xji est la valeur observée de la j-ième variable X j sur le i-ème individu de l’échantillon.

Exemple 4.1: Cet exemple est tiré du livre ”Statistique avec R”, et le fichier de données
decathlon.csv peut-être téléchargé sur le site d’agrocampus Rennes. Il concerne les résultats
d’athlètes (les individus) aux 10 épreuves du décathlon (les variables). Il s’agit d’analyser les
liaisons entre les performances aux différentes épreuves, de savoir si certaines épreuves se res-
semblent (une bonne performance à telle épreuve augurant alors d’une bonne performance à
telle autre), de déterminer des profils d’athlètes (endurant, rapide, ... etc). Ainsi, sur les 10
épreuves, on se doute bien que les performances au 100m, 110 m haies, et saut en longueur vont
être corrélées. Est-il vraiment utile de garder dans le tableau de données ces trois épreuves ? Ne
peut-on pas se contenter d’en garder une seule ? Ou d’en ”fabriquer” une qui serait un ”résumé”
de ces trois épreuves ? De façon générale, ne peut-on pas réduire la dimension du tableau de
données, en ne conservant qu’un petit nombre de variables qui apportent autant d’information
que l’ensemble des variables mesurées ?

Le but de l’ACP est de répondre à ce genre de questions. Il s’agit d’une méthode de des-
cription et de résumé d’un tableau de données (n, p). Son objectif principal est de remplacer
ce tableau de données par un tableau de dimension réduite (n, q) (q < p). Un des avantages
de cette réduction de dimension est par exemple, de pouvoir obtenir des représentations gra-
phiques des données. En effet, lorsque p = 2, chaque individu peut-être représenté par un point

57
58 ANALYSE DES DONNEES. FABIENNE CASTELL.

dans un plan, et le tableau de données initial peut être visualisé graphiquement par un nuage
de points dans un plan. Dès que p ≥ 4, une représentation graphique du nuage de points est
difficile, et l’un des buts de l’ACP est de trouver ”la meilleure” représentation plane du nuage
de points, ce qui revient à chercher un tableau (n, q = 2) qui approche ”au mieux” le tableau
de données initial. On cherche en particulier une représentation plane :
— qui minimise les déformations du nuage initial ;
— qui fait apparaı̂tre les liaisons entre les variables initiales ;
— qui permet de résumer l’information contenue dans le tableau initial (n, p) dans un
tableau de plus faible dimension (n, q), q < p, (en fait q = 2, 3), en la détruisant le moins
possible.
Cette réduction va être obtenue en remplaçant les variables initiales xj , j = 1, . . . , p par un
petit nombre de nouvelles variables cj , j = 1, . . . , q, appelées composantes principales, qui
sont non corrélées, et combinaisons linéaires des xj . Ces nouvelles variables vont être obtenues
en analysant la structure des covariances, ou des corrélations, entre les variables initiales.
Avant de décrire plus précisément la méthode, il faut en souligner quelques limites :
1. l’ACP ne permet pas le traitement de variables qualitatives ;
2. l’ACP ne détecte que d’éventuelles liaisons linéaires entre variables.
L’ACP présente de nombreuses variantes selon les transformations apportées au tableau de
données. Parmi ces variantes, l’ACP sur un tableau où les colonnes sont centrées et réduites,
appelée ACP normée est la plus fréquemment utilisée.

4.1 Définitions
4.1.1 Espace des individus.
Espace vectoriel des individus
On associe à chaque individu i, un vecteur xi contenant les valeurs de chaque variable pour
l’individu considéré :

x0i = (x1i , x2i , · · · , xpi ) (i-ème ligne de la matrice X) .

Chaque individu peut alors être représenté par un point dans Rp , appelé espace des individus.

Matrice des poids.


On affecte à chaque individu
Pn un poids pi reflétant son importance par rapport aux autres
individus avec pi > 0 et i=1 pi = 1. On appelle matrice des poids la matrice diagonale
(n, n) dont les éléments diagonaux sont les poids pi . Elle sera notée
 
p1 0 · · · 0
 0 p2 · · · 0 
D = diag(p1 , p2 , · · · , pn ) =  .. ..  .
 
.. ..
 . . . . 
0 · · · 0 pn
CHAPITRE 4. Analyse en Composantes Principales. 59

Le cas le plus fréquent est de considérer que tous les individus ont la même importance :
pi = 1/n, pour tout i = 1, · · · , n. Si les individus sont par exemple des pays, on peut être amené
à prendre
Population du pays i
pi = .
Population totale
On appelle nuage des individus, l’ensemble des points xi munis de leurs poids : M =
{(xi , pi ) ; i = 1, . . . , n}.

Centrage des données.


Le point g de Rp dont les coordonnées sont les moyennes empiriques des variables ( g 0 =
(x̄1 , x̄2 , · · · , x̄p )) est le centre de gravité (le barycentre) du nuage de points M. En utilisant
les notations matricielles, on peut écrire

g = X 0 D 1I , (4.1)

où 1I désigne le vecteur de Rn dont toutes les coordonées sont égales à 1. On a en effet pour
tout j ∈ {1, · · · , p},
n n
n X n
xjk pk = x¯j .
X X X
0
gj = (X )jk (D 1I)k = Xkj Dki 1Ii =
k=1 k=1 i=1 k=1

Pour ramener l’origine du repère au barycentre des individus (i.e centrer le nuage autour de
son barycentre), on centre les variables. A chaque variable observée xj , on associe sa variable
centrée y j :  
x̄j
 x̄j 
y j = xj −  ..  = xj − x̄j 1I .
 
 . 
x̄j
A partir du tableau X, on obtient un tableau de données Y :

y11 · · · y1j · · · y1p


 
1 j p 
 1 2 p  y2 · · · y2 · · · y2 
 
Y = y ,y ,···,y =  . .. .. .. ..  ,
 .. . . . . 
yn1 · · · ynj · · · ynp

avec yij = xji − x̄j . En utilisant les notations matricielles, on a

Y = X − 1Ig 0 = X − 1I 1I0 DX = (Id − 1I 1I0 D)X .

Matrice de covariance empirique.


La matrice de covariance empirique des variables x1 , · · · , xp peut s’écrire sous la forme

V = X 0 DX − gg 0 = Y 0 DY . (4.2)
60 ANALYSE DES DONNEES. FABIENNE CASTELL.

En effet, pour tout i, j ∈ {1, · · · , p}


n
X n
X n
X
i
cov(x , x ) = j
pk (xik − x̄ i
)(xjk j
− x̄ ) = pk yki ykj = Dkk Yki Ykj = (Y 0 DY )ij ,
k=1 k=1 k=1

ce qui montre la seconde identité. La première est une conséquence de l’expression


n
pk xik xjk − x̄i x¯j .
X
i j
cov(x , x ) =
k=1

V est une matrice carrée p × p symétrique semi-définie positive : pour tout u ∈ Rp ,


n
X n
X
0 0 0 0
u V u = u Y DY u = (Y u) D(Y u) = Dkk (Y u)2k = pk (Y u)2k ≥ 0 .
k=1 k=1

Elle admet donc p valeurs propres réelles positives ou nulles.

Centrage et réduction des données.


Notons si l’écart type empirique de la variable X i :
v v
u n u n
p uX uX
si = cov(xi , xi ) = t pk (xik − x̄i )2 = t pk (yki )2 .
k=1 k=1

Les données centrées et réduites sont notées


xji − x̄j
zij = .
sj
Ce sont des données sans dimension. Elles sont regroupées dans un tableau

z11 · · · z1j · · · z1p


 
j
 1 2 p
  1
 z2 · · · z2 · · · z2p 
Z = z ,z ,···,z =  . .

 .. .. .. .. .. 
. . . . 
1 j
zn · · · zn · · · znp

Si on note D1/S la matrice diagonale des inverses des écarts-types :


 1 
0 ··· 0
 s1 
 0 1 ···
 
0 
D1/S = diag(1/s1 , · · · , 1/sp ) = 
 s2 ,

 .. .. .. ..
 . . . .


 1 
0 ··· 0
sn
le tableau Z peut être récrit sous la forme Z = Y D1/S .
CHAPITRE 4. Analyse en Composantes Principales. 61

Matrice de corrélation empirique.


cov(xi , xj )
Notons rij la corrélation empirique des variables X i et X j : rij = . La matrice R
si sj
de corrélation empirique
 
1 r12 · · · r1p
 r21 1 · · · r2p 
R=
 
.. .. .. .. 
 . . . . 
rp1 rp2 · · · 1
peut se récrire
R = D1/S V D1/S = D1/S Y 0 DY D1/S = Z 0 DZ .

La matrice R est la matrice de variance-covariance des données centrées réduites et résume


la structure des dépendances linéaires entre les p variables.

Espace métrique des individus.


Si l’on veut faire des ”groupes d’individus qui se ressemblent” au vu des variables considérées,
il faut introduire une mesure de ”proximité” entre individus, i.e. définir une notion de distance
sur l’espace vectoriel des individus. Quelle distance choisir ? La question est primordiale car les
résultats de l’étude statistique vont en dépendre dans une large mesure.
On pourrait choisir la distance euclidienne usuelle
q
d(x1 , x2 ) = (x11 − x12 )2 + (x21 − x22 )2 + · · · + (xp1 − xp2 )2 ,

mais ce n’est pas forcément la plus adaptée. Par exemple, on peut vouloir donner des impor-
tances différentes à chaque variable, auquel cas on choisira plutôt de prendre pour distance
q
d(x1 , x2 ) = m1 (x11 − x12 )2 + m2 (x21 − x22 )2 + · · · + mp (xp1 − xp2 )2 .


Cela revient à multiplier par mj chaque variable X j . Cependant, cette formule sous-entend que
les axes sont orthogonaux (formule de Pythagore), mais en statistique c’est par pure convention
que l’on représente les variables sur des axes orthogonaux, on aurait pu prendre des axes
obliques. Ainsi, la distance entre deux individus x1 et x2 peut être définie de manière générale
par : p
dM (x1 , x2 ) = (x1 − x2 )0 M (x1 − x2 ) = ||x1 − x2 ||M ,
où M est une matrice symétrique définie positive : pour tout u ∈ Rp , u0 M u ≥ 0 et si u0 M u = 0
alors u = 0Rp . Une telle matrice admet p valeurs propres réelles strictement positives.
En pratique, on utilise le plus souvent l’une des métriques suivantes :
— M = Id . La distance est la distance euclidienne usuelle, et on parle d’ACP canonique
ou simple. Elle s’utilise lorsque les variable sont homogènes (même dimension) et de
même ordre de grandeur.
62 ANALYSE DES DONNEES. FABIENNE CASTELL.

— M = D1/S 2 , où D1/S 2 est la matrice diagonale des inverses des variances définie par
D1/S 2 = D1/S D1/S . Le choix de cette métrique revient à diviser chaque variable (colonne)
par son écart-type. On parle alors d’ACP normée. Ici la distance ne dépend plus des
unités de mesure puisque xji /sj est une grandeur sans dimension. Cette métrique donne à
chaque caractère la même importance quelle que soit sa dispersion. Elle s’utilise lorsque
les variable ne sont pas homogènes, ou ne sont pas de même ordre de grandeur.

4.1.2 Inertie d’un nuage de points.


Soit M = {(xi , pi )} le nuage de points. On note N = {(yi , pi )} le nuage centré, où on a
ramené le centre de gravité à l’origine du repère.

Inertie totale du nuage de points.


Définition 4.1.1 On appelle inertie totale du nuage des individus , I, la moyenne
pondérée des carrés des distances des points au centre de gravité :
n
X n
X n
X
I= pi d2M (xi , g) = pi ||xi − g||2M = pi ||yi ||2M .
i=1 i=1 i=1

L’inertie mesure la dispersion des points individus autour du centre de gravité g, elle est parfois
appelée variance du nuage. L’inertie du nuage M est évidemment égale à l’inertie du nuage
centré N. Dans la suite du chapitre, on supposera que le nuage est centré.
Proposition 4.1.2
n n
1 XX
I= pi pj ||xi − xj ||2M ,
2 i=1 j=1
c’est à dire l’inertie correspond à la moyenne des carrés de toutes les distances entre les indi-
vidus.
Preuve : Notons hx, yiM le produit scalaire associé à M : hx, yiM = x0 M y.
n n
1 XX
pi pj ||xi − xj ||2M
2 i=1 j=1
n n
1 XX
= pi pj ||xi − g + g − xj ||2M
2 i=1 j=1
n
n X n
n X n
n X
!
1 X X X
= pi pj ||xi − g||2M + pi pj ||xj − g||2M + 2 pi pj hxi − g, xj − giM
2 i=1 j=1 i=1 j=1 i=1 j=1
 * n + 
n n n
1 X X X X
= pi ||xi − g||2M + pj ||xj − g||2M + 2 pi (xi − g); pj (xj − g) 
2 i=1 j=1 i=1 j=1 M
n
X
= pi ||xi − g||2M ,
i=1
CHAPITRE 4. Analyse en Composantes Principales. 63
Pn
puisque i=1 pi (xi − g) = 0 par définition de g.

Inertie expliquée par un sous espace F .


Définition 4.1.3 On appelle inertie du nuage des individus N expliquée (portée) par
le sous-espace vectoriel F de Rp , l’inertie du nuage projeté sur F , c’est-à-dire :
n
X n
X
IF (N) = pi d2M (ŷiF , O) = pi ||ŷiF ||2M ,
i=1 i=1

où ŷiF désigne la projection orthogonale de yi sur F . Autrement dit,

IF (N) = I(N̂F ) ,

où N̂F = (ŷiF , pi ) est le projeté du nuage centré.




Par exemple, si u est un vecteur M-normé (i.e ||u||M = 1), et ∆u est la droite vectorielle
engendrée par u , la projection orthogonale de yi sur ∆u est ŷiu = hyi ; uiM u = (yi0 M u) u, et
l’inertie expliquée par ∆u est donnée par
n n n n
!
X X X X
I∆u = I(N̂ ) =u u 2
pi ||ŷi ||M = 0 2
pi (yi M u) = 0 0 0
pi u M y i y i M u = u M 0
p i yi yi M u
i=1 i=1 i=1 i=1
0
= u MV Mu .

Proposition 4.1.4 Décomposition de l’inertie.


1. Si F est un s.e.v. de Rp et si F ⊥ désigne son supplémentaire orthogonal (au sens du
produit scalaire défini par M ) on a la décomposition suivante :

I = IF + IF ⊥ .

2. De façon plus générale, si F = F1 ⊕ F2 et F1 ⊥ F2 (au sens du produit scalaire défini


par M ), alors
IF = IF1 + IF2 .

La quantité IF ⊥ peut donc être considérée comme une mesure de la déformation du nuage
lors de la projection sur F :
X n
IF ⊥ = pi ||yi − ŷiF ||2M .
i=1

L’inertie totale se décompose pour tout F s.e.v. de Rp comme la somme de


— l’inertie totale du nuage projeté sur F I(N̂F ),
— la déformation du nuage N par projection orthogonale sur F .

Preuve de la proposition 4.1.4.


64 ANALYSE DES DONNEES. FABIENNE CASTELL.

1. Tout élément de Rp se décompose de manière unique sous la forme


D E
F F⊥ F F⊥ ⊥ F F⊥
x = x̂ + x̂ , x̂ ∈ F , x̂ ∈ F , x̂ ; x̂ = 0.
M

Par conséquent,
n n 2
F⊥
X X
pi kyi k2M
F
I = = pi ŷi + ŷi
M
i=1 i=1
n n n
⊥ 2
2 D E

X X X
= pi ŷiF M + pi ŷiF + 2 pi yiF ; yiF
M M
i=1 i=1 i=1
= IF + IF ⊥ .

2. De la même façon, tout élément de F se décompose de manière unique sous la forme

x = x̂F1 + x̂F2 , x̂F1 ∈ F1 , x̂F2 ∈ F2 , x̂F1 ; x̂F2 M = 0 .



F1 F2 F1 F2
On a donc ŷ F = (ŷ
d F ) + (ŷ
d F ) . Comme F ⊂ F , (ŷ
1
d F) = ŷ F1 . De même, (ŷ
d F) = ŷ F2 .
Par conséquent,
n n
X F 2 X 2
pi ŷiF1 + ŷiF2 M

IF = pi y i M =

i=1 i=1
n n n
X F 2 X F 2 X
pi yiF1 ; yiF2 M


= pi ŷi M +
1
pi ŷi M + 2
2

i=1 i=1 i=1


= IF1 + IF2 .

Expression matricielle de l’inertie.


Proposition 4.1.5

I = Trace(M V ) = Trace(V M ) .

Par conséquent,
Pn
1. Si M = Id , alors I = i=1 s2j est la somme des variances empiriques des p va-
riables.
2. Si M = D1/S 2 , alors I = p. Dans ce cas, l’inertie est égale au nombre de variables et ne
dépend pas de leurs valeurs.

Preuve : On a kyi k2M = yi0 M yi = Trace(yi0 M yi ) puisqu’il s’agit d’une quantité scalaire. En
utilisant :
— Trace(AB) = Trace(BA) pour toute matrice A de taille (n, p) et toute matrice B de
taille (p, n),
CHAPITRE 4. Analyse en Composantes Principales. 65

— Trace(A + B) = Trace(A) + Trace(B),


— Trace(αA) = αTrace(A), pour toute matrice A et tout réel α,
on obtient
n
X n
X n
X
I = pi kyi k2M = pi Trace(yi0 M yi ) = pi Trace(yi yi0 M )
i=1 i=1 i=1
n
! !
X
= Trace pi yi yi0 M = Trace(V M ) = Trace(M V ) .
i=1

Les points 1. et 2. se déduisent facilement de cette identité.

4.1.3 Espace métrique des variables.


De la même façon que ce qui a été fait pour un individu, on peut associer à chaque variable
X le vecteur xj contenant les valeurs prises par cette variable sur l’ensemble des n individus :
j

xj1
 

j
 xj2 
x =  = j-ième colonne de X.
 
..
 . 
xjn

Chaque variable X j peut alors alors être représentée par un vecteur de Rn appelé espace
vectoriel des variables.
Si on veut juger de la ”proximité” entre deux variables, il faut encore une fois munir Rn d’une
distance qui rende compte de cette proximité, i.e. choisir une matrice M (n, n) symétrique et
définie positive. Ici, un choix naturel consiste à prendre M = D, la matrice diagonale
des poids (dite métrique des poids). En effet, si y 1 , y 2 , . . ., y p sont les variables centrées
associées à x1 , x2 , . . ., xp , on a
— < y j , y k >D = ni=1 pi yij yik = cov(xj , xk ) ;
P
— ||y j ||2D = s2j .
De plus l’angle θjk entre les vecteurs y j et y k est donné par

< y j , y k >D cov(xk , xj )


cos(θjk ) = = = rjk .
||y j ||D ||y k ||D sj sk

En résumé, lorsque les variables sont centrées et représentées par des vecteurs de Rn muni de
la métrique des poids :
— la longueur du vecteur correspond à l’écart-type de la variable associée ,
— le cosinus de l’angle de deux vecteurs représente la corrélation linéaire des deux variables
associées.
66 ANALYSE DES DONNEES. FABIENNE CASTELL.

4.2 Principes de l’ACP.


4.2.1 Le problème.
Rappelons que l’objectif principal est d’obtenir une représentation fidèle du nuage des indi-
vidus de Rp en le projetant sur un espace de faible dimension. Le choix de l’espace de projection
s’effectue selon le critère de l’inertie, i.e. on cherche le sous-espace de dimension k por-
tant l’inertie maximale du nuage. Cela revient à déformer le moins possible les distances
en projection. Il s’agit donc de résoudre le problème suivant :

(Pk ) : Trouver un (le) s.e.v Ek de dimension k (k < p), tel que


IEk = max {IE ; dim(E) = k}.

Définition 4.2.1 On appelle sous-espace principal de dimension k, tout sev de dimension


k solution de (Pk ).

4.2.2 Espaces et axes principaux.


Théorème 4.2.2 Soit Ek un sous espace vectoriel de dimension k < p portant l’inertie maxi-
male du nuage, alors un sous-espace de dimension k + 1 portant l’inertie maximale est

Ek ⊕ ∆uk+1

où uk+1 est un vecteur M-orthogonal à Ek et ∆uk+1 est une droite vectorielle M -orthogonale à
Ek portant l’inertie maximale parmi toutes les droites vectorielles M -orthogonales à Ek .

Preuve : Soit F un sous-espace de dimension k + 1. Comme dim(Ek⊥ ) + dim(F ) = (p − k) +


(k + 1) = p + 1, Ek⊥ et F ont au moins une direction commune. Soit u ∈ Ek⊥ ∩ F (u 6= 0). On
peut alors écrire F = F̃ ⊕ ∆u , où F̃ est le supplémentaire M -orthogonal de ∆u dans F . F̃ est
de dimension k, et par définition de Ek on a donc IF̃ ≤ IEk . Par ailleurs, par définition de uk+1 ,
on a aussi Iu ≤ Iuk+1 . Ainsi,

IF = IF̃ + Iu ≤ IEk + Iuk+1 = IEk+1

où Ek+1 = Ek ⊕ ∆uk+1 .

Définition 4.2.3 Les axes ∆u1 , · · · , ∆up sont appelés axes principaux d’inertie de l’ACP.

Le théorème 4.2.2 dit que les sous-espaces principaux Ek (les solutions de (Pk )) sont emboı̂tés
et peuvent se calculer de façon itérative selon la procédure :
— Rechercher un axe ∆u1 maximisant l’inertie expliquée I∆u1 . On note E1 = ∆u1 .
— Rechercher un axe ∆u2 orthogonal à E1 , maximisant l’inertie expliquée I∆u2 . On note
E2 = E1 ⊕ ∆u2 .
— ...
— Rechercher un axe ∆uk orthogonal à Ek−1 maximisant l’inertie expliquée I∆uk . On note
Ek = Ek−1 ⊕ ∆uk .
CHAPITRE 4. Analyse en Composantes Principales. 67

Calcul des axes principaux :


Commencons par trouver l’axe principal ∆u1 . Si u1 est M-normé, on a vu que I∆u1 =
u01 M V M u1 . Si ku1 kM 6= 1, en notant v1 = u1 / ku1 kM , on a ∆u1 = ∆v1 et donc
u01 M V M u1 u01 M V M u1
I∆u1 = I∆v1 = v10 M V M v1 = = .
ku1 k2M u01 M u1
On veut maximiser cette quantité en u1 ∈ Rp . Pour cela, on commence par chercher les points
critiques de la fonction considérée, i.e. les points où le gradient est nul :
 0
2M V M u1 (u01 M V M u1 )(2M u1 )

u1 M V M u 1
∇u1 = − .
u01 M u1 u01 M u1 (u01 M u1 )2
u1 est donc solution de
u01 M V M u1
M V M u1 = M u1 = I∆u1 M u1 ⇔ V M u1 = I∆u1 u1 ,
u01 M u1
puisque M est inversible. Autrement dit, u1 est vecteur propre de la matrice V M associé à la
valeur propre I∆u1 . Pour maximiser I∆u1 , il faut donc choisir pour u1 le vecteur propre
de V M associé à la plus grande valeur propre λ1 de la matrice V M . On a alors
I∆u1 = λ1 .
Ce résultat se généralise aux autres axes principaux, et on a le théorème :
Théorème 4.2.4 Calcul des axes principaux.
1. Il existe une base M-orthonormée (u1 , u2 , · · · , up ) de vecteurs propres de la matrice V M
associés aux valeurs propres (réelles positives) rangées par ordre décroissant λ1 ≥ λ2 ≥
· · · ≥ λp ≥ 0.
2. Les vecteurs u1 , u2 , . . ., up engendrent respectivement les axes principaux d’inertie de
l’ACP et on a pour tout j ∈ {1, · · · , p},
I∆uj = λj .

3. Pour tout k < p, le s.e.v Ek engendré par les k premiers vecteurs u1 ,. . ., uk , est un s.e.v.
principal de dimension k, et l’inertie expliquée par Ek est donnée par
IEk = λ1 + · · · + λk .

Définition 4.2.5 Les vecteurs uj sont appelés vecteurs principaux de l’ACP.


Preuve :
1. Notez que la matrice V M est M -symétrique puisque
hx; V M yiM = x0 M (V M y) = x0 M V M y = y 0 M 0 V 0 M 0 x = y 0 M V M x ,
puisque M et V sont symétriques. Ainsi hx; V M yiM = hV M x; yiM . Par conséquent, les
valeurs propres de V M sont réelles et positives, et V M admet une base M -orthonormée
de vecteurs propres.
68 ANALYSE DES DONNEES. FABIENNE CASTELL.

2. On a déjà vu que le premier axe principal d’inertie est engendré par le vecteur propre
u1 associé à la plus grande valeur propre λ1 de V M . Pour les autres axes principaux, on
utilise le fait que la k-ième valeur propre λk vérifie :

λk = max hu, V M uiM ; kukM = 1; hu; uj iM = 0, j = 1, · · · k − 1 .

Comme kuk kM = 1, on a I∆uk = u0k M V M uk = u0k M (λk uk ) = λk u0k M uk = λk .


3. Par le théorème 4.2.2, Ek = ∆u1 ⊕ · · · ⊕ ∆uk , et IEk = kj=1 I∆uj = kj=1 λj .
P P

Remarques :
Pp
1. En prenant k = p, on retrouve I = Trace(V M ) = j=1 λj .
2. Notez que V M = Y 0 DY M . Si r = Rang(Y ) (≤ min(p, n)), on a

λ1 > 0 , λ2 > 0, · · · , λr > 0 et λr+1 = · · · = λp = 0 ,

et par suite IEr = I.


Dans ce cas le nuage est entièrement contenu dans le sev Er .
3. Une ACP avec M = Id dite canonique ou simple revient à diagonaliser la matrice de
covariance empirique des p variables de départ.
4. Une ACP avec M = D1/S 2 dite normée, revient à diagonaliser la matrice de corrélation
empirique.

4.2.3 Composantes Principales (CP)


Définition
Rappelons que le point de départ était d’obtenir une représentation du nuage N dans des
espaces de dimension réduite. On connait maintenant les axes définissant ces espaces. Pour
pouvoir obtenir les différentes représentations, il suffit de déterminer les coordonnées des points
du nuage projeté sur chaque axe principal.
Soit cj1 , cj2 , . . ., cjn , ces coordonnées sur l’axe ∆uj , où cji est la coordonnée de yi sur l’axe ∆uj .

cji =< yi , uj >M = yi0 M uj .

Définition 4.2.6 Le vecteur de Rn

cj1
 

j
 cj2 
c =  = Y M uj .
 
..
 . 
cjn

est appelé j-ième composante principale.


CHAPITRE 4. Analyse en Composantes Principales. 69

Si on note C = [c1 , c2 , · · · , cp ] la matrice obtenue en rangeant en colonne les cj , on a donc


C = Y M U où U est une matrice (p, p) définie par U = [u1 , u2 , · · · , up ].
La projection du nuage N dans le plan principal (∆uj , ∆uk ) est donc donnée par les points
de coordonnées (cji , cki ); i = 1, · · · , n dans le repère donné par les droites ∆uj et ∆uk . Par


exemple {(c1i , c2i ) ; i = 1, · · · , n} est le nuage projeté sur le 1er plan principal (∆u1 , ∆u2 ).
La décomposition du vecteur yi sur la base des vecteurs principaux (u1 , u2 , · · · , up ) s’écrit
p r
X X
yi = cji uj = cji uj ,
j=1 j=1

Remarque : Pour j > r, les CP cj sont égales au vecteur nul de Rn car l’inertie expliquée
par ces axes est nulle.

Les composantes principales vues comme de nouvelles variables.


Une CP associe à chaque individu i un nombre réel. On peut donc la considérer comme une
nouvelle variable. Comme les variables initiales y j , cette variable est représentée par un vecteur
de Rn .

Proposition 4.2.7 Propriétés des composantes principales.


1. Les CP sont des combinaisons linéaires des variables de départ y j .
2. Les CP cj sont centrées, de variance λj et non corrélées deux à deux.
3. Les CP c1 , · · · , cp sont vecteurs propres de la matrice Y M Y 0 D, de valeurs propres λ1 , · · · , λp .

Dans l’espace des variables Rn , muni de la métrique des poids D, on a vu que le produit scalaire
de deux variables n’est autre que leur covariance. On rappelle que pour j > r, cj = 0. Pour
j ≤ r, λj > 0 et on définit
cj
dj = p .
λj
Le point 2. de la proposition 4.2.7 signifie que (d1 , · · · , dr ) est un système D-orthonormé de
l’espace des variables Rn . Il n’en constitue pas nécessairement une base (puisque r ≤ min(n, p)),
sauf dans le cas où r = n ≤ p. dj s’appelle le j-ième facteur principal.
Nous reviendrons plus loin sur une interprétation du point 3.

Preuve de la proposition 4.2.7 :


1.
 
(M uj )1 p
j
 1 p
  1 p 

c = Y M uj = y · · · y M u j = y · · · y  .
..
X
(M uj )k y k .
=

(M uj )p k=1
70 ANALYSE DES DONNEES. FABIENNE CASTELL.

2. On a vu (cf (4.1)) que le barycentre des données (cji ) est donné par l’expression matri-
cielle :
c̄ = C 0 D 1I = U 0 M Y 0 D 1I = U 0 M ȳ = 0 ,
puisque les données (yij ) sont centrées. Par ailleurs, en utilisant l’expression matricielle
de la covariance empirique donnée dans (4.2), on obtient
cov(ci , cj ) ij = C 0 DC = U 0 M Y 0 DY M U = U 0 M V M U .


Notez que
 
 1 λ1
p 1 p 1 p 1 p 
      
V M U = V M u · · · u = V M u · · · V M u = λ1 u · · · λp u = u · · · u 0  0 .
λp
On en déduit que (cov(xi , xj ))ij = U 0 M U diag(λ1 , · · · , λp ). Pour terminer, il suffit de
remarquer que
   
(u1 )0 (u1 )0 M u1 · · · (u1 )0 M up
U 0 M U =  ...  M u1 · · · up = 
     .. .. 
. . 
p 0 p0 1 p0 p
(u ) u Mu · · · u Mu
 
hu1 ; u1 iM · · · hu1 ; up iM
=  .. ..
 = Idp ,
 
. .
hup ; u1 iM · · · hup , up iM

puisque (u1 , · · · , up ) est une base M -orthonormée.


3. Par définition de (uj , λj ), V M uj = Y 0 DY M uj = λj uj . En multipliant cette identité par
Y M , et en utilisant l’identité cj = Y M uj , on obtient Y M Y 0 Dcj = λj cj .

4.2.4 Résumé d’une analyse en composantes principales.


En résumé, une ACP prend pour entrées :
— un nuage centré N de n individus y1 , · · · , yn dans un espace de dimension p, Rp . Ces
individus sont rangés dans un tableau de données (n, p) noté Y ;
— D, une matrice (n, n) de poids qui définit une métrique sur Rn ;
— et M , une matrice (p, p) qui définit une métrique sur l’espace des individus Rp .
On note ACP(Y, D, M ) pour faire référence au tableau de données, à la matrice des poids et à
la métrique.
Les sorties de l’ACP sont
— les valeurs propres λ1 , · · · , λp de la matrice V M = Y 0 DY M (λ1 ≥ · · · λr > 0 = λr+1 =
· · · = λp , où r est le rang de la matrice Y ) ;
— les axes principaux u1 , · · · , up vecteurs de Rp qui sont les vecteurs propres associés, et
qui forment une base M -orthonormée de l’espace des individus Rp ;
Y 0 DY M uj = λj uj , hui ; uj iM = δij .
CHAPITRE 4. Analyse en Composantes Principales. 71

— les composantes principales c1 , · · · , cp , éléments de Rn définis par cj = Y 0 M uj (cj = 0


1 r j
p j > r), ou de façon équivalente les facteurs principaux d , · · · , d définis par d =
pour
j
c / λj .

4.3 ACP dans l’espace des variables.


On s’intéresse dans cette section au nuage V des variables centrées y 1 , · · · , y p qui sont des
éléments de l’espace Rn . Pour obtenir de bonnes représentations planes de ce nuage de points,
on peut adopter la même démarche que pour le nuage des individus, et faire une ACP dans
l’espace des variables. L’objectif est de trouver les sous-espaces principaux F1 , F2 ,. . .etc de Rn
qui conservent au mieux l’information liée à l’inertie contenue dans le nuage des variables V.
Pour construire cette ACP, on a besoin de définir :
— Le tableau de données : Il s’agit du tableau (p, n) obtenu en mettant les vecteurs y 1 , · · · , y p
sous forme de vecteurs lignes, et en mettant ces lignes l’une en dessous de l’autre. Il est
clair que le tableau obtenu est Y 0 .
— Une métrique sur l’espace des variables Rn : on a déjà vu qu’un choix naturel est de
prendre D = diag(p1 , · · · , pn ).
— Un matrice (p, p) de poids : on va ici choisir la matrice M .
On est donc en train de faire une ACP(Y 0 , M, D).
Avec ce choix de métrique et de matrice de poids, on a le résultat :
Proposition 4.3.1 ACP dans l’espace des variables.
1. Les valeurs propres non nulles de l’ACP(Y 0 , M, D) du nuage des variables V sont les
valeurs propres non nulles (λ1 , · · · , λr ) de l’ACP(Y, D, M ) du nuage N des individus .
2. Les axes principaux de l’ACP(Y 0 , M, D) correspondant aux valeurs propres non nulles
(λ1 , · · · , λr ), sont les facteurs principaux (d1 , · · · , dr ) de l’ACP(Y, D, M ) du nuage des
individus.
3. Les composantes
√ principales non nulles de l’ACP(Y 0 , M, D) du nuage V des variables

sont ( λ1 u1 , · · · , λr ur ). Autrement dit, les facteurs principaux de l’ACP(Y 0 , M, D) du
nuage V des variables, sont les axes principaux (u1 , · · · , ur ) de l’ACP(Y, D, M ) du nuage
des individus, correspondant aux valeurs propres non nulles.
Preuve : Pour faire l’ACP(Y 0 , M, D) du nuage des variables, il faut diagonaliser la matrice
(n, n) (Y 0 )0 M Y 0 D = Y M Y 0 D.
1. On rappelle les résultats d’algèbre linéaire :
— Soit A une matrice (n, p) et B une matrice (p, p) inversible. rang(AB) = rang(A).
— Soit A une matrice (n, p). rang(AA0 ) = rang(A0 A) = rang(A).
0
En appliquant√le premier résultat, il vient rang(Y M Y √ D) = rang(Y M Y 0 ). En appliquant

le second à Y M , on obtient rang(Y M Y 0 ) = rang(Y M ). M étant inversible, M l’est
aussi, et donc rang(Y M Y 0 D) = rang(Y ) = r. Par conséquent, Y M Y 0 D admet n − r
valeurs propres nulles. On a par ailleurs vu dans le point 3. de la proposition 4.2.7 que
c1 , · · · , cr sont vecteurs propres de Y M Y 0 D associés aux valeurs propres λ1 ≥ λ2 ≥
· · · ≥ λr > 0. On a donc montré que les n valeurs propres de la matrice Y M Y 0 D sont
λ1 , · · · , λr et n − r fois la valeur 0.
72 ANALYSE DES DONNEES. FABIENNE CASTELL.

2. Les vecteurs principaux de l’ACP dans l’espace des variables sont les vecteurs propres
normés de la matrice Y M Y 0 D. Ceux correspondant aux valeurs propres non nulles sont
donc c1 , · · · , cr normés à 1, à savoir les facteurs principaux d1 , · · · , dr de l’ACP(Y, D, M )
des individus.
3. Les composantes principales c̃1 , · · · , c̃r non nulles de l’ACP(Y 0 , M, D) dans l’espace des
variables, sont les coordonnées des y i sur les r premiers axes principaux d1 , · · · , dr :
1 1 λj
c̃j = Y 0 Ddj = p Y 0 Dcj = p Y 0 DY M uj = p uj = λj uj .
p
λj λj λj

Les facteurs principaux d˜1 , · · · , d˜r non nuls de l’ACP(Y 0 , M, D) dans l’espace des va-
riables sont donc :
c̃j
d˜j = = uj .
kc̃j kM

4.4 Les représentations graphiques.


4.4.1 Représentation des individus.
La carte des individus.
Rappelons que le but principel de l’ACP est de fournir une représentation graphique du
nuage des individus sur un espace de dimension q < p (typiquement q = 2, 3). On sait main-
tenant que la ”meilleure” représentation graphique (au sens de l’inertie) est donnée par la
projection du nuage sur l’espace principal Eq engendré par les q premiers axes principaux
u1 , · · · uq , et que la coordonnée de l’individu i sur l’axe uk est cki .

Définition 4.4.1 Pour tout k, l ≤ p (k 6= l), la projection du nuage N sur le plan principal
(∆uk , ∆ul ) est appelé carte des individus.

Qualité de la représentation du nuage des individus.


Rappelons que l’inertie totale du nuage N des individus vaut
n p
X X
I= pi kyi k2M = λj = Trace(V M ) .
i=1 j=1

Définition 4.4.2 La qualité globale de la représentation du nuage N sur le s.e principal Ek


engendré par (u1 , · · · , uk ) est mesurée par le pourcentage d’inertie expliquée par Ek
IEk λ1 + λ2 + · · · + λk
= Pp .
I j=1 λj

Plus cette qualité est proche de 1, plus le nuage de points initial est ”concentré” autour de
Ek , et plus fidèle est son image projetée sur Ek .
CHAPITRE 4. Analyse en Composantes Principales. 73

Qualité de la représentation d’un individu.


Parallélement à cet indice de qualité globale, on peut définir, pour chaque individu, la qualité
de sa représentation.

Définition 4.4.3 La qualité de représentation de l’individu i sur l’espace principal Ek


est mesurée par le cosinus carré de l’angle que fait yi avec sa projection ŷiEk sur Ek :
Pk j 2
||ŷiEk ||2M j=1 (ci )
cos 2
(yi , ŷiEk ) = = Pp j 2 .
||yi ||2M j=1 (ci )

— Si cos2 (yi , ŷiEk ) est proche de 1, l’individu i appartient ”presque” à Ek , et il est donc bien
représenté sur Ek .
— Si cos2 (yi , ŷiEk ) est proche de 0, l’individu i est mal représenté sur Ek .
Ainsi, la qualité de représentation de l’individu i sur le premier plan principal E2 est mesurée
par
2 E2 ||ŷiE2 ||2M (c1i )2 + (c2i )2
cos (yi , ŷi ) = = Pp j 2 .
||yi ||2M j=1 (ci )

Remarque : Dans une carte des individus, on ne peut tirer de conclusions sur les individus
(regrougements, individus exceptionnels, etc. . .) que si ces individus sont bien représentés dans
le plan principal considéré.

Contribution d’un individu à un axe :


Il s’agit ici de détecter les individus ”influents”, ou ”aberrants”, qui peuvent déterminer
à eux seuls l’orientation des axes, et plus globalement l’ensemble des résultats de l’ACP. Ces
individus sont source d’instabilité dans l’analyse, dans le sens où les résultats de l’ACP sont
totalement différents lorsque l’ACP est faite sur l’échantillon dont on a retiré ces individus. Une
fois détectés, ces individus seront vérifiés (pour voir s’il ne s’agit tout bêtement pas d’une erreur
de transcription), et éventuellement écartés de l’ACP pour être réintégrés ensuite comme indivi-
dus supplémentaires (cf plus loin). Pour les détecter, on définit une mesure de la contribution
de l’individu i à l’inertie du nuage des individus comme le rapport

pi kyi k2M pi pk=1 (cki )2


P
= .
I I
On peut aussi mesurer la contribution d’un individu à chacun des axes principaux. Rappelons
que l’inertie globale portée par l’axe ∆uk vaut λk . Cette inertie se décompose de la manière
suivante : n
X
k
λk = var(c ) = pi (cki )2 .
i=1

pi (cki )2
est la part d’inertie portée par ∆uk , provenant de l’individu i. On définit alors la contri-
pi (cki )2
bution de l’individu i au k-ième axe principal comme le rapport = pi (dki )2 .
λk
74 ANALYSE DES DONNEES. FABIENNE CASTELL.

Si tous les individus ont le même poids 1/n dans l’analyse, alors les contributions n’ap-
portent pas plus d’information que les coordonnées, et les individus ayant de fortes contribu-
tions peuvent être détectés sur les boı̂tes à moustaches des composantes principales c1 , · · · , cr ,
ou des facteurs principaux d1 , · · · , dr .
Généralement, on considère que la contribution d’un individu à un axe est importante, si
elle excède son poids pi .

Individus supplémentaires :
Il s’agit d’individus qui ne font pas partie de l’échantillon ayant servi pour l’ACP, et qu’on
représente sur les axes principaux. Soit s un tel individu, représenté par un vecteur de Rp . Ses
coordonnées dans le repère d’origine g et d’axes ∆u1 , · · · , ∆up sont données par hs − g, uk iM .

4.4.2 Représentation des variables.


La carte des variables.
Dans l’espace des variables, les axes principaux (correspondant aux valeurs propres non
nulles) sont d1 , d2 , · · · , dr . Une variable y i est donc représentée par sa
projection
sur l’espace
principal Fq (q = 2 ou 3) engendré par d , · · · , d . Ses coordonnées sont y ; d D = cov(y j , dk ) =
1 q i k

λk ujk (cf point 3. de la proposition 4.2.7).

Définition 4.4.4 Pour tout k et l ≤ r, la projection du nuage V sur le plan principal engendré
par (dk , dl ) est appelée carte des variables.

Qualité de la représentation du nuage des variables :


L’inertie totale du nuage vaut
r
X
0
I(V) = Trace(Y M Y D) = λj = I(N) = I .
j=1

La qualité globale de la représentation du nuage V sur le s.e principal Fk est mesurée par
λ1 + · · · + λk
Pp .
j=1 λj

Qualité de la représentation d’une variable :


La qualité de la représentation de la variable y j sur l’axe principal engendré par dk est
mesurée par :
k
2 j j,dk ||ŷ j,d ||2D < y j ; dk >2D
cos (y , ŷ ) = = = r2 (y j , dk ) ,
||y j ||2D s2j

où r(y j , dk ) est le coefficient de corrélation linéaire entre y j et dk . Comme dk = ck / λk , la
qualité de la représentation de la variable y j sur l’axe principal engendré par dk est aussi égale
à r2 (dj , ck ).
CHAPITRE 4. Analyse en Composantes Principales. 75

De la même façon, la qualité de la représentation de la variable y j sur le premier plan


principal F2 engendré par d1 et d2 est mesurée par :

||ŷ j,F2 ||2D


cos2 (y j , ŷ j,F2 ) = = r2 (y j , c1 ) + r2 (y j , c2 ) .
||y j ||2D

— Si cos2 (y j , ŷ j,F2 ) est proche de 1, alors la variable y j est bien représentée dans F2 .
— Si cos2 (y j , ŷ j,F2 ) est proche de 0, alors la variable y j est mal représentée sur F2 .

Cas particulier d’une ACP normée. Cercle des corrélations.

On se place ici dans le cadre d’une ACP normée où M = D1/S 2 = diag(1/s21 , · · · , 1/s2p ).
Rappelons que ceci revient à centrer et réduire les données au préalable de l’analyse, et à
prendre pour métrique M = Ip dans l’espace des individus. Considérons Z le tableau centré
réduit :
xj − x̄j
Z = [z 1 , z 2 , . . . , z p ] , où pour tout j = 1, . . . , p, z j = .
sj

On a Z = Y D1/S et l’ACP(Y, D, D1/S 2 ) n’est autre que l’ACP(Z, D, Id).


2
Dans ce cas, kz j kD = var(z j ) = 1 et toutes les variables sont situées sur la sphère unité Sn
de l’espace des variables Rn . L’intersection de cette sphère avec le premier plan factoriel est
donc un cercle unité appelé cercle des corrélations. La projection de z j sur F2 est un point
à l’intérieur du cercle des corrélations, et la représentation de la j-ième variable z j est d’autant
meilleure que sa projection est proche du cercle des corrélations.

Par ailleurs, la coordonnée de
la variable z j sur le k-ième axe principal est donnée par z j , dk D = cov(z j , dk ) = cor(z j , dk )
puisque var(z j ) = var(dk ) = 1. Donc en ACP normée, les composantes des variables
sur le k-ième facteur correspondent aux coefficients de corrélation linéaire entre
ces variables et la j-ième CP cj .

Remarques :
1. L’étude des corrélations des variables z j avec la CP ck permet d’interpréter ck en fonc-
tion des z j . Cette étude des corrélations peut se faire par l’étude des proximités des
projections ẑ j avec le point (1, 0) du plan (v k , v l ).
2. Les cartes des variables facilitent l’interprétation de la matrice des corrélations des va-
0 0 0
riables. Si deux variables z j et z j sont bien représentées par leurs projections ẑ j et ẑ j
sur le plan (v k , v l ) alors :
0
— la proximité des projections ẑ j et ẑ j indique une forte corrélation linaire entre z j et
0
zj ,
0
— des points ẑ j et ẑ j diamétralement opposés indiquent une corrélation négative proche
de −1,
0
— des directions de ẑ j et de ẑ j presque orthogonales indiquent une faible corrélation
0
entre z j et z j .
76 ANALYSE DES DONNEES. FABIENNE CASTELL.

4.5 Reconstitution des données de départ.


A partir de la décomposition des vecteurs yi de Rp sur la base de vecteurs propres {u1 , · · · , up }
p r
X X
cji uj =
p j
yi = λj di uj ,
j=1 j=1

on peut facilement déduire l’égalité matricielle


p p p
Y = λ1 d1 u01 + λ2 d2 u02 + · · · + λr dr u0r ,

qui représente la matrice Y comme une somme de matrices de rang 1. Cette relation
montre que l’on peut “reconstituer” le tableau centré initial à partir des valeurs propres λj ,
des vecteurs principaux uj ∈ Rp et des facteurs principaux dj ∈ Rn associés, obtenus dans
l’analyse des individus et des variables respectivement. Cette relation est appelée formule de
reconstitution.
Si on se limite aux k (k < r) premiers termes, on obtient une approximation du tableau
initial :
X k
λj dj u0j .
p
Y ≈ Ỹ =
j=1

La matrice Ỹ est de taille (n, p), et de rang k. En effet, pour tout j0 ∈ {1, · · · , p},
k k  p
X p j 0
X p j λj0 dj0 si j0 ≤ k ,
Ỹ M uj0 = λj d uj M uj0 = δj,j0 λj d =
0 si j0 > k .
j=1 j=1

On en déduit que rang(Ỹ M ) = k, et comme M est inversible, il résulte que rang(Ỹ ) = k. Le


théorème d’Eckart-Young établit que cette somme des k premiers termes de rang 1 fournit la
meilleure approximation de Y par une matrice de rang k au sens des ”moindres carrés” :
2 n o
Y − Ỹ = inf kY − T k2M,D ; T matrice (n, p) de rang k ,

M,D
 
kT vkD
où on a noté kT kM,D = supv∈Rp .
kvkM

4.6 Pratique de l’ACP.


4.6.1 Nombre d’axes à retenir.
Le principal objectif d’une ACP étant la réduction du nombre de variables initiales, la
détermination du nombre q d’axes à retenir est donc très importante.
De nombreux critères de choix pour q ont été proposés dans la littérature. Voici les plus
courants.
CHAPITRE 4. Analyse en Composantes Principales. 77

— La part d’inertie : Souvent la qualité globale de la représentation est utilisée pour


choisir q de sorte que la part d’inertie expliquée par Eq (ou Fq ) soit supérieure à une
valeur seuil fixée a priori par l’utilisateur.
— La règle de Kaiser P : Elle préconise de ne conserver que les valeurs propres supérieures
à leur moyenne (= p pi=1 λi = I/p), seules jugées plus “informatives” que les variables
1

initiales. Dans le cas d’une ACP normée, ne sont donc retenues que les valeurs propres
supérieures à 1. Ce critère a tendance à surestimer le nombre d’axes pertinents.
— L’éboulis des valeurs propres : C’est un graphique présentant la décroissance des
valeurs propres. Il est obtenu en traçant les valeurs propres λj en fonction de leur indice
j. Le principe consiste à chercher un “coude” dans le graphe. Les axes à retenir sont
alors ceux dont les valeurs propres se situent avant le “coude”.

4.6.2 Interprétation de l’ACP.


Les axes factoriels sont interprétés par rapport aux variables bien représentées en utilisant
les contributions, ou le cercle des corrélations.
Les graphiques des individus sont interprétés en tenant compte des qualités de représentation,
en termes de regroupement ou dispersion par rapport aux axes principaux.
Les contributions des individus permettent d’identifier ceux qui ont une grande influence
sur l’ACP. Ces individus sont à vérifier, et éventuellement à considérer comme supplémentaires
dans une autre analyse.

Pour décrire une carte des variables ou des individus, on adoptera le plan sui-
vant :
1. Donner le pourcentage d’inertie expliquée par le plan considéré et chacun des axes ;
2. Indiquer les variables (resp.les individus) mal représenté(e)s dans ce plan pour les exclure
de la description ;
3. Utiliser les contributions
— des variables pour interpréter les axes en termes de variables de départ
— des individus pour identifier ceux qui sont influents pour l’orientation d’un axe et
ceux qui ont une contribution excessive. Ces individus sont source d’instabilité (le fait
d’enlever un tel individu de l’analyse modifiant de manière importante les résultats).
Il est important de vérifier qu’il ne s’agit pas de données erronées et de faire une
nouvelle analyse en les considérant en supplémentaires.
4. Pour une carte des variables : étudier les angles entre les projections des variables
en termes de covariance ou de corrélation dans le cas d’une ACP normée pour dégager
éventuellement des groupes de variables. Vérifier les tendances visualisées sur la carte
par un examen de la matrice de corrélation.
5. Pour une carte d’individus : étudier les proximités ou les oppositions entre les points
en termes de ”comportement” et dégager éventuellement des groupes d’individus et des
comportements singuliers de certains. Vérifier les caractéristiques dégagées par un exa-
men des données de départ.
78 ANALYSE DES DONNEES. FABIENNE CASTELL.

6. Faire une synthèse des informations et hypothèses principales dégagées de la carte


décrite.

4.7 Tableau récapitulatif


Individus Variables
Espace vectoriel Rp Rn
Tableau des données Y (n, p) Y 0 (p, n)
Matrice des poids D = diag(p1 , · · · , pn ) M
Métrique M D
Matrice à diagonaliser V M = Y 0 DY M Y M Y 0D
Valeurs propres non nulles λ1 ≥ · · · λr > 0 λ1 ≥ · · · λr > 0
1 r
Axes principaux  0 u1 , · · · , up  d , · · · ,0 d , ?,
j
···,?
Y DY M uj = λj uj Y M

j k Y Dd = λj dj
huj , uk iM = δjk d , d D = δjk
Composantes principales cj = Y M u j c̃k = Y 0 Ddk
2
kcj kD = var(cj ) = λj
cj
Facteurs principaux d1 , · · · , dr , dj = p u1 , · · · , ur
λj
k 2
(c )
Représentations sur le k-ième axe factoriel Pp i j 2 cor2 (y i , ck )
j=1 (ci )
(ck )2
Contributions sur le k-ième axe pi (dki )2 = pi i
λk

4.8 Exemple.
On reprend ici les données du fichier decathlon.csv (package FactoMineR), qui décrivent
les performances d’athlètes aux épreuves du décathlon.

4.8.1 Description du jeu de données.


Il s’agit d’un tableau à 41 lignes (qui correspondent à 41 athlètes) et 13 colonnes. Les 10
premières colonnes donnent les performances aux 10 épreuves du décathlon ; la onzième (Rank)
donne le rang de l’athlète dans la compétition considérée (Jeux Olympiques d’Athènes d’Août
2004, ou Decastar de Sept 2004) ; la douzième (Points) donne le nombre de points obtenus lors
de la compétition ; la treizième (Competition) donne le nom de la compétition. Nous sommes
donc en présence de 10 variables quantitatives, une variable ordinale, une variable discrète, et
une variable qualitative.

4.8.2 Objectif. Choix des variables et des individus actifs.


Le but est ici d’établir
CHAPITRE 4. Analyse en Composantes Principales. 79

valeur propre % d’inertie % d’inertie cumulée


comp 1 3.5446573 35.446573 35.44657
comp 2 1.9699560 19.699560 55.14613
comp 3 1.4217248 14.217248 69.36338
comp 4 0.9034912 9.034912 78.39829
comp 5 0.5636320 5.636320 84.03461
comp 6 0.5282270 5.282270 89.31688
comp 7 0.4328613 4.328613 93.64550
comp 8 0.3658102 3.658102 97.30360
comp 9 0.1634956 1.634956 98.93855
comp 10 0.1061447 1.061447 100.00000

Table 4.1 – Valeurs propres et part d’inertie associée.

— des ”profils” d’athlètes (rapides, endurants, etc...) en fonction des performances aux
différentes épreuves ;
— des ressemblances entre épreuves.
L’ACP va donc porter sur les 10 premières variables. En ce qui concerne les individus, on va
construire l’ACP sur les athlètes qui ont participé aux JO d’Athènes. On va donc faire une
ACP sur un tableau de taille (28,10). Comme les variables sont dans des unités différentes, on
fait une ACP normée.
Pour cela, on utilise la fonction PCA de R qui fait partie du package FactoMineR.

4.8.3 Choix du nombre d’axes à retenir.


Le tableau 4.1 donne la valeur propre λk , le pourcentage d’inertie correspondant à l’axe
principal ∆uk , et le pourcentage d’inertie correspondant à l’espace principal Ek . La figure 4.1
donne l’éboulis des valeurs propres.
— Si on veut garder le nombre de composantes nécessaires pour prendre en compte 80%
de l’inertie du nuage, on est amené à conserver q = 5 composantes. Mais on a déjà 78%
de l’inertie avec q = 4 composantes.
— Si on applique la règle de Kaiser, on ne conserve que les valeurs propres supérieures à 1.
On conserve donc uniquement q = 3 composantes.
— Si on applique la règle de l’éboulis, on est amené à conserver q = 4 composantes.
On poursuit l’analyse en conservant seulement les quatre premières composantes (qui expliquent
78% de l’inertie du nuage).

4.8.4 Carte des variables.


Les tableaux des contributions et des représentations de chaque variable sur les quatre pre-
miers facteurs principaux sont donnés dans la table 4.2. Le cercle des corrélations correspondant
au premier plan factoriel est donné dans la figure 4.2, celui correspondant aux axes factoriels 3
et 4 est donné dans la figure 4.3.
80 ANALYSE DES DONNEES. FABIENNE CASTELL.

Eboulis des valeurs propres

3.5
3.0
2.5
2.0
1.5
1.0
0.5
0.0

Figure 4.1 – Eboulis des valeurs propres

Représentations Contributions
Dim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3 Dim.4
100m 0.633 0.064 0.063 0.005 17.86 3.26 4.49 0.56
Long.jump 0.629 0.105 0.024 3.4 e-05 17.76 5.36 1.69 0.003
Shot.put 0.395 0.387 0.0005 1.78 e-02 11.16 19.68 0.035 1.97
High.jump 0.391 0.222 0.0001 1.11 e-02 11.05 11.30 0.011 1.23
400m 0.539 0.244 0.052 1.23 e-02 15.20 12.42 3.71 1.36
110m.hurdle 0.502 0.054 0.001 1.2 e-02 14.17 2.74 0.13 1.33
Discus 0.293 0.445 0.0003 3.84 e-02 8.29 22.60 0.022 4.25
Pole.vault 0.032 0.106 0.389 3.73 e-01 0.90 5.4 27.42 41.36
Javeline 0.082 0.114 0.271 4.29 e-01 2.31 5.83 19.09 47.58
1500m 0.044 0.224 0.616 2.9 e-03 1.25 11.37 43.36 0.32

Table 4.2 – Représentations et Contributions des différentes variables aux quatre premières
composantes principales.
CHAPITRE 4. Analyse en Composantes Principales. 81

Variables factor map (PCA)

1.0
Discus
Shot.put
1500m

0.5
400m High.jump
Javeline

100m
110m.hurdle
Dim 2 (19.7%)

0.0

Long.jump
Pole.vault
-0.5
-1.0

-1.0 -0.5 0.0 0.5 1.0

Dim 1 (35.45%)

Figure 4.2 – Cercle des corrélations dans le premier plan factoriel.

Le premier axe factoriel explique 35% de l’inertie. Les variables qui ont le plus contribué à
cet axe sont les variables , 100m, Long.jump, 400m, 110m.Hurdle, qui sont aussi très bien
représentées sur cet axe. Cet axe correspond donc à une ”épreuve fictive” qui mesure des
performances en vitesse. On voit sur le cercle des corrélations que le saut en longueur est
négativement corrélé au 100m, 110m haies, et 400m. Cela est évident : plus l’athlète court vite,
plus son temps aux épreuves de course est faible, mais plus il saute loin.
Le deuxième axe factoriel explique 19% de l’inertie. Les variables qui contribuent le plus
à cet axe sont le lancer de poids Shot.put et le lancer de disque Discus. Cet axe correspond
donc à une variable fictive qui mesure des performances en lancer. Toutefois, le lancer de javelot
contribue très peu à cet axe, et y est mal représenté. Il semble donc que le lancer de javelot
fasse appel à d’autres qualités que le lancer de poids et du disque. On peut noter que le 400m
et le saut en hauteur sont bien représentés sur le premier plan factoriel, et contribue de façon
à peu près équivalente aux deux axes. Toutefois, ces deux épreuves sont en opposition selon le
facteur 1.
Le troisième axe explique 14 % de l’inertie. Les variables qui contribuent le plus à cet axe
sont le 1500m, et dans une moindre mesure le saut à la perche et le lancer de javelot. Ce
troisième axe oppose le saut à la perche et le javelot.
Le quatrième axe explique 9 % de l’inertie. Les variables qui contribuent le plus à cet axe sont
la saut à la perche et le lancer de javelot. Notez que ces deux variables contribuent également
de façon significative au troisième axe.
82 ANALYSE DES DONNEES. FABIENNE CASTELL.

Variables factor map (PCA)

1.0
Javeline
Pole.vault

0.5 Shot.put
Dim 4 (9.03%)

110m.hurdle
400m
100m
0.0

Long.jump
1500m
High.jump
Discus
-0.5
-1.0

-1.0 -0.5 0.0 0.5 1.0

Dim 3 (14.22%)

Figure 4.3 – Cercle des corrélations dans le plan factoriel correspondant aux axes 3 et 4.

4.8.5 Carte des individus.


Les tableaux des contributions et des représentations de chaque individu sur les quatre
premiers axes principaux sont donnés dans la table 4.3. Le nuage de points individus projeté sur
le premier plan principal est donné dans la figure 4.4, celui correspondant aux axes principaux
3 et 4 est donné dans la figure 4.5. Il semble que le premier axe principal oppose des athlètes
”bons partout” (Sebrle, Clay, Karpov) à des athlètes ”faibles partout” (Uldal, Casarsa). Le
classement des athlètes suivant le premier axe principal se confond presque avec le classement
aux JO. Cela pourrait se vérifier en mettant les variables ordinales Points et Rank en variables
supplémentaires, et en regardant leur corrélation avec le premier facteur principal.
Le deuxième axe est plus difficilement interprétable. Néanmoins, le nuage des individus a
une variabilité plus importante sur le deuxième axe, pour les individus dont la coordonnée sur
le premier axe est faible (individus ”faibles partout”). Parmi les athlètes ”faibles”, le deuxième
axe oppose Lorenzo et Korzizoglu, et semble donc opposer les athlètes endurants des autres (cf
les résultats au 1500m).

4.9 Exercices
Exercice 1: Soit M le nuage des cinqs points suivants de R2 :

A(1, 1) B(−1, 0) C(0, 0), D(−1, 1), E(0, 1) ,


CHAPITRE 4. Analyse en Composantes Principales. 83

Représentations Contributions
Dim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3 Dim.4
Sebrle 0.66 0.11 0.002 0.15 13.89 4.25 0.12 12.47
Clay 0.68 0.038 0.005 0.07 13.56 1.37 0.26 5.55
Karpov 0.80 0.007 0.005 0.133 18.43 0.32 0.32 11.91
Macey 0.36 0.18 0.154 0.12 3.79 3.37 3.99 4.91
Warners 0.46 0.37 0.102 0.03 3.76 5.41 2.05 1.007
Zsivoczky 0.08 0.27 0.18 0.05 0.50 2.92 2.72 1.17
Hernu 0.16 0.08 0.18 0.01 0.49 0.48 1.39 0.12
Nool 0.003 0.33 0.10 0.43 0.03 5.70 2.53 15.96
Bernard 0.36 0.002 0.001 0.39 2.58 0.033 0.033 10.96
Schwarzl 0.002 0.52 0.128 0.059 0.008 3.958 1.35 0.98
Pogorelov 0.011 0.065 0.55 0.009 0.068 0.68 7.96 0.21
Schoenbeck 0.005 0.03 0.11 0.36 0.015 0.15 0.79 4.1
Barras 0.01 0.03 0.61 0.084 0.085 0.27 7.11 1.52
Smith 0.021 0.11 0.23 0.11 0.23 2.31 6.22 4.91
Averyanov 0.008 0.49 0.04 0.013 0.049 5.50 0.66 0.34
Ojaniemi 0.002 0.127 0.007 0.002 0.014 1.14 0.09 0.04
Smirnov 0.10 0.29 0.39 0.026 0.41 2.06 3.88 0.40
Qi 0.159 0.010 0.30 0.035 0.550 0.064 2.62 0.482
Drews 0.014 0.809 0.063 0.025 0.18 17.81 1.943 1.22
Parkhomenko 0.15 0.306 0.047 0.255 1.79 6.26 1.34 11.38
Terek 0.071 0.005 0.49 0.005 0.83 0.12 14.3 0.24
Gomez 0.066 0.18 0.36 0.004 0.43 2.17 5.91 0.11
Turi 0.33 0.003 0.069 0.014 3.39 0.069 1.72 0.55
Lorenzo 0.503 0.17 0.19 0.0005 6.94 4.42 6.78 0.029
Karlivans 0.57 0.003 0.001 0.14 5.60 0.065 0.04 5.61
Korkizoglou 0.12 0.19 0.51 0.04 2.22 6.02 22.65 3.21
Uldal 0.85 0.001 0.027 0.0001 8.68 0.03 0.70 0.006
Casarsa 0.45 0.504 0.006 0.005 11.38 22.94 0.38 0.49

Table 4.3 – Représentations et Contributions des différents athlètes aux quatre premières axes
principaux.
84 ANALYSE DES DONNEES. FABIENNE CASTELL.

Individuals factor map (PCA)


4

Casarsa

Parkhomenko
Korkizoglou
2

Sebrle
Zsivoczky Macey
Smith
Clay
Dim 2 (19.7%)

Pogorelov
Barras Karpov
Turi Terek
Uldal Bernard
Karlivans Qi
0

Schoenbeck
Hernu
Ojaniemi
Smirnov
Gomez
Lorenzo Schwarzl
Averyanov
Nool Warners
-2

Drews
-4

-4 -2 0 2 4 6

Dim 1 (35.45%)

Figure 4.4 – Nuage des individus projeté sur le premier plan principal.
CHAPITRE 4. Analyse en Composantes Principales. 85

Individuals factor map (PCA)

Nool
2

Sebrle
Parkhomenko

Clay
Schoenbeck
1

Barras
Zsivoczky Schwarzl
Dim 4 (9.03%)

Smirnov Turi
Terek
Ojaniemi
Uldal
Lorenzo
0

Gomez Hernu Pogorelov


Qi Averyanov
Casarsa
Warners
Drews

Korkizoglou
SmithMacey
-1

Karlivans

Bernard
Karpov
-2

-2 -1 0 1 2 3

Dim 3 (14.22%)

Figure 4.5 – Nuage des individus projeté sur le plan principal correspondant aux axes princi-
paux 3 et 4.
86 ANALYSE DES DONNEES. FABIENNE CASTELL.

à qui on attribue le même poids.


1. On considère la distance euclidienne usuelle sur M. Faire un graphique représentant ces
points dans un repère orthonormé et calculer l’inertie du nuage.
2. Changement de métrique : déterminer l’expression analytique de la distance dM sur R2
associé à la matrice M = D1/S 2 . Calculer l’inertie dans ce cas.
3. ACP canonique.
(a) Soit u = (1, 1). Calculez l’inertie portée par ∆u , et la déformation du nuage lors de
la projection.Faites un dessin.
(b) Calculez les axes principaux, ainsi que l’inertie associée à ces axes lorsque M = Id.
(c) Calculez les composantes principales et les facteurs principaux.
(d) Dessinez le nuage de points projeté sur le premier axe. Calculez la représentation
globale sur le premier axe, et la contribution de chaque individu sur le premier axe.
4. Comparaison avec la droite de régression. La droite de régression d’un nuage de
points
Pn de R2 données par {(x1i , x2i ); i = 1 · · · n} est la droite x2 = ax1 + b qui minimise
2 1 2
i=1 (xi − axi − b) . Donnez l’expression de a et b dans le cas général. Les calculez dans
le cas particulier du nuage donné par {A, B, C, D, E}. Commentez.

Exercice 2: Faire une ACP sur les données wine du package FactoMineR.
Chapitre 5

Analyse Factorielle des


Correspondances (AFC).

L’analyse factorielle des correspondances a été proposée dans les années soixante par J.P.
Benzécri afin d’étudier la liaison (dite encore correspondance) entre deux variables qualitatives.
Cette méthode permet d’analyser des tables de contingence obtenues en observant deux va-
riables qualitatives X et Y sur un ensemble de n individus, et certains tableaux binaires
(tableaux dits de ”présence-absence”). C’est une méthode très utilisée en analyse des données
textuelles.

Exemple 5.1: (cf livre de G. Saporta) On observe sur 10.000 étudiants les deux variables
qualitatives X=”CSP du père” et Y =”Type d’études supérieures poursuivies”.
Exemple 5.2: On analyse les réponses de 2000 personnes à une question ouverte et on
s’intéresse au tableau croisant les 21 mots les plus utilisés avec 5 niveaux de diplômes des
personnes interrogées. Ici A correspond aux formes (variable qualitative avec 21 modalités) et
B aux diplômes (5 modalités).
Un individu= une occurence d’une forme.
L’Analyse Factorielle des Correspondances (AFC) peut être présentée comme une analyse
en composantes principales avec une métrique spéciale, la métrique du khi-deux.

5.1 Rappels
5.1.1 Table de contingence et profils.
Supposons que la variable X a r modalités (notées l1 , · · · , lr ), et que la variable Y a c
modalités (notées d1 , · · · , dc ). Nous avons vu au chapitre 3.3 que les données peuvent être
résumées dans une table de contingence N , dont les entrées sont les effectifs de chaque couple
(li , dj ) :
nij = nbre d’individus sur lesquels on a observé les modalités li de X et dj de Y
n
X
= 1Ixk =li 1Iyk =dj .
k=1

87
88 ANALYSE DES DONNEES. FABIENNE CASTELL.

X\Y d1 ··· dj ··· dc total


l1 n11 ··· n1j ··· n1s n1.
.. .. .. .. .. .. ..
. . . . . . .
li ni1 ··· nij ··· nis ni.
.. .. .. .. .. .. ..
. . . . . . .
lr nr1 ··· nrj ··· nrs nr.
total n.1 ··· n.j ··· n.s n
L’opération consistant à établir un tel tableau est appelée un ”tri croisé” dans le domaine de
l’enquête. Les effectifs marginaux sont :
c
X
ni. = nij = ième marge en ligne,
j=1
Xr
n.j = nij = jème marge en colonne.
i=1

On rappelle aussi la définition des profils-lignes :


 
ni1 nic
Li = ième profil-ligne = ,···, ∈ Rc .
ni. ni.
Le ième profil-ligne donne les fréquences empiriques des modalités d1 , d2 , . . . , dc de la variable
Y , dans le sous-échantillon des individus pour lesquels la variable X vaut li .
De la même façon, les profils-colonnes donnent les fréquences des modalités l1 , l2 , . . . , lr de
la variable X dans le sous-échantillon des individus pour lesquels la variable Y vaut dj .
 
n1j nrj
Cj = jème profil-colonne = ,···, ∈ Rr .
n.j n.j

5.1.2 Ecart à l’indépendance


Lorsque les variables X et Y sont indépendantes, nous avons vu au chapitre 3.3 que :
nij ni. n.j nij n.j nij ni.
∀i, j, ' ⇔ ∀i, j, = ⇔ ∀i, j, = . (5.1)
n n n ni. n n.j n
Ainsi, les profils-lignes ont tendance à être tous égaux dans le cas où X et Y sont indépendantes.
Il en est de même pour les profils-colonnes.
Pour mesurer l’écart à l’indépendance, on a introduit la quantité :
r X
c ni. n.j 2
X (nij − n
)
tn = ni. n.j
i=1 j=1 n

Pour chaque case (i, j) du tableau, il est important d’étudier sa contribution à tn :


n n 2
nij − i.n .j
ni. n.j
n
CHAPITRE 5. Analyse Factorielle des Correspondances. 89

On peut également calculer le pourcentage par rapport à tn . Ceci met en évidence les asso-
n n
ciations significatives entre modalités des deux variables. Le signe de la différence nij − i.n .j
indique s’il s’agit d’une association sur-représentée (positive) ou sous-représentée (négative).
Nous rappelons que la quantité tn est la statistique du test du χ2 d’indépendance qui permet
de tester (H0 ) : ”Les variables X et Y sont indépendantes” contre (H1 ) :”X et Y sont liées”. En
effet, sous (H0 ), tn est une réalisation d’une variable aléatoire Tn suivant une loi du χ2(r−1)(c−1)
dans la limite des grands échantillons.

Remarque : D’autres indices ont été abondamment proposés pour mesurer la dépendance
entre deux variables. On pourra voir par exemple l’ ouvrage de Goodman et Kruskal : Measures
of association for cross-classifications, Springer-verlag, New-York (1979).

5.2 Principes de l’AFC


Rappelons que notre tableau de données est un tableau de contingence N à r lignes et c
colonnes. Si on note Dr et Dc les matrices diagonales des effectifs marginaux des variables X
et Y :
Dr = diag(n1. , · · · , nr. ) , Dc = diag(n.1 , · · · , n.c ) ,
les tableaux des profils lignes et des profils-colonnes s’écrivent :

Tr = Dr−1 N et Tc = N Dc−1 .

5.2.1 Nuage des profils-lignes


Chaque profil-ligne Li est un point dans l’espace Rc . On est donc en présence d’un nuage de
r points dans Rc , qui dans le cas où X et Y sont indépendantes, a tendance à se concentrer sur
un seul point. Pour juger de la dépendance entre X et Y , on peut donc étudier la forme de ce
nuage de points, au moyen d’une ACP, et considérer le tableau Tr des profils-lignes comme un
tableau individus-variables particulier. Les ”individus” de cette ACP sont alors les modalités
de la variable X et il est assez logique d’affecter à la modalité ci de X un poids reflétant sa
fréquence dans la population. Le i-ème profil-ligne est alors muni du poids fi. = nni. .

Définition 5.2.1 On appelle nuage des profils-lignes Mr , l’ensemble des r points Li de Rc


munis de leurs poids fi. : Mr = {(Li , fi. ) ; i = 1, . . . , r} .

Propriétés :
1. Le centre de gravité gr du nuage Mr (profil-moyen des lignes) a pour coordonnées :
 n   
n
.1
f .1
gr =  ...  =  ...  ∈ Rc .
   
n.c
n
f.c
90 ANALYSE DES DONNEES. FABIENNE CASTELL.

2. Les points Li de Mr , ainsi que leur centre de gravité gr , appartiennent à un sous-espace


affine de Rc , à savoir l’hyperplan Hc−1 de dimension c − 1 défini par :
( c
)
X
Hc−1 = (x1 , · · · , xc ) ∈ Rc ; xi = 1 .
i=1

Preuve :
1. gr = ri=1 fi. Li . Ainsi pour tout j ∈ {1, · · · , c},
P

r r r
X ni. X ni. nij X nij n.j
gr (j) = Li (j) = = = .
i=1
n i=1
n ni. i=1
n n

2. Pour tout i ∈ {1, · · · , r},

c c
X X nij ni.
Li (j) = = = 1.
j=1 j=1
ni. ni.

Ainsi chaque profil ligne Li est dans Hc−1 . Comme gr est une combinaison linéaire des
Li , gr est aussi dans Hc−1 .

Par analogie avec les notations du chapitre sur l’ACP, on a donc


— Tableau des données : X = Tr = Dr−1 N de taille (r, c) ;
— Tableau des données centrées : Y = X − 1Ic gr0 ;
— Matrice des poids D = diag nn1. , · · · , nnr. = n1 Dr de taille (r, r) ;
— Espace des profils-lignes (”individus”) : Rc , plus précisément Hc−1 .

5.2.2 Nuage des profils-colonnes


Les deux variables X et Y jouant des rôles symétriques, ce qui vient d’être fait pour les
profils-lignes peut aussi être fait pour les profils-colonnes. Chaque profil-colonne Cj est un point
dans l’espace Rr . L’ensemble des profils-colonnes forme donc un nuage de c points dans Rr , qui
dans le cas où X et Y sont indépendantes, a tendance à se concentrer sur un seul point. La
structure de la dépendance entre X et Y peut donc aussi être étudiée en faisant une ACP des
profils-colonnes. Les ”individus” de cette ACP sont alors les modalités de la variable Y et le
n
j-ème profil-colonne Cj est muni du poids f.j = n.j .

Définition 5.2.2 On appelle nuage des profils-colonnes Mc , l’ensemble des c points Cj de


Rr munis de leurs poids f.j : Mc = {(Cj , f.j ) ; j = 1, . . . , c} .
CHAPITRE 5. Analyse Factorielle des Correspondances. 91

Propriétés :
1. Le centre de gravité gc du nuage Mc (profil-moyen des colonnes) a pour coordonnées :
 n   
1.
n
f1.
 ..   .. r
gc =  .  =  . ∈R .

nr.
n
fr.

2. Les points Cj de Mc , ainsi que leur centre de gravité gc , appartiennent à un sous-espace


affine de Rr , à savoir l’hyperplan Hr−1 de dimension r − 1 défini par :
( r
)
X
Hr−1 = (x1 , · · · , xr ) ∈ Rr ; xi = 1 .
i=1

Par analogie avec les notations du chapitre sur l’ACP, on a donc pour l’ACP des profils-
colonnes
— Tableau des données : X = Tc = Dc−1 N 0 de taille (c, r) ;
— Tableau des données centrées : Y = X − 1Ir gc0 ;
— Matrice des poids D = diag nn.1 , · · · , nn.c = n1 Dc de taille (c, c) ;
— Espace des profils-colonnes : Rr , plus précisément Hr−1 .
n n
Dans le cas de l’indépendance ”empirique” où nij = i.n .j , les nuages Mr et Mc sont donc
réduits à un seul point, leur centre de gravité. Pour continuer l’ACP des profils-lignes et des
profils-colonnes, il faut maintenant définir une métrique dans l’espace des profils-lignes, et une
métrique dans l’espace des profils-colonnes.

5.2.3 Métrique du khi2


Distance entre deux profils-lignes :
La distance choisie entre deux profils-lignes Li et Li0 est la métrique du chi2 définie par :
c  2
2
X n nij ni0 j
dχ2 (Li , Li0 ) = −
j=1
n.j ni. ni0 .
= (Li − Li0 )0 M (Li − Li0 ) = hLi − Li0 , Li − Li0 iM
où la matrice M est la matrice diagonale définie par M = nDc−1 .
Intuitivement, la pondération par nn.j de chaque carré de différence revient à donner des
importances comparables aux diverses modalités dj de la variable Y . Sans cette pondération,
la distance reflète surtout la différence entre les modalités de plus grands effectifs.
De façon plus fondamentale, cette distance a la propriété d’équivalence distribution-
nelle, qui dit qu’on peut regrouper des modalités de Y ayant les mêmes profils-colonnes, sans
changer la distance entre profils-lignes. Cette propriété n’est pas vraie pour la distance eucli-
dienne usuelle. Elle garantit une certaine stabilité par rapport à la nomenclature choisie pour la
construction des modalités d’une variable (par exemple lorsqu’on transforme une variable quan-
titative en variable qualitative, en la découpant en classes). L’analyse est la même lorsqu’on
agrège les modalités de mêmes profils. Plus précisément, on a le résultat suivant :
92 ANALYSE DES DONNEES. FABIENNE CASTELL.

Théorème 5.2.3 Supposons que deux colonnes de N , Cj et Cj 0 ont même profil, càd
nij nij 0
= pour tout i = 1, · · · , r . (5.2)
n.j n.j 0
Regroupons-les en une seule colonne, notée j ⊕ j 0 , d’effectifs nij + nij 0 , et d’effectif marginal
n.j + n.j 0 . On obtient une nouvelle table de contingence notée Ñ , de taille (r, c − 1), à laquelle
est associée une nouvelle métrique du chi2, notée d˜χ2 , sur les profils-lignes L̃i de Ñ (qui sont
des éléments de Rc−1 ). Cette opération ne modifie pas les distances entre profils-lignes, i.e.,
pour tout i, i0 ∈ {1, · · · , r},
dχ2 (Li , Li0 ) = d˜χ2 (L̃i , L̃i0 ) .
Preuve : Les seuls termes qui diffèrent entre dχ2 (Li , Li0 ) et d˜χ2 (L̃i , L̃i0 ) sont les termes qui
concernent les colonnes j et j 0 . On a donc
dχ2 (Li , Li0 ) − d˜χ2 (L̃i , L̃i0 )
 2  2  2
n nij ni0 j n nij 0 ni0 j 0 n nij + nij 0 ni0 j + ni0 j 0
= − + − − − .
n.j ni. ni0 . n.j 0 ni. ni0 . n.j + n.j 0 ni. ni0 .
n 2 n 2 n
= a + b − (a + b)2 ,
n.j n.j 0 n.j + n.j 0
n n 0 n 0 n 0 0
où on a noté a = niji. − ni 0j et b = niji. − ni 0j . En développant le carré, et en regroupant les
i . i .
termes en a2 et b2 , il vient
   
n n n n n
dχ2 (Li , Li0 ) − d˜χ2 (L̃i , L̃i0 ) = − 2
a + − b2 − 2 ab
n.j n.j + n.j 0 n.j 0 n.j + n.j 0 n.j + n.j 0
n.j 0 n.j n
= n a2 + n b2 − 2 ab
n.j (n.j + n.j 0 ) n.j 0 (n.j + n.j 0 ) n.j + n.j 0
n
n2.j 0 a2 + n2.j b2 − 2n.j 0 n.j ab

=
n.j n.j 0 (n.j + n.j 0 )
n
= (n.j 0 a − n.j b)2
n.j n.j 0 (n.j + n.j 0 )
 2
n nij ni0 j nij 0 ni0 j 0
= n.j 0 − n.j 0 − n.j + n.j
n.j n.j 0 (n.j + n.j 0 ) ni. ni0 . ni. ni0 .
 2
n 1 1
= (n.j 0 nij − n.j nij 0 ) + (n.j ni0 j 0 − n.j 0 ni0 j )
n.j n.j 0 (n.j + n.j 0 ) ni. ni0 .
= 0,
puisque d’après (5.2), nij n.j 0 = nij 0 n.j et ni0 j n.j 0 = ni0 j 0 n.j .

Distance entre profils-colonnes :


De façon symétrique, on définit la distance entre deux profils-colonnes Cj et Cj 0 par
r  2
2
X n nij nij
dχ2 (Cj , Cj 0 ) = −
i=1
ni. n.j n.j 0
= (Cj − Cj 0 )0 M (Cj − Cj 0 ) = < Cj − Cj 0 , Cj − Cj 0 >M .
CHAPITRE 5. Analyse Factorielle des Correspondances. 93

avec M = nDr−1 , métrique diagonale sur Rr .

5.2.4 Inertie
Inertie associée au nuage des profils-lignes :

r
X
I(Mr ) = fi. d2χ2 (Li , gr )
i=1
r c  2
X ni. X n nij n.j
= −
i=1
n j=1
n.j n i. n
r X c  2
X ni. n nij n.j 1
= − = tn .
i=1 j=1
n n.j ni. n n

Inertie associée au nuage des profils-colonne :


De la même façon, on montre que I(Mc ) = n1 tn .

5.3 ACP des deux nuages profils


Deux ACP sont possibles :
1. ACP du nuage des profils-lignes avec
— Tableau de données (r, c) : X = Dr−1 N = Tr
— Espace des individus : Rc
— Métrique : M = nDc−1
— Poids : D = n1 Dr
2. ACP du nuage des profils-colonnes avec
— Tableau de données (c, r) : X = Dc−1 N 0 = Tc0
— Espace des individus : Rr
— Métrique : M = nDr−1
— Poids : D = n1 Dc

5.3.1 ACP des profils-lignes.


Matrice à diagonaliser.
En reprenant les notations du chapitre sur l’ACP, la matrice de variance covariance est
donnée par
1
V = X 0 DX − gg 0 = Y 0 DY = N 0 Dr−1 N − gr gr0 ,
n
et la matrice à diagonaliser est :
V M = N 0 Dr−1 N Dc−1 − ngr gr0 Dc−1 .
94 ANALYSE DES DONNEES. FABIENNE CASTELL.

On a déjà vu que le nuage des profils-lignes était situé sur le sous-espace Hr−1 . Par conséquent,
l’inertie portée par l’axe orthogonal à ce sous-espace est nulle, et le vecteur directeur de cet axe
est donc un vecteur propre de V M associé à la valeur propre 0. On peut voir que cet axe n’est
autre que la droite (Ogr ). En effet, si x ∈ Hr−1 ,
c
0 0
X n
< Ogr , gr x >χ2 = (x − gr ) M gr = n(x − gr ) Dc−1 gr = gr (j)(x(j) − gr (j))
j=1
n .j
c c c
X n n.j n.j X X n.j
= (xj − )= xj − = 1 − 1 = 0.
j=1
n.j n n j=1 j=1
n

Donc, gr est vecteur propre de V M associée à la valeur propre 0. On peut aussi noter que gr
est vecteur propre de la matrice ngr gr0 Dc−1 , associée à la valeur propre 1. En effet,
ngr gr0 Dc−1 gr = n hgr , gr iDc−1 gr = gr ,
n 2 n
puisque n hgr , gr iDc−1 = cj=1 nn.j gr (j)2 = cj=1 nn.j n.j = cj=1 n.j = 1. La matrice ngr gr0 Dc−1
P P P

est en fait la matrice de projection orthogonale sur (Ogr ). En effet, si un vecteur x est orthogonal
(au sens du chi2) à gr , ngr gr0 Dc−1 x = hgr , xiχ2 gr = 0. On a donc montré le résultat suivant :
Proposition 5.3.1 Soit L la matrice
L = N 0 Dr−1 N Dc−1 = Tr0 Tc .
1. L et V M se diagonalise dans la même base orthonormée (pour la métrique du chi2).
2. gr est vecteur propre de V M associée à la valeur propre 0, et vecteur propre de L associé
à la valeur propre 1.
3. Les autres vecteurs propres sont orthogonaux à gr , et sont associés aux mêmes valeurs
propres pour L et V M .
D’après cette proposition, il est donc inutile de centrer le tableau des profils-lignes. De
manière pratique, on effectuera donc une ACP non centrée. Puis à la valeur propre 1 associée à
l’axe (Ogr ), on fera correspondre la valeur propre 0 pour se ramener à une étude centrée en gr .

Composantes principales.
Notons (uk , k ∈ {1, · · · , r − 1}) les vecteurs principaux autres que gr (définis par Luk =
λk uk , λk 6= 1). Les composantes principales donnent les coordonnées des profils-lignes sur
chaque axe : pour tout i ∈ {1, · · · , r},
ck (i) = hLi , uk iχ2 = nL0i Dc−1 uk
c
X nij
= n uk (j) .
n n
j=1 .j i.

Ceci se récrit
ck = Tr (nDc−1 )uk = nDr−1 N Dc−1 uk .
Nous rappelons que les composantes principales sont centrées, et de variance λk .
CHAPITRE 5. Analyse Factorielle des Correspondances. 95

5.3.2 ACP des profils-colonnes.


Matrice à diagonaliser.

Cette fois, la matrice à diagonaliser est V M = N Dc−1 N 0 Dr−1 − ngc gc0 Dr−1 . Comme pour les
profils-lignes, on montre que gc est vecteur propre de V M associée à la valeur propre 0, et que
diagonaliser V M revient à diagonaliser la matrice C = N Dc−1 N 0 Dr−1 = Tc Tr0 .
Si ck est une composante principale de l’ACP des profils-lignes, on a Dr ck = nN Dc−1 uk , et
donc
C(Dr ck ) = nN Dc−1 N 0 Dr−1 N Dc−1 uk = nN Dc−1 Luk = nλk N Dc−1 uk = λk Dr ck .

Ainsi Dr ck est vecteur propre de C associé à la valeur propre λk . Si on note vk les vecteurs
principaux de l’ACP des profils-colonnes correspondant aux valeurs propres non nulles, on a
k
donc vk = DDcrkc , avec
k r kχ2

r
Dr ck 2 2 = (Dr ck )0 (nDr−1 )(Dr ck ) = n(ck )0 Dr ck = n
X
χ
ni. ck (i)2 = n2 var(ck ) = n2 λk .
i=1

Par conséquent, vk = √1 D ck , i.e. pour tout i ∈ {1, · · · r},


n λk r

1 ni. k
vk (i) = √ c (i) .
λk n

Composantes principales.

Notons (c̃k ) les composantes principales de l’ACP des profils-colonnes. (c̃k ) donne les coor-
données des profils-colonnes sur l’axe de vecteur directeur vk :
r
X nij
k
c̃ (j) = hvk , Cj iχ2 = nCj0 Dr−1 vk =n vk (i) ,
i=1
ni. n.j

ce qui se récrit :
c̃k = nTc0 Dr−1 vk = nDc−1 N 0 Dr−1 vk .

Nous rappelons que les composantes principales c̃k sont centrées, et de variance λk .

5.3.3 Relations de transition


Les composantes principales des profils-lignes et celles des profils-colonnes sont reliées par
des formules simples dont un des intérêts principaux est d’éviter deux diagonalisations. On
diagonalisera la matrice de plus petite dimension.
On peut montrer que les matrices L et C ont mêmes valeurs propres non nulles λk . Leurs
vecteurs propres sont reliés par les relations suivantes :
96 ANALYSE DES DONNEES. FABIENNE CASTELL.

Théorème 5.3.2 Soit p = rang(L) = rang(C). Pour tout k ≤ p, il existe une relation dite de
transition, entre les vecteurs propres uk et vk :
1
vk = √ Tc uk ,
λk
1
uk = √ Tr0 vk
λk

Preuve : Rappelons que Dr ck = n λk vk . Par ailleurs, on a ck = nDr−1 N Dc−1 uk , et donc
Dr ck = nN Dc−1 uk . On en déduit que
1 1
vk = √ N Dc−1 uk = √ Tc uk .
λk λk

En multipliant cette identité par Tr0 , on obtient Tr0 vk = √1 Luk
λk
= λk uk .

Le résultat précédent conduit aux relations fondamentales de l’AFC reliant les composantes
principales entre elles, dites les relations quasi-barycentriques :

Théorème 5.3.3 Soit p = rang(L) = rang(C). Pour tout k ≤ p,

c
1 X nij
ck (i) = √ c̃k (j) ,
λk j=1 ni.
r
1 X nij
c̃k (j) = √ ck (i) .
λk i=1 n.j

Preuve :
1 1 1
ck = nDr−1 N Dc−1 uk = √ nDr−1 N Dc−1 Tr0 vk = √ nDr−1 N Dc−1 N 0 Dr−1 vk = √ Dr−1 N c̃k .
λk λk λk

En écrivant cette relation coordonnées par coordonnées, on obtient pour tout i ∈ {1, · · · , r},
c
1 X nij k
ck (i) = √ c̃ (j) .
λk j=1 ni.

La deuxième identité se démontre de la même façon.

Interprétation : A un coefficient de dilatation près de √1λk , la projection du profil-ligne i


sur l’axe k est le barycentre des projections des profils-colonnes pondérés par les fréquences
conditionnelles du profil i (part de la modalité j sachant i). Si nij /ni. est proche de 1 (ce qui
signifie que lorsque X = i, alors on est pratiquement sûr que Y vaut j), alors le barycentre
Pc nil k
l=1 c̃ (l) est proche de c̃k (l), et il en est de même de ck (i). Et on a une interprétation
ni.
analogue pour la projection du profil-colonne j.
CHAPITRE 5. Analyse Factorielle des Correspondances. 97

La parfaite symétrie entre ACP profil-ligne et ACP profil-colonne (relations quasi-bary-


centriques) conduisent à superposer les plans principaux des deux ACP afin d’obtenir une
représentation simultanée des deux nuages. Mais attention ! Les distances entre les projections
des profils-lignes et des profils-colonnes n’ont pas de sens, puisque ces points sont dans des
espaces différents. On ne peut les interpréter qu’en termes de quasi-barycentres.

Exercice : En utilisant les relations quasi-barycentriques, montrer que les valeurs propres λk
de l’AFC sont inférieures ou égales à 1.

5.4 Formules de reconstitution


Comme en ACP on dispose de formules dites de reconstitution permettant de récupérer le
tableau N à partir des composantes principales c et c̃. Pour tout i ≤ r et tout j ≤ c, on a :
p
!
ni. n.j X 1 k
nij = 1+ √ c (i)c̃k (j) . (5.3)
n k=1
λ k

Les composants prinipales et les valeurs propres expliquent donc en quoi les nij s’écartent des
ni. n.j
n
.

Preuve : On décompose le vecteur gr~Li dans la base orthonormée donnée par les uk . On a
par définition des composantes principales ck (i) :
p p p p
X X 1 k X 1 k X 1 D
Li − gr = k
c (i)uk = 0
√ c (i)Tr vk = 0 −1
√ c (i)N Dr vk = √ ck (i) c c̃k .
k=1 k=1
λk k=1
λk k=1
λk n

En écrivant cette relation coordonnées par coordonnées, on obtient pour tout j ∈ {1, · · · , c},
p
nij n.j X 1 k n.j k
− = √ c (i) c̃ (j)
ni. n k=1
λk n
p
ni. n.j ni. n.j X 1 k
⇔ nij − = √ c (i)c̃k (j)
n n k=1 λk
98 ANALYSE DES DONNEES. FABIENNE CASTELL.

5.5 Tableau récapitulatif :


Nuage Mr Eléments de base Nuage Mc
des r profils-lignes dans Rc des c profils-colonnes dans Rr
Tr = Dr−1 N Tableau de données Tc0 = Dc−1 N 0
(r, c) (c, r)
nDc−1 Métrique du chi2 nDr−1
1 1
D
n r
Poids D
n c
L = Tr Tc = N 0 Dr−1 N Dc−1
0
Matrice à diagonaliser C = Tc Tr = N Dc−1 N 0 Dr−1
0

(c, c) (r, r)
uk : Luk = λk uk Vecteurs principaux vk : Cvk = λk vk
avec λk 6= 1 avec λk 6= 1

uk =√1 T 0 vk vk = √1 Tc uk
λk r λk
k −1 −1 k −1 0 −1
c = nD r N D c uk Composantes principales c̃ = nDc N Dr vk
n n
ck (i) = n cj=1 ni.ijn.j uk (j) c̃ (j) = n ri=1 ni.ijn.j vk (i)
k
P P

√ √
Dr ck = n λk vk Dc c̃k = n λk uk
Pc nij k Pr nij k
ck (i) = √1 c̃k (j) = √1
λk j=1 ni. c̃ (j) λk i=1 nj. c (i)

5.6 Aides à l’interprétation


Rappelons que deux types de coefficients apportent de l’information intéressante pour l’in-
terprétation des plans factoriels.
— Contribution relative : elle exprime la part prise par une modalité de la variable dans
l’inertie ”expliquée ” par un facteur.
— Cosinus carré : il mesure la qualité de représentation de la modalité sur le facteur.

Contribution relative d’une modalité à l’inertie de l’axe k :


2
fi. ck (i)
— Contribution relative du profil-ligne Li au k-ième axe (de vecteur uk ) : ;
λk 2
f.j c̃k (j)
— Contribution relative du profil-colonne Cj au k-ième axe (de vecteur vk ) : .
λk

Qualité de représentation sur l’axe k :


— Qualité de la représentation du profil-ligne Li sur le k-ième axe (de vecteur uk ) :
ck (i)2
Pr k 2 ;
l=1 c (l)
CHAPITRE 5. Analyse Factorielle des Correspondances. 99

— Qualité de la représentation du profil-colonne Cj sur le k-ième axe (de vecteur vk ) :


c̃k (j)2
Pc k 2 .
l=1 c̃ (l)

Eléments supplémentaires :
Les points supplémentaires sont des profils qui n’entrent pas dans la construction des axes
mais qui sont représentés dans les plans factoriels. Leur position est interprétée en terme de
quasi-barycentre.
Si on dispose par exemple d’une modalité supplémentaire l0 de la variable X, on peut
calculer la coordonnée du profil-ligne correspondant l0 sur l’axe k en utilisant les formules
quasi-barycentriques :
c
k 1 X n0j k
c (0) = √ c̃ (j) .
λk j=1 n0.
D’autre part on peut également évaluer la qualité de représentation des points supplémentaires
sur l’axe k par le calcul du cos2 .

5.7 Exemple traité sous R.


On reprend ici l’exemple traité dans le livre ”Statistique avec R”. Le fichier de données
université.csv peut être téléchargé sur le site
http://math.agrocampus-ouest.fr/infoglueDeliverLive/enseignement/support2cours/livres/

5.7.1 Description des données.


On a relevé sur n = étudiants des universités françaises en 2007-2008, trois variables quali-
tatives :
— le sexe à deux modalités : F et H ;
— le niveau de diplôme à trois modalités : Licence (L), Master (M), Doctorat (D) ;
— la discipline du diplôme à 10 modalités : Droit et Sciences Politiques (Dr), Sciences
économiques et gestion (SEG), Administration économique et sociale (ES), Lettres,
Sciences du langage et arts (AL), Langues (La), Sciences Humaines et Sociales (SHS),
Pluridisciplinarité Lettres, Langues et Sciences Humaines (PLLSH), Sciences fondamen-
tales et Applications (SF), Sciences de la nature et de la vie (SVT), STAPS.
Les deux premières variables ont été regroupées en une variable qualitatives à 6 modalités :
Lic.F, Lic.H, Ma.F, ... etc.
univ<- read.table("universite.csv",sep=";",header=T,row.names=1)
> rownames(univ)<-c(’Dr’,’SEG’,"ES","AL","La","SHS","PLLSH","SF","SVT","STAPS")
> colnames(univ)<-c("Lic.F","Lic.H","Mas.F","Mas.H","Doc.F",
"Doc.H","F","H","Lic","Mas","Doc")
> univ
univ est une table de contingence à 10 lignes (correspondant aux 10 modalités de la variable
X : ”Discipline”), et 12 colonnes (correspondant aux 6 modalités de la variable Y : ”Niv&Sexe”,
100 ANALYSE DES DONNEES. FABIENNE CASTELL.

plus les effectifs par sexe, plus les effectifs par niveau, plus l’effectif marginal). On reproduit
dans la table 5.1 la table de contingence de X et Y .

Lic.F Lic.H Ma.F Ma.H Doc.F Doc.H Tot


Dr 69373 37317 42371 21693 4029 4342 179125
EG 38387 37157 29466 26929 1983 2552 136474
ES 18574 12388 4183 2884 0 0 38029
AL 48691 17850 17672 5853 4531 2401 96998
La 62736 21291 13186 3874 1839 907 103833
SHS 94346 41050 43016 20447 7787 6972 213618
PLLSH 1779 726 2356 811 13 15 5700
SF 22559 54861 17078 48293 4407 11491 158689
SVT 24318 15004 11090 8457 5641 5232 69742
STAPS 8248 17253 1963 4172 188 328 32152

Table 5.1 – Données sur les universités

5.7.2 Objectifs. Choix des modalités actives.


On souhaite étudier sur ces données :
— l’impact du sexe sur la discipline choisie ;
— l’impact de la discipline choisie sur la longueur des études ;
— faire des regroupements de disciplines pour lesquelles le profil des étudiants est identique ;
— etc...
Toutes les modalités de la variable ”Discipline” seront des modalités actives. En ce qui
concerne les colonnes de la table univ, seules les 6 premières colonnes seront actives, l’infor-
mation contenue dans les 5 dernières colonnes étant déjà présente dans les 6 premières. Les
colonnes correspondant au sexe, et au niveau de diplôme seront traitées comme des modalités
supplémentaires.
La commande R utilisée pour faire l’AFC, est la commande CA du package FactoMine.
> res.AFC<-CA(univ, col.sup=7:12)
L’objet res.AFC est une liste contenant les résultats de l’AFC, du même type que la liste
de résultat de la commande PCA.

5.7.3 Choix du nombre d’axes à retenir.


Les résultats concernant les valeurs propres sont contenus dans res.AFC$eig. Le tableau
5.2 donne la valeur propre λk , le pourcentage d’inertie correspondant à l’axe principal ∆uk , et
le pourcentage d’inertie correspondant à l’espace principal Ek . La figure 5.1 donne l’éboulis des
valeurs propres.
— Si on veut garder le nombre d’axes nécessaires pour prendre en compte 80% de l’inertie
du nuage, on est amené à conserver les deux premiers axes qui expliquent à eux seuls,
σ
8 % de l’inertie.
— Si on applique la règle de l’éboulis, on est amené à conserver 3 axes.
CHAPITRE 5. Analyse Factorielle des Correspondances. 101

Valeur Propre Part d’inertie Part d’inertie cumulée


dim 1 0.12 70.72 70.72
dim 2 0.03 15.51 86.23
dim 3 0.02 10.90 97.13
dim 4 0.00 2.63 99.75
dim 5 0.00 0.25 100.00
dim 6 0.00 0.00 100.00

Table 5.2 – Valeurs propres et part d”inertie associée


0.10
0.08
0.06
0.04
0.02
0.00

Figure 5.1 – Eboulis des valeurs propres

On poursuit l’analyse en conservant seulement les deux premiers axes (qui expliquent 86% de
l’inertie du nuage).

5.7.4 Analyse des résultats.


La fonction CA donnent par défaut le graphique des profils-lignes et des profils-colonnes
(représentation simultanée) sur le premier plan. Il est reproduit dans la figure 5.2. Le tableau
des représentations des modalités sur les deux premiers axes est donné dans les tables 5.3 et
5.4.
Concernant la variable Niv&Sexe, les modalités supplémentaires Niv et Sexe permettent
d’interpréter les deux axes principaux. Le premier axe oppose les femmes (à gauche du gra-
phique) et les hommes (à droite du graphique). Le deuxième axe classe le niveau d’études
(Licence en bas du graphe, Master au milieu et Doctorat en haut). Il apparaı̂t que les femmes
ont tendance à faire des études plus longues que les hommes.
102 ANALYSE DES DONNEES. FABIENNE CASTELL.

Dr EG ES AL La SHS PLLSH SF SVT STAPS


Dim 1 0.30 0.46 0.20 0.91 0.79 0.84 0.04 0.98 0.01 0.21
Dim 2 0.13 0.00 0.80 0.02 0.13 0.15 0.18 0.00 0.41 0.67

Table 5.3 – Représentations des modalités de la variable Discipline


Lic.F Lic.H Ma.F Ma.H Doc.F Doc.H
Dim 1 0.96 0.55 0.14 0.95 0.01 0.46
Dim 2 0.01 0.39 0.33 0.01 0.49 0.26

Table 5.4 – Représentations des modalités de la variable Niv&Sexe

Concernant la variable ”Discipline”, le graphe montre une proximité (d’un point de vue du
profil étudiant) entre les disciplines AL, SHS, Dr. En interprétant les représentations barycen-
triques, on peut voir que ces disciplines sont surtout suivies par des femmes au niveau Licence.
De façon plus générale, les disciplines à gauche du graphe attirent plutôt les femmes, et les
disciplines en bas du graphe sont des disciplines où les études sont courtes.

5.8 Exercice.
On a relevé sur n = 10 individus deux variables qualitatives, la variable X à 4 modalités
{A, B, C, D} et la variable Y à trois modalités {1, 2, 3}. Les résultats sont regroupés dans la
table 5.5 qui donne sous forme d’une ?, les modalités relevées sur un individu.

Ind A B C D 1 2 3
1 ? ?
2 ? ?
3 ? ?
4 ? ?
5 ? ?
6 ? ?
7 ? ?
8 ? ?
9 ? ?
10 ? ?

Table 5.5 – Tableau de présence/absence

1. Donner la table de contingence associée.


2. Quelles sont les deux matrices à diagonaliser lors de l’AFC de cette table.
3. Donner les valeurs propres de l’AFC.
4. Donner les axes principaux de l’ACP des profils-lignes, et ceux de l’ACP des profils-
colonnes.
CHAPITRE 5. Analyse Factorielle des Correspondances. 103

5. Donner les composantes principales des profils-lignes et des profils-colonnes.


6. Faire la représentation simultanée des profils-lignes et des profils-colonnes sur le plan
principal.
104 ANALYSE DES DONNEES. FABIENNE CASTELL.

CA factor map

Doc.F
Doc
0.4

Doc.H
PLLSH
● SVT

Ma.F
0.2

Ma
SHS
AL F ● Dr

Ma.H
SF
Dim 2 (15.51%)


Tot EG
0.0

Lic.F ● ●

H
Lic
La Lic.H
−0.2

ES
−0.4

STAPS
−0.6

−0.4 −0.2 0.0 0.2 0.4 0.6 0.8

Dim 1 (70.72%)

Figure 5.2 – AFC sur les données des universités. Plan principal
Chapitre 6

Références.

un bon investissement : ”Probabilités, Analyse des données et Statistique”, de Gilbert


Saporta. Editions Technip.
Pour apprendre R, et autres.. : ”Statistiques avec R”, de Pierre-André Cornillon,
Arnaud Guyader, François Husson, Nicolas Jégou, Julie Josse, Maela Kloareg, Eric
Matzner-Lober, Laurent Rouviére. Presses Universitaires de Rennes.
ainsi que le site des auteurs du livres :
http ://math.agrocampus-ouest.fr/infoglueDeliverLive/enseignement/support2cours/livres
/statistiques.avec.R
deux sites où vous trouverez beaucoup d’informations utiles :
— Le site de Ricco Rakotomalala : http ://chirouble.univ-lyon2.fr/ ricco/data-mining/
— Le site http ://wikistat.fr/
Le polycopié du cours de M1MASS d’”Analyse exploratoire des données”, fait
par Marie-Christine Roubaud. Je la remercie chaleureusement de m’avoir gracieu-
sement donné ses fichiers sources. Les chapitres sur l’ACP et l’AFC en sont une simple
retouche.

105

Vous aimerez peut-être aussi