AnalyseDonnees PDF

Aix Marseille Université
L3 MASS
Cours d’Analyse des données.
F. Castell.
2
Table des matières
1 Introduction. 7
2 Statistique descriptive unidimensionnelle. 9

2.1 Une seule variable quantitative discrète. . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Différentes représentations. . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.2 Caractéristiques numériques . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Une seule variable quantitative continue. . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Représentations graphiques. . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Caractéristiques numériques. . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Une seule variable qualitative. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Vers la statistique inférentielle. Normalisation de données quantitatives. . . . . . 16
2.4.1 Comment tester la normalité ? . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2 Que faire si l’hypothèse de normalité n’est pas satisfaite ? . . . . . . . . . 18
2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5.1 Une seule variable quantitative discrète. . . . . . . . . . . . . . . . . . . 22
2.5.2 Une seule variable quantitative continue. . . . . . . . . . . . . . . . . . . 22
2.5.4 Normalisation de données quantitatives . . . . . . . . . . . . . . . . . . . 23
2.6 Pour aller plus loin : fonctions de répartition, simulation. . . . . . . . . . . . . . 24
2.6.1 Fonction de répartition. . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6.2 Fonction de répartition empirique. . . . . . . . . . . . . . . . . . . . . . . 27
3 Statistique descriptive bidimensionnelle. 29

3.1 Deux variables quantitatives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.1 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.2 Coefficient de corrélation linéaire empirique. . . . . . . . . . . . . . . . . 29
3.1.3 Coefficient de corrélation des rangs de Spearman. . . . . . . . . . . . . . 32
3.2 Une variable quantitative et une variable qualitative. . . . . . . . . . . . . . . . 36
3.2.1 Distribution théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.2 Quantités empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.3 Comment juger de la liaison entre X et Y ? . . . . . . . . . . . . . . . . 38
3.2.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.5 Que faire lorsque l’hypothèse de normalité n’est pas satisfaite ? . . . . . . 42
3.3 Deux variables qualitatives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3.1 Distribution théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3
4 TABLE DES MATIÈRES
3.3.2 Quantités empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.3.3 Comment juger de la liaison entre X et Y? . . . . . . . . . . . . . . . . 50
3.3.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4.1 Deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4.2 Une variable qualitative et une variable quantitative . . . . . . . . . . . . 54
3.4.3 Deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4 Analyse en Composantes Principales. 55

4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.1.1 Espace des individus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.1.2 Inertie d’un nuage de points. . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.1.3 Espace métrique des variables. . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2 Principes de l’ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.1 Le problème. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.2 Espaces et axes principaux. . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.3 Composantes Principales (CP) . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2.4 Résumé d’une analyse en composantes principales. . . . . . . . . . . . . . 68
4.3 ACP dans l’espace des variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4 Les représentations graphiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4.1 Représentation des individus. . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4.2 Représentation des variables. . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.5 Reconstitution des données de départ. . . . . . . . . . . . . . . . . . . . . . . . . 74
4.6 Pratique de l’ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.6.1 Nombre d’axes à retenir. . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.6.2 Interprétation de l’ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.7 Tableau récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.8 Exemple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.8.1 Description du jeu de données. . . . . . . . . . . . . . . . . . . . . . . . . 76
4.8.2 Objectif. Choix des variables et des individus actifs. . . . . . . . . . . . . 76
4.8.3 Choix du nombre d’axes à retenir. . . . . . . . . . . . . . . . . . . . . . . 77
4.8.4 Carte des variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.8.5 Carte des individus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5 Analyse Factorielle des Correspondances (AFC). 85

5.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.1.1 Table de contingence et profils. . . . . . . . . . . . . . . . . . . . . . . . 85
5.1.2 Ecart à l’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.2 Principes de l’AFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2.1 Nuage des profils-lignes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2.2 Nuage des profils-colonnes . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.2.3 Métrique du khi2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2.4 Inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
TABLE DES MATIÈRES 5
5.3 ACP des deux nuages profils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

5.3.1 ACP des profils-lignes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.3.2 ACP des profils-colonnes. . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.3.3 Relations de transition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.4 Formules de reconstitution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.5 Tableau récapitulatif : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.6 Aides à l’interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.7 Exemple traité sous R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.7.1 Description des données. . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.7.2 Objectifs. Choix des modalités actives. . . . . . . . . . . . . . . . . . . . 98
5.7.3 Choix du nombre d’axes à retenir. . . . . . . . . . . . . . . . . . . . . . . 98
5.7.4 Analyse des résultats. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.8 Exercice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6 Références. 103
6 TABLE DES MATIÈRES
Chapitre 1
Introduction.
L’objet de ce cours est de donner quelques outils couramment employés en statistique pour
traiter des données multidimensionnelles. Ces données correspondent souvent à l’observation de
nombreuses variables aléatoires sur plusieurs individus, le mot individu étant à prendre en un
sens très large. Ces données sont représentées sous forme d’un tableau où chaque ligne représente
les variables mesurées sur un individu. Le but est d’extraire le maximum d’informations de ce
tableau de données. Suivant la nature de la question posée, et suivant la nature des données,
plusieurs méthodes sont possibles. Voici quelques exemples de questions que nous chercherons
à aborder dans ce cours.
1. Analyse des relations entre plusieurs variables.
On a relevé auprès d’un échantillon de personnes des descripteurs d’utilisation de différents
média, des temps d’activités quotidiennes et d’autres caractéristiques telles que l’âge, le
sexe, le niveau d’éducation, le lieu de résidence.... etc.
On souhaite savoir quelles sont les variables liées entre elles sans qu’aucune des variables
ne soit vraiment privilégiée.
Si les variables auxquelles on s’intéresse sont toutes des variables quantitatives, il s’agit
d’un problème d’analyse en composante principale (ACP). S’il s’agit de deux va-
riables qualitatives, on parle d’analyse factorielle des correspondances (AFC). S’il
s’agit de p ≥ 3 variables qualitatives, on parle d’analyse des correspondances mul-
tiples (ACM).
En plus de décrire les liens entre variables, ces méthodes permettent :
— d’”éliminer” des variables peu pertinentes, car l’information qu’elles apportent est
déjà contenue dans les autres variables ;
— de donner des représentations graphiques les plus fidèles possible, de l’ensemble des
données sur un graphe plan (ou de dimension 3).
Elles sont souvent une première étape, dite exploratoire ou descriptive, avant de
mettre en oeuvre d’autres méthodes, qui nécessitent des hypothèses sur les données.
2. Etude de l’influence des variables sur une variable particulière.
On peut s’intéresser au type de média choisi en fonction du sexe, de l’âge, du sport
pratiqué, etc... Ici, on met en exergue une des variables, dite variable à expliquer,
(ou variable d’intérêt, variable réponse). On veut analyser l’influence des autres
variables (dites variables explicatives, ou variables régresseurs) sur la variable
7
8 Analyse des Données. Fabienne CASTELL
d’intérêt. La tableau suivant donne la terminologie des méthodes utilisées suivant la

nature des données :
Variable à expliquer Variable à expliquer

quantitative qualitative
Var explicatives Classification supervisée ,
quantitatives Régression Analyse discriminante
Var explicatives
qualitatives analyse de variance AFC, ACM
Références :
un bon investissement : ”Probabilités, Analyse des données et Statistique”, de Gilbert
Saporta. Editions Technip.
Pour apprendre R, et autres.. : ”Statistiques avec R”, de Pierre-André Cornillon,
Arnaud Guyader, François Husson, Nicolas Jégou, Julie Josse, Maela Kloareg, Eric
Matzner-Lober, Laurent Rouviére. Presses Universitaires de Rennes.
ainsi que le site des auteurs du livres :
http ://math.agrocampus-ouest.fr/infoglueDeliverLive/enseignement/support2cours/livres/statistiq
deux sites où vous trouverez beaucoup d’informations utiles :
— Le site de Ricco Rakotomalala : http ://chirouble.univ-lyon2.fr/ ricco/data-mining/
— Le site http ://wikistat.fr/
Chapitre 2
Statistique descriptive
unidimensionnelle.
Avant de rentrer dans l’analyse de données multidimensionnelles, nous allons commencer

par rappeler quelques concepts de base permettant de décrire une série de données.
Nous considérons ici que nous avons mesuré une variable sur n individus dans la population.
On obtient donc une série d’observations notées (x1 , · · · , xn ). On peut aussi associer à l’indi-
vidu i, un poids wi (”w” pour ”weight”) représentant son importance dans la population. Par
exemple, si les individus représentent des régions, on peut vouloir associer à chaque région un
poids proportionnel au nombre d’habitants de la région. La série des poids w = (w1 , · · · , wn )
vérifie :
n
X
∀i ∈ {1, · · · , n} , wi ≥ 0 ; wi = 1. (2.1)
i=1
Si tous les individus ont même poids, alors wi = n1 .
2.1 Une seule variable quantitative discrète.

Une variable quantitative discrète est une variable prenant des valeurs discrètes (entières
ou décimales). Théoriquement le nombre de valeurs possibles est au plus dénombrable ; en
pratique il est souvent assez faible. On peut penser par exemple au nombre de déplacements
journaliers d’une personne, au nombre d’enfants par famille, au nombre de mois séparant la fin
des études et le premier emploi en CDI, .... etc.
Exemple 2.1: On a noté le nombre de mois séparant la fin des études et le premier emploi
en CDI de 25 étudiants issu d’un master MASS. Les résultats sont les suivants et sont des
données fictives : 9 5 5 6 5 10 7 5 8 8 8 4 7 8 4 3 4 5 7 7 6 3 2 6 9 .
On notera (x1 , · · · , xn ) la série de données, et (y1 , · · · , yr ) les valeurs possibles pour ces
données, ordonnées par ordre croissant (y1 < · · · < yr ).
9
10 ANALYSE DES DONNEES. FABIENNE CASTELL.
yj nj Nj fj Fj
2 1 1 1/25 1/25
3 2 3 2/25 3/25
4 3 6 3/25 6/25
5 5 11 5/25 11/25
6 3 14 3/25 14/25
7 4 18 4/25 18/25
8 4 22 4/25 22/25
9 2 24 2/25 24/25
10 1 25 1/25 1
Table 2.1 – Tableau représentant les données de l’exemple 2.1.
2.1.1 Différentes représentations.

Lorsque tous les individus ont même poids (wi = 1/n pour tout i), ces données sont souvent
représentées sous forme d’un tableau donnant pour chaque valeur possible yj (1 ≤ j ≤ r) :
— l’effectif nj qui lui est associé,
nj = nombre d’individus pour lesquels la variable mesurée vaut yj
= card {i ≤ n; xi = yj } ;
On a évidemment rj=1 nj = n.
P
— l’effectif cumulé Nj ,
j
X
Nj = ni ;
i=1
— la fréquence fj = nj /n ; P
— la fréquence cumulée Fj = ji=1 fj = Nj /n.
Question : Comment adapter ces définitions au cas où l’individu i est affecté d’un poids
wi ?
Ce tableau peut-être représenté sous forme de diagrammes.
Diagramme en bâtons : C’est le graphe de yj 7→ fj (ou de yj 7→ nj ).
Diagramme cumulatif : C’est le graphe de yj 7→ Fj (ou de yj 7→ Nj ). Plus précisément,
il s’agit du graphe de la fonction de répartition empirique Fn définie par :

 0 si x < y1
Fn (x) = Fj si yj ≤ x < yj+1 , pour 1 ≤ j ≤ r − 1
1 si x ≥ yr

On a n
1X
Fn (x) = 1Ixi ≤x (2.2)
n i=1
La figure 2.1 donne ces deux graphes sur les données de l’exemple 2.1.
CHAPITRE 2. Statistique descriptive unidimensionnelle. 11
0.2
0.15
frequence
0.1
0.05
0
2 3 4 5 6 7 8 9 10
Nombre de mois entre fin des etudes et premier CDI
1
frequence cumulee
0.8
0.6
0.4
0.2
0
0 2 4 6 8 10 12
Figure 2.1 – Diagramme bâtons et diagramme cumulatif des données de l’exemple 2.1.
2.1.2 Caractéristiques numériques
Caractéristiques de position : elles donnent un ordre de grandeur de la série.

— Moyenne empirique : x̄n = n1 ni=1 xi = rj=1 fj yj ;
P P
— Quantiles empiriques : La fonction ”quantile empirique” est la fonction inverse de
la fonction de répartition empirique. Pour α ∈ [0.1], le quantile empirique d’ordre
α est une valeur de qα telle que Fn (qα ) ≥ α et Fn (qα− ) ≤ α. Notez qu’une telle valeur
n’est pas nécessairement unique (cf diagramme 2.2). Une médiane empirique est
un quantile empirique d’ordre α = 1/2, i.e. c’est une valeur de la variable observée
en dessous de laquelle et au dessus de laquelle les effectifs sont égaux ; le premier
quartile et le troisième quartile correspondent respectivement à α = 1/4 et α =
3/4.
Caractéristiques de dispersion : elles donnent une idée de la variabilité de la série, i.e. une
idée de la façon dont la série varie autour de sa ”tendance centrale”.
— Variance empirique : σn2 (x) = n1 ni=1 (xi − x̄n )2 = rj=1 fj (yj − x̄n )2 ;
P P
— Ecart interquartile : q3/4 − q1/4 .
Une représentation synthétique de ces caractéristiques est donnée par le diagramme-boı̂te

(”boxplot” en anglais”), qui donne les quartiles, la médiane, et les valeurs extrêmes de la série.
Sa représentation est donnée dans la figure 2.3.
0.8
frequence cumulee
0.72
0.6
0.4 Tout l’intervalle est

Quantile d’ordre ! quantile d’ordre 0.72
0.2
!
0
0 2 4 6 8 10 12
10
mÃ©diane
8
Quantile d’ordre !
6
Tout l’intervalle est
4 quantile d’ordre 0.72
2 0.72
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
!
Figure 2.2 – Quantiles empiriques sur les données de l’exemple 2.1.

10
8
6
4
2
Figure 2.3 – Diagramme-boı̂te sur les données de l’exemple 2.1.

2.2 Une seule variable quantitative continue.

Une variable quantitative est dite continue lorsqu’elle peut prendre à priori un continuum
de valeurs possibles, comme par exemple la température. Dans ce cadre, on se retrouve avec
une série de données (x1 , · · · , xn ) où la plupart des xi sont distincts, le cas de xi égaux résultant
essentiellement de la ”troncature” des données (écriture à la deuxième décimale par exemple).
Là encore, chacun des individus peut être affecté d’un poids, la série des poids étant notée
(w1 , · · · , wn ). Ici, on supposera que tous les individus ont même poids.
2.2.1 Représentations graphiques.

Courbe cumulative ou Fonction de répartition empirique : elle est définie de la même façon
que dans le cas discret. C’est le graphe de la fonction de répartition empirique définie par
(2.2). Si on note (x(1) , · · · , x(n) ) la suite des (x1 , · · · , xn ) ordonnée par ordre croissant, et
si on pose x(0) = −∞, x(n+1) = +∞, on a par définition de Fn (x),
i
Fn (x) = , ∀x ∈ [x(i) ; x(i+1) [ (i = 0, . . . , n) .
n
Fn est donc une fonction en escalier, dont les marches sont de hauteur 1/n et dont les
sauts sont situés sur les points de l’échantillon de données (cf figure 2.4). On peut aussi
la représenter comme une fonction linéaire par morceaux (cf figure 2.4).
Quand on suppose que les données (x1 , · · · , xn ) sont une réalisation de n variables
aléatoires i.i.d. (X1 , · · · , Xn ) (ce qu’on notera (x1 , · · · , xn ) = (X1 (ω), · · · , Xn (ω)) où ω
désigne l’échantillon particulier qu’on est en train de regarder), et que les Xi sont de
même fonction de répartition F , la fonction de répartition empirique permet de se faire
une idée de F . La loi des grands nombres dit en effet que pout tout x ∈ R,
n
1X
lim Fn (x) = lim 1IXi (ω)≤x = P(X1 ≤ x) = F (x) ,
n→+∞ n→+∞ n
i=1
et on peut montrer que la convergence est uniforme (théorème de Glivenko-Cantelli).

Histogramme et histogramme normalisé : Le diagramme en bâtons est remplacé par la no-
tion d’histogramme. On partitionne l’ensemble (disons R) dans lequel vivent les va-
riables xi :
R = ∪ri=1 Ii ; Ii ∩ Ij = ∅ si i 6= j .
A chacun des ensembles Ij , on associe son effectif
n
X
nj = card {xi tel que xi ∈ Ij } = 1IIj (xi ) .
i=1
L’histogramme associé à ce découpage est la courbe x ∈ Ij 7→ Hn (x) = nj .

Notez que l’histogramme dépend fortement du choix de la partition.
Notez aussi que Hn (x) dx = rj=1 nj |Ij | =
R P
6 1 en général. Si on veut normaliser de façon
à ce que l’histogramme soit une densité de probabilité, différentes possibilités s’offrent
à vous. Une façon automatique de procéder (adoptée par défaut par les logiciels) est de
diviser l’intervalle [xmin ; xmax ] (où xmin = min(xi ) et xP
max = max(xi ))P
en k intervalles
de même longueur h = (xmax − xmin )/k. Dans ce cas, j=1 nj |Ij | = h rj=1 nj = hn =
r
n(xmax − xmin )/k. L’histogramme normalisé est alors la courbe

k nj
x ∈ Ij 7→ hn (x) = .
xmax − xmin n
Quand les intervalles Ij ne sont pas de même longueur, on peut normaliser l’histogramme
de façon à s’assurer que l’histogramme normalisé soit ”une approximation de la densité”.
C’est ce qui expliqué dans les lignes qui suivent.
Histogramme et estimation de densité : Quand on suppose que les données (x1 , · · · , xn ) sont
une réalisation de n variables aléatoires i.i.d. (X1 , · · · , Xn ), et si on suppose que les Xi
sont de densité commune fX , alors pour tout x ∈ Ij ,
n
1 1X
Hn (x) = 1IIj (Xi (ω)) .
n n i=1
Par la loi des grands nombres, on a alors pour (presque) tout ω,

n Z
1X
lim 1IIj (Xi (ω)) = P [X1 ∈ Ij ] = fX (y) dy ≈ fX (x) |Ij | ,
n→+∞ n Ij
i=1
où la dernière approximation suppose que l’intervalle Ij soit de petite longueur, et que
la densité fX soit régulière. Ainsi pour une partition assez fine, la fonction hn : x ∈ Ij 7→
1 n
n n
H (x)/ |Ij | = n|Ijj | est une bonne approximation de fX .
Estimation de densité. L’histogramme normalisé présenté précédemment a le défaut de dépendre
du choix de la partition, et ce choix affecte beaucoup la qualité de l’estimation de la
densité. Aussi, d’autres méthodes d’estimation de la densité ont été développées. Une
méthode courante est la méthode du noyau qui propose d’estimer fX par
n
1 X x − xi
ĥn,λ (x) = K ,
nλ i=1 λ
où
— la fonction K (le noyau) est une fonction positive,
2 paire, d’intégrale 1 (par exemple
la densité de la loi N(0, 1) : K(x) = √2π exp − x2 ) ;
1
— le paramètre dit de lissage λ est à choisir (strictement positif..).

En effet, la loi des grands nombres dit à nouveau que
n
x − Xi x − X1 x−y
Z
1 X 1 1
lim K = E K = K fX (y) dy
n→∞ nλ λ λ λ λ λ
i=1
Z
= K(z)fX (x − λz) dz
où la dernière égalité

R vient du changement de variable
R z = (x − y)/λ. Si fX est régulière,
on voit que limλ→0 K(z)fX (x − λz) dz = fX (x) K(z) dz = fX (x). Ainsi,
lim lim ĥn,λ (x) = fX (x) .

λ→0 n→∞
Des résultats plus sophistiqués (et qui nous dépassent ici) étudient les ”meilleures façons”
de choisir λ en fonction de n et des données (λ = λ̂n (x1 , · · · , xn )) de telle sorte que
limn→∞ λ̂n = 0 et que limn→∞ ĥn,λ̂n (x) = fX (x) le ”plus vite” possible.
2.2.2 Caractéristiques numériques.

Ce sont les mêmes que dans le cas discret :
Caractéristiques de position :
— Moyenne empirique : x̄n = n1 ni=1 xi ;
P
— Quantiles empiriques : La fonction ”quantile empirique” est la fonction inverse de
la fonction de répartition empirique. Selon que la fonction de répartition empirique
est vue comme une fonction en escalier ou comme une fonction linéaire par morceaux,
on aboutit à deux notions légèrement différentes pour les quantiles. L’avantage de la
représentation ”linéaire par morceau” pour la fonction de répartition empirique, est
de lever les ambiguités dues aux ”marches” de l’escalier. C’est cette solution qui est
en général adoptée par les logiciels.
Caractéristiques de dispersion :
— Variance empirique : σn2 (x) = n1 ni=1 (xi − x̄n )2 ;
P
— Ecart interquartile : q3/4 − q1/4 .
Diagramme-boı̂te : représentation synthétique des caractéristiques de position et de disper-
sion.
Exemple 2.1: Voici sur le jeu de données suivant une illustration des différentes notions
introduites précédemment.
0.5799 3.4561 0.4609 3.908 4.3653 -0.6389 0.9086 4.8374 1.6108 -2.7677
La figure 2.4 donne les différentes représentations graphiques. Les caractéristiques numériques
sont :
— Moyenne empirique : x̄n = 1.67207 ;
— Mediane empirique : m̂n = 1.259778 ;
— Variance empirique : σn2 (x) = 5.97284 ;
— Ecart inter-quartile empirique : dˆn = 3.304417.
2.3 Une seule variable qualitative.

Comme leur nom l’indique, les variables qualitatives décrivent une ”qualité” de l’individu
(sexe, profession, marque d’un produit, ....etc). Si les ”qualités” regardées sont ordonnées (men-
tion à un concours par exemple), on parle de variables ordinales. Sinon, on parle de variables
Histogramme normalisé Estimateur à noyau
0.20
0.12
0.15
0.08
hn(x)
hn(x)
0.10
0.04
0.05
0.00
0.00
−4 −2 0 2 4 6 −5 0 5
x N = 10 Bandwidth = 1.388
Courbes cumulatives Diagramme boîte

1.0
4
0.8
2
0.6
Fn(x)
0.4
0
0.2
−2
−2 0 2 4
Figure 2.4 – Les différentes représentations graphiques sur les données de l’exemple 2.1.
nominales. Pour les variables qualitatives, les caractéristiques numériques n’ont aucun sens.
On se contente donc des représentations graphiques (diagramme en colonnes, diagramme
en barre ou camembert) , qui donnent pour chaque modalité yj de la variable qualitative
n
regardée, son effectif nj , ou sa fréquence fj = nj . Ces différentes représentations sont données
dans la figure 2.5 pour les données de l’exemple 2.3 dû à Fisher sur un échantillon de n = 3883
écossais.
Exemple 2.1:
Blond Roux Châtain Brun Noir de jais

nj 1136 216 1526 955 50
2.4 Vers la statistique inférentielle. Normalisation de don-

nées quantitatives.
Lorsque l’on veut aller plus loin qu’une simple description des données, i.e. lorsqu’ on veut
faire de la prédiction ou des tests, le statisticien est amené à faire des hypothèses sur son jeu
de données, qui définissent un modèle statistique. En particulier, beaucoup de méthodes sta-
tistiques (dites paramétriques) suppose que les données (x1 , · · · , xn ) sont une réalisation parti-
culière de n variables (X1 , · · · , Xn ) indépendantes (indépendance des individus dans l’échantillon),
de même loi (les individus proviennent d’une population ”homogène”). Pour des données quanti-
tatives, cette loi est souvent supposée être une loi normale N(µ, σ 2 ) (on dit alors que (x1 , · · · , xn )
est une réalisation d’un n-échantillon de la loi N(µ, σ 2 )). Cette hypothèse de normalité peut
Diagramme en colonnes
0.3
0.2
0.1
0.0
Blond Roux Chât Brun Noir
Diagramme baton Camembert
Blond Brun
Roux
Roux Noir Blond
Chât
Noir
Chât
Brun
Figure 2.5 – Les différentes représentations graphiques sur les données de l’exemple 2.3.
se justifier par le théorème de la limite centrale lorsque la taille de l’échantillon est grand.
Mais, dans la plupart des cas, elle n’est pas forcément justifiée. Cela pose évidemment problème
puisque toute l’analyse statistique qui suit, dépend fortement de la validité du modèle supposé.
Quand on veut utiliser ces méthodes, on doit donc faire face aux deux problèmes suivants :
1. Peut-on raisonnablement supposer que (x1 , · · · , xn ) est la réalisation d’un n-échantillon
de la loi N(µ, σ 2 ) ?
2. Si ce n’est pas le cas, que faire ?
2.4.1 Comment tester la normalité ?

Pour tester la normalité, on peut utiliser un des tests d’ajustement vus dans le cours de
”Statistique 2” (test d’ajustement du χ2 , de Kolmogorov, de Shapiro....). Pour avoir une idée
plus visuelle de l’écart à la normalité, on peut aussi tracer sur un même graphe la fonction
de répartition empirique des données préalablement centrées et réduites, et la fonction de
répartition Φ de la N(0, 1). Bien plus visuel est le diagramme de type ”Q-Q-plot” (littéralement
graphe Quantile-Quantile) qui trace les quantiles empiriques en fonction des quantiles de la loi
à laquelle on fait l’ajustement. S’il s’agit de la loi normale, ce graphe est donc le graphe de
{(Φ−1 (α), Qn (α)), α ∈ [0; 1]}, où Qn est la fonction quantile empirique, i.e. l’inverse de la fonc-
tion de répartition empirique Fn .
Si les données sont la réalisation d’un n-échantillon de N(0, 1), alors Fn ∼ F = Φ, et donc
Qn ∼ Φ−1 . Le ”Q-Q-plot” est donc proche de la droite y = x.
d’un n-échantillon de N(µ, σ ), alors Fn (x) ' F (x) = P(X−1
2
Si les données sont issus 1 ≤ x) =
X1 −µ x−µ x−µ
P( σ ≤ σ ) = Φ σ , et on a donc en inversant cette relation Qn (α) ' µ + σΦ (α). Le
”Q-Q-plot” est donc ”proche” de la droite y = µ+σx ; l’ordonnée à l’origine donne le paramètre
de position µ, et la pente donne le paramètre de dispersion σ.
2.4.2 Que faire si l’hypothèse de normalité n’est pas satisfaite ?

On a dans ce cas essentiellement deux options : soit on s’affranchit de l’hypothèse de norma-
lité en utilisant une autre méthode statistique qui n’en a pas besoin (souvent une méthode dite
”non paramétrique” qui ne fait pas d’hypothèse forte sur la loi dont sont issues les données),
soit on essaie de transformer les données par une fonction G de telle sorte que les données
transformées (y1 , · · · , yn ) = (G(x1 ), · · · , G(xn )) puissent être considérées comme une réalisation
d’un n-échantillon de N(µ, σ 2 ). Le problème est alors de trouver une telle transformation G que
l’on choisira de préférence croissante pour conserver l’ordre des données.
Réponse théorique.
Si on suppose que (x1 , · · · , xn ) est une réalisation d’un n-échantillon de la loi de fonction de
répartition F connue, alors G = Φ−1 ◦ F . On a en effet la proposition :
Proposition 2.4.1 : Si X est une variable de fonction de répartition F continue, Y = Φ−1 ◦

F (X) est une variable de loi N(0, 1).
Preuve : On fait la preuve dans le cas où F est continue et strictement croissante. Dans ce
cas, F est une bijection de R dans ]0, 1[. Notons F −1 sa fonction inverse. Calculons la fonction
de répartition de Y .
P(Y ≤ x) = P(Φ−1 (F (X)) ≤ x) = P(F (X) ≤ Φ(x)) = P(X ≤ F −1 (Φ(x))) = F (F −1 (Φ(x))

= Φ(x) .
La fonction de répartition de Y étant la fonction de répartition de N(0, 1), Y ∼ N(0, 1).

Cette démonstration se généralise au cas général où F n’est pas supposée strictement crois-
sante. La seule difficulté est de donner un sens à la fonction F −1 . On introduit alors la notion
d’inverse généralisée (cf section 2.6). .
Cette proposition n’est pas très utile en pratique, puisqu’on ne connaı̂t pas F en général,
un des buts de l’étude statistique étant justement d’avoir des informations sur F .
En pratique.
On peut essayer de ”deviner” une fonction G. A ce titre, le Q-Q-plot peut s’avérer utile. En
effet, si on reconnaı̂t visuellement une ”forme” pour le Q-Q-plot du type y = H(x) pour une
fonction H, alors on peut prendre G = H −1 . En effet,
∀α ∈]0, 1[ , F −1 (α) = H(Φ−1 (α))

⇔ ∀α ∈]0, 1[ , Φ−1 (α) = H −1 (F −1 (α))
⇔ ∀x ∈ R , Φ(x) = F (H(x)) = P(X ≤ H(x)) = P(H −1 (X) ≤ x)
2
1
0
hλ, 0(x)
−1
−2
−3
λ=0
λ = 0.2
λ = 0.5
λ=1
−4
λ=2
λ = 10
−2 0 2 4 6 8 10
Figure 2.6 – Les transformations de Bickel & Doksum
Les transformations de Box-Cox.

Lorsqu’on n’a pas d’idée a priori de la fonction G, Box et Cox ont proposé de la chercher
dans la famille de transformations dépendant de deux paramètres λ > 0 et θ ∈ R :

log(x + θ) si λ = 0
gλ,θ (x) = (x+θ)λ −1 , x > −θ .
λ
si λ > 0
Pour λ > 0, la fonction gλ,θ est strictement croissante de ] − θ, +∞[ sur ] − λ1 , +∞[. Les
données transformées sont donc toujours strictement supérieures à − λ1 , et ne peuvent donc pas
à proprement parler être issues d’une loi normale (dont le support est R). Il ne peut donc s’agir
que de ”s’approcher de la normalité”. Pour pallier à ce défaut, Bickel & Doksum on proposé de
modifier les transformations précédentes, en les étendant sur R :
(
log(x + θ) si λ = 0, x > −θ
hλ,θ (x) = sgn(x+θ)|x+θ|λ −1 , . (2.3)
λ
si λ > 0
Les graphes des fonctions hλ,θ (x) pour θ = 0 et différentes valeurs de λ sont donnés dans la
figure 2.6. Des procédures automatiques pour choisir les paramètres λ et θ ont fait l’objet de
diverses études. Elles sont implémentées sous R (fonction boxcox du package MASS pour les
fonctions de Box & Cox). Elles sont basées sur des estimations par maximum de vraisemblance.
On suppose qu’il existe des paramètres (λ, θ) tels que les données transformées (y1 , · · · , yn ) =
(hλ,θ (x1 ), · · · hλ,θ (xn )) sont une réalisation d’un n-échantillon de N(µ, σ 2 ) . Cette hypothèse
permet d’identifier la loi de la variable X en fonction des quatre paramètres (λ, θ, µ, σ 2 ). En
effet pour tout x ∈ R, en utilisant la croissance de hλ,θ ,

Z hλ,θ (x)
P [X ≤ x] = P [hλ,θ (X) ≤ hλ,θ (x)] = fµ,σ2 (y) dy ,
−∞
où fµ,σ2 désigne la densité de la loi N(µ, σ 2 ). En dérivant par rapport à x, on en déduit que
la densité de la variable X est fµ,σ2 (hλ,θ (x))h0λ,θ (x). Par conséquent, la log vraisemblance du
modèle est
n
X n
X
2
Ln (λ, θ, µ, σ ) = log(fµ,σ2 (hλ,θ (xi ))) + log(h0λ,θ (xi ))
i=1 i=1
n n
n n 1 X X
2
= − log(2π) − log(σ ) − 2 2
(hλ,θ (xi ) − µ) + log(h0λ,θ (xi ))
2 2 2σ i=1 i=1
Les paramètres (λ, θ, µ, σ 2 ) sont alors identifiés par maximum de vraisemblance. Lorsque (λ, θ)
est fixé, la maximisation en (µ, σ 2 ) donne, comme dans le cas des échantillons gaussiens :
n
1X
µ̂(λ, θ) = hλ,θ (xi ) ;
n i=1
n
2 1X
σ̂ (λ, θ) = (hλ,θ (xi ) − µ̂(λ, θ))2 .
n i=1
On a alors à maximiser en (λ, θ) la fonction
n
n n n X
Ln (λ, θ, µ̂(λ, θ), σ̂ 2 (λ, θ)) = − log(2π) − log(σ̂ 2 (λ, θ)) − + log(h0λ,θ (xi ))
2 2 2 i=1
En reprenant l’expression de hλ,θ (x), on peut voir que h0λ,θ (x) = |x + θ|λ−1 . On a donc à
maximiser en (λ, θ) la fonction
n
n X
− log(σ̂ 2 (λ, θ)) + (λ − 1) |xi + θ| .
2 i=1
Exemple 2.1: On fait une normalisation des données qui se trouvent dans le fichier
Chap1BoxCox.csv. La figure 2.7 donne différentes représentations des données brutes. Il ap-
paraı̂t clairement sur ces diagrammes que la distribution des données est assez éloignée d’une
normale. Ceci est confirmé par un test de normalité (ici, le test de Kolmogorov) qui donne
une Pvaleur égale à 5 10−49 . Après mise en oeuvre de la fonction boxcox, les diagrammes
correspondant aux données transformées sont donnés dans la figure 2.8. Les choses se sont
améliorées. Mais il reste tout de même des écarts à la loi normale, en particulier dans les pe-
tites valeurs. La Pvaleur du test de normalité est maintenant de 6%, ce qui est nettement mieux
que précédemment, mais qui reste cependant suffisamment faible pour qu’on puisse rejeter la
normalité des données transformées. Pour les données de cet exemple, les transformations de
Box-Cox ne permettent pas de normaliser les données.
1.4 Densités Fonctions de répartition Graphe Quantile−Quantile
Estimateur à noyau
1.0
●
^, σ
N(µ ^) ●
●●●●●
●
●●●
●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
1.2
●
●
●●
●
●
●
●
●●
●
●
●●
●●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
1
●
●●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
0.8
●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
1.0
●
●
●●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●●
0.6
●
●
●
0
●
0.8
Quantile Empirique
●
●
●
●
●
●
●
●
Density
●
●
0.6
0.4
−1
●
0.4
●
●
●
●
●
0.2
●
●
●
●
0.2
●●
●
−2
●●
Empirique
0.0
0.0
●
^, σ
N(µ ^)
−2 −1 0 1 2 3 −2 −1 0 1 2 3 −0.5 0.0 0.5 1.0 1.5 2.0

^, σ
Quantile de N(µ ^)
N = 1000 Bandwidth = 0.06752
Figure 2.7 – Ecart à la normalité des données brutes
Densités Fonctions de répartition Graphe Quantile−Quantile

70
Estimateur à noyau
1.0
●
^, σ
N(µ ^)
●
●●
●
60
●●
●
●
●
0.03
●●
0.8
●
●●
●
●
●
●●
●
●
●
●
●●
●
●●
●
●
50
●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●●
●●
●
0.6
●●
●
●
●
●
●
40
●
●
●
●
Quantile Empirique
●
●●
●●
●
●
0.02
●
●●
●●
●
●
●
●
●
●
●
●
Density
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
30
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
0.4
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
20
●
●
●
●●
0.01
●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
0.2
●
●
●
●●
●
●
●
●●
●
●
●
●
10
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
0.00
Empirique ●
0.0
●●
●
0
● ●
● ●●●●●●●●
●●
^, σ
N(µ ^)
0 20 40 60 80 0 20 40 60 80 0 20 40 60
^, σ
Quantile de N(µ ^)
N = 1000 Bandwidth = 2.492
Figure 2.8 – Ecart à la normalité des données transformées

2.5 Exercices
2.5.1 Une seule variable quantitative discrète.
Exercice 1: : Adapter les définitions d’effectifs, effectifs cumulés, fréquences, fréquences cu-
mulées, moyenne... etc, au cas où les individus sont affectés des poids (wi ). Reprendre les
données de l’exemple 2.1 en supposant que les individus ne sont plus des étudiants, mais des
promotions entières (le chiffre du nombre de mois séparant la fin des études et le premier CDI
étant alors une moyenne sur la promotion). Les effectifs des différentes promotions regardées
étaient : 5 6 6 8 10 7 6 11 9 9 7 6 5 8 8 12 9 10 10 12 11 10 10 9 8. Affecter les poids qu’il
convient à chaque promotion. Dessiner alors la fonction de répartition empirique, la fonction
quantile empirique, et calculer moyenne empirique et médiane empirique.
Exercice 2: : Reproduire le diagramme de la figure 2.3 en utilisant R. Ecrire un programme R
prenant en entrée une série de données quantitatives discrètes (x1 , · · · , xn ), une série de poids
(w1 , · · · , wn ) et rendant le diagramme-boı̂te correspondant. Le faire tourner sur les données de
l’exercice précédent.
2.5.2 Une seule variable quantitative continue.

Exercice 3: On a observé les 10 données suivantes :
0.8140209 -0.3069065 -0.1498516 0.4691868 -1.3875180 0.1511367 0.7778028 1.2516469

-1.4545156 0.1996476
1. Tracer l’histogramme correspondant au découpage
R =] − ∞, −3]∪] − 3, −2]∪] − 2, −1]∪] − 1, 0]∪]0, 1]∪]1, 2]∪]2, 3]∪]3, +∞[ .
2. Tracer la fonction de répartition empirique ;

3. Calculer moyenne, médiane, écart inter-quartile.
4. Mêmes questions lorsque les deux premiers individus ont un poids deux fois plus impor-
tant que les autres.
Exercice 4: Approximation de la densité par un histogramme.

Pour différentes valeurs de n,
1. générer un échantillon (x1 , · · · , xn ) d’une variable N(0, 1) ;
2. tracer l’histogramme normalisé hn correspondant à un découpage de [-4,4] en 100 parties
de même longueur ;
3. en voyant hn comme une fonction continue à droite, calculer les quantités
dn = sup |hn (x) − φ(x)| ,

x
où φ(x) désigne la densité de la loi N(0, 1)

4. Tracer le graphe n → dn . Commenter.

Exercice 5: Approximation de la fonction de répartition par la fonction de répartition empi-
rique.
2. tracer la courbe cumulative Fn ;
3. en voyant Fn comme une fonction continue à droite, calculer les quantités
dn = sup |Fn (x) − Φ(x)| ,

x
où Φ(x) désigne la fonction de répartition de la loi N(0, 1) ;

4. tracer le graphe n → dn . Commenter.
Exercice 6: Sensibilité d’un histogramme au choix du découpage.
Générer un échantillon (x1 , · · · , xn ) de taille n = 10000 d’une variable N(0, 1). Pour différents
choix d’une partition P de R en 30 intervalles disjoints,
1. calculer l’histogramme HP de (x1 , · · · , xn ) correspondant à la partition P ;
2. en voyant HP comme une fonction continue à droite, calculer les quantités
dP = sup |HP (x) − φ(x)| ,

x
où φ(x) désigne la densité de la loi N(0, 1).

3. Tracer le nuage de points (P, dP ). Commenter.
Exercice 7: Estimation de la densité par une méthode à noyau.
2. tracer l’estimateur à noyau φ̂n donné par la fonction density de R ;
3. calculer les quantités
dn = sup φ̂n (x) − φ(x) ,

x
où φ(x) désigne la densité de la loi N(0, 1)

4. Tracer le graphe n → dn . Commenter.
2.5.4 Normalisation de données quantitatives

Exercice 8:
1. Récupérer le jeu de données Chap1BoxCox.csv.
2. Quel test de normalité pouvez vous mettre en oeuvre sur ce jeu de données ? Rappeler
le principe de ce test (hypothèses, statistique utilisée et loi de cette statistique sous
l’hypothèse nulle), avant de le mettre en oeuvre avec R.
1.0
●
0.8
0.6
F(x)
●
0.4
●
0.2
0.0
0 2 4 6 8
Figure 2.9 – Un exemple de fonction de répartition non continue.
3. Tracer le graphe quantile-quantile adapté (fonctions qqplot, qqnorm). Commenter.

4. Au vu de ce graphe, proposer éventuellement une transformation des données permettant
de les normaliser.
5. Mettre en oeuvre avec R la normalisation de Box-Cox (fonction boxcox du package
MASS).
2.6 Pour aller plus loin : fonctions de répartition, simu-

lation.
2.6.1 Fonction de répartition.
Soit X une variable aléatoire. On rappelle que sa fonction de répartition est la fonction
F : t ∈ R 7→ P(X ≤ t) ∈ [0, 1]. Une fonction de répartition est croissante et vérifie
lim F (t) = 0 , lim F (t) = +∞ .

t→−∞ t→+∞
Une fonction de répartition n’est pas forcément continue. Par exemple, la fonction de répartition
d’une variable X qui prend trois valeurs 0, 2, 7, avec les probabilités
P(X = 0) = 1/4 , P(X = 2) = 1/4 , P(X = 7) = 1/2 .
est une fonction en escalier représentée dans la figure 2.9. En revanche, une fonction de répartition
est toujours continue à droite (ce qui signifie que pour tout t0 ∈ R, limt&t0 F (t) = F (t0 )) et
F(x)
1
u3
u2
u1
F−1(u1) F−1(u2) F−1(u3) x
Figure 2.10 – Représentation de F −1 (u)
admet des limites à gauche (ce qui signifie que pour tout t0 ∈ R, limt%t0 F (t) existe sans être
nécessairement égale à F (t0 ). On note cette limite F (t0 )− ). Dans l’exemple de la figure 2.9, on
a F (2)− = 1/4 et F (2) = 1/2. Il est alors facile de voir que pour tout t0 ∈ R, on a
P(X = t0 ) = F (t0 ) − F (t0 )− .
Ainsi, si la fonction de répartition F est continue en t0 , alors P(X = t0 ) = 0 et F (t0 ) = P(X <
t0 ). C’est en particulier le cas si X a une densité f , auquel cas
Z t
F (t) = f (x) dx
−∞
est continue partout.

A toute fonction de répartition, on peut associer son inverse généralisé F −1 : [0; 1] →
7 R
défini par :
F −1 (t) = inf {x, F (x) ≥ t} . (2.4)
Si F est continue et strictement croissante, F est une bijection de R dans (0, 1), et l’inverse
généralisée de F coı̈ncide avec l’inverse au sens usuel de F . L’inverse généralisée est représentée
sur la figure 2.10, et vérifie les propriétés suivantes :
Proposition 2.6.1 Pour tout u ∈ [0, 1], et tout t ∈ R

1. F (F −1 (u)) ≥ u.
2. u ≤ F (t) ⇔ F −1 (u) ≤ t.
3. Si F est continue, F (F −1 (u)) = u.
Concernant le point 1., on peut vérifier sur la figure 2.10 que F (F −1 (u2 )) > u2 .
Preuve :
1. Comme F −1 (u) = inf {x, F (x) ≥ u}, on peut trouver une suite de points xn vérifant
F (xn ) ≥ u, et décroissant vers F −1 (u). Comme F est continue à droite, on a alors
u ≤ limn→∞ F (xn ) = F (F −1 (u)).
2. Comme F −1 (u) = inf {x, F (x) ≥ u}, si F (x) ≥ u on a nécessairement F −1 (u) ≤ x.
Réciproquement, supposons que F −1 (u) ≤ x. Comme F est croissante, on a F (F −1 (u)) ≤
F (x). On déduit alors de 1. que F (x) ≥ u.
3. On sait déjà que F (F −1 (u)) ≥ u. Montrons que F (F −1 (u)) ≤ u. Pour cela on considère
une suite xn telle xn croı̂t vers F −1 (u), et telle que pour tout n xn < F −1 (u). Par 2., on
a F (xn ) < u. Comme F est continue, on a alors F (F −1 (u)) = limn→+∞ F (xn ) ≤ u.
Un résultat fondamental pour les tests de comparaison d’échantillons, mais aussi pour la
simulation numériques de variables aléatoires est le résultat suivant, qui dit qu’on peut trans-
former une variable aléatoire uniforme sur [0; 1] en une variable de loi fixée.
Proposition 2.6.2 Soit F la fonction de répartition d’une probabilité. Soit F −1 l’inverse
généralisée de F définie par (2.4).
1. Soit U une variable aléatoire de loi uniforme sur [0; 1]. Alors la variable aléatoire F −1 (U )
a pour fonction de répartition F .
2. Réciproquement, si X est une variable aléatoire de fonction de répartition F , et si F est
continue, alors la variable F (X) est de loi uniforme sur [0; 1].
Preuve :
1. On utilise le point 2. de la proposition 2.6.1. Pour tout t ∈ R,
Z F (t) Z F (t)
−1
P F (U ) ≤ t = P [U ≤ F (t)] = 1I[0;1] (x) dx = dx ;
−∞ 0
car F (t) ∈ [0; 1]. Donc P [F −1 (U ) ≤ t] = F (t). La fonction de répartition de F −1 (U ) est

donc F .
2. Pour tout t ∈ R,

0 si t ≤ 0 ;
P [F (X) < t] = car F prend ses valeurs dans [0; 1] .
1 si t > 1 ,
Soit donc t ∈]0; 1].
P [F (X) < t] = P [X < F −1 (t)] par 2. de la proposition (2.6.1) ;
= P [X ≤ F −1 (t)] car F est continue et P [X = F −1 (t)] = 0;
= F (F −1 (t))
= t en utilisant 3. de la proposiion (2.6.1).
Fn(x)
1 ●
1
n
X(1) X(2) X(n−1) X(n) x
Figure 2.11 – Représentation de F̂n (t). X(1) , · · · , X(n) est le réarrangement par ordre croissant
de X1 , · · · , Xn
2.6.2 Fonction de répartition empirique.

Supposons que l’observation soit constituée d’un n-échantillon (X1 , · · · , Xn ) de loi de fonc-
tion de répartition F inconnue. On peut estimer F par la fonction de répartition empirique
de l’échantillon n
1X
F̂n (t) = 1IXi ≤t .
n i=1
La loi des grands nombres dit en effet que pout tout t ∈ R, limn→+∞ F̂n (t) = P(X1 ≤ t) = F (t),
et on peut montrer que la convergence est uniforme (théorème de Glivenko-Cantelli). La fonction
de répartition empirique permet donc d’avoir une idée de la distribution dont sont issues les
données.
Si on note X(1) , · · · , X(n) la suite des X1 , · · · , Xn ordonnée par ordre croissant, et si on posant
X(0) = −∞, X(n+1) = +∞, on a par définition de F̂n (t),
i
F̂n (t) = , ∀t ∈ [X(i) ; X(i+1) [ (i = 0, . . . , n) .
n
F̂n est donc une fonction en escalier, dont les marches sont de hauteur 1/n et dont les sauts
sont situés sur les points de l’échantillon de données (cf figure 2.11).
Chapitre 3
Statistique descriptive
bidimensionnelle.
Dans tout ce chapitre, on suppose qu’on a mesuré deux variables X et Y sur un échantillon
de n individus. La donnée de départ est donc un n-échantillon ((x1 , y1 ), · · · , (xn , yn )) du couple
de variables (X, Y ). On cherche ici à savoir s’il existe une relation entre ces deux variables,
autrement dit si connaı̂tre la valeur de X nous donne des informations sur la valeur de Y .
3.1 Deux variables quantitatives.

On suppose ici que les deux variables X et Y sont des variables quantitatives. Cette partie
donne quelques outils pour juger de la liaison entre ces deux variables.
3.1.1 Représentation graphique

Une première étape pour juger de la liaison entre deux variables est de représenter le nuage
de points : l’individu i est représenté dans un repère orthonormé par le point (xi , yi ). La figure
3.1 donne le nuage de points des données du fichier ozone.txt correspondant aux variables
x :”maximum journalier de la concentration en ozone dans l’air” (max03) et y :”température”
(T12). Le centre de gravité de ce nuage est (x̄n , y¯n ) (noté avec le symbole ♦ sur le graphe.)
Vu que les variables X et Y sont en général exprimées dans des unités qui n’ont rien à
voir entre elles (par exemple, poids et taille), il est parfois préférable de centrer et réduire ces
variables, i.e. de tracer le nuage des points (x̃i , ỹi ) où x̃i = xσin−x̄
(x)
n
(et de même pour ỹi ). Le
centre de gravité de ce nuage est (0, 0) et les données sont des nombres sans dimension.
3.1.2 Coefficient de corrélation linéaire empirique.

Définition et propriétés.
Le coefficient de corrélation linéaire empirique est la quantité
1
Pn
n i=1 (xi − x̄n )(yi − ȳn )
r= . (3.1)
σn (x)σn (y)
29
Données brutes Données centrées et réduites
● ●
160
● ● ● ● ● ●
● ●
● ●
● ● ● ●
2
● ● ● ● ● ●
140
Maximum de la concentration en ozone
Maximum de la concentration en ozone

● ●
● ●
● ●
120
● ● ● ●
1
● ● ● ● ● ●
● ● ● ● ●
●●● ● ●●●
●● ●●
● ● ● ●
100
● ●● ● ● ●● ●
● ●● ● ● ●● ●
● ●
● ●
●● ● ●● ●
0
● ●
●● ● ● ●● ● ●
●● ● ●● ●● ● ●● ● ●● ●● ●
80
●
● ● ●
● ●
● ● ● ●● ● ● ● ● ●● ●
● ●● ● ●●
● ● ● ● ●● ● ●●
● ● ●
● ●
●●
●●● ●● ●
● ●● ●●
●●● ●● ●
● ●●
● ●● ● ● ●● ●
●● ●● ● ●● ●● ●
● ● ● ● ● ● ● ●
−1
● ●● ● ●●
60
● ● ● ● ● ● ● ●
● ●
●● ● ●● ●
● ●
● ●
40
15 20 25 30 −2 −1 0 1 2 3
Température Température
Figure 3.1 – Représentation du nuage de points.
Il vérifie les propriétés suivantes :
Proposition 3.1.1 :
1. r ∈ [−1; +1].
2. r = 1 (resp. −1) si et seulement si il existe un réel a > 0 (resp < 0), un réel b tel que
yi = axi + b pour tout i ∈ {1, · · · , n}.
3. r est une estimation consistante de ρ = cor(X, Y ) = √ cov(X,Y ) ;
var(X)var(Y )
Preuve :
~ et Y~ les vecteurs de Rn définis par :
Notons X
   
x1 − x̄n y1 − ȳn
~ =
X ..  ~ ..
, Y = .
 
 . .
xn − x̄n yn − ȳn
hX; ~i
~ Y
On a alors r = . Autrement dit, r n’est autre que le cosinus de l’angle formé par les
kX~ kkY~ k
deux vecteurs X~ et Y~ .
D E
~ ~ ~ ~
1. L’inégalité de Cauchy-Schwartz X; Y ≤ X Y montre que r ∈ [−1, 1].
~
2. Si r ∈ {−1; +1}, il y a égalité dans l’inégalité de Cauchy-Schwartz. L’angle formé par X
et Y~ vaut 0 ou π. Autrement dit, X ~ et Y~ sont deux vecteurs colinéaires de même sens
CHAPITRE 3. Statistique descriptive bidimensionnelle. 31
si r = 1 et de sens opposé si r = −1 : il existe un réel a (> 0 si r = 1 ; < 0 si r = −1)

tel que
Y~ = aX
~ ⇔ ∀i ∈ {1, · · · , n} , yi − ȳn = a(xi − x̄n )
⇔ ∀i ∈ {1, · · · , n} , yi = axi + (ȳn − ax̄n ) .
3. Notons R la variable aléatoire dont r est une réalisation :

1
Pn
n i=1 (Xi − X̄n )(Yi − Ȳn )
R= , (3.2)
σn (X)σn (Y )
où X̄n = n1 ni=1 Xi , et σn2 (X) = n1 ni=1 (Xi − X̄n )2 . Par la loi des grands nombres,
P P
limn→∞ X̄n = E(X). Un calcul simple montre que
n n n
1X 2 1X 1X
σn2 (X) = Xi − X̄n2 , (Xi − X̄n )(Yi − Ȳn ) = Xi Yi − X̄n Ȳn .
n i=1 n i=1 n i=1
La loi des grands nombres montre alors que limn→∞ σn2 (X) = E(X 2 ) − E(X)2 = var(X),
limn→∞ σn2 (Y ) = var(Y ) et limn→∞ n1 ni=1 (Xi − X̄n )(Yi − Ȳn ) = E(XY ) − E(X)E(Y ) =
P
cov(X, Y ). On en déduit que limn→∞ R = cor(X, Y ).
Comme le dit la proposition ci-dessus, le coefficient de corrélation linéaire ne permet de

détecter qu’une dépendance linéaire entre les données. Il est possible que deux variables ayant
des dépendances non linéaires entre elles, aient un coefficient de corrélation linéaire faible. Nous
reproduisons dans la figure 3.2 des graphes tirés du Saporta (page 133). Il s’agit d’illustrer les
différents ”défauts” du coefficient de corrélation linéaire. En particulier, le dernier graphe donne
quatre nuages de points très différents, ayant mêmes moyennes empiriques, mêmes variances
empiriques et même coefficient de corrélation empirique. On n’utilisera donc le coefficient
de corrélation linéaire qu’à bon escient, i.e. quand le tracé du nuage de points laisse
supposer une dépendance linéaire.
Test de corrélation linéaire.

Supposons que l’on soit dans une situation où l’emploi du coefficient de corrélation linéaire
est justifié, et que l’on observe une valeur ”élevée” de |r|. Quand peut-on dire que cette valeur
est signification non-nulle ? La proposition suivante permet de répondre à cette question dans
le cas où le couple (X, Y ) est un couple gaussien. Notez que sous cette hypothèse, tester la
non-corrélation revient à tester l’indépendance.

µX
Proposition 3.1.2 Soit (X, Y ) un couple gaussien de moyenne et de matrice de
µ Y
2
σX ρσX σY
covariance . Soit (X1 , Y1 ), · · · (Xn , Yn ) des couples indépendants de même
ρσX σY σY2
loi que (X, Y ) et notons R la variable√ ”corrélation empirique” définie par (3.2).
R
Si ρ = 0, la variable T = 1−R2 n − 2 est une variable de Student à n − 2 degrés de liberté.
√
Figure 3.2 – Les dangers du coefficient de corrélation linéaire, d’après Saporta.

Preuve : elle fait l’objet de l’exercice 3 (section 3.4.1).
Sous les hypothèses faites de normalité, cette proposition permet de tester (H0 ) : ”ρ = 0”
r
contre (H1 ) : ”ρ 6= 0”. Notez en effet que la fonction r ∈] − 1, +1[7→ √1−r 2 ∈ R est une
fonction impaire
√ et croissante. Dire que |R| ≥ t (t > 0) revient donc à dire que |T | ≥ u (où
t
u = 1−t2 n − 2). On choisit donc une règle de décision du type :
√
— Si |T | > u, on décide de rejeter (H0 ) ;

— Si |T | ≤ u, on décide de ne pas rejeter (H0 ) ;
Le seuil critique u est à choisir en fonction du niveau de test α qu’on s’est fixé. Par définition
α = P(H0 ) [ rejeter (H0 )] = Pρ=0 [|T | > u] = P [|Stn−2 | > u] .
u est donc le quantile d’ordre 1 − α2 de la loi de Student à n − 2 degrés de liberté. Dans R, le

test de corrélation linéaire peut être fait grâce à la fonction cor.test.
3.1.3 Coefficient de corrélation des rangs de Spearman.

Un autre coefficient pour juger de la liaison entre deux variables quantitatives est le coef-
ficient de corrélation des rangs introduit par Spearman. Pour le définir, on associe à chaque
individu i de l’échantillon son rang suivant chacune des variables. Notons ri le rang de l’individu
i suivant la variable x et si son rang suivant la variable y. Ainsi ri = k ∈ {1, · · · , n} signifie que
x(k) = xi où x(1) < x(2) < · · · < x(n) est le réarrangement par ordre croissant de x1 , · · · , xn (cf
exemple). Notez que si on suppose que (x1 , · · · , xn ) est une réalisation d’un n-échantillon d’une
variable X de densité fX , alors
Z Z
P(X1 = X2 ) = fX (x1 )fX (x2 ) dx1 dx2 = 0 .
x1 =x2
Ainsi, il ne peut pas en théorie se poser de problèmes d’ex-aequo. Sous cette hypothèse, si
deux valeurs xi sont égales, cela est dû à une troncature lors de la transcription des données.
Dans ce cadre, r = (r1 , · · · , rn ) et s = (s1 , · · · , sn ) sont bien définis, et sont des permutations
de {1, · · · , n}. Spearman a proposé de mesurer la corrélation entre les deux variables par le
coefficient de corrélation linéaire entre r et s :
cov(r, s)
rS = p .
var(r) var(s)
Notez que puisque r est une permutation, r̄ = n1 ni=1 ri = n1 nj=1 j = n+1

P P
2
, et que var(r) =
1
Pn 2 2 1
Pn 2 (n+1)2 n(n+1)(2n+1) (n+1)2 n2 −1
n i=1 ri − r̄ = n j=1 j − 4
= 6n
− 4 = 12 . Il en est de même pour s.
Ainsi,
1
Pn (n+1)2 n
i=1 ri si − 12 n+1
X
n 4
rS = n2 −1
= 2
ri si − 3 .
12
n(n − 1) i=1
n − 1
2 2 2
Pn Pn 2
Par ailleurs,
Pn 2 Pn en utilisant l’identité
Pn 2 Pn 2xy = x + y − (x − y) , on a 2 i=1 ri s i
Pn = i=1 ri +
2 2 1 2
i=1 si − i=1 (ri − si ) = 2 j=1 j − i=1 (ri − si ) = 3 n(n + 1)(2n + 1) − i=1 (ri − si ) .
On obtient finalement : n
6 X
rS = 1 − 2
(ri − si )2 . (3.3)
n(n − 1) i=1
Le coefficient de corrélation de Spearman vérifie les propriétés suivantes :
Proposition 3.1.3 1. rs ∈ [−1; +1] ;
2. rS = +1 si et seulement si les deux classements sont identiques (x et y ”varient dans le
même sens”) ;
3. rS = −1 si et seulement si ri = n + 1 − si pour tout i ∈ {1, · · · , n}. Autrement dit,
rS = −1 ssi les deux classements sont inversés (x et y ”varient dans des sens opposés”).
4. Supposons que ((x1 , y1 ), · · · , (xn , yn )) est une réalisation de ((X1 , Y1 ), · · · , (Xn , Yn )), n-
échantillon d’un couple de variables (X, Y ) à densité. Supposons de plus que les variables
X et Y sont indépendantes. Alors, la loi de la variable aléatoire RS (définie à partir
des (Xi , Yi ) de la même façon que rS est définie à partir des (xi , yi )), ne dépend que de
n, est indépendante de la loi de (X, Y ), et est symétrique.
La loi de la variable RS est tabulée. Cette proposition permet de tester (H0 ) : ”X et Y sont
indépendantes” contre (H1 ) : ”X et Y sont liées”. La région de rejet du test est du type :
1. Si |RS | > t, on rejette (H0 ) : X et Y sont liées ;
2. Si |RS | ≤ t, on ne rejette pas (H0 ) : rien de significatif ne permet d’affirmer que X et Y
sont liées ;
Le seuil critique t est à choisir en fonction du niveau α de test qu’on s’est fixé :
α = P(H0 ) [ rejeter (H0 )] = PX⊥Y [|RS | > t] ,
et t est le quantile d’ordre 1 − α2 de la loi de Spearman correspondant à n.
Par rapport au test de corrélation linéaire, l’avantage du test de Spearman est de ne faire
aucune hypothèse sur la loi du couple (X, Y ) (pas d’hypothèse de normalité).
Dans R, le coefficient de corrélation de Spearman est obtenu par l’option method="spearman"
de la fonction cor. Le test correspondant s’obtient à partir de la fonction cor.test en utilisant
la même option.
Exemple 3.1: On a relevé sur 5 individus deux variables (x, y). La tableau ci-dessous
donne pour chaque individu i les valeurs (xi , ri , yi , si ) :
xi 0.59 0.11 0.08 0.3 0.4
ri 5 2 1 3 4
yi 0.71 0.43 0.47 0.57 0.61
si 5 1 2 3 4
|ri − si | 0 1 1 0 0
On obtient rS = 9/10. La Pvaleur du test de corrélation des rangs de Spearman est P [|RS | > 0.9] =
0.0833. On peut donc conclure que les deux variables sont liées (avec 8,33 % de chances d’avoir
tort).
Preuve de la proposition 3.1.3 :

1. rS ∈ [−1; +1] car rs est un coefficient de corrélation linéaire.

2. En utilisant la formule (3.3), rS = +1 équivaut à ni=1 (ri − si )2 = 0, i.e. pour tout
P
i ∈ {1, · · · , n}, ri = si .
3. rS étant un coefficient de corrélation linéaire, rS = −1 signifie qu’il existe une relation
linéaire entre ri et si . Il existe a < 0 et b tels que pour tout i ∈ {1, · · · , n}, ri = asi + b.
On en déduit que r̄ = as̄ + b. Comme r̄ = s̄ = (n + 1)/2, on a donc b = (1 − a)r̄, et
ri − r̄ = a(si − s̄) pour tout i ∈ {1, · · · , n}. En multipliant cette égalitéq par si − s̄, et en
sommant de i = 1 à n, on obtient la valeur de a = cov(r, s)/var(s) = rS var (r)
var(s) . Comme
var(r) = var(s), a = −1, et donc b = 2r̄ = n + 1. Par conséquent, ri = n + 1 − si pour
tout i ∈ {1, · · · , n}.
4. Soit Ri le rang de Xi dans le réarrangement par ordre croissant de X1 , · · · , Xn :
Ri = k ⇔ X(k) = Xi .
Comme les variables X1 , · · · , Xn sont indépendantes et à densité, la probabilité que

deux de ces variables soient égales est nulle, et il n’y a pas d’ambiguité dans la définition
de R = (R1 , · · · , Rn ). R est une variable aléatoire dont les valeurs possibles sont les
permutations d’ordre n. Notons Σn le groupe des permutations d’ordre n et σ un élément
de Σn . Dire que Xσ(1) < · · · < Xσ(n) , est équivalent à R = σ −1 . Ainsi, pour tout σ ∈ Σn ,

P [R = σ] = P Xσ−1 (1) < · · · < Xσ−1 (n)
Z Z
= ··· fX (y1 ) · · · fX (yn ) dy1 · · · dyn
yσ−1 (1) <···<yσ−1 (n)
Z Z
= ··· fX (z1 ) · · · fX (zn ) dz1 · · · dzn ,
z1 <···<zn
par le changement de variables zi = yσ−1 (i) . Ainsi P [R = σ] ne dépend pas de σ. On en

1
déduit que pour tout σ ∈ Σn , P [R = σ] = = n!1 .
card(Σn )
Notons Si le rang de Yi dans le réarrangement par ordre croissant de Y1 , · · · , Yn . De la
même façon, S est une variable uniforme sur Σn .
Par ailleurs, si on suppose que X et Y sont indépendantes, il en est de même de R (qui
ne dépend que de X1 , · · · , Xn ), et de S (qui ne dépend que de Y1 , · · · , Yn ).
n n
6 X 6 X
RS = 1 − 2
(R i − Si ) 2
= 1 − 2
(R ◦ S −1 (j) − j)2 .
n(n − 1) i=1 n(n − 1) j=1
Notez que la loi de la variable R ◦ S −1 est également la loi uniforme sur Σn . En effet,
X X
P R ◦ S −1 = σ = P R ◦ S −1 = σ; S = τ =

P [R = σ ◦ τ ; S = τ ]
τ ∈Σn τ ∈Σn
X X 1 1 1
= P [R = σ ◦ τ ] P [S = τ ] = =
τ ∈Σn τ ∈Σ
n! n! n!
n
Ainsi RS a même loi que 1− n(n26−1) nj=1 (Uj −j)2 où U est une variable uniforme sur Σn .
P
Cela prouve que la loi de RS ne dépend pas de la loi du couple (X, Y ) dans l’hypothèse
où X et Y sont indépendantes.
Concernant la symétrie de la loi de RS , il s’agit de voir que RS et −RS ont même loi
sous l’hypothèse d’indépendance de X et Y . On vient de voir Pque sous cette hypothèse,
la loi de RS est la même que celle de la variable 1 − n(n26−1) nj=1 (Uj − j)2 . Notons Ũ la
permutation définie par Ũj = n + 1 − Uj . Si U est uniforme sur Σn , il en est de même
pour Ũ . Par conséquent, RS a même loi que la variable
n
6 X
1− (Ũj − j)2
n(n2 − 1) j=1
n
6 X
= 1− (n + 1 − Uj − j)2
n(n2 − 1) j=1
" n n n
#
6 X X X
= 1− 2
(n + 1 − j)2 + Uj2 − 2 Uj (n + 1 − j)
n(n − 1) j=1 j=1 j=1
" n n n
#
6 X X X
= 1− 2 j 2 − 2(n + 1) j+2 Uj j
n(n2 − 1) j=1 j=1 j=1
" n n
# n
6 X
2
X 6 X
= 1− 2 j − 2(n + 1) j + (−2Uj j)
n(n2 − 1) j=1 j=1
n(n 2 − 1)
j=1
" n n
# n
6 X
2
X 6 X
= 1− 2
2 j − 2(n + 1) j + 2
(Uj − j)2 − j 2 − Uj2
n(n − 1) j=1 j=1
n(n − 1) j=1
n n n
6 X
2 24 X
2 12(n + 1) X
= (Uj − j) + 1 − j + j
n(n2 − 1) j=1 n(n2 − 1) j=1 n(n2 − 1) j=1
n
6 X
= 2
(Uj − j)2 − 1
n(n − 1) j=1
en utilisant les identités nj=1 j = n(n + 1)/2 et nj=1 j 2 = n(n + 1)(2n + 1)/12. Par
P P
conséquent RS a même loi que −RS sous l’hypothèse d’indépendance de X et Y .
3.2 Une variable quantitative et une variable qualitative.

On suppose ici que le couple (X, Y ) est constitué de la variable qualitative X, et de la
variable quantitative Y . Cette partie donne quelques outils pour juger de la liaison entre ces
deux variables. On notera C = {c1 , · · · cr } les issues possibles pour la variable X.
3.2.1 Distribution théorique

Dans ce cadre, plusieurs quantités caractérisent la loi du couple (X, Y ) :
1. - la fonction (t, c) ∈ R × C 7→ P(Y ≤ t; X = c) ;

2. - les fonctions c ∈ C 7→ P(X = c) et t ∈ R 7→ P(Y ≤ t|X = c) (fonction de répartition
conditionnelle) ;
3. - les fonctions c ∈ C 7→ P(X = c) et t ∈ R 7→ fc (t) = d
dt
P(Y ≤ t|X = c) (densité
conditionnelle) quand cette dérivée existe ;
4. ...
Chacune de ces possibilités de description de la loi du couple se déduit des autres. Par exemple,
si l’on connaı̂t la fonction P(Y ≤ t; X = c), on obtient P(X = c) = limt→+∞ P(Y ≤ t; X = c),
≤t;X=c)
et P(Y ≤ t|X = c) = P(YP(X=c) .
Dans le cas où X et Y sont indépendantes, P(Y ≤ t; X = c) = P(Y ≤ t)P(X = c), et les
fonctions t ∈ R 7→ P(Y ≤ t|X = c) et fc (t) sont indépendantes de la valeur de c.
3.2.2 Quantités empiriques.

Chaque modalité de la variable X définit un sous échantillon de l’échantillon initial. On
note
1. n1 , · · · , nr les effectifs de chaque sous-échantillon : nj = ni=1 1Icj (xi ) ;
P
2. Ω1 , · · · , Ωr les sous-échantillons : Ωj = {i ∈ {1, · · · , n} tel que xi = cj } ;

· · · , ȳr les moyennes empiriques de la variable Y sur chaque sous-échantillon : ȳj =
3. ȳ1 ,P
1
nj i∈Ωj yi ;
4. σ12 (y), · · · , σP
2
r (y) les variances empiriques de la variable Y sur chaque sous-échantillon :
1
σj (y) = nj i∈Ωj (yi − ȳj )2 .
2
Les liens entre les quantités empiriques sur les sous-échantillons et sur l’échantillon initial
sont donnés par les relations :
Proposition 3.2.1 Décomposition.

1. ȳ = n1 rj=1 nj ȳj ;
P
2. σ 2 (y) = n1 rj=1 nj (ȳj − ȳ)2 + n1 rj=1 nj σj2 (y).

P P
1
PLar
deuxième identité est une décomposition de la variance en deux termes. Le premier
2
n j=1 nj (ȳj − ȳ) est appelé variance intercatégories : il s’agit de mesurer la variabilité
entre sous population. Chacune des sous-populations est identifiée à la moyennePsur la sous-
population, et affectée d’un poids proportionnel à son effectif. Le deuxième terme n1 rj=1 nj σj2 (y)
est appelé variance intracatégories. Il s’agit d’une moyenne de la variabilité de la variable
Y à l’intérieur de chacune des sous-populations.

1. ȳ = n1 ni=1 yi = n1 rj=1 i∈Ωj yi =
P P P 1
Pr
n j=1 nj ȳj .
Pn
2. σ 2 (y) = 1
(yi − ȳ)2 = n1 rj=1 i∈Ωj (yi − ȳj + ȳj − ȳ)2
P P
n i=1
Pr P Pr P Pr P
1 2 1 2 2
= (yi − ȳ j ) + (ȳj − ȳ) + (y − ȳj )(ȳj − ȳ)
n
1
j=1
Pr i∈Ω
2
j
1
Pr n j=1
2
i∈Ω
P j 2
Pr n j=1 Pj i
i∈Ω
= nj σj (y) + n j=1 (ȳj − ȳ) ( i∈Ωj 1) + n j=1 (ȳj − ȳ) i∈Ωj (yi − ȳj )
n Pj=1
r
1
nj σj2 (y) + n1 rj=1 nj (ȳj − ȳ)2 + n2 rj=1 (ȳj − ȳ)(nj ȳj − nj ȳj )
P P
= n j=1
1
Pr 2 1
Pr 2
= n j=1 nj σj (y) + n j=1 nj (ȳj − ȳ) .
Les liens entre les quantités empiriques et la distribution théorique sont donnés par la
proposition suivante :
Proposition 3.2.2 Supposons que ((x1 , y1 ) · · · (xn , yn )) est une réalisation d’un n-échantillon
((X1 , Y1 ) · · · (Xn , Yn )) du couple de variables (X, Y ). Notons Nj , Ȳj et σj2 (Y ) les variables
aléatoires correspondantes à nj , ȳj , et σj2 (y). On a pour tout j ∈ {1, · · · , r},
N
1. limn→∞ nj = P [X = cj ] ;
2. limn→∞ Ȳj = E [Y |X = cj ] ;
3. limn→∞ σj2 (Y ) = var [Y |X = cj ].

N N
1. nj = n1 ni=1 1Icj (Xi ). Par la loi des grands nombres, on a limn→∞ nj = P [X = cj ].
P
2. Ȳj = N1j ni=1 1Icj (Xi )Yi = Nnj n1 ni=1 1Icj (Xi )Yi . Par la loi des grands nombres, on a
P P
N
limn→∞ nj = P [X = cj ] et limn→∞ n1 ni=1 1Icj (Xi )Yi = E 1Icj (X)Y . Par conséquent,
P
E[ 1Icj (X)Y ]
limn→∞ Ȳj = P[X=c j]
= E [Y |X = cj ].
3. Commencons par récrire la variable σj2 (Y ) en développant le carré.
n n n
1 X 1 X n 1X
σj2 (Y
)= 2
1Icj (Xi )(Yi −Ȳj ) = 2 2
1Icj (Xi )Yi −Ȳj = 1Icj (Xi )Yi2 −Ȳj2 .
Nj i=1 Nj i=1 Nj n i=1
N
grands nombres, limn→∞ nj = P [X = cj ], limn→∞ ni=1 1Icj (Xi )Yi2 =
P
Par
la loi des
E 1Icj (X)Y 2 et limn→∞ Ȳj = E [Y |X = cj ]. Par conséquent,
2

E 1Ic (X)Y
lim σj2 (Y ) = − E [Y |X = cj ]2 = E Y 2 |X = cj − E [Y |X = cj ]2
j

n→∞ P [X = cj ]
= var(Y |X = cj ) .
3.2.3 Comment juger de la liaison entre X et Y ?

Notez que dans le cas où les variables X et Y sont indépendantes, les quantités P(Y ≤
t|X = c), dtd P(Y ≤ t|X = c), E(Y |X = c), var(Y |X = c) sont indépendantes de c et valent res-
pectivement P(Y ≤ t), dtd P(Y ≤ t), E(Y ), var(Y ). Ainsi les fonctions de répartition empiriques
de y sur chaque sous-échantillon ”se ressemblent” et sont proches de la fonction de répartition
empirique de y sur l’échantillon global. De même, toutes les moyennes empiriques ȳj (respective-
ment les variances empiriques σj2 (y)) ”se ressemblent” et sont proches de la moyenne empirique
ȳ (respectivement la variance empirique σ 2 (y)).
Représentation graphique.
Pour avoir une idée des distributions conditionnelles, on peut faire le graphe des boı̂tes à
moustaches de la variable y sur chaque sous-population. On peut alors dessiner sur un même
graphe (i.e. en utilisant les mêmes échelles), les r boı̂tes à moustaches de la variable y pour
chaque modalité de la variables x. Dans l’hypothèse où X et Y sont indépendantes, toutes ces
boı̂tes à moustaches se ressemblent. Les différences visibles entre ces boı̂tes permettent de se
faire une idée de l’influence de la variable X sur la variable Y .
Rapport de corrélation.
Une autre quantité qui permet de juger de la liaison entre X et Y est le rapport dit de
corrélation empirique entre la variance intercatégories et la variance empirique totale :
1
Pr
2 n j=1nj (ȳj − ȳ)2
e = .
σn2 (y)
Si les variables X et Y sont indépendantes, pour tout j ∈ {1, · · · , r}, ȳj ' ȳ, et e2 ' 0. En
utilisant la décomposition de la variance de la proposition 3.2.1, on voit aussi que e2 ∈ [0, 1],
et que e2 = 1 signifie que la variance intracatégorie est nulle. Dans ce cas, dans chacun des
sous-échantillons, la variable y est constante ; la valeur de la variable X fixe donc la valeur de
Y.
Pour savoir si e2 est significativement non nul, on peut utiliser la proposition suivante, qui
suppose que les lois conditionnelles de Y pour chaque modalité de X sont des lois
gaussiennes de même variance. Plus précisément, on suppose que
(ANOVA) ((x1 , y1 ), · · · , (xn , yn )) est une réalisationP
d’un n-échantillon (X1 , Y1 ), · · · , (Xn , Yn )
j=1 µj 1IX=cj + où ∼ N(0, σ ) est
r 2
d’un couple de variables (X, Y ) tel que Y =
indépendante de X.
Proposition 3.2.3 1. Sous l’hypothèse (ANOVA), la loi de Y sachant que X = cj est la

loi N(µj , σ 2 ). En conséquence, Y et X sont indépendantes ssi µ1 = · · · = µr .
2. Notons E 2 la variable aléatoire correspondant au rapport de corrélation empirique. Sous
l’hypothèse (ANOVA), et si on suppose de plus que µ1 = · · · = µr , alors
E2
r−1
1−E 2
∼ F(r − 1, n − r) .
n−r
Notez que sous l’hypothèse (ANOVA), on est dans un modèle d’analyse de variance à un
facteur (cf cours de Stats 2). En réordonnant l’échantillon en fonction des modalités de la
variable x, on a le modèle
Yij = µi + ij , i ∈ {1, · · · , r} , j ∈ {1, · · · , ni }

où les ij sont i.i.d N(0, σ 2 ). Ce modèle se récrit sous la forme matricielle
 
1 0 ··· 0
. . . . 

Y11
   .. .. .. .. 
· · ·
 
 ..   1 0 0 
 .   0 1 ··· 0 

   
 Y1n1   . . . .  µ
 
 .   .. .. .. ..   .1 
Y~ =   + = X~µ + , ∼ Nn (0, σ Id) .
2
 ..  =    .. (3.4)
 
 Y    0 1 · · · 0 
 r1   .. .. .. ..  µr
 .   . . . . 
 ..   
 0 0 ··· 1 

Yrnr  .. .. .. .. 
 . . . . 
0 0 ··· 1
Sous l’hypothèse (ANOVA), la proposition 3.2.3 permet de tester l’indépendance entre X et
Y . Plus précisément, on teste (H0 ) : ”µ1 = · · · = µr ” (X et Y sont indépendantes) contre
(H1 ) : ∃i 6= j tels que µi 6= µj ” (X et Y sont liées). La région de rejet est du type :
E2
r−1
— Si 1−E 2
> t, on rejette (H0 ) et on décide que X et Y sont liées.
n−r
E2
— Si r−1
1−E 2
≤ t, on ne rejette pas (H0 ). Rien de significatif ne permet d’assurer que X et Y
n−r
sont liées.
La valeur critique t est fixée en fonction du niveau de test α qu’on s’est fixé :
" 2 #
E
r−1
α = P(H0 ) [ Rejeter (H0 )] = Pµ1 =···=µr 1−E 2
> t = P [F(r − 1, n − r) > t] ;
n−r
t est donc le quantile d’ordre 1 − α de la loi de Fisher à r − 1 et n − r degrés de liberté.

Ce test n’a de sens que sous l’hypothèse (AN OV A) de normalité des lois conditionnelles, et
d’égalité des variances. Avant de le mettre en oeuvre, il faudra donc tester la normalité de chacun
des sous-échantillons. Dans l’hypothèse où cette normalité n’est pas rejetée, il faudra ensuite
tester l’égalité des variances de chaque sous-échantillon (test de Fisher d’égalité des variances).
Si la normalité des sous échantillons est rejetée, on peut essayer d’appliquer une transformation
de Box-Cox à la variable y. La fonction boxcox de R permet de trouver ”la meilleure” fonction
hλ,θ telle que les données transformées ỹi = hλ,θ (yi ) puissent être considérées comme issues du
modèle X~µ + .
Preuve de la proposition 3.2.3

1. On calcule la fonction de répartition de Y conditionnelle à X = cj .
P [Y ≤ t; X = cj ]
P [Y ≤ t|X = cj ] = .
P [X = cj ]
Pr
Comme Y = k=1 µk 1Ick (X) + , on a Y = µj + sur l’ensemble {X = cj }. D’où,
P [µj + ≤ t; X = cj ] P [µj + ≤ t] P [X = cj ]
P [Y ≤ t|X = cj ] = = ,
P [X = cj ] P [X = cj ]
puisque et X sont indépendantes. Donc P [Y ≤ t|X = cj ] = P [µj + ≤ t] est la fonction

de répartition de µj + ∼ N(µj , σ 2 ).
2. Pour i ∈ {1, · · · , r}, notons 1Ii le vecteur de Rn correspondant à la i-ème colonne de la
matrice X dans l’équation (3.4). Sous l’hypothèse (ANOVA), le vecteur aléatoire Y~ est
un vecteur de Rn gaussien de vecteur moyenne m ~ = X~µ = j=1 µj 1Ij , et de matrice de
r
P
2 n
covariance σ Id. Notons V le s.e.v de R engendré par les vecteurs ( 1Ij , j ∈ {1, · · · , r}).
Sous l’hypothèse (ANOVA), tester l’égalité des µi revient à se demander
Pr si le vecteur m~
appartient au s.e.v. W de V où W est la droite engendrée par j=1 1Ij = 1I (vecteur
dont toutes les coordonnées sont égales à 1).
Notons πV et πW les projecteurs orthogonaux de Rn sur V et W . Comme les vecteurs
1Ij sont orthogonaux dans Rn , on a
r r
~
X
~ 1Ij 1Ij X
πV (Y ) = Y; = Ȳj 1Ij .
j=1
k 1Ij k k 1Ij k j=1

De la même façon, πW (Y~ ) = Y~ ; 11II 1I = Ȳ 1I. Par conséquent,
k k k 1Ik
r
X 2 Xr
πV (Y~ ) − πW (Y~ ) = ~ ~
(Ȳj − Ȳ ) 1Ij , et πV (Y ) − πW (Y ) = nj (Ȳj − Ȳ )2

j=1 j=1
est la variable aléatoire correspondant à la variance empirique intercatégories.

2
On a aussi σn2 (Y~ ) = 1 Y~ − πW (Y ) . On en déduit que

n
2 2 2 2

π
V (Y~ ) − π W (Y~ )

~
Y − π W (Y~ )

−

π
V (Y~ ) − π W (Y~ )

~
Y − π V (Y~ )

2
1−E = 1− 2 = 2 = 2 .
~
Y − πW (Y~ )
~ ~ ~ ~
Y − πW (Y ) Y − πW (Y )

Finalement,
2
πV (Y~ ) − πW (Y~ )
2
1

~ ~
πV (Y ) − πW (Y )

E2
~
2
dim(V ) − dim(W )
Y − πW (Y~ )

r−1 = dim(V ) − dim(W )
= 2 .
1 − E2
2
~ ~ ~ ~
Y − πV (Y ) Y − πV (Y )

n−r 1
2
n − dim(V ) n − dim(V )

~
Y − πW (Y~ )
Le théorème de Cochran (cf cours de Stats 2), assure que sous l’hypothèse (ANOVA) et
2
kπV (Y~ )−πW (Y~ )k
sous l’hypothèse d’égalité des moyennes, σ 2 est une variable du χ2dim(V )−dim(W )
2
kY~ −πV (Y~ )k
indépendante de la variable σ2
qui suit une loi du χ2n−dim(V ) . On en déduit que
E2
r−1
1−E 2
suit sous une loi de Fisher F(r − 1, n − r).
n−r
160
●
●
●
●
●
140
●
Concentration en ozone
120
100
80
60
●
40
Est Nord Ouest Sud
vent
Figure 3.3 – Boites à moutaches de la concentration en ozone en fonction de la direction du

vent.
3.2.4 Exemple
On considère les données du fichier ozone.txt dont on a extrait la variable y : max03
(concentration en ozone maximale pendant la journée), et la variable x : Vent (Direction du
vent, prenant 4 modalités, E,O,N,S). La figure 3.3 donne les quatre boı̂tes à moustaches des
sous-échantillons correspondant aux quatre modalités.
Au vu de ce graphe, il semble bien qu’il y ait une liaison entre la concentration en ozone et
la direction du vent.
Pour tester cette liaison, nous souhaitons calculer le rapport de corrélation empirique et
utiliser le test de la proposition 3.2.3. Pour cela, nous commençons par vérifier que faire l’hy-
pothèse (ANOVA) sur nos données n’est pas aberrant. La figure 3.4 donne les graphes ”quantiles
empiriques-quantiles de la normale” pour les quatre sous-échantillons. Les P-valeurs d’un test
de Kolmogorov d’ajustement à la loi normale pour les quatre sous-échantillons sont
Direction du vent Est Nord Ouest Sud

P-valeur 0.27 0.012 0.00000077 0.52
Le graphe ”QQplot” correspondant à la modalité ”Ouest” ressemble assez peu à une droite,
ce qui est confirmé par la très faible valeur de la Pvaleur, qui nous amène à rejeter l’hypothèse de
normalité au moins pour ce sous-échantillon. On essaie donc de transformer les données par la
procédure de Box et Cox. La figure 3.5 donne les graphes ”quantiles empiriques-quantiles de la
normale” pour les quatre sous-échantillons après transformation des données. Les P-valeurs du
test de Kolmogorov d’ajustement à la loi normale pour les quatre sous-échantillons sont mainte-
Est Nord
● ●
100 120 140

●
140
●
Quantile Empirique
Quantile Empirique
●
● ● ●
● ●
80 100
● ● ●● ●
● ●
●●
●
80
●
●●●●●
●●
●●
● ● ● ● ●●
●
60
60
● ●
40
● ●
80 100 120 140 40 60 80 100 120 140

^, σ
Quantile de N(µ ^) ^, σ
Quantile de N(µ ^)
Ouest Sud
● ● ●
●
●
140
● ●
●
140
●
Quantile Empirique
Quantile Empirique
●
● ● ●
●
●● ● ●
100
●
80 100
●
●● ●
● ●
●●● ● ●
80
●● ●
● ●
●●●●●
●●●●● ●
●●●●● ●
●●●●●●● ●
● ●●●●
60
60
●
● ● ● ● ●
20 40 60 80 100 120 140 40 60 80 100 120 140 160

^, σ
Quantile de N(µ ^)
Figure 3.4 – Graphes ”Quantiles Empiriques-Quantiles de la loi Normale” pour la concentra-

tion en ozone en fonction de la direction du vent.
Est Nord
1.95
● ● ●
●
●
● ● ●
●
Quantile Empirique
Quantile Empirique
1.90
●
1.90
● ● ●● ●
●
● ●●
●
●
●●●●●
● ● ●●
1.85
1.85
● ● ● ● ●●
●
● ●
1.80
1.80
● ●
1.84 1.86 1.88 1.90 1.92 1.94 1.96 1.80 1.85 1.90 1.95
^, σ
Quantile de N(µ ^)
Ouest Sud
● ● ●
1.94
1.94
● ●
● ● ● ●
●
Quantile Empirique
Quantile Empirique
●
● ● ●
●● ● ●
1.90
1.90
●
●
●● ●
● ●
●●● ● ●
●● ●
●
1.86
●●● ●
1.86
●●●●●●
● ●
●●●●●● ●
●
●●●●● ●
●●
● ●●
● ●
1.82
1.82
● ●
● ●
1.80 1.85 1.90 1.95 1.82 1.84 1.86 1.88 1.90 1.92 1.94 1.96
^, σ
Quantile de N(µ ^)
Figure 3.5 – Graphes ”Quantiles Empiriques-Quantiles de la loi Normale” pour la concentra-

tion en ozone en fonction de la direction du vent, après transformation des données.
Direction du vent Est Nord Ouest Sud

nant :
P-valeur 0.005 0.29 0.004 0.59
Même après transformation, l’hypothèse de normalité est rejetée pour les modalités ”Ouest” et
”Est”.
3.2.5 Que faire lorsque l’hypothèse de normalité n’est pas satisfaite ?

Lorsque l’hypothèse (ANOVA) n’est pas vérifiée , on ne peut pas utiliser le rapport de
corrélation empirique pour juger de la liaison entre X et Y . Dans ce cas, on utilise des tests
non paramétriques de comparaison d’échantillons indépendants. Si la variable X a deux mo-
dalités, chacun des sous-échantillons correspondant à une modalité est indépendant de l’autre,
et on veut savoir si ces deux sous-échantillons sont de même loi. On peut alors utiliser un test
de comparaison de Kolmogorov-Smirnov, ou un test de la somme des rangs (Mann-Whitney-
Wilcoxon). Lorsque X a r modalités, on est en présence de r sous-échantillons dont on veut
savoir s’ils ont même loi ou pas. On peut dans ce cas utiliser le test de Kruskal-Wallis, qui est
une généralisation du test de la somme des rangs. Nous rappelons les principes de ces différents
tests dans ce qui suit.
Test de Kolmogorov-Smirnov :
Il est utilisé lorsque on a observé (x1 , · · · , xn ) et (y1 , · · · , ym ) réalisations de deux échantillons
(X1 , · · · , Xn ) et (Y1 , · · · , Ym ) indépendants. On suppose que les fonctions de répartition
de X et Y (notées F et G) sont continues. On veut tester (H0 ) : ”F = G” contre
(H1 ) : ”F 6= G”.
Le test de Kolmogorov-Smirnov consiste à estimer F et G par les fonctions de répartition
empiriques
n
1X
F̂n (x) = 1IXi ≤x ,
n i=1
m
1X
Ĝm (x) = 1IY ≤x ,
m j=1 j
et à mesurer l’écart entre F et G au moyen de la statistique

Dn,m = sup F̂n (x) − Ĝm (x) .

x
Proposition 3.2.4 Si on suppose que F et G sont continues, la loi de Dn,m sous (H0 ) ne
dépend que de n et m, i.e. ne dépend pas de F (= G).
Cette loi est tabulée pour de petites valeurs de n et m. Pour de plus grandes valeurs de n et
m, on a le résultat asymptotique :
r ∞
mn X
P Dn,m ≥ t → P [D ≥ t] = 2 (−1)k+1 exp(−2k 2 t2 ) .
n+m k=1
Pour tester (H0 ) : ”F = G” contre (H1 ) : ”F 6= G”, on prend alors la règle de décision suivante :
— Si Dn,m > t, on rejette (H0 ) : ”F = G” et on décide que les deux échantillons ne sont
pas de même loi.
— Si Dn,m ≤ t, on ne rejette pas (H0 ) : rien de significatif ne permet de dire que les deux
échantillons ne sont pas de même loi.
t est choisi en fonction du niveau α désiré.
Preuve de la proposition 3.2.4 : On fait la démonstration dans le cas où F est continue et
strictement croissante. Dans ce cas, F est une bijection de R dans ]0; 1[ et son inverse F −1 est
une bijection de ]0; 1[ dans R. On a donc

−1 −1
sup F̂n (x) − Ĝm (x) = sup F̂n (F (u)) − Ĝm (F (u)) ,

x∈R u∈]0;1[
Pour tout u ∈]0; 1[, F̂n (F −1 (u)) = n1 ni=1 1IF (Xi )≤u et Ĝm (F −1 (u)) = m1 m
P P
j=1 1IF (Yj )≤u . Po-
sons Ui = F (Xi ) et Vj = F (Yj ). Sous l’hypothèse (H0 ), (X1 , · · · , Xn , Y1 , · · · , Ym ) est un
(n + m)-échantillon de loi de fonction de répartition F continue. (U1 , · · · , Un , V1 , · · · , Vm ) est
par
la proposition 2.6.2,
un (n + m)-échantillon de loi uniforme sur [0; 1]. Ainsi, sous (H0 ),
sup F̂n (x) − Ĝm (x) a même loi que sup Ûn (u) − V̂m (u) , où Ûn (x) et V̂m (x) sont les

x∈R u∈[0,1]
fonctions de répartition empiriques de deux échantillons indépendants de loi uniforme sur [0; 1].
La loi de Dn,m ne dépend donc pas de F .
Dans le cas où F est continue et croissante, la démonstration précédente s’adapte en prenant
pour F −1 l’inverse généralisée de F (cf expression (2.4), chapitre 2).
Test de la somme des rangs, ou de Mann-Whitney-Wilcoxon.

Ce test s’utilise dans le même cadre que le test de Kolmogorov-Smirnov. Il se construit de la
façon suivante. Posons (Z1 , · · · , Zn+m ) = (X1 , · · · , Xn , Y1 , · · · , Ym ). Sous (H0 ), (Z1 , · · · , Zn+m )
est un (n + m)-échantillon de loi de fonction de répartition F .
Définition 3.2.5 La statistique de rang de (Z1 , · · · , Zn+m ) est la permutation aléatoire R :

Ω → Σn+m définie par ∀i ∈ {1, · · · , n + m},
n+m
X
R(i) = 1IZj <Zi + 1
j=1
= rang (numéro de place) occupé par Zi dans le réarrangement
par ordre croissant de Z1 , · · · , Zn+m
Exemple. Supposons que pour un échantillon ω particulier, on ait
(Z1 (ω), Z2 (ω), Z3 (ω), Z4 (ω), Z5 (ω)) = (2, 1.5, 6, 3.3, 1) ,
on a R1 (ω) = 3, R2 (ω) = 2, R3 (ω) = 5, R4 (ω) = 4, R5 (ω) = 1.

Remarque Si F est continue, R est bien (sous (H0 )) une permutation de l’ensemble {1, · · · , n + m},
car il n’y a pas de problèmes d’ex-aequo.
Le test de la somme des rangs est basée sur la statistique

n
X
W = R(i)
i=1
= somme des rangs des Xi dans le réarrangement
par ordre croissant de X1 , · · · , Xn , Y1 , · · · , Ym .
Dans l’exemple précédent, si on suppose que n = 2, et m = 3, on obtient W (ω) = 5.

Supposons en effet que l’on veuille tester (H0 ) : ”F = G” contre (H1 ) : ”F > G”. Sous
(H1 ), X a tendance à être plus petite que Y (par exemple, si X ≤ Y , on a pour tout t,
G(t) = P (Y ≤ t) ≤ P (X ≤ t) = F (t)). Par conséquent, W devrait être faible. On prendra
donc une région de rejet du type R = {W ≤ t}. Pour déterminer t, on a besoin de connaı̂tre la
loi de W sous (H0 ). Le test de la somme des rangs s’appuie alors sur le résultat suivant, déjà
utilisé dans la démonstration de la proposition 3.1.3 :
Proposition 3.2.6 Soit Z1 , · · · , Zn un n-échantillon de loi de fonction de répartition F conti-

nue. La loi de sa statistique de rang R est la loi uniforme sur l’ensemble des permutations
Σn .
Preuve : Soit σ ∈ Σn .
P (R = σ) = RP (Zσ−1 (1) < · · · < Zσ−1 (n) )

= zσ(1) <···<zσ(n) dF (z1 ) · · · dF (zn ) |
R
= z1 <···<zn dF (z1 ) · · · dF (zn )
Par conséquent, P (R = σ) est indépendant de σ, et P (R = σ) = 1/(n!).
En particulier, la loi de R ne dépend pas de F . On en déduit que sous (H0 ), la loi de W

est indépendante de F (=G). Pour de petites valeurs de n et m, la loi de W sous (H0 ) est
tabulée, et t se lit dans la table dès que le niveau du test a été fixé. Sinon, on pourra utiliser la
proposition
Proposition 3.2.7 Sous l’hypothèse (H0 ),
n(n + m + 1)
E(W ) = ,
2
nm(n + m + 1)
σ 2 (W ) = ,
12
(loi)
W − E(W )
−→ N(0, 1) .
σ(W ) n,m→∞
a≤n/m≤b
Preuve : Nous nous contenterons de démontrer les deux premières assertions. Dans toute la
démonstration, nous noterons N = n + m.
N
X
R(i) = 1IZj <Zi + 1. Par conséquent
j=1
n
X n X
X N
W = R(i) = n + 1IZj <Xi
i=1 i=1 j=1
n X
n n X
m
X X n(n − 1)
=n+ 1IXj <Xi + 1IYj <Xi = n + +U
i=1 j=1 i=1 j=1
2
n X
X m
où on a noté U = 1IYj <Xi . Sous (H0 ), Yj et Xi sont indépendantes et de même loi. Par
i=1 j=1
nm
conséquent P (Yj < Xi ) = P (Xi < Yj ) = 1/2. On en déduit que E(U ) = , ce qui donne la
2
première assertion de la proposition.
En ce qui concerne la seconde, on a Var(W ) = Var(U ) = E(U 2 ) − E(U )2 . Il s’agit donc de
calculer E(U 2 ).
X X
E(U 2 ) = P (Yj < Xi ) + P (Yj < Xi ; Yl < Xk )
i,j
i,j,k,l
(i,j)6=(k,l)
Il est facile de vérifier que sous (H0 ),

1/4 si j 6= l et i 6= k ,
P (Yj < Xi ; Yl < Xk ) =
1/3 si j = l ou i = k , et(i, j) 6= (k, l) .
On obtient donc
nm 1 1
E(U 2 ) = + (mn(n − 1) + nm(m − 1)) + m(m − 1)n(n − 1)
2 3 4
nm
= (3nm + n + m + 1) ,
12
nm(n + m + 1)
soit Var(U ) = .
12
Test de Kruskal-Wallis.
Lorsque la variable X a r > 2 modalités, on est en présence de r sous-échantillons dont on
veut savoir s’ils sont issus d’une même distribution. Notons (y11 , · · · , y1n1 ), (y21 , · · · , y2n2 ), · · ·
(yr1 , · · · , yrnr ), ces r sous-échantillons. On suppose qu’ils sont la réalisation de r échantillons
indépendants (Y11 , · · · , Y1n1 ), (Y21 , · · · , Y2n2 ), · · · (Yr1 , · · · , Yrnr ), de lois de fonction de répartition
F1 , · · · , Fr supposées continues. On souhaite tester (H0 ) : ”F1 = · · · = Fr ” contre (H1 ) : ”∃i, j
tels que Fi 6= Fj ”.
Pour construire le test de Kruskal-Wallis, on commence par calculer
— le rang Rij de Yij parmi les n = n1 + · · · + nr valeurs ;
— la moyenne des rangs associée à chaque échantillon : Ri• = n1i nj=1

P i
Rij ;
— l’écartPentre la moyenne
Pn des rangs de chaque échantillon et la moyenne de tous les rangs
1 1 n+1
(= n i,j Rij = n k=1 k = 2 ) :
r 2
12 X n+1
KWn = ni Ri• − .
n(n + 1) i=1 2
Proposition 3.2.8 Sous (H0 ), la loi de KWn ne dépend que de (n1 , · · · , nr ) (i.e. ne dépend
pas de F = F1 = · · · = Fr )
Preuve : Sous (H0 ), (Y11 , · · · , Y1n1 , · · · , Yr1 , · · · , Yrnr ) est un n-échantillon de la loi de fonction
de répartition F continue. Par conséquent, sa statistique de rang (R11 , · · · , R1n1 , · · · , Rr1 , · · · , Rrnr )
est une variable de loi uniforme sur les permutations de n éléments (proposition 3.2.6).
La statistique KWn permet de tester (H0 ) : ”F1 = · · · = Fr ” contre (H1 ) : ”∃i, j tels que
Fi 6= Fj ”. Sous (H0 ), les moyennes des rangs Ri• devraient être proches (et donc proches de
la moyenne des rangs sur l’échantillon total =(n + 1)/2). KWn devrait donc être ”petit” sous
(H0 ). La règle de décision est alors la suivante :
— Si KWn > t, on rejette (H0 ), et on conclut que les différents échantillons n’ont pas la
même loi ;
— Si KWn ≤ t, on ne rejette pas (H0 ). Rien de significatif ne permet de dire que les
échantillons ont des lois différentes.
La valeur critique t est fixé en fonction du niveau α de test : α = P(H0 ) [KWn > t], et t est le
quantile d’ordre 1 − α de la loi de la statistique de Kruskal-Wallis de paramètres (n1 , · · · , nr )
En développant le carré dans l’expression de KWn , on obtient

r
12 X
2
KWn = ni Ri• − 3(n + 1) .
n(n + 1) i=1
On peut aussi remarquer que Wi = ni Ri• est la somme des rangs du i-ème échantillon dans le
réarrangement de l’ensemble des échantillons. C’est donc la statistique du test de Wilcoxon de
comparaison du ième échantillon à l’ensemble des r − 1 autres échantillons. En particulier, sous
(H0 ), on a
ni (n + 1) ni (n − ni )(n + 1)
E(Wi ) = , et var(Wi ) =
2 12
On a donc sous (H0 )
r 2 r
12 X Wi n + 1 12 X 1
KWn = ni − = (Wi − E(Wi ))2
n(n + 1) i=1 ni 2 n(n + 1) i=1 ni
r
1X (Wi − E(Wi ))2
= (n − ni )
n i=1 var(Wi )
On déduit immédiatement de cette expression que sous (H0 )
E(KWn ) = r − 1 .
Cette expression suggère aussi que lorsque les ni sont grands, KWn tend sous (H0 ) vers une
variable du χ2 à r − 1 degrés de liberté (cf l’expression
P de la moyenne). Le nombre de degrés
de liberté vient de la liaison entre les variables Wi : ri=1 Wi = n(n + 1)/2.
Lorsque r = 2, n1 + n2 = n et W1 + W2 = n(n + 1)/2. Donc var(W1 ) = var(W2 ) et
2
1 −E(W1 ))
W1 − E(W1 ) = −(W2 − E(W2 )). On a donc KWn = (Wvar (W1 )
et le test de Kruskal-Wallis est
le même que le test de Wilcoxon.
Exemple 3.1: On reprend les données du fichier ozone.txt dont on a extrait la variable y :
max03 (concentration en ozone maximale pendant la journée), et la variable x : Vent (Direction
du vent, prenant 4 modalités, E,O,N,S). Pour savoir s’il y a un lien entre la direction du vent
et la concentration en ozone, on effectue un test de Kruskal-Wallis de comparaison des 4 sous-
échantillons correspondant aux quatre directions de vent. La fonction R permettant de faire
ce test est la fonction kruskal.test. La Pvaleur du test est 0.003431. On peut donc conclure
(avec 0.34 % de chances d’avoir tort) qu’il y a une liaison entre la direction du vent et la
concentration en ozone.
3.3 Deux variables qualitatives.

On suppose ici que le couple (X, Y ) est constitué de deux variables qualitatives X et Y . On
notera C = {c1 , · · · cr } les modalités de la variable X, et D = {d1 , · · · dl } les modalités de la
variable Y .
3.3.1 Distribution théorique

Dans ce cadre, on peut caractériser la loi du couple (X, Y ) par :
1. - la fonction (c, d) ∈ C × D 7→ P(X = c; Y = d) ;
2. - les fonctions c ∈ C 7→ P(X = c) (loi marginale en X), et d ∈ D 7→ P(Y = d|X = c)
(loi conditionnelle) ;
3. ...
On a
X P(X = c; Y = d)
P(X = c) = P(X = c; Y = d) et P(Y = d|X = c) = .
d∈D
P(X = c)
Dans le cas où X et Y sont indépendantes, P(X = c; Y = d) = P(X = c)P(Y = d), et la loi
conditionnelle d ∈ D 7→ P(Y = d|X = c) est indépendante de la valeur de c.
3.3.2 Quantités empiriques.

Les données sont présentées dans une table de contingence qui donne les effectifs
conjoints de chaque couple de modalités : pour tout (i, j) ∈ {1, · · · , r} × {1, · · · , l},
n
X
nij = 1I(ci ,dj ) (xk , yk ) .
k=1
On note
l
X n
X
ni• = nij = 1Ici (xk ) ;
j=1 k=1
r
X n
X
n•j = nij = 1Idj (yk ) .
i=1 k=1
Ces quantités sont appelés effectifs marginaux.

Les liens entre les quantités empiriques et la distribution théorique sont donnés par la
proposition suivante :
Proposition 3.3.1 Supposons que ((x1 , y1 ) · · · (xn , yn )) est une réalisation d’un n-échantillon
((X1 , Y1 ) · · · (Xn , Yn )) du couple de variables (X, Y ). Notons Nij , Ni• et N•j les variables aléatoires
correspondantes à nij , ni• , et n•j . On a pour tout i ∈ {1, · · · , r}, et tout j ∈ {1, · · · , l},
Nij
1. limn→∞ n
= P [X = ci ; Y = dj ] ;
Ni•
2. limn→∞ n
= P [X = ci ] ;
N•j
3. limn→∞ n
= P [Y = dj ] ;
Nij
4. limn→∞ Ni•
= P [Y = dj |X = ci ] ;
Nij
5. limn→∞ N•j
= P [X = ci |Y = dj ] ;

N
1. nij = n1 nk=1 1I(ci ,dj ) (Xk , Yk ). Par la loi des grands nombres, on a
P
Nij
lim = P [X = ci ; Y = dj ] .
n→∞ n
Ni• 1
Pn Ni•
2. n
= n k=1 1Ici (Xk ). Par la loi des grands nombres, on a limn→∞ n
= P [X = ci ].
3. idem.
ij N Nij n Nij P[X=ci ;Y =dj ]
4. limn→∞ Ni• = limn→∞ n Ni•
. Par la loi des grands nombres, limn→∞ Ni•
= P[X=ci ]
=
P [Y = dj |X = ci ].

Le vecteur ni1
, · · · , nni•il
est appelé i-ème profil-ligne. Il est une estimation de la loi
ni•

n1j nrj
conditionnelle de Y sachant que X = ci . De façon analogue, le vecteur n•j , · · · , n•j est appelé
j-ème profil-colonne. Il est une estimation de la loi conditionnelle de X sachant que Y = dj .
3.3.3 Comment juger de la liaison entre X et Y ?

Représentation graphique.
Dans le cas où X et Y sont indépendantes, la loi conditionnelle d ∈ D 7→ P [Y = d|X = c]
est indépendante de la valeur c. Ainsi tous les profils-lignes ont tendance à se ressembler. De la
même façon, la loi conditionnelle c ∈ C 7→ P [X = c|Y = d] est indépendante de la valeur d, et
tous les profils-colonnes ont aussi tendance à se ressembler.
On peut alors représenter graphiquement les profils-lignes (ou les profils-colonnes) sous
forme de diagrammes en barres parallèles (mosaı̈c plot, cf figure 3.6). Les différences visibles
entre ces barres permettent de se faire une idée de la liaison des variables X et Y .
Test du χ2 d’indépendance.
Pour juger de la liaison entre X et Y , on peut aussi faire un test du χ2 d’indépendance (cf
cours de Stat 2), basé sur la statistique
r X
l Ni• N•j 2
X (Nij − n
)
Tn = Ni• N•j
.
i=1 j=1 n
N N
Si X et Y sont indépendantes, nij ' P(X = ci , Y = dj ) = P(X = ci )P(Y = dj ) ' Nni• n•j , et
Tn a tendance à être petit. Pour savoir si Tn est significativement non nul ou pas, on s’appuie
sur le résultat suivant :
Proposition 3.3.2 Soit ((X1 , Y1 ), · · · , (Xn , Yn )) un n-échantillon du couple de variables qua-

litatives (X, Y ). Si on suppose que X et Y sont indépendantes, alors pour tous réels a, b,
lim P [Tn ∈ [a; b]] = P(Z ∈ [a; b]) , Z ∼ χ2(r−1)(l−1) .

n→+∞
Cette proposition permet de tester (H0 ) : ”X et Y sont indépendantes” contre (H1 ) : ”X et Y

sont liées” lorsque la taille de l’échantillon est assez grande (en pratique n ≥ 30, et pour tout
n n
i, j, i•n •j ≥ 5). La règle de décision du test est donnée par :
— si Tn > t, on rejette (H0 ), et on conclut que X et Y sont liées ;
— si Tn ≤ t, on ne rejette pas (H0 ) ; rien de significatif ne permet d’assurer que X et Y
sont liées.
t est choisi en fonction du niveau α de test :
α = P(H0 ) [ Rejeter (H0 )] = P(Z > t) avec Z ∼ χ2(r−1)(l−1) .
3.3.4 Exemple
On reprend les données du fichier ozone.txt dont on a extrait la variable y : Pluie (qui
prend deux modalités { Pluie , Sec}, et la variable x : Vent (Direction du vent, prenant 4
modalités, E,O,N,S). On obtient la table de contingence :
Profils−lignes Profils−colonnes
1.0
1.0
Sud
0.8
0.8
Ouest
Sec
0.6
0.6
pluie
vent
0.4
0.4
Nord
0.2
0.2
Est
Pluie
0.0
0.0
Pluie Sec Est Nord Ouest Sud
pluie vent
Figure 3.6 – Profils-lignes et Profils-colonnes sur les données du fichier ozone.txt
vent \pluie Pluie Sec Total

Est 2 8 10
Nord 10 21 31
Ouest 26 24 50
Sud 5 16 21
Total 43 69 112
La représentation des profils-lignes et des profils-colonnes sous forme de diagrammes en

barres parallèles est donnée dans la Figure 3.6.
Au vu de ces graphiques, les deux variables ”Direction du vent” et ”Pluie” semblent liées.
Pour en être sûr, on effectue un test du χ2 d’indépendance. On vérifie tout d’abord qu’on est
n n
bien dans les conditions d’application du test. On a n = 112 ≥ 30 et pour tout i, j i•n •j ≥
10(43)/112 = 3.83 ≤ 5. On n’est pas dans les conditions d’application du test. On a alors deux
possibilités :
— soit regrouper des classes de façon à ce que tous les ”effectifs théoriques” soient supérieurs
à 5
— soit demander le calcul de la loi de Tn par simulation Monte-Carlo.
On choisit la seconde solution. On obtient une P-valeur du test d’indépendance de 0.05597. On
peut donc conclure (avec 5.6 % de chances d’avoir tort) qu’il y a une liaison entre la direction
du vent et la présence ou absence de pluie.
● ●
●
●
2
●
40
●
● ● ● ●
● ● ● ●●
● ● ● ●● ●
● ● ●● ●
●●
1
●●
20
●● ●● ● ●
● ● ● ●
● ● ●● ● ●
●
● ●● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ●
●● ● ●
● ● ● ● ● ●●●● ●● ● ●
● ● ● ● ● ● ● ●
y
y
● ● ●
0
●●● ●●● ● ●
● ●● ●● ●● ●
0
● ● ● ● ● ●
● ● ● ●●● ●●●● ●
●
● ●
●
● ● ● ●●
● ● ●●●●
●
● ●
● ●●● ●● ● ● ●● ● ●●
●● ● ● ●● ● ●● ● ● ●
●● ● ●
−20
●
−1
● ● ● ● ● ●
● ●
● ● ●
● ●
● ● ●
−40
−2
●
● ●
−20 −10 0 10 20 −20 −10 0 10 20
x x
●● ●
500
●
● ●
● ● ●
40
●
●● ● ● ● ● ●
●
●
● ●
● ●● ● ● ● ●
20
● ●
●
300
●● ● ● ●●
●● ● ● ●
● ●● ●
● ● ●● ● ● ● ● ●
● ● ●
● ● ● ●●
●●
● ●
y
y
●
0
● ●● ●● ● ●
●● ●
● ● ● ●●
●● ●● ● ● ●
●● ●
● ●●●●● ● ●
100
● ●●●● ● ●
● ●● ● ●● ● ● ●
−40 −20
● ●
● ● ● ● ● ●
● ●● ● ● ● ●● ●●● ●●● ● ●
● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ●
●● ● ● ●
●●● ●●● ●
●● ● ● ●● ● ● ●
● ●
● ● ● ●
● ● ● ●
−100
●
● ● ●
−20 −10 0 10 20 −20 −10 0 10 20
x x
Figure 3.7 – Exemple de nuages de points.
3.4 Exercices
3.4.1 Deux variables quantitatives
Exercice 1: Commenter les nuages de la figure 3.7. Les variables vous semblent-elles liées ?
Sous quelle forme ?
Exercice 2:
1. Récupérer le fichier ozone.txt.
2. En extraire les variables quantitatives.
3. Pour chaque couple de variables quantitatives, tracer le nuage de points correspon-
dant (fonction plot) et repérer les couples de variables semblant avoir une dépendance
linéaire.
4. Pour les couples précédents, calculer les coefficients de corrélation linéaire empirique.
5. Tester la normalité de chacune des variables sélectionnées. Est-ce-que cela suffit à tester
la normalité des couples de variables ?
6. Dans les cas où la normalité des couples s’avère plausible, les coefficients de corrélation
linéaires empiriques sont-ils significativement non nuls ?
Exercice 3: Preuve de la proposition 3.1.2.

Dans tout l’exercice, on se place dans l’hypothèse où (X, Y ) est un couple gaussien de coefficient
de corrélation ρ = 0. Soit (X1 , Y1 ), · · · (Xn , Yn ) des couples indépendants de même loi que (X, Y )
et notons R la variable corrélation empirique définie par (3.2).
~ et Y~ sont deux vecteurs gaussiens de Rn indépendants, avec

1. Montrer que les vecteurs X  
1
 .. 
X ∼ N (µX 1I; σX Id), Y ∼ N (µY 1I; σY Id), et 1I :=  . .
~ 2 ~ 2
1
2. Dans Rn , soit e1 = √1 1I, e2 , · · · , en n vecteurs orthornormés formant une bon de Rn .
n
Soit X̃1 , · · · , X̃n les coordonnées de X ~ = Pn X̃i ei .
~ dans cette base : X
i=1
√
(a) Montrer que X̃1 = nX̄n .
   
X̃1 e01
~ :=  ..  =  ..  X. ~
(b) Montrer que X̃  .   .  ~ En déduire que X̃ est un vecteur gaussien
X̃
n e0n
 √
nµX
 0 
2
de moyenne   et de matrice de covariance σX Id.
 
..
 . 
0
(c) En déduire que X̄n et X̃2 , · · · , X̃n sont des variables indépendantes, que X̄n ∼
N(µX , σX
2
/n) et que X̃i ∼ N(0, σX 2
) pour i ≥ 2.
3. En définissant les variables ỸiPen fonction de Y~ de la même façon que les X̃ en fonction
Pin−1
n
~ montrer que R = √P X̃ Ỹ Zi T i
de X, n
i=2
2
√Pn 2 , et que R a même loi que √Pn−1 2 √
i i i=1
Pn−1 2 ,
i=2 X̃i i=2 Ỹi i=1 Zi i=1 Ti
où les variables Z1 , · · · , Zn−1 , T1 , · · · , Tn−1 sont i .i.d de loi N(0, 1).
4. Soit t = (t1 , · · · , td )0 un vecteur de Rd tel que ktk = 1. Soit Z1 , · · · , Zd i.i.d de loi N(0, 1).
~ i
hZ;t ~ = (Z1 , · · · , Zd )0 . Soit f2 , · · · , fd des vecteurs
On considère la variable S = Z~ , où Z
k k D E
normés de Rd tels que f1 := t, f2 , · · · , fd soit une bon de Rd . On pose Z̃i = Z; ~ fi
(a) Quelle est la loi de (Z̃1 , · · · , Z̃d ) ?

(b) Montrer que √ S= √PZ̃d1 2 .
1−S 2
i=2 Z̃i
S
√
(c) En déduire que √1−S 2 d − 1 est une variable de Student à d − 1 degrés de liberté.
R
√
5. Conclure que √1−R 2 n − 2 est une variable de Student à n − 2 degrés de liberté.
Exercice 4: test de corrélation de Spearman.

1. On suppose que n = 5.
(a) Quelles sont les valeurs prises par la variable RS ?
(b) Quelle est la loi de la variable RS sous l’hypothèse d’indépendance de X et Y ?
(c) En déduire la Pvaleur du test de corrélation de Spearman de l’exemple 3.1.3.
2. En utilisant la fonction cor.test, refaire les tests de corrélation sur les données du
fichier ozone.txt.
3.4.2 Une variable qualitative et une variable quantitative

Exercice 5: On a observé sur n = 10 individus une variable quantitative y et une variable
qualitative x prenant 3 modalités A,B,C. Les résultats sont les suivants :
y -0.97 -0.52 0.19 -0.03 0.55 1.08 0.39 0.38 2.63 0.82
x A A B A B C B B C B
1. Calculer les effectifs, les moyennes et variances empiriques pour chaque modalité.
2. Calculer la variance inter-catégories, la variance intra-catégories et le rapport de corrélation
empirique.
3. Faire un test de normalité de chaque sous-échantillon.
4. Selon le résultat du test précédent, choisir un test d’indépendance entre x et y. Conclure.
Exercice 6:
1. A partir des données du fichier ozone.txt, obtenir les résultats concernant la liaison entre
direction du vent et concentration en ozone présentés en exemple dans le cours
2. Etudier la liaison entre la concentration en ozone, et le fait qu’il pleuve ou pas.
3.4.3 Deux variables qualitatives .

Exercice 7: On a observé sur n = 10 individus deux variables quantitatives : x prenant 2
modalités H,F, et y prenant trois modalités 0,B,A. Les résultats sont les suivants :
x H H F F H H F F H H
y O O B B O A B O O O
1. Calculer la table de contingence.

2. Faire une représentation graphique des profils-lignes et des profils-colonnes.
3. Tester l’indépendance entre x et y. Conclure.
Exercice 8: A partir des données du fichier ozone.txt, étudier la liaison entre la concentration
en ozone, et le fait qu’il pleuve ou pas.
Chapitre 4
Analyse en Composantes Principales.
L’ACP est une des plus anciennes méthodes factorielles. Elle a été conçue par Karl Peason
(1901) et intégrée à la statistique par Harold Hotelling (1933). Elle est utilisée lorsqu’on observe
sur n individus, p variables quantitatives X 1 , X 2 , . . ., X p présentant des liaisons multiples que
l’on veut analyser. Ces observations sont regroupées dans un tableau (matrice) rectangulaire X
ayant n lignes (individus) et p colonnes (variables) :
x11 x21 . . . xp1

 
 x12 x22 . . . xp2 
X=
 
.. .. .. .. 
 . . . . 
xn xn . . . xpn
1 2
où xji est la valeur observée de la j-ième variable X j sur le i-ème individu de l’échantillon.
Exemple 4.1: Cet exemple est tiré du livre ”Statistique avec R”, et le fichier de données
decathlon.csv peut-être téléchargé sur le site d’agrocampus Rennes. Il concerne les résultats
d’athlètes (les individus) aux 10 épreuves du décathlon (les variables). Il s’agit d’analyser les
liaisons entre les performances aux différentes épreuves, de savoir si certaines épreuves se res-
semblent (une bonne performance à telle épreuve augurant alors d’une bonne performance à
telle autre), de déterminer des profils d’athlètes (endurant, rapide, ... etc). Ainsi, sur les 10
épreuves, on se doute bien que les performances au 100m, 110 m haies, et saut en longueur vont
être corrélées. Est-il vraiment utile de garder dans le tableau de données ces trois épreuves ? Ne
peut-on pas se contenter d’en garder une seule ? Ou d’en ”fabriquer” une qui serait un ”résumé”
de ces trois épreuves ? De façon générale, ne peut-on pas réduire la dimension du tableau de
données, en ne conservant qu’un petit nombre de variables qui apportent autant d’information
que l’ensemble des variables mesurées ?
Le but de l’ACP est de répondre à ce genre de questions. Il s’agit d’une méthode de des-
cription et de résumé d’un tableau de données (n, p). Son objectif principal est de remplacer
ce tableau de données par un tableau de dimension réduite (n, q) (q < p). Un des avantages
de cette réduction de dimension est par exemple, de pouvoir obtenir des représentations gra-
phiques des données. En effet, lorsque p = 2, chaque individu peut-être représenté par un point
57
dans un plan, et le tableau de données initial peut être visualisé graphiquement par un nuage
de points dans un plan. Dès que p ≥ 4, une représentation graphique du nuage de points est
difficile, et l’un des buts de l’ACP est de trouver ”la meilleure” représentation plane du nuage
de points, ce qui revient à chercher un tableau (n, q = 2) qui approche ”au mieux” le tableau
de données initial. On cherche en particulier une représentation plane :
— qui minimise les déformations du nuage initial ;
— qui fait apparaı̂tre les liaisons entre les variables initiales ;
— qui permet de résumer l’information contenue dans le tableau initial (n, p) dans un
tableau de plus faible dimension (n, q), q < p, (en fait q = 2, 3), en la détruisant le moins
possible.
Cette réduction va être obtenue en remplaçant les variables initiales xj , j = 1, . . . , p par un
petit nombre de nouvelles variables cj , j = 1, . . . , q, appelées composantes principales, qui
sont non corrélées, et combinaisons linéaires des xj . Ces nouvelles variables vont être obtenues
en analysant la structure des covariances, ou des corrélations, entre les variables initiales.
Avant de décrire plus précisément la méthode, il faut en souligner quelques limites :
1. l’ACP ne permet pas le traitement de variables qualitatives ;
2. l’ACP ne détecte que d’éventuelles liaisons linéaires entre variables.
L’ACP présente de nombreuses variantes selon les transformations apportées au tableau de
données. Parmi ces variantes, l’ACP sur un tableau où les colonnes sont centrées et réduites,
appelée ACP normée est la plus fréquemment utilisée.
4.1 Définitions
4.1.1 Espace des individus.
Espace vectoriel des individus
On associe à chaque individu i, un vecteur xi contenant les valeurs de chaque variable pour
l’individu considéré :
x0i = (x1i , x2i , · · · , xpi ) (i-ème ligne de la matrice X) .
Chaque individu peut alors être représenté par un point dans Rp , appelé espace des individus.
Matrice des poids.

On affecte à chaque individu
Pn un poids pi reflétant son importance par rapport aux autres
individus avec pi > 0 et i=1 pi = 1. On appelle matrice des poids la matrice diagonale
(n, n) dont les éléments diagonaux sont les poids pi . Elle sera notée
 
p1 0 · · · 0
 0 p2 · · · 0 
D = diag(p1 , p2 , · · · , pn ) =  .. ..  .
 
.. ..
 . . . . 
0 · · · 0 pn
CHAPITRE 4. Analyse en Composantes Principales. 59
Le cas le plus fréquent est de considérer que tous les individus ont la même importance :
pi = 1/n, pour tout i = 1, · · · , n. Si les individus sont par exemple des pays, on peut être amené
à prendre
Population du pays i
pi = .
Population totale
On appelle nuage des individus, l’ensemble des points xi munis de leurs poids : M =
{(xi , pi ) ; i = 1, . . . , n}.
Centrage des données.

Le point g de Rp dont les coordonnées sont les moyennes empiriques des variables ( g 0 =
(x̄1 , x̄2 , · · · , x̄p )) est le centre de gravité (le barycentre) du nuage de points M. En utilisant
les notations matricielles, on peut écrire
g = X 0 D 1I , (4.1)
où 1I désigne le vecteur de Rn dont toutes les coordonées sont égales à 1. On a en effet pour
tout j ∈ {1, · · · , p},
n n
n X n
xjk pk = x¯j .
X X X
0
gj = (X )jk (D 1I)k = Xkj Dki 1Ii =
k=1 k=1 i=1 k=1
Pour ramener l’origine du repère au barycentre des individus (i.e centrer le nuage autour de
son barycentre), on centre les variables. A chaque variable observée xj , on associe sa variable
centrée y j :  
x̄j
 x̄j 
y j = xj −  ..  = xj − x̄j 1I .
 
 . 
x̄j
A partir du tableau X, on obtient un tableau de données Y :
y11 · · · y1j · · · y1p

 
1 j p 
1 2 p  y2 · · · y2 · · · y2 

Y = y ,y ,···,y =  . .. .. .. ..  ,
 .. . . . . 
yn1 · · · ynj · · · ynp
avec yij = xji − x̄j . En utilisant les notations matricielles, on a
Y = X − 1Ig 0 = X − 1I 1I0 DX = (Id − 1I 1I0 D)X .
Matrice de covariance empirique.

La matrice de covariance empirique des variables x1 , · · · , xp peut s’écrire sous la forme
V = X 0 DX − gg 0 = Y 0 DY . (4.2)
En effet, pour tout i, j ∈ {1, · · · , p}

n
X n
X n
X
i
cov(x , x ) = j
pk (xik − x̄ i
)(xjk j
− x̄ ) = pk yki ykj = Dkk Yki Ykj = (Y 0 DY )ij ,
k=1 k=1 k=1
ce qui montre la seconde identité. La première est une conséquence de l’expression

n
pk xik xjk − x̄i x¯j .
X
i j
cov(x , x ) =
k=1
V est une matrice carrée p × p symétrique semi-définie positive : pour tout u ∈ Rp ,

n
X n
X
0 0 0 0
u V u = u Y DY u = (Y u) D(Y u) = Dkk (Y u)2k = pk (Y u)2k ≥ 0 .
k=1 k=1
Elle admet donc p valeurs propres réelles positives ou nulles.
Centrage et réduction des données.

Notons si l’écart type empirique de la variable X i :
v v
u n u n
p uX uX
si = cov(xi , xi ) = t pk (xik − x̄i )2 = t pk (yki )2 .
k=1 k=1
Les données centrées et réduites sont notées

xji − x̄j
zij = .
sj
Ce sont des données sans dimension. Elles sont regroupées dans un tableau
z11 · · · z1j · · · z1p

 
j
1 2 p
 1
 z2 · · · z2 · · · z2p 
Z = z ,z ,···,z =  . .

 .. .. .. .. .. 
. . . . 
1 j
zn · · · zn · · · znp
Si on note D1/S la matrice diagonale des inverses des écarts-types :

 1 
0 ··· 0
 s1 
 0 1 ···
 
0 
D1/S = diag(1/s1 , · · · , 1/sp ) = 
 s2 ,

 .. .. .. ..
 . . . .


 1 
0 ··· 0
sn
le tableau Z peut être récrit sous la forme Z = Y D1/S .
Matrice de corrélation empirique.

cov(xi , xj )
Notons rij la corrélation empirique des variables X i et X j : rij = . La matrice R
si sj
de corrélation empirique
 
1 r12 · · · r1p
 r21 1 · · · r2p 
R=
 
.. .. .. .. 
 . . . . 
rp1 rp2 · · · 1
peut se récrire
R = D1/S V D1/S = D1/S Y 0 DY D1/S = Z 0 DZ .
La matrice R est la matrice de variance-covariance des données centrées réduites et résume

la structure des dépendances linéaires entre les p variables.
Espace métrique des individus.

Si l’on veut faire des ”groupes d’individus qui se ressemblent” au vu des variables considérées,
il faut introduire une mesure de ”proximité” entre individus, i.e. définir une notion de distance
sur l’espace vectoriel des individus. Quelle distance choisir ? La question est primordiale car les
résultats de l’étude statistique vont en dépendre dans une large mesure.
On pourrait choisir la distance euclidienne usuelle
q
d(x1 , x2 ) = (x11 − x12 )2 + (x21 − x22 )2 + · · · + (xp1 − xp2 )2 ,
mais ce n’est pas forcément la plus adaptée. Par exemple, on peut vouloir donner des impor-
tances différentes à chaque variable, auquel cas on choisira plutôt de prendre pour distance
q
d(x1 , x2 ) = m1 (x11 − x12 )2 + m2 (x21 − x22 )2 + · · · + mp (xp1 − xp2 )2 .
√
Cela revient à multiplier par mj chaque variable X j . Cependant, cette formule sous-entend que
les axes sont orthogonaux (formule de Pythagore), mais en statistique c’est par pure convention
que l’on représente les variables sur des axes orthogonaux, on aurait pu prendre des axes
obliques. Ainsi, la distance entre deux individus x1 et x2 peut être définie de manière générale
par : p
dM (x1 , x2 ) = (x1 − x2 )0 M (x1 − x2 ) = ||x1 − x2 ||M ,
où M est une matrice symétrique définie positive : pour tout u ∈ Rp , u0 M u ≥ 0 et si u0 M u = 0
alors u = 0Rp . Une telle matrice admet p valeurs propres réelles strictement positives.
En pratique, on utilise le plus souvent l’une des métriques suivantes :
— M = Id . La distance est la distance euclidienne usuelle, et on parle d’ACP canonique
ou simple. Elle s’utilise lorsque les variable sont homogènes (même dimension) et de
même ordre de grandeur.
— M = D1/S 2 , où D1/S 2 est la matrice diagonale des inverses des variances définie par
D1/S 2 = D1/S D1/S . Le choix de cette métrique revient à diviser chaque variable (colonne)
par son écart-type. On parle alors d’ACP normée. Ici la distance ne dépend plus des
unités de mesure puisque xji /sj est une grandeur sans dimension. Cette métrique donne à
chaque caractère la même importance quelle que soit sa dispersion. Elle s’utilise lorsque
les variable ne sont pas homogènes, ou ne sont pas de même ordre de grandeur.
4.1.2 Inertie d’un nuage de points.

Soit M = {(xi , pi )} le nuage de points. On note N = {(yi , pi )} le nuage centré, où on a
ramené le centre de gravité à l’origine du repère.
Inertie totale du nuage de points.

Définition 4.1.1 On appelle inertie totale du nuage des individus , I, la moyenne
pondérée des carrés des distances des points au centre de gravité :
n
X n
X n
X
I= pi d2M (xi , g) = pi ||xi − g||2M = pi ||yi ||2M .
i=1 i=1 i=1
L’inertie mesure la dispersion des points individus autour du centre de gravité g, elle est parfois
appelée variance du nuage. L’inertie du nuage M est évidemment égale à l’inertie du nuage
centré N. Dans la suite du chapitre, on supposera que le nuage est centré.
Proposition 4.1.2
n n
1 XX
I= pi pj ||xi − xj ||2M ,
2 i=1 j=1
c’est à dire l’inertie correspond à la moyenne des carrés de toutes les distances entre les indi-
vidus.
Preuve : Notons hx, yiM le produit scalaire associé à M : hx, yiM = x0 M y.
n n
1 XX
pi pj ||xi − xj ||2M
2 i=1 j=1
n n
1 XX
= pi pj ||xi − g + g − xj ||2M
2 i=1 j=1
n
n X n
n X n
n X
!
1 X X X
= pi pj ||xi − g||2M + pi pj ||xj − g||2M + 2 pi pj hxi − g, xj − giM
2 i=1 j=1 i=1 j=1 i=1 j=1
 * n + 
n n n
1 X X X X
= pi ||xi − g||2M + pj ||xj − g||2M + 2 pi (xi − g); pj (xj − g) 
2 i=1 j=1 i=1 j=1 M
n
X
= pi ||xi − g||2M ,
i=1
Pn
puisque i=1 pi (xi − g) = 0 par définition de g.
Inertie expliquée par un sous espace F .

Définition 4.1.3 On appelle inertie du nuage des individus N expliquée (portée) par
le sous-espace vectoriel F de Rp , l’inertie du nuage projeté sur F , c’est-à-dire :
n
X n
X
IF (N) = pi d2M (ŷiF , O) = pi ||ŷiF ||2M ,
i=1 i=1
où ŷiF désigne la projection orthogonale de yi sur F . Autrement dit,
IF (N) = I(N̂F ) ,
où N̂F = (ŷiF , pi ) est le projeté du nuage centré.

Par exemple, si u est un vecteur M-normé (i.e ||u||M = 1), et ∆u est la droite vectorielle
engendrée par u , la projection orthogonale de yi sur ∆u est ŷiu = hyi ; uiM u = (yi0 M u) u, et
l’inertie expliquée par ∆u est donnée par
n n n n
!
X X X X
I∆u = I(N̂ ) =u u 2
pi ||ŷi ||M = 0 2
pi (yi M u) = 0 0 0
pi u M y i y i M u = u M 0
p i yi yi M u
i=1 i=1 i=1 i=1
0
= u MV Mu .
Proposition 4.1.4 Décomposition de l’inertie.

1. Si F est un s.e.v. de Rp et si F ⊥ désigne son supplémentaire orthogonal (au sens du
produit scalaire défini par M ) on a la décomposition suivante :
I = IF + IF ⊥ .
2. De façon plus générale, si F = F1 ⊕ F2 et F1 ⊥ F2 (au sens du produit scalaire défini

par M ), alors
IF = IF1 + IF2 .
La quantité IF ⊥ peut donc être considérée comme une mesure de la déformation du nuage
lors de la projection sur F :
X n
IF ⊥ = pi ||yi − ŷiF ||2M .
i=1
L’inertie totale se décompose pour tout F s.e.v. de Rp comme la somme de

— l’inertie totale du nuage projeté sur F I(N̂F ),
— la déformation du nuage N par projection orthogonale sur F .
Preuve de la proposition 4.1.4.

1. Tout élément de Rp se décompose de manière unique sous la forme

D E
F F⊥ F F⊥ ⊥ F F⊥
x = x̂ + x̂ , x̂ ∈ F , x̂ ∈ F , x̂ ; x̂ = 0.
M
Par conséquent,
n n 2
F⊥
X X
pi kyi k2M
F
I = = pi ŷi + ŷi
M
i=1 i=1
n n n
⊥ 2
2 D E
⊥
X X X
= pi ŷiF M + pi ŷiF + 2 pi yiF ; yiF
M M
i=1 i=1 i=1
= IF + IF ⊥ .
2. De la même façon, tout élément de F se décompose de manière unique sous la forme
x = x̂F1 + x̂F2 , x̂F1 ∈ F1 , x̂F2 ∈ F2 , x̂F1 ; x̂F2 M = 0 .

F1 F2 F1 F2
On a donc ŷ F = (ŷ
d F ) + (ŷ
d F ) . Comme F ⊂ F , (ŷ
1
d F) = ŷ F1 . De même, (ŷ
d F) = ŷ F2 .
Par conséquent,
n n
X F 2 X 2
pi ŷiF1 + ŷiF2 M

IF = pi y i M =

i=1 i=1
n n n
X F 2 X F 2 X
pi yiF1 ; yiF2 M

= pi ŷi M +
1
pi ŷi M + 2
2
i=1 i=1 i=1

= IF1 + IF2 .
Expression matricielle de l’inertie.

Proposition 4.1.5
I = Trace(M V ) = Trace(V M ) .
Par conséquent,
Pn
1. Si M = Id , alors I = i=1 s2j est la somme des variances empiriques des p va-
riables.
2. Si M = D1/S 2 , alors I = p. Dans ce cas, l’inertie est égale au nombre de variables et ne
dépend pas de leurs valeurs.
Preuve : On a kyi k2M = yi0 M yi = Trace(yi0 M yi ) puisqu’il s’agit d’une quantité scalaire. En
utilisant :
— Trace(AB) = Trace(BA) pour toute matrice A de taille (n, p) et toute matrice B de
taille (p, n),
— Trace(A + B) = Trace(A) + Trace(B),

— Trace(αA) = αTrace(A), pour toute matrice A et tout réel α,
on obtient
n
X n
X n
X
I = pi kyi k2M = pi Trace(yi0 M yi ) = pi Trace(yi yi0 M )
i=1 i=1 i=1
n
! !
X
= Trace pi yi yi0 M = Trace(V M ) = Trace(M V ) .
i=1
Les points 1. et 2. se déduisent facilement de cette identité.
4.1.3 Espace métrique des variables.

De la même façon que ce qui a été fait pour un individu, on peut associer à chaque variable
X le vecteur xj contenant les valeurs prises par cette variable sur l’ensemble des n individus :
j
xj1
 
j
 xj2 
x =  = j-ième colonne de X.
 
..
 . 
xjn
Chaque variable X j peut alors alors être représentée par un vecteur de Rn appelé espace
vectoriel des variables.
Si on veut juger de la ”proximité” entre deux variables, il faut encore une fois munir Rn d’une
distance qui rende compte de cette proximité, i.e. choisir une matrice M (n, n) symétrique et
définie positive. Ici, un choix naturel consiste à prendre M = D, la matrice diagonale
des poids (dite métrique des poids). En effet, si y 1 , y 2 , . . ., y p sont les variables centrées
associées à x1 , x2 , . . ., xp , on a
— < y j , y k >D = ni=1 pi yij yik = cov(xj , xk ) ;
P
— ||y j ||2D = s2j .
De plus l’angle θjk entre les vecteurs y j et y k est donné par
< y j , y k >D cov(xk , xj )

cos(θjk ) = = = rjk .
||y j ||D ||y k ||D sj sk
En résumé, lorsque les variables sont centrées et représentées par des vecteurs de Rn muni de
la métrique des poids :
— la longueur du vecteur correspond à l’écart-type de la variable associée ,
— le cosinus de l’angle de deux vecteurs représente la corrélation linéaire des deux variables
associées.
4.2 Principes de l’ACP.

4.2.1 Le problème.
Rappelons que l’objectif principal est d’obtenir une représentation fidèle du nuage des indi-
vidus de Rp en le projetant sur un espace de faible dimension. Le choix de l’espace de projection
s’effectue selon le critère de l’inertie, i.e. on cherche le sous-espace de dimension k por-
tant l’inertie maximale du nuage. Cela revient à déformer le moins possible les distances
en projection. Il s’agit donc de résoudre le problème suivant :
(Pk ) : Trouver un (le) s.e.v Ek de dimension k (k < p), tel que

IEk = max {IE ; dim(E) = k}.
Définition 4.2.1 On appelle sous-espace principal de dimension k, tout sev de dimension

k solution de (Pk ).
4.2.2 Espaces et axes principaux.

Théorème 4.2.2 Soit Ek un sous espace vectoriel de dimension k < p portant l’inertie maxi-
male du nuage, alors un sous-espace de dimension k + 1 portant l’inertie maximale est
Ek ⊕ ∆uk+1
où uk+1 est un vecteur M-orthogonal à Ek et ∆uk+1 est une droite vectorielle M -orthogonale à
Ek portant l’inertie maximale parmi toutes les droites vectorielles M -orthogonales à Ek .
Preuve : Soit F un sous-espace de dimension k + 1. Comme dim(Ek⊥ ) + dim(F ) = (p − k) +

(k + 1) = p + 1, Ek⊥ et F ont au moins une direction commune. Soit u ∈ Ek⊥ ∩ F (u 6= 0). On
peut alors écrire F = F̃ ⊕ ∆u , où F̃ est le supplémentaire M -orthogonal de ∆u dans F . F̃ est
de dimension k, et par définition de Ek on a donc IF̃ ≤ IEk . Par ailleurs, par définition de uk+1 ,
on a aussi Iu ≤ Iuk+1 . Ainsi,
IF = IF̃ + Iu ≤ IEk + Iuk+1 = IEk+1
où Ek+1 = Ek ⊕ ∆uk+1 .
Définition 4.2.3 Les axes ∆u1 , · · · , ∆up sont appelés axes principaux d’inertie de l’ACP.
Le théorème 4.2.2 dit que les sous-espaces principaux Ek (les solutions de (Pk )) sont emboı̂tés
et peuvent se calculer de façon itérative selon la procédure :
— Rechercher un axe ∆u1 maximisant l’inertie expliquée I∆u1 . On note E1 = ∆u1 .
— Rechercher un axe ∆u2 orthogonal à E1 , maximisant l’inertie expliquée I∆u2 . On note
E2 = E1 ⊕ ∆u2 .
— ...
— Rechercher un axe ∆uk orthogonal à Ek−1 maximisant l’inertie expliquée I∆uk . On note
Ek = Ek−1 ⊕ ∆uk .
Calcul des axes principaux :

Commencons par trouver l’axe principal ∆u1 . Si u1 est M-normé, on a vu que I∆u1 =
u01 M V M u1 . Si ku1 kM 6= 1, en notant v1 = u1 / ku1 kM , on a ∆u1 = ∆v1 et donc
u01 M V M u1 u01 M V M u1
I∆u1 = I∆v1 = v10 M V M v1 = = .
ku1 k2M u01 M u1
On veut maximiser cette quantité en u1 ∈ Rp . Pour cela, on commence par chercher les points
critiques de la fonction considérée, i.e. les points où le gradient est nul :
0
2M V M u1 (u01 M V M u1 )(2M u1 )

u1 M V M u 1
∇u1 = − .
u01 M u1 u01 M u1 (u01 M u1 )2
u1 est donc solution de
u01 M V M u1
M V M u1 = M u1 = I∆u1 M u1 ⇔ V M u1 = I∆u1 u1 ,
u01 M u1
puisque M est inversible. Autrement dit, u1 est vecteur propre de la matrice V M associé à la
valeur propre I∆u1 . Pour maximiser I∆u1 , il faut donc choisir pour u1 le vecteur propre
de V M associé à la plus grande valeur propre λ1 de la matrice V M . On a alors
I∆u1 = λ1 .
Ce résultat se généralise aux autres axes principaux, et on a le théorème :
Théorème 4.2.4 Calcul des axes principaux.
1. Il existe une base M-orthonormée (u1 , u2 , · · · , up ) de vecteurs propres de la matrice V M
associés aux valeurs propres (réelles positives) rangées par ordre décroissant λ1 ≥ λ2 ≥
· · · ≥ λp ≥ 0.
2. Les vecteurs u1 , u2 , . . ., up engendrent respectivement les axes principaux d’inertie de
l’ACP et on a pour tout j ∈ {1, · · · , p},
I∆uj = λj .
3. Pour tout k < p, le s.e.v Ek engendré par les k premiers vecteurs u1 ,. . ., uk , est un s.e.v.
principal de dimension k, et l’inertie expliquée par Ek est donnée par
IEk = λ1 + · · · + λk .
Définition 4.2.5 Les vecteurs uj sont appelés vecteurs principaux de l’ACP.

Preuve :
1. Notez que la matrice V M est M -symétrique puisque
hx; V M yiM = x0 M (V M y) = x0 M V M y = y 0 M 0 V 0 M 0 x = y 0 M V M x ,
puisque M et V sont symétriques. Ainsi hx; V M yiM = hV M x; yiM . Par conséquent, les
valeurs propres de V M sont réelles et positives, et V M admet une base M -orthonormée
de vecteurs propres.
2. On a déjà vu que le premier axe principal d’inertie est engendré par le vecteur propre
u1 associé à la plus grande valeur propre λ1 de V M . Pour les autres axes principaux, on
utilise le fait que la k-ième valeur propre λk vérifie :

λk = max hu, V M uiM ; kukM = 1; hu; uj iM = 0, j = 1, · · · k − 1 .
Comme kuk kM = 1, on a I∆uk = u0k M V M uk = u0k M (λk uk ) = λk u0k M uk = λk .

3. Par le théorème 4.2.2, Ek = ∆u1 ⊕ · · · ⊕ ∆uk , et IEk = kj=1 I∆uj = kj=1 λj .
P P
Remarques :
Pp
1. En prenant k = p, on retrouve I = Trace(V M ) = j=1 λj .
2. Notez que V M = Y 0 DY M . Si r = Rang(Y ) (≤ min(p, n)), on a
λ1 > 0 , λ2 > 0, · · · , λr > 0 et λr+1 = · · · = λp = 0 ,
et par suite IEr = I.

Dans ce cas le nuage est entièrement contenu dans le sev Er .
3. Une ACP avec M = Id dite canonique ou simple revient à diagonaliser la matrice de
covariance empirique des p variables de départ.
4. Une ACP avec M = D1/S 2 dite normée, revient à diagonaliser la matrice de corrélation
empirique.
4.2.3 Composantes Principales (CP)

Définition
Rappelons que le point de départ était d’obtenir une représentation du nuage N dans des
espaces de dimension réduite. On connait maintenant les axes définissant ces espaces. Pour
pouvoir obtenir les différentes représentations, il suffit de déterminer les coordonnées des points
du nuage projeté sur chaque axe principal.
Soit cj1 , cj2 , . . ., cjn , ces coordonnées sur l’axe ∆uj , où cji est la coordonnée de yi sur l’axe ∆uj .
cji =< yi , uj >M = yi0 M uj .
Définition 4.2.6 Le vecteur de Rn
cj1
 
j
 cj2 
c =  = Y M uj .
 
..
 . 
cjn
est appelé j-ième composante principale.

Si on note C = [c1 , c2 , · · · , cp ] la matrice obtenue en rangeant en colonne les cj , on a donc

C = Y M U où U est une matrice (p, p) définie par U = [u1 , u2 , · · · , up ].
La projection du nuage N dans le plan principal (∆uj , ∆uk ) est donc donnée par les points
de coordonnées (cji , cki ); i = 1, · · · , n dans le repère donné par les droites ∆uj et ∆uk . Par

exemple {(c1i , c2i ) ; i = 1, · · · , n} est le nuage projeté sur le 1er plan principal (∆u1 , ∆u2 ).
La décomposition du vecteur yi sur la base des vecteurs principaux (u1 , u2 , · · · , up ) s’écrit
p r
X X
yi = cji uj = cji uj ,
j=1 j=1
Remarque : Pour j > r, les CP cj sont égales au vecteur nul de Rn car l’inertie expliquée
par ces axes est nulle.
Les composantes principales vues comme de nouvelles variables.

Une CP associe à chaque individu i un nombre réel. On peut donc la considérer comme une
nouvelle variable. Comme les variables initiales y j , cette variable est représentée par un vecteur
de Rn .
Proposition 4.2.7 Propriétés des composantes principales.

1. Les CP sont des combinaisons linéaires des variables de départ y j .
2. Les CP cj sont centrées, de variance λj et non corrélées deux à deux.
3. Les CP c1 , · · · , cp sont vecteurs propres de la matrice Y M Y 0 D, de valeurs propres λ1 , · · · , λp .
Dans l’espace des variables Rn , muni de la métrique des poids D, on a vu que le produit scalaire
de deux variables n’est autre que leur covariance. On rappelle que pour j > r, cj = 0. Pour
j ≤ r, λj > 0 et on définit
cj
dj = p .
λj
Le point 2. de la proposition 4.2.7 signifie que (d1 , · · · , dr ) est un système D-orthonormé de
l’espace des variables Rn . Il n’en constitue pas nécessairement une base (puisque r ≤ min(n, p)),
sauf dans le cas où r = n ≤ p. dj s’appelle le j-ième facteur principal.
Nous reviendrons plus loin sur une interprétation du point 3.

1.
 
(M uj )1 p
j
1 p
1 p 

c = Y M uj = y · · · y M u j = y · · · y  .
..
X
(M uj )k y k .
=

(M uj )p k=1
2. On a vu (cf (4.1)) que le barycentre des données (cji ) est donné par l’expression matri-
cielle :
c̄ = C 0 D 1I = U 0 M Y 0 D 1I = U 0 M ȳ = 0 ,
puisque les données (yij ) sont centrées. Par ailleurs, en utilisant l’expression matricielle
de la covariance empirique donnée dans (4.2), on obtient
cov(ci , cj ) ij = C 0 DC = U 0 M Y 0 DY M U = U 0 M V M U .

Notez que
 
1 λ1
p 1 p 1 p 1 p 

V M U = V M u · · · u = V M u · · · V M u = λ1 u · · · λp u = u · · · u 0 0 .
λp
On en déduit que (cov(xi , xj ))ij = U 0 M U diag(λ1 , · · · , λp ). Pour terminer, il suffit de
remarquer que
   
(u1 )0 (u1 )0 M u1 · · · (u1 )0 M up
U 0 M U =  ...  M u1 · · · up = 
   .. .. 
. . 
p 0 p0 1 p0 p
(u ) u Mu · · · u Mu
 
hu1 ; u1 iM · · · hu1 ; up iM
=  .. ..
 = Idp ,
 
. .
hup ; u1 iM · · · hup , up iM
puisque (u1 , · · · , up ) est une base M -orthonormée.

3. Par définition de (uj , λj ), V M uj = Y 0 DY M uj = λj uj . En multipliant cette identité par
Y M , et en utilisant l’identité cj = Y M uj , on obtient Y M Y 0 Dcj = λj cj .
4.2.4 Résumé d’une analyse en composantes principales.

En résumé, une ACP prend pour entrées :
— un nuage centré N de n individus y1 , · · · , yn dans un espace de dimension p, Rp . Ces
individus sont rangés dans un tableau de données (n, p) noté Y ;
— D, une matrice (n, n) de poids qui définit une métrique sur Rn ;
— et M , une matrice (p, p) qui définit une métrique sur l’espace des individus Rp .
On note ACP(Y, D, M ) pour faire référence au tableau de données, à la matrice des poids et à
la métrique.
Les sorties de l’ACP sont
— les valeurs propres λ1 , · · · , λp de la matrice V M = Y 0 DY M (λ1 ≥ · · · λr > 0 = λr+1 =
· · · = λp , où r est le rang de la matrice Y ) ;
— les axes principaux u1 , · · · , up vecteurs de Rp qui sont les vecteurs propres associés, et
qui forment une base M -orthonormée de l’espace des individus Rp ;
Y 0 DY M uj = λj uj , hui ; uj iM = δij .
— les composantes principales c1 , · · · , cp , éléments de Rn définis par cj = Y 0 M uj (cj = 0

1 r j
p j > r), ou de façon équivalente les facteurs principaux d , · · · , d définis par d =
pour
j
c / λj .
4.3 ACP dans l’espace des variables.

On s’intéresse dans cette section au nuage V des variables centrées y 1 , · · · , y p qui sont des
éléments de l’espace Rn . Pour obtenir de bonnes représentations planes de ce nuage de points,
on peut adopter la même démarche que pour le nuage des individus, et faire une ACP dans
l’espace des variables. L’objectif est de trouver les sous-espaces principaux F1 , F2 ,. . .etc de Rn
qui conservent au mieux l’information liée à l’inertie contenue dans le nuage des variables V.
Pour construire cette ACP, on a besoin de définir :
— Le tableau de données : Il s’agit du tableau (p, n) obtenu en mettant les vecteurs y 1 , · · · , y p
sous forme de vecteurs lignes, et en mettant ces lignes l’une en dessous de l’autre. Il est
clair que le tableau obtenu est Y 0 .
— Une métrique sur l’espace des variables Rn : on a déjà vu qu’un choix naturel est de
prendre D = diag(p1 , · · · , pn ).
— Un matrice (p, p) de poids : on va ici choisir la matrice M .
On est donc en train de faire une ACP(Y 0 , M, D).
Avec ce choix de métrique et de matrice de poids, on a le résultat :
Proposition 4.3.1 ACP dans l’espace des variables.
1. Les valeurs propres non nulles de l’ACP(Y 0 , M, D) du nuage des variables V sont les
valeurs propres non nulles (λ1 , · · · , λr ) de l’ACP(Y, D, M ) du nuage N des individus .
2. Les axes principaux de l’ACP(Y 0 , M, D) correspondant aux valeurs propres non nulles
(λ1 , · · · , λr ), sont les facteurs principaux (d1 , · · · , dr ) de l’ACP(Y, D, M ) du nuage des
individus.
3. Les composantes
√ principales non nulles de l’ACP(Y 0 , M, D) du nuage V des variables
√
sont ( λ1 u1 , · · · , λr ur ). Autrement dit, les facteurs principaux de l’ACP(Y 0 , M, D) du
nuage V des variables, sont les axes principaux (u1 , · · · , ur ) de l’ACP(Y, D, M ) du nuage
des individus, correspondant aux valeurs propres non nulles.
Preuve : Pour faire l’ACP(Y 0 , M, D) du nuage des variables, il faut diagonaliser la matrice
(n, n) (Y 0 )0 M Y 0 D = Y M Y 0 D.
1. On rappelle les résultats d’algèbre linéaire :
— Soit A une matrice (n, p) et B une matrice (p, p) inversible. rang(AB) = rang(A).
— Soit A une matrice (n, p). rang(AA0 ) = rang(A0 A) = rang(A).
0
En appliquant√le premier résultat, il vient rang(Y M Y √ D) = rang(Y M Y 0 ). En appliquant
√
le second à Y M , on obtient rang(Y M Y 0 ) = rang(Y M ). M étant inversible, M l’est
aussi, et donc rang(Y M Y 0 D) = rang(Y ) = r. Par conséquent, Y M Y 0 D admet n − r
valeurs propres nulles. On a par ailleurs vu dans le point 3. de la proposition 4.2.7 que
c1 , · · · , cr sont vecteurs propres de Y M Y 0 D associés aux valeurs propres λ1 ≥ λ2 ≥
· · · ≥ λr > 0. On a donc montré que les n valeurs propres de la matrice Y M Y 0 D sont
λ1 , · · · , λr et n − r fois la valeur 0.
2. Les vecteurs principaux de l’ACP dans l’espace des variables sont les vecteurs propres
normés de la matrice Y M Y 0 D. Ceux correspondant aux valeurs propres non nulles sont
donc c1 , · · · , cr normés à 1, à savoir les facteurs principaux d1 , · · · , dr de l’ACP(Y, D, M )
des individus.
3. Les composantes principales c̃1 , · · · , c̃r non nulles de l’ACP(Y 0 , M, D) dans l’espace des
variables, sont les coordonnées des y i sur les r premiers axes principaux d1 , · · · , dr :
1 1 λj
c̃j = Y 0 Ddj = p Y 0 Dcj = p Y 0 DY M uj = p uj = λj uj .
p
λj λj λj
Les facteurs principaux d˜1 , · · · , d˜r non nuls de l’ACP(Y 0 , M, D) dans l’espace des va-
riables sont donc :
c̃j
d˜j = = uj .
kc̃j kM
4.4 Les représentations graphiques.

4.4.1 Représentation des individus.
La carte des individus.
Rappelons que le but principel de l’ACP est de fournir une représentation graphique du
nuage des individus sur un espace de dimension q < p (typiquement q = 2, 3). On sait main-
tenant que la ”meilleure” représentation graphique (au sens de l’inertie) est donnée par la
projection du nuage sur l’espace principal Eq engendré par les q premiers axes principaux
u1 , · · · uq , et que la coordonnée de l’individu i sur l’axe uk est cki .
Définition 4.4.1 Pour tout k, l ≤ p (k 6= l), la projection du nuage N sur le plan principal
(∆uk , ∆ul ) est appelé carte des individus.
Qualité de la représentation du nuage des individus.

Rappelons que l’inertie totale du nuage N des individus vaut
n p
X X
I= pi kyi k2M = λj = Trace(V M ) .
i=1 j=1
Définition 4.4.2 La qualité globale de la représentation du nuage N sur le s.e principal Ek

engendré par (u1 , · · · , uk ) est mesurée par le pourcentage d’inertie expliquée par Ek
IEk λ1 + λ2 + · · · + λk
= Pp .
I j=1 λj
Plus cette qualité est proche de 1, plus le nuage de points initial est ”concentré” autour de
Ek , et plus fidèle est son image projetée sur Ek .
Qualité de la représentation d’un individu.

Parallélement à cet indice de qualité globale, on peut définir, pour chaque individu, la qualité
de sa représentation.
Définition 4.4.3 La qualité de représentation de l’individu i sur l’espace principal Ek

est mesurée par le cosinus carré de l’angle que fait yi avec sa projection ŷiEk sur Ek :
Pk j 2
||ŷiEk ||2M j=1 (ci )
cos 2
(yi , ŷiEk ) = = Pp j 2 .
||yi ||2M j=1 (ci )
— Si cos2 (yi , ŷiEk ) est proche de 1, l’individu i appartient ”presque” à Ek , et il est donc bien
représenté sur Ek .
— Si cos2 (yi , ŷiEk ) est proche de 0, l’individu i est mal représenté sur Ek .
Ainsi, la qualité de représentation de l’individu i sur le premier plan principal E2 est mesurée
par
2 E2 ||ŷiE2 ||2M (c1i )2 + (c2i )2
cos (yi , ŷi ) = = Pp j 2 .
||yi ||2M j=1 (ci )
Remarque : Dans une carte des individus, on ne peut tirer de conclusions sur les individus
(regrougements, individus exceptionnels, etc. . .) que si ces individus sont bien représentés dans
le plan principal considéré.
Contribution d’un individu à un axe :

Il s’agit ici de détecter les individus ”influents”, ou ”aberrants”, qui peuvent déterminer
à eux seuls l’orientation des axes, et plus globalement l’ensemble des résultats de l’ACP. Ces
individus sont source d’instabilité dans l’analyse, dans le sens où les résultats de l’ACP sont
totalement différents lorsque l’ACP est faite sur l’échantillon dont on a retiré ces individus. Une
fois détectés, ces individus seront vérifiés (pour voir s’il ne s’agit tout bêtement pas d’une erreur
de transcription), et éventuellement écartés de l’ACP pour être réintégrés ensuite comme indivi-
dus supplémentaires (cf plus loin). Pour les détecter, on définit une mesure de la contribution
de l’individu i à l’inertie du nuage des individus comme le rapport
pi kyi k2M pi pk=1 (cki )2

P
= .
I I
On peut aussi mesurer la contribution d’un individu à chacun des axes principaux. Rappelons
que l’inertie globale portée par l’axe ∆uk vaut λk . Cette inertie se décompose de la manière
suivante : n
X
k
λk = var(c ) = pi (cki )2 .
i=1
pi (cki )2
est la part d’inertie portée par ∆uk , provenant de l’individu i. On définit alors la contri-
pi (cki )2
bution de l’individu i au k-ième axe principal comme le rapport = pi (dki )2 .
λk
Si tous les individus ont le même poids 1/n dans l’analyse, alors les contributions n’ap-
portent pas plus d’information que les coordonnées, et les individus ayant de fortes contribu-
tions peuvent être détectés sur les boı̂tes à moustaches des composantes principales c1 , · · · , cr ,
ou des facteurs principaux d1 , · · · , dr .
Généralement, on considère que la contribution d’un individu à un axe est importante, si
elle excède son poids pi .
Individus supplémentaires :
Il s’agit d’individus qui ne font pas partie de l’échantillon ayant servi pour l’ACP, et qu’on
représente sur les axes principaux. Soit s un tel individu, représenté par un vecteur de Rp . Ses
coordonnées dans le repère d’origine g et d’axes ∆u1 , · · · , ∆up sont données par hs − g, uk iM .
4.4.2 Représentation des variables.

La carte des variables.
Dans l’espace des variables, les axes principaux (correspondant aux valeurs propres non
nulles) sont d1 , d2 , · · · , dr . Une variable y i est donc représentée par sa
projection
sur l’espace
principal Fq (q = 2 ou 3) engendré par d , · · · , d . Ses coordonnées sont y ; d D = cov(y j , dk ) =
1 q i k
√
λk ujk (cf point 3. de la proposition 4.2.7).
Définition 4.4.4 Pour tout k et l ≤ r, la projection du nuage V sur le plan principal engendré
par (dk , dl ) est appelée carte des variables.
Qualité de la représentation du nuage des variables :

L’inertie totale du nuage vaut
r
X
0
I(V) = Trace(Y M Y D) = λj = I(N) = I .
j=1
La qualité globale de la représentation du nuage V sur le s.e principal Fk est mesurée par
λ1 + · · · + λk
Pp .
j=1 λj
Qualité de la représentation d’une variable :

La qualité de la représentation de la variable y j sur l’axe principal engendré par dk est
mesurée par :
k
2 j j,dk ||ŷ j,d ||2D < y j ; dk >2D
cos (y , ŷ ) = = = r2 (y j , dk ) ,
||y j ||2D s2j
√
où r(y j , dk ) est le coefficient de corrélation linéaire entre y j et dk . Comme dk = ck / λk , la
qualité de la représentation de la variable y j sur l’axe principal engendré par dk est aussi égale
à r2 (dj , ck ).
De la même façon, la qualité de la représentation de la variable y j sur le premier plan

principal F2 engendré par d1 et d2 est mesurée par :
||ŷ j,F2 ||2D

cos2 (y j , ŷ j,F2 ) = = r2 (y j , c1 ) + r2 (y j , c2 ) .
||y j ||2D
— Si cos2 (y j , ŷ j,F2 ) est proche de 1, alors la variable y j est bien représentée dans F2 .
— Si cos2 (y j , ŷ j,F2 ) est proche de 0, alors la variable y j est mal représentée sur F2 .
Cas particulier d’une ACP normée. Cercle des corrélations.
On se place ici dans le cadre d’une ACP normée où M = D1/S 2 = diag(1/s21 , · · · , 1/s2p ).
Rappelons que ceci revient à centrer et réduire les données au préalable de l’analyse, et à
prendre pour métrique M = Ip dans l’espace des individus. Considérons Z le tableau centré
réduit :
xj − x̄j
Z = [z 1 , z 2 , . . . , z p ] , où pour tout j = 1, . . . , p, z j = .
sj
On a Z = Y D1/S et l’ACP(Y, D, D1/S 2 ) n’est autre que l’ACP(Z, D, Id).

2
Dans ce cas, kz j kD = var(z j ) = 1 et toutes les variables sont situées sur la sphère unité Sn
de l’espace des variables Rn . L’intersection de cette sphère avec le premier plan factoriel est
donc un cercle unité appelé cercle des corrélations. La projection de z j sur F2 est un point
à l’intérieur du cercle des corrélations, et la représentation de la j-ième variable z j est d’autant
meilleure que sa projection est proche du cercle des corrélations.

Par ailleurs, la coordonnée de
la variable z j sur le k-ième axe principal est donnée par z j , dk D = cov(z j , dk ) = cor(z j , dk )
puisque var(z j ) = var(dk ) = 1. Donc en ACP normée, les composantes des variables
sur le k-ième facteur correspondent aux coefficients de corrélation linéaire entre
ces variables et la j-ième CP cj .
Remarques :
1. L’étude des corrélations des variables z j avec la CP ck permet d’interpréter ck en fonc-
tion des z j . Cette étude des corrélations peut se faire par l’étude des proximités des
projections ẑ j avec le point (1, 0) du plan (v k , v l ).
2. Les cartes des variables facilitent l’interprétation de la matrice des corrélations des va-
0 0 0
riables. Si deux variables z j et z j sont bien représentées par leurs projections ẑ j et ẑ j
sur le plan (v k , v l ) alors :
0
— la proximité des projections ẑ j et ẑ j indique une forte corrélation linaire entre z j et
0
zj ,
0
— des points ẑ j et ẑ j diamétralement opposés indiquent une corrélation négative proche
de −1,
0
— des directions de ẑ j et de ẑ j presque orthogonales indiquent une faible corrélation
0
entre z j et z j .
4.5 Reconstitution des données de départ.

A partir de la décomposition des vecteurs yi de Rp sur la base de vecteurs propres {u1 , · · · , up }
p r
X X
cji uj =
p j
yi = λj di uj ,
j=1 j=1
on peut facilement déduire l’égalité matricielle

p p p
Y = λ1 d1 u01 + λ2 d2 u02 + · · · + λr dr u0r ,
qui représente la matrice Y comme une somme de matrices de rang 1. Cette relation
montre que l’on peut “reconstituer” le tableau centré initial à partir des valeurs propres λj ,
des vecteurs principaux uj ∈ Rp et des facteurs principaux dj ∈ Rn associés, obtenus dans
l’analyse des individus et des variables respectivement. Cette relation est appelée formule de
reconstitution.
Si on se limite aux k (k < r) premiers termes, on obtient une approximation du tableau
initial :
X k
λj dj u0j .
p
Y ≈ Ỹ =
j=1
La matrice Ỹ est de taille (n, p), et de rang k. En effet, pour tout j0 ∈ {1, · · · , p},
k k p
X p j 0
X p j λj0 dj0 si j0 ≤ k ,
Ỹ M uj0 = λj d uj M uj0 = δj,j0 λj d =
0 si j0 > k .
j=1 j=1
On en déduit que rang(Ỹ M ) = k, et comme M est inversible, il résulte que rang(Ỹ ) = k. Le

théorème d’Eckart-Young établit que cette somme des k premiers termes de rang 1 fournit la
meilleure approximation de Y par une matrice de rang k au sens des ”moindres carrés” :
2 n o
Y − Ỹ = inf kY − T k2M,D ; T matrice (n, p) de rang k ,

M,D

kT vkD
où on a noté kT kM,D = supv∈Rp .
kvkM
4.6 Pratique de l’ACP.

4.6.1 Nombre d’axes à retenir.
Le principal objectif d’une ACP étant la réduction du nombre de variables initiales, la
détermination du nombre q d’axes à retenir est donc très importante.
De nombreux critères de choix pour q ont été proposés dans la littérature. Voici les plus
courants.
— La part d’inertie : Souvent la qualité globale de la représentation est utilisée pour

choisir q de sorte que la part d’inertie expliquée par Eq (ou Fq ) soit supérieure à une
valeur seuil fixée a priori par l’utilisateur.
— La règle de Kaiser P : Elle préconise de ne conserver que les valeurs propres supérieures
à leur moyenne (= p pi=1 λi = I/p), seules jugées plus “informatives” que les variables
1
initiales. Dans le cas d’une ACP normée, ne sont donc retenues que les valeurs propres
supérieures à 1. Ce critère a tendance à surestimer le nombre d’axes pertinents.
— L’éboulis des valeurs propres : C’est un graphique présentant la décroissance des
valeurs propres. Il est obtenu en traçant les valeurs propres λj en fonction de leur indice
j. Le principe consiste à chercher un “coude” dans le graphe. Les axes à retenir sont
alors ceux dont les valeurs propres se situent avant le “coude”.
4.6.2 Interprétation de l’ACP.

Les axes factoriels sont interprétés par rapport aux variables bien représentées en utilisant
les contributions, ou le cercle des corrélations.
Les graphiques des individus sont interprétés en tenant compte des qualités de représentation,
en termes de regroupement ou dispersion par rapport aux axes principaux.
Les contributions des individus permettent d’identifier ceux qui ont une grande influence
sur l’ACP. Ces individus sont à vérifier, et éventuellement à considérer comme supplémentaires
dans une autre analyse.
Pour décrire une carte des variables ou des individus, on adoptera le plan sui-
vant :
1. Donner le pourcentage d’inertie expliquée par le plan considéré et chacun des axes ;
2. Indiquer les variables (resp.les individus) mal représenté(e)s dans ce plan pour les exclure
de la description ;
3. Utiliser les contributions
— des variables pour interpréter les axes en termes de variables de départ
— des individus pour identifier ceux qui sont influents pour l’orientation d’un axe et
ceux qui ont une contribution excessive. Ces individus sont source d’instabilité (le fait
d’enlever un tel individu de l’analyse modifiant de manière importante les résultats).
Il est important de vérifier qu’il ne s’agit pas de données erronées et de faire une
nouvelle analyse en les considérant en supplémentaires.
4. Pour une carte des variables : étudier les angles entre les projections des variables
en termes de covariance ou de corrélation dans le cas d’une ACP normée pour dégager
éventuellement des groupes de variables. Vérifier les tendances visualisées sur la carte
par un examen de la matrice de corrélation.
5. Pour une carte d’individus : étudier les proximités ou les oppositions entre les points
en termes de ”comportement” et dégager éventuellement des groupes d’individus et des
comportements singuliers de certains. Vérifier les caractéristiques dégagées par un exa-
men des données de départ.
6. Faire une synthèse des informations et hypothèses principales dégagées de la carte

décrite.
4.7 Tableau récapitulatif

Individus Variables
Espace vectoriel Rp Rn
Tableau des données Y (n, p) Y 0 (p, n)
Matrice des poids D = diag(p1 , · · · , pn ) M
Métrique M D
Matrice à diagonaliser V M = Y 0 DY M Y M Y 0D
Valeurs propres non nulles λ1 ≥ · · · λr > 0 λ1 ≥ · · · λr > 0
1 r
Axes principaux 0 u1 , · · · , up d , · · · ,0 d , ?,
j
···,?
Y DY M uj = λj uj Y M

j kY Dd = λj dj
huj , uk iM = δjk d , d D = δjk
Composantes principales cj = Y M u j c̃k = Y 0 Ddk
2
kcj kD = var(cj ) = λj
cj
Facteurs principaux d1 , · · · , dr , dj = p u1 , · · · , ur
λj
k 2
(c )
Représentations sur le k-ième axe factoriel Pp i j 2 cor2 (y i , ck )
j=1 (ci )
(ck )2
Contributions sur le k-ième axe pi (dki )2 = pi i
λk
4.8 Exemple.
On reprend ici les données du fichier decathlon.csv (package FactoMineR), qui décrivent
les performances d’athlètes aux épreuves du décathlon.
4.8.1 Description du jeu de données.

Il s’agit d’un tableau à 41 lignes (qui correspondent à 41 athlètes) et 13 colonnes. Les 10
premières colonnes donnent les performances aux 10 épreuves du décathlon ; la onzième (Rank)
donne le rang de l’athlète dans la compétition considérée (Jeux Olympiques d’Athènes d’Août
2004, ou Decastar de Sept 2004) ; la douzième (Points) donne le nombre de points obtenus lors
de la compétition ; la treizième (Competition) donne le nom de la compétition. Nous sommes
donc en présence de 10 variables quantitatives, une variable ordinale, une variable discrète, et
une variable qualitative.
4.8.2 Objectif. Choix des variables et des individus actifs.

Le but est ici d’établir
valeur propre % d’inertie % d’inertie cumulée

comp 1 3.5446573 35.446573 35.44657
comp 2 1.9699560 19.699560 55.14613
comp 3 1.4217248 14.217248 69.36338
comp 4 0.9034912 9.034912 78.39829
comp 5 0.5636320 5.636320 84.03461
comp 6 0.5282270 5.282270 89.31688
comp 7 0.4328613 4.328613 93.64550
comp 8 0.3658102 3.658102 97.30360
comp 9 0.1634956 1.634956 98.93855
comp 10 0.1061447 1.061447 100.00000
Table 4.1 – Valeurs propres et part d’inertie associée.
— des ”profils” d’athlètes (rapides, endurants, etc...) en fonction des performances aux
différentes épreuves ;
— des ressemblances entre épreuves.
L’ACP va donc porter sur les 10 premières variables. En ce qui concerne les individus, on va
construire l’ACP sur les athlètes qui ont participé aux JO d’Athènes. On va donc faire une
ACP sur un tableau de taille (28,10). Comme les variables sont dans des unités différentes, on
fait une ACP normée.
Pour cela, on utilise la fonction PCA de R qui fait partie du package FactoMineR.
4.8.3 Choix du nombre d’axes à retenir.

Le tableau 4.1 donne la valeur propre λk , le pourcentage d’inertie correspondant à l’axe
principal ∆uk , et le pourcentage d’inertie correspondant à l’espace principal Ek . La figure 4.1
donne l’éboulis des valeurs propres.
— Si on veut garder le nombre de composantes nécessaires pour prendre en compte 80%
de l’inertie du nuage, on est amené à conserver q = 5 composantes. Mais on a déjà 78%
de l’inertie avec q = 4 composantes.
— Si on applique la règle de Kaiser, on ne conserve que les valeurs propres supérieures à 1.
On conserve donc uniquement q = 3 composantes.
— Si on applique la règle de l’éboulis, on est amené à conserver q = 4 composantes.
On poursuit l’analyse en conservant seulement les quatre premières composantes (qui expliquent
78% de l’inertie du nuage).
4.8.4 Carte des variables.

Les tableaux des contributions et des représentations de chaque variable sur les quatre pre-
miers facteurs principaux sont donnés dans la table 4.2. Le cercle des corrélations correspondant
au premier plan factoriel est donné dans la figure 4.2, celui correspondant aux axes factoriels 3
et 4 est donné dans la figure 4.3.
Eboulis des valeurs propres
3.5
3.0
2.5
2.0
1.5
1.0
0.5
0.0
Figure 4.1 – Eboulis des valeurs propres
Représentations Contributions
Dim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3 Dim.4
100m 0.633 0.064 0.063 0.005 17.86 3.26 4.49 0.56
Long.jump 0.629 0.105 0.024 3.4 e-05 17.76 5.36 1.69 0.003
Shot.put 0.395 0.387 0.0005 1.78 e-02 11.16 19.68 0.035 1.97
High.jump 0.391 0.222 0.0001 1.11 e-02 11.05 11.30 0.011 1.23
400m 0.539 0.244 0.052 1.23 e-02 15.20 12.42 3.71 1.36
110m.hurdle 0.502 0.054 0.001 1.2 e-02 14.17 2.74 0.13 1.33
Discus 0.293 0.445 0.0003 3.84 e-02 8.29 22.60 0.022 4.25
Pole.vault 0.032 0.106 0.389 3.73 e-01 0.90 5.4 27.42 41.36
Javeline 0.082 0.114 0.271 4.29 e-01 2.31 5.83 19.09 47.58
1500m 0.044 0.224 0.616 2.9 e-03 1.25 11.37 43.36 0.32
Table 4.2 – Représentations et Contributions des différentes variables aux quatre premières
composantes principales.
Variables factor map (PCA)
1.0
Discus
Shot.put
1500m
0.5
400m High.jump
Javeline
100m
110m.hurdle
Dim 2 (19.7%)
0.0
Long.jump
Pole.vault
-0.5
-1.0
-1.0 -0.5 0.0 0.5 1.0
Dim 1 (35.45%)
Figure 4.2 – Cercle des corrélations dans le premier plan factoriel.
Le premier axe factoriel explique 35% de l’inertie. Les variables qui ont le plus contribué à
cet axe sont les variables , 100m, Long.jump, 400m, 110m.Hurdle, qui sont aussi très bien
représentées sur cet axe. Cet axe correspond donc à une ”épreuve fictive” qui mesure des
performances en vitesse. On voit sur le cercle des corrélations que le saut en longueur est
négativement corrélé au 100m, 110m haies, et 400m. Cela est évident : plus l’athlète court vite,
plus son temps aux épreuves de course est faible, mais plus il saute loin.
Le deuxième axe factoriel explique 19% de l’inertie. Les variables qui contribuent le plus
à cet axe sont le lancer de poids Shot.put et le lancer de disque Discus. Cet axe correspond
donc à une variable fictive qui mesure des performances en lancer. Toutefois, le lancer de javelot
contribue très peu à cet axe, et y est mal représenté. Il semble donc que le lancer de javelot
fasse appel à d’autres qualités que le lancer de poids et du disque. On peut noter que le 400m
et le saut en hauteur sont bien représentés sur le premier plan factoriel, et contribue de façon
à peu près équivalente aux deux axes. Toutefois, ces deux épreuves sont en opposition selon le
facteur 1.
Le troisième axe explique 14 % de l’inertie. Les variables qui contribuent le plus à cet axe
sont le 1500m, et dans une moindre mesure le saut à la perche et le lancer de javelot. Ce
troisième axe oppose le saut à la perche et le javelot.
Le quatrième axe explique 9 % de l’inertie. Les variables qui contribuent le plus à cet axe sont
la saut à la perche et le lancer de javelot. Notez que ces deux variables contribuent également
de façon significative au troisième axe.
Variables factor map (PCA)
1.0
Javeline
Pole.vault
0.5 Shot.put
Dim 4 (9.03%)
110m.hurdle
400m
100m
0.0
Long.jump
1500m
High.jump
Discus
-0.5
-1.0
-1.0 -0.5 0.0 0.5 1.0
Dim 3 (14.22%)
Figure 4.3 – Cercle des corrélations dans le plan factoriel correspondant aux axes 3 et 4.
4.8.5 Carte des individus.

Les tableaux des contributions et des représentations de chaque individu sur les quatre
premiers axes principaux sont donnés dans la table 4.3. Le nuage de points individus projeté sur
le premier plan principal est donné dans la figure 4.4, celui correspondant aux axes principaux
3 et 4 est donné dans la figure 4.5. Il semble que le premier axe principal oppose des athlètes
”bons partout” (Sebrle, Clay, Karpov) à des athlètes ”faibles partout” (Uldal, Casarsa). Le
classement des athlètes suivant le premier axe principal se confond presque avec le classement
aux JO. Cela pourrait se vérifier en mettant les variables ordinales Points et Rank en variables
supplémentaires, et en regardant leur corrélation avec le premier facteur principal.
Le deuxième axe est plus difficilement interprétable. Néanmoins, le nuage des individus a
une variabilité plus importante sur le deuxième axe, pour les individus dont la coordonnée sur
le premier axe est faible (individus ”faibles partout”). Parmi les athlètes ”faibles”, le deuxième
axe oppose Lorenzo et Korzizoglu, et semble donc opposer les athlètes endurants des autres (cf
les résultats au 1500m).
4.9 Exercices
Exercice 1: Soit M le nuage des cinqs points suivants de R2 :
A(1, 1) B(−1, 0) C(0, 0), D(−1, 1), E(0, 1) ,

Représentations Contributions
Dim.1 Dim.2 Dim.3 Dim.4 Dim.1 Dim.2 Dim.3 Dim.4
Sebrle 0.66 0.11 0.002 0.15 13.89 4.25 0.12 12.47
Clay 0.68 0.038 0.005 0.07 13.56 1.37 0.26 5.55
Karpov 0.80 0.007 0.005 0.133 18.43 0.32 0.32 11.91
Macey 0.36 0.18 0.154 0.12 3.79 3.37 3.99 4.91
Warners 0.46 0.37 0.102 0.03 3.76 5.41 2.05 1.007
Zsivoczky 0.08 0.27 0.18 0.05 0.50 2.92 2.72 1.17
Hernu 0.16 0.08 0.18 0.01 0.49 0.48 1.39 0.12
Nool 0.003 0.33 0.10 0.43 0.03 5.70 2.53 15.96
Bernard 0.36 0.002 0.001 0.39 2.58 0.033 0.033 10.96
Schwarzl 0.002 0.52 0.128 0.059 0.008 3.958 1.35 0.98
Pogorelov 0.011 0.065 0.55 0.009 0.068 0.68 7.96 0.21
Schoenbeck 0.005 0.03 0.11 0.36 0.015 0.15 0.79 4.1
Barras 0.01 0.03 0.61 0.084 0.085 0.27 7.11 1.52
Smith 0.021 0.11 0.23 0.11 0.23 2.31 6.22 4.91
Averyanov 0.008 0.49 0.04 0.013 0.049 5.50 0.66 0.34
Ojaniemi 0.002 0.127 0.007 0.002 0.014 1.14 0.09 0.04
Smirnov 0.10 0.29 0.39 0.026 0.41 2.06 3.88 0.40
Qi 0.159 0.010 0.30 0.035 0.550 0.064 2.62 0.482
Drews 0.014 0.809 0.063 0.025 0.18 17.81 1.943 1.22
Parkhomenko 0.15 0.306 0.047 0.255 1.79 6.26 1.34 11.38
Terek 0.071 0.005 0.49 0.005 0.83 0.12 14.3 0.24
Gomez 0.066 0.18 0.36 0.004 0.43 2.17 5.91 0.11
Turi 0.33 0.003 0.069 0.014 3.39 0.069 1.72 0.55
Lorenzo 0.503 0.17 0.19 0.0005 6.94 4.42 6.78 0.029
Karlivans 0.57 0.003 0.001 0.14 5.60 0.065 0.04 5.61
Korkizoglou 0.12 0.19 0.51 0.04 2.22 6.02 22.65 3.21
Uldal 0.85 0.001 0.027 0.0001 8.68 0.03 0.70 0.006
Casarsa 0.45 0.504 0.006 0.005 11.38 22.94 0.38 0.49
Table 4.3 – Représentations et Contributions des différents athlètes aux quatre premières axes
principaux.
Individuals factor map (PCA)

4
Casarsa
Parkhomenko
Korkizoglou
2
Sebrle
Zsivoczky Macey
Smith
Clay
Dim 2 (19.7%)
Pogorelov
Barras Karpov
Turi Terek
Uldal Bernard
Karlivans Qi
0
Schoenbeck
Hernu
Ojaniemi
Smirnov
Gomez
Lorenzo Schwarzl
Averyanov
Nool Warners
-2
Drews
-4
-4 -2 0 2 4 6
Dim 1 (35.45%)
Figure 4.4 – Nuage des individus projeté sur le premier plan principal.
Individuals factor map (PCA)
Nool
2
Sebrle
Parkhomenko
Clay
Schoenbeck
1
Barras
Zsivoczky Schwarzl
Dim 4 (9.03%)
Smirnov Turi
Terek
Ojaniemi
Uldal
Lorenzo
0
Gomez Hernu Pogorelov

Qi Averyanov
Casarsa
Warners
Drews
Korkizoglou
SmithMacey
-1
Karlivans
Bernard
Karpov
-2
-2 -1 0 1 2 3
Dim 3 (14.22%)
Figure 4.5 – Nuage des individus projeté sur le plan principal correspondant aux axes princi-
paux 3 et 4.
à qui on attribue le même poids.

1. On considère la distance euclidienne usuelle sur M. Faire un graphique représentant ces
points dans un repère orthonormé et calculer l’inertie du nuage.
2. Changement de métrique : déterminer l’expression analytique de la distance dM sur R2
associé à la matrice M = D1/S 2 . Calculer l’inertie dans ce cas.
3. ACP canonique.
(a) Soit u = (1, 1). Calculez l’inertie portée par ∆u , et la déformation du nuage lors de
la projection.Faites un dessin.
(b) Calculez les axes principaux, ainsi que l’inertie associée à ces axes lorsque M = Id.
(c) Calculez les composantes principales et les facteurs principaux.
(d) Dessinez le nuage de points projeté sur le premier axe. Calculez la représentation
globale sur le premier axe, et la contribution de chaque individu sur le premier axe.
4. Comparaison avec la droite de régression. La droite de régression d’un nuage de
points
Pn de R2 données par {(x1i , x2i ); i = 1 · · · n} est la droite x2 = ax1 + b qui minimise
2 1 2
i=1 (xi − axi − b) . Donnez l’expression de a et b dans le cas général. Les calculez dans
le cas particulier du nuage donné par {A, B, C, D, E}. Commentez.
Exercice 2: Faire une ACP sur les données wine du package FactoMineR.
Chapitre 5
Analyse Factorielle des

Correspondances (AFC).
L’analyse factorielle des correspondances a été proposée dans les années soixante par J.P.
Benzécri afin d’étudier la liaison (dite encore correspondance) entre deux variables qualitatives.
Cette méthode permet d’analyser des tables de contingence obtenues en observant deux va-
riables qualitatives X et Y sur un ensemble de n individus, et certains tableaux binaires
(tableaux dits de ”présence-absence”). C’est une méthode très utilisée en analyse des données
textuelles.
Exemple 5.1: (cf livre de G. Saporta) On observe sur 10.000 étudiants les deux variables
qualitatives X=”CSP du père” et Y =”Type d’études supérieures poursuivies”.
Exemple 5.2: On analyse les réponses de 2000 personnes à une question ouverte et on
s’intéresse au tableau croisant les 21 mots les plus utilisés avec 5 niveaux de diplômes des
personnes interrogées. Ici A correspond aux formes (variable qualitative avec 21 modalités) et
B aux diplômes (5 modalités).
Un individu= une occurence d’une forme.
L’Analyse Factorielle des Correspondances (AFC) peut être présentée comme une analyse
en composantes principales avec une métrique spéciale, la métrique du khi-deux.
5.1 Rappels
5.1.1 Table de contingence et profils.
Supposons que la variable X a r modalités (notées l1 , · · · , lr ), et que la variable Y a c
modalités (notées d1 , · · · , dc ). Nous avons vu au chapitre 3.3 que les données peuvent être
résumées dans une table de contingence N , dont les entrées sont les effectifs de chaque couple
(li , dj ) :
nij = nbre d’individus sur lesquels on a observé les modalités li de X et dj de Y
n
X
= 1Ixk =li 1Iyk =dj .
k=1
87
X\Y d1 ··· dj ··· dc total

l1 n11 ··· n1j ··· n1s n1.
.. .. .. .. .. .. ..
. . . . . . .
li ni1 ··· nij ··· nis ni.
.. .. .. .. .. .. ..
. . . . . . .
lr nr1 ··· nrj ··· nrs nr.
total n.1 ··· n.j ··· n.s n
L’opération consistant à établir un tel tableau est appelée un ”tri croisé” dans le domaine de
l’enquête. Les effectifs marginaux sont :
c
X
ni. = nij = ième marge en ligne,
j=1
Xr
n.j = nij = jème marge en colonne.
i=1
On rappelle aussi la définition des profils-lignes :

ni1 nic
Li = ième profil-ligne = ,···, ∈ Rc .
ni. ni.
Le ième profil-ligne donne les fréquences empiriques des modalités d1 , d2 , . . . , dc de la variable
Y , dans le sous-échantillon des individus pour lesquels la variable X vaut li .
De la même façon, les profils-colonnes donnent les fréquences des modalités l1 , l2 , . . . , lr de
la variable X dans le sous-échantillon des individus pour lesquels la variable Y vaut dj .

n1j nrj
Cj = jème profil-colonne = ,···, ∈ Rr .
n.j n.j
5.1.2 Ecart à l’indépendance

Lorsque les variables X et Y sont indépendantes, nous avons vu au chapitre 3.3 que :
nij ni. n.j nij n.j nij ni.
∀i, j, ' ⇔ ∀i, j, = ⇔ ∀i, j, = . (5.1)
n n n ni. n n.j n
Ainsi, les profils-lignes ont tendance à être tous égaux dans le cas où X et Y sont indépendantes.
Il en est de même pour les profils-colonnes.
Pour mesurer l’écart à l’indépendance, on a introduit la quantité :
r X
c ni. n.j 2
X (nij − n
)
tn = ni. n.j
i=1 j=1 n
Pour chaque case (i, j) du tableau, il est important d’étudier sa contribution à tn :

n n 2
nij − i.n .j
ni. n.j
n
CHAPITRE 5. Analyse Factorielle des Correspondances. 89
On peut également calculer le pourcentage par rapport à tn . Ceci met en évidence les asso-
n n
ciations significatives entre modalités des deux variables. Le signe de la différence nij − i.n .j
indique s’il s’agit d’une association sur-représentée (positive) ou sous-représentée (négative).
Nous rappelons que la quantité tn est la statistique du test du χ2 d’indépendance qui permet
de tester (H0 ) : ”Les variables X et Y sont indépendantes” contre (H1 ) :”X et Y sont liées”. En
effet, sous (H0 ), tn est une réalisation d’une variable aléatoire Tn suivant une loi du χ2(r−1)(c−1)
dans la limite des grands échantillons.
Remarque : D’autres indices ont été abondamment proposés pour mesurer la dépendance
entre deux variables. On pourra voir par exemple l’ ouvrage de Goodman et Kruskal : Measures
of association for cross-classifications, Springer-verlag, New-York (1979).
5.2 Principes de l’AFC

Rappelons que notre tableau de données est un tableau de contingence N à r lignes et c
colonnes. Si on note Dr et Dc les matrices diagonales des effectifs marginaux des variables X
et Y :
Dr = diag(n1. , · · · , nr. ) , Dc = diag(n.1 , · · · , n.c ) ,
les tableaux des profils lignes et des profils-colonnes s’écrivent :
Tr = Dr−1 N et Tc = N Dc−1 .
5.2.1 Nuage des profils-lignes

Chaque profil-ligne Li est un point dans l’espace Rc . On est donc en présence d’un nuage de
r points dans Rc , qui dans le cas où X et Y sont indépendantes, a tendance à se concentrer sur
un seul point. Pour juger de la dépendance entre X et Y , on peut donc étudier la forme de ce
nuage de points, au moyen d’une ACP, et considérer le tableau Tr des profils-lignes comme un
tableau individus-variables particulier. Les ”individus” de cette ACP sont alors les modalités
de la variable X et il est assez logique d’affecter à la modalité ci de X un poids reflétant sa
fréquence dans la population. Le i-ème profil-ligne est alors muni du poids fi. = nni. .
Définition 5.2.1 On appelle nuage des profils-lignes Mr , l’ensemble des r points Li de Rc

munis de leurs poids fi. : Mr = {(Li , fi. ) ; i = 1, . . . , r} .
Propriétés :
1. Le centre de gravité gr du nuage Mr (profil-moyen des lignes) a pour coordonnées :
 n   
n
.1
f .1
gr =  ...  =  ...  ∈ Rc .
   
n.c
n
f.c
2. Les points Li de Mr , ainsi que leur centre de gravité gr , appartiennent à un sous-espace

affine de Rc , à savoir l’hyperplan Hc−1 de dimension c − 1 défini par :
( c
)
X
Hc−1 = (x1 , · · · , xc ) ∈ Rc ; xi = 1 .
i=1
Preuve :
1. gr = ri=1 fi. Li . Ainsi pour tout j ∈ {1, · · · , c},
P
r r r
X ni. X ni. nij X nij n.j
gr (j) = Li (j) = = = .
i=1
n i=1
n ni. i=1
n n
2. Pour tout i ∈ {1, · · · , r},
c c
X X nij ni.
Li (j) = = = 1.
j=1 j=1
ni. ni.
Ainsi chaque profil ligne Li est dans Hc−1 . Comme gr est une combinaison linéaire des
Li , gr est aussi dans Hc−1 .
Par analogie avec les notations du chapitre sur l’ACP, on a donc

— Tableau des données : X = Tr = Dr−1 N de taille (r, c) ;
— Tableau des données centrées : Y = X − 1Ic gr0 ;
— Matrice des poids D = diag nn1. , · · · , nnr. = n1 Dr de taille (r, r) ;
— Espace des profils-lignes (”individus”) : Rc , plus précisément Hc−1 .
5.2.2 Nuage des profils-colonnes

Les deux variables X et Y jouant des rôles symétriques, ce qui vient d’être fait pour les
profils-lignes peut aussi être fait pour les profils-colonnes. Chaque profil-colonne Cj est un point
dans l’espace Rr . L’ensemble des profils-colonnes forme donc un nuage de c points dans Rr , qui
dans le cas où X et Y sont indépendantes, a tendance à se concentrer sur un seul point. La
structure de la dépendance entre X et Y peut donc aussi être étudiée en faisant une ACP des
profils-colonnes. Les ”individus” de cette ACP sont alors les modalités de la variable Y et le
n
j-ème profil-colonne Cj est muni du poids f.j = n.j .
Définition 5.2.2 On appelle nuage des profils-colonnes Mc , l’ensemble des c points Cj de

Rr munis de leurs poids f.j : Mc = {(Cj , f.j ) ; j = 1, . . . , c} .
Propriétés :
1. Le centre de gravité gc du nuage Mc (profil-moyen des colonnes) a pour coordonnées :
 n   
1.
n
f1.
 ..   .. r
gc =  .  =  . ∈R .

nr.
n
fr.
2. Les points Cj de Mc , ainsi que leur centre de gravité gc , appartiennent à un sous-espace

affine de Rr , à savoir l’hyperplan Hr−1 de dimension r − 1 défini par :
( r
)
X
Hr−1 = (x1 , · · · , xr ) ∈ Rr ; xi = 1 .
i=1
Par analogie avec les notations du chapitre sur l’ACP, on a donc pour l’ACP des profils-
colonnes
— Tableau des données : X = Tc = Dc−1 N 0 de taille (c, r) ;
— Tableau des données centrées : Y = X − 1Ir gc0 ;
— Matrice des poids D = diag nn.1 , · · · , nn.c = n1 Dc de taille (c, c) ;
— Espace des profils-colonnes : Rr , plus précisément Hr−1 .
n n
Dans le cas de l’indépendance ”empirique” où nij = i.n .j , les nuages Mr et Mc sont donc
réduits à un seul point, leur centre de gravité. Pour continuer l’ACP des profils-lignes et des
profils-colonnes, il faut maintenant définir une métrique dans l’espace des profils-lignes, et une
métrique dans l’espace des profils-colonnes.
5.2.3 Métrique du khi2

Distance entre deux profils-lignes :
La distance choisie entre deux profils-lignes Li et Li0 est la métrique du chi2 définie par :
c 2
2
X n nij ni0 j
dχ2 (Li , Li0 ) = −
j=1
n.j ni. ni0 .
= (Li − Li0 )0 M (Li − Li0 ) = hLi − Li0 , Li − Li0 iM
où la matrice M est la matrice diagonale définie par M = nDc−1 .
Intuitivement, la pondération par nn.j de chaque carré de différence revient à donner des
importances comparables aux diverses modalités dj de la variable Y . Sans cette pondération,
la distance reflète surtout la différence entre les modalités de plus grands effectifs.
De façon plus fondamentale, cette distance a la propriété d’équivalence distribution-
nelle, qui dit qu’on peut regrouper des modalités de Y ayant les mêmes profils-colonnes, sans
changer la distance entre profils-lignes. Cette propriété n’est pas vraie pour la distance eucli-
dienne usuelle. Elle garantit une certaine stabilité par rapport à la nomenclature choisie pour la
construction des modalités d’une variable (par exemple lorsqu’on transforme une variable quan-
titative en variable qualitative, en la découpant en classes). L’analyse est la même lorsqu’on
agrège les modalités de mêmes profils. Plus précisément, on a le résultat suivant :
Théorème 5.2.3 Supposons que deux colonnes de N , Cj et Cj 0 ont même profil, càd
nij nij 0
= pour tout i = 1, · · · , r . (5.2)
n.j n.j 0
Regroupons-les en une seule colonne, notée j ⊕ j 0 , d’effectifs nij + nij 0 , et d’effectif marginal
n.j + n.j 0 . On obtient une nouvelle table de contingence notée Ñ , de taille (r, c − 1), à laquelle
est associée une nouvelle métrique du chi2, notée d˜χ2 , sur les profils-lignes L̃i de Ñ (qui sont
des éléments de Rc−1 ). Cette opération ne modifie pas les distances entre profils-lignes, i.e.,
pour tout i, i0 ∈ {1, · · · , r},
dχ2 (Li , Li0 ) = d˜χ2 (L̃i , L̃i0 ) .
Preuve : Les seuls termes qui diffèrent entre dχ2 (Li , Li0 ) et d˜χ2 (L̃i , L̃i0 ) sont les termes qui
concernent les colonnes j et j 0 . On a donc
dχ2 (Li , Li0 ) − d˜χ2 (L̃i , L̃i0 )
2 2 2
n nij ni0 j n nij 0 ni0 j 0 n nij + nij 0 ni0 j + ni0 j 0
= − + − − − .
n.j ni. ni0 . n.j 0 ni. ni0 . n.j + n.j 0 ni. ni0 .
n 2 n 2 n
= a + b − (a + b)2 ,
n.j n.j 0 n.j + n.j 0
n n 0 n 0 n 0 0
où on a noté a = niji. − ni 0j et b = niji. − ni 0j . En développant le carré, et en regroupant les
i . i .
termes en a2 et b2 , il vient

n n n n n
dχ2 (Li , Li0 ) − d˜χ2 (L̃i , L̃i0 ) = − 2
a + − b2 − 2 ab
n.j n.j + n.j 0 n.j 0 n.j + n.j 0 n.j + n.j 0
n.j 0 n.j n
= n a2 + n b2 − 2 ab
n.j (n.j + n.j 0 ) n.j 0 (n.j + n.j 0 ) n.j + n.j 0
n
n2.j 0 a2 + n2.j b2 − 2n.j 0 n.j ab

=
n.j n.j 0 (n.j + n.j 0 )
n
= (n.j 0 a − n.j b)2
n.j n.j 0 (n.j + n.j 0 )
2
n nij ni0 j nij 0 ni0 j 0
= n.j 0 − n.j 0 − n.j + n.j
n.j n.j 0 (n.j + n.j 0 ) ni. ni0 . ni. ni0 .
2
n 1 1
= (n.j 0 nij − n.j nij 0 ) + (n.j ni0 j 0 − n.j 0 ni0 j )
n.j n.j 0 (n.j + n.j 0 ) ni. ni0 .
= 0,
puisque d’après (5.2), nij n.j 0 = nij 0 n.j et ni0 j n.j 0 = ni0 j 0 n.j .
Distance entre profils-colonnes :

De façon symétrique, on définit la distance entre deux profils-colonnes Cj et Cj 0 par
r 2
2
X n nij nij
dχ2 (Cj , Cj 0 ) = −
i=1
ni. n.j n.j 0
= (Cj − Cj 0 )0 M (Cj − Cj 0 ) = < Cj − Cj 0 , Cj − Cj 0 >M .
avec M = nDr−1 , métrique diagonale sur Rr .
5.2.4 Inertie
Inertie associée au nuage des profils-lignes :
r
X
I(Mr ) = fi. d2χ2 (Li , gr )
i=1
r c 2
X ni. X n nij n.j
= −
i=1
n j=1
n.j n i. n
r X c 2
X ni. n nij n.j 1
= − = tn .
i=1 j=1
n n.j ni. n n
Inertie associée au nuage des profils-colonne :

De la même façon, on montre que I(Mc ) = n1 tn .
5.3 ACP des deux nuages profils

Deux ACP sont possibles :
1. ACP du nuage des profils-lignes avec
— Tableau de données (r, c) : X = Dr−1 N = Tr
— Espace des individus : Rc
— Métrique : M = nDc−1
— Poids : D = n1 Dr
2. ACP du nuage des profils-colonnes avec
— Tableau de données (c, r) : X = Dc−1 N 0 = Tc0
— Espace des individus : Rr
— Métrique : M = nDr−1
— Poids : D = n1 Dc
5.3.1 ACP des profils-lignes.

Matrice à diagonaliser.
En reprenant les notations du chapitre sur l’ACP, la matrice de variance covariance est
donnée par
1
V = X 0 DX − gg 0 = Y 0 DY = N 0 Dr−1 N − gr gr0 ,
n
et la matrice à diagonaliser est :
V M = N 0 Dr−1 N Dc−1 − ngr gr0 Dc−1 .
On a déjà vu que le nuage des profils-lignes était situé sur le sous-espace Hr−1 . Par conséquent,
l’inertie portée par l’axe orthogonal à ce sous-espace est nulle, et le vecteur directeur de cet axe
est donc un vecteur propre de V M associé à la valeur propre 0. On peut voir que cet axe n’est
autre que la droite (Ogr ). En effet, si x ∈ Hr−1 ,
c
0 0
X n
< Ogr , gr x >χ2 = (x − gr ) M gr = n(x − gr ) Dc−1 gr = gr (j)(x(j) − gr (j))
j=1
n .j
c c c
X n n.j n.j X X n.j
= (xj − )= xj − = 1 − 1 = 0.
j=1
n.j n n j=1 j=1
n
Donc, gr est vecteur propre de V M associée à la valeur propre 0. On peut aussi noter que gr
est vecteur propre de la matrice ngr gr0 Dc−1 , associée à la valeur propre 1. En effet,
ngr gr0 Dc−1 gr = n hgr , gr iDc−1 gr = gr ,
n 2 n
puisque n hgr , gr iDc−1 = cj=1 nn.j gr (j)2 = cj=1 nn.j n.j = cj=1 n.j = 1. La matrice ngr gr0 Dc−1
P P P
est en fait la matrice de projection orthogonale sur (Ogr ). En effet, si un vecteur x est orthogonal
(au sens du chi2) à gr , ngr gr0 Dc−1 x = hgr , xiχ2 gr = 0. On a donc montré le résultat suivant :
Proposition 5.3.1 Soit L la matrice
L = N 0 Dr−1 N Dc−1 = Tr0 Tc .
1. L et V M se diagonalise dans la même base orthonormée (pour la métrique du chi2).
2. gr est vecteur propre de V M associée à la valeur propre 0, et vecteur propre de L associé
à la valeur propre 1.
3. Les autres vecteurs propres sont orthogonaux à gr , et sont associés aux mêmes valeurs
propres pour L et V M .
D’après cette proposition, il est donc inutile de centrer le tableau des profils-lignes. De
manière pratique, on effectuera donc une ACP non centrée. Puis à la valeur propre 1 associée à
l’axe (Ogr ), on fera correspondre la valeur propre 0 pour se ramener à une étude centrée en gr .
Composantes principales.
Notons (uk , k ∈ {1, · · · , r − 1}) les vecteurs principaux autres que gr (définis par Luk =
λk uk , λk 6= 1). Les composantes principales donnent les coordonnées des profils-lignes sur
chaque axe : pour tout i ∈ {1, · · · , r},
ck (i) = hLi , uk iχ2 = nL0i Dc−1 uk
c
X nij
= n uk (j) .
n n
j=1 .j i.
Ceci se récrit
ck = Tr (nDc−1 )uk = nDr−1 N Dc−1 uk .
Nous rappelons que les composantes principales sont centrées, et de variance λk .
5.3.2 ACP des profils-colonnes.

Matrice à diagonaliser.
Cette fois, la matrice à diagonaliser est V M = N Dc−1 N 0 Dr−1 − ngc gc0 Dr−1 . Comme pour les
profils-lignes, on montre que gc est vecteur propre de V M associée à la valeur propre 0, et que
diagonaliser V M revient à diagonaliser la matrice C = N Dc−1 N 0 Dr−1 = Tc Tr0 .
Si ck est une composante principale de l’ACP des profils-lignes, on a Dr ck = nN Dc−1 uk , et
donc
C(Dr ck ) = nN Dc−1 N 0 Dr−1 N Dc−1 uk = nN Dc−1 Luk = nλk N Dc−1 uk = λk Dr ck .
Ainsi Dr ck est vecteur propre de C associé à la valeur propre λk . Si on note vk les vecteurs
principaux de l’ACP des profils-colonnes correspondant aux valeurs propres non nulles, on a
k
donc vk = DDcrkc , avec
k r kχ2
r
Dr ck 2 2 = (Dr ck )0 (nDr−1 )(Dr ck ) = n(ck )0 Dr ck = n
X
χ
ni. ck (i)2 = n2 var(ck ) = n2 λk .
i=1
Par conséquent, vk = √1 D ck , i.e. pour tout i ∈ {1, · · · r},

n λk r
1 ni. k
vk (i) = √ c (i) .
λk n
Composantes principales.
Notons (c̃k ) les composantes principales de l’ACP des profils-colonnes. (c̃k ) donne les coor-
données des profils-colonnes sur l’axe de vecteur directeur vk :
r
X nij
k
c̃ (j) = hvk , Cj iχ2 = nCj0 Dr−1 vk =n vk (i) ,
i=1
ni. n.j
ce qui se récrit :
c̃k = nTc0 Dr−1 vk = nDc−1 N 0 Dr−1 vk .
Nous rappelons que les composantes principales c̃k sont centrées, et de variance λk .
5.3.3 Relations de transition

Les composantes principales des profils-lignes et celles des profils-colonnes sont reliées par
des formules simples dont un des intérêts principaux est d’éviter deux diagonalisations. On
diagonalisera la matrice de plus petite dimension.
On peut montrer que les matrices L et C ont mêmes valeurs propres non nulles λk . Leurs
vecteurs propres sont reliés par les relations suivantes :
Théorème 5.3.2 Soit p = rang(L) = rang(C). Pour tout k ≤ p, il existe une relation dite de
transition, entre les vecteurs propres uk et vk :
1
vk = √ Tc uk ,
λk
1
uk = √ Tr0 vk
λk
√
Preuve : Rappelons que Dr ck = n λk vk . Par ailleurs, on a ck = nDr−1 N Dc−1 uk , et donc
Dr ck = nN Dc−1 uk . On en déduit que
1 1
vk = √ N Dc−1 uk = √ Tc uk .
λk λk
√
En multipliant cette identité par Tr0 , on obtient Tr0 vk = √1 Luk
λk
= λk uk .
Le résultat précédent conduit aux relations fondamentales de l’AFC reliant les composantes
principales entre elles, dites les relations quasi-barycentriques :
Théorème 5.3.3 Soit p = rang(L) = rang(C). Pour tout k ≤ p,
c
1 X nij
ck (i) = √ c̃k (j) ,
λk j=1 ni.
r
1 X nij
c̃k (j) = √ ck (i) .
λk i=1 n.j
Preuve :
1 1 1
ck = nDr−1 N Dc−1 uk = √ nDr−1 N Dc−1 Tr0 vk = √ nDr−1 N Dc−1 N 0 Dr−1 vk = √ Dr−1 N c̃k .
λk λk λk
En écrivant cette relation coordonnées par coordonnées, on obtient pour tout i ∈ {1, · · · , r},
c
1 X nij k
ck (i) = √ c̃ (j) .
λk j=1 ni.
La deuxième identité se démontre de la même façon.
Interprétation : A un coefficient de dilatation près de √1λk , la projection du profil-ligne i

sur l’axe k est le barycentre des projections des profils-colonnes pondérés par les fréquences
conditionnelles du profil i (part de la modalité j sachant i). Si nij /ni. est proche de 1 (ce qui
signifie que lorsque X = i, alors on est pratiquement sûr que Y vaut j), alors le barycentre
Pc nil k
l=1 c̃ (l) est proche de c̃k (l), et il en est de même de ck (i). Et on a une interprétation
ni.
analogue pour la projection du profil-colonne j.
La parfaite symétrie entre ACP profil-ligne et ACP profil-colonne (relations quasi-bary-

centriques) conduisent à superposer les plans principaux des deux ACP afin d’obtenir une
représentation simultanée des deux nuages. Mais attention ! Les distances entre les projections
des profils-lignes et des profils-colonnes n’ont pas de sens, puisque ces points sont dans des
espaces différents. On ne peut les interpréter qu’en termes de quasi-barycentres.
Exercice : En utilisant les relations quasi-barycentriques, montrer que les valeurs propres λk
de l’AFC sont inférieures ou égales à 1.
5.4 Formules de reconstitution

Comme en ACP on dispose de formules dites de reconstitution permettant de récupérer le
tableau N à partir des composantes principales c et c̃. Pour tout i ≤ r et tout j ≤ c, on a :
p
!
ni. n.j X 1 k
nij = 1+ √ c (i)c̃k (j) . (5.3)
n k=1
λ k
Les composants prinipales et les valeurs propres expliquent donc en quoi les nij s’écartent des
ni. n.j
n
.
Preuve : On décompose le vecteur gr~Li dans la base orthonormée donnée par les uk . On a
par définition des composantes principales ck (i) :
p p p p
X X 1 k X 1 k X 1 D
Li − gr = k
c (i)uk = 0
√ c (i)Tr vk = 0 −1
√ c (i)N Dr vk = √ ck (i) c c̃k .
k=1 k=1
λk k=1
λk k=1
λk n
En écrivant cette relation coordonnées par coordonnées, on obtient pour tout j ∈ {1, · · · , c},
p
nij n.j X 1 k n.j k
− = √ c (i) c̃ (j)
ni. n k=1
λk n
p
ni. n.j ni. n.j X 1 k
⇔ nij − = √ c (i)c̃k (j)
n n k=1 λk
5.5 Tableau récapitulatif :

Nuage Mr Eléments de base Nuage Mc
des r profils-lignes dans Rc des c profils-colonnes dans Rr
Tr = Dr−1 N Tableau de données Tc0 = Dc−1 N 0
(r, c) (c, r)
nDc−1 Métrique du chi2 nDr−1
1 1
D
n r
Poids D
n c
L = Tr Tc = N 0 Dr−1 N Dc−1
0
Matrice à diagonaliser C = Tc Tr = N Dc−1 N 0 Dr−1
0
(c, c) (r, r)
uk : Luk = λk uk Vecteurs principaux vk : Cvk = λk vk
avec λk 6= 1 avec λk 6= 1
uk =√1 T 0 vk vk = √1 Tc uk
λk r λk
k −1 −1 k −1 0 −1
c = nD r N D c uk Composantes principales c̃ = nDc N Dr vk
n n
ck (i) = n cj=1 ni.ijn.j uk (j) c̃ (j) = n ri=1 ni.ijn.j vk (i)
k
P P
√ √
Dr ck = n λk vk Dc c̃k = n λk uk
Pc nij k Pr nij k
ck (i) = √1 c̃k (j) = √1
λk j=1 ni. c̃ (j) λk i=1 nj. c (i)
5.6 Aides à l’interprétation

Rappelons que deux types de coefficients apportent de l’information intéressante pour l’in-
terprétation des plans factoriels.
— Contribution relative : elle exprime la part prise par une modalité de la variable dans
l’inertie ”expliquée ” par un facteur.
— Cosinus carré : il mesure la qualité de représentation de la modalité sur le facteur.
Contribution relative d’une modalité à l’inertie de l’axe k :

2
fi. ck (i)
— Contribution relative du profil-ligne Li au k-ième axe (de vecteur uk ) : ;
λk 2
f.j c̃k (j)
— Contribution relative du profil-colonne Cj au k-ième axe (de vecteur vk ) : .
λk
Qualité de représentation sur l’axe k :

— Qualité de la représentation du profil-ligne Li sur le k-ième axe (de vecteur uk ) :
ck (i)2
Pr k 2 ;
l=1 c (l)
— Qualité de la représentation du profil-colonne Cj sur le k-ième axe (de vecteur vk ) :

c̃k (j)2
Pc k 2 .
l=1 c̃ (l)
Eléments supplémentaires :
Les points supplémentaires sont des profils qui n’entrent pas dans la construction des axes
mais qui sont représentés dans les plans factoriels. Leur position est interprétée en terme de
quasi-barycentre.
Si on dispose par exemple d’une modalité supplémentaire l0 de la variable X, on peut
calculer la coordonnée du profil-ligne correspondant l0 sur l’axe k en utilisant les formules
quasi-barycentriques :
c
k 1 X n0j k
c (0) = √ c̃ (j) .
λk j=1 n0.
D’autre part on peut également évaluer la qualité de représentation des points supplémentaires
sur l’axe k par le calcul du cos2 .
5.7 Exemple traité sous R.

On reprend ici l’exemple traité dans le livre ”Statistique avec R”. Le fichier de données
université.csv peut être téléchargé sur le site
http://math.agrocampus-ouest.fr/infoglueDeliverLive/enseignement/support2cours/livres/
5.7.1 Description des données.

On a relevé sur n = étudiants des universités françaises en 2007-2008, trois variables quali-
tatives :
— le sexe à deux modalités : F et H ;
— le niveau de diplôme à trois modalités : Licence (L), Master (M), Doctorat (D) ;
— la discipline du diplôme à 10 modalités : Droit et Sciences Politiques (Dr), Sciences
économiques et gestion (SEG), Administration économique et sociale (ES), Lettres,
Sciences du langage et arts (AL), Langues (La), Sciences Humaines et Sociales (SHS),
Pluridisciplinarité Lettres, Langues et Sciences Humaines (PLLSH), Sciences fondamen-
tales et Applications (SF), Sciences de la nature et de la vie (SVT), STAPS.
Les deux premières variables ont été regroupées en une variable qualitatives à 6 modalités :
Lic.F, Lic.H, Ma.F, ... etc.
univ<- read.table("universite.csv",sep=";",header=T,row.names=1)
> rownames(univ)<-c(’Dr’,’SEG’,"ES","AL","La","SHS","PLLSH","SF","SVT","STAPS")
> colnames(univ)<-c("Lic.F","Lic.H","Mas.F","Mas.H","Doc.F",
"Doc.H","F","H","Lic","Mas","Doc")
> univ
univ est une table de contingence à 10 lignes (correspondant aux 10 modalités de la variable
X : ”Discipline”), et 12 colonnes (correspondant aux 6 modalités de la variable Y : ”Niv&Sexe”,
plus les effectifs par sexe, plus les effectifs par niveau, plus l’effectif marginal). On reproduit
dans la table 5.1 la table de contingence de X et Y .
Lic.F Lic.H Ma.F Ma.H Doc.F Doc.H Tot

Dr 69373 37317 42371 21693 4029 4342 179125
EG 38387 37157 29466 26929 1983 2552 136474
ES 18574 12388 4183 2884 0 0 38029
AL 48691 17850 17672 5853 4531 2401 96998
La 62736 21291 13186 3874 1839 907 103833
SHS 94346 41050 43016 20447 7787 6972 213618
PLLSH 1779 726 2356 811 13 15 5700
SF 22559 54861 17078 48293 4407 11491 158689
SVT 24318 15004 11090 8457 5641 5232 69742
STAPS 8248 17253 1963 4172 188 328 32152
Table 5.1 – Données sur les universités
5.7.2 Objectifs. Choix des modalités actives.

On souhaite étudier sur ces données :
— l’impact du sexe sur la discipline choisie ;
— l’impact de la discipline choisie sur la longueur des études ;
— faire des regroupements de disciplines pour lesquelles le profil des étudiants est identique ;
— etc...
Toutes les modalités de la variable ”Discipline” seront des modalités actives. En ce qui
concerne les colonnes de la table univ, seules les 6 premières colonnes seront actives, l’infor-
mation contenue dans les 5 dernières colonnes étant déjà présente dans les 6 premières. Les
colonnes correspondant au sexe, et au niveau de diplôme seront traitées comme des modalités
supplémentaires.
La commande R utilisée pour faire l’AFC, est la commande CA du package FactoMine.
> res.AFC<-CA(univ, col.sup=7:12)
L’objet res.AFC est une liste contenant les résultats de l’AFC, du même type que la liste
de résultat de la commande PCA.
5.7.3 Choix du nombre d’axes à retenir.

Les résultats concernant les valeurs propres sont contenus dans res.AFC$eig. Le tableau
5.2 donne la valeur propre λk , le pourcentage d’inertie correspondant à l’axe principal ∆uk , et
le pourcentage d’inertie correspondant à l’espace principal Ek . La figure 5.1 donne l’éboulis des
valeurs propres.
— Si on veut garder le nombre d’axes nécessaires pour prendre en compte 80% de l’inertie
du nuage, on est amené à conserver les deux premiers axes qui expliquent à eux seuls,
σ
8 % de l’inertie.
— Si on applique la règle de l’éboulis, on est amené à conserver 3 axes.
Valeur Propre Part d’inertie Part d’inertie cumulée

dim 1 0.12 70.72 70.72
dim 2 0.03 15.51 86.23
dim 3 0.02 10.90 97.13
dim 4 0.00 2.63 99.75
dim 5 0.00 0.25 100.00
dim 6 0.00 0.00 100.00
Table 5.2 – Valeurs propres et part d”inertie associée

0.10
0.08
0.06
0.04
0.02
0.00
Figure 5.1 – Eboulis des valeurs propres
On poursuit l’analyse en conservant seulement les deux premiers axes (qui expliquent 86% de
l’inertie du nuage).
5.7.4 Analyse des résultats.

La fonction CA donnent par défaut le graphique des profils-lignes et des profils-colonnes
(représentation simultanée) sur le premier plan. Il est reproduit dans la figure 5.2. Le tableau
des représentations des modalités sur les deux premiers axes est donné dans les tables 5.3 et
5.4.
Concernant la variable Niv&Sexe, les modalités supplémentaires Niv et Sexe permettent
d’interpréter les deux axes principaux. Le premier axe oppose les femmes (à gauche du gra-
phique) et les hommes (à droite du graphique). Le deuxième axe classe le niveau d’études
(Licence en bas du graphe, Master au milieu et Doctorat en haut). Il apparaı̂t que les femmes
ont tendance à faire des études plus longues que les hommes.
Dr EG ES AL La SHS PLLSH SF SVT STAPS

Dim 1 0.30 0.46 0.20 0.91 0.79 0.84 0.04 0.98 0.01 0.21
Dim 2 0.13 0.00 0.80 0.02 0.13 0.15 0.18 0.00 0.41 0.67
Table 5.3 – Représentations des modalités de la variable Discipline

Lic.F Lic.H Ma.F Ma.H Doc.F Doc.H
Dim 1 0.96 0.55 0.14 0.95 0.01 0.46
Dim 2 0.01 0.39 0.33 0.01 0.49 0.26
Table 5.4 – Représentations des modalités de la variable Niv&Sexe
Concernant la variable ”Discipline”, le graphe montre une proximité (d’un point de vue du
profil étudiant) entre les disciplines AL, SHS, Dr. En interprétant les représentations barycen-
triques, on peut voir que ces disciplines sont surtout suivies par des femmes au niveau Licence.
De façon plus générale, les disciplines à gauche du graphe attirent plutôt les femmes, et les
disciplines en bas du graphe sont des disciplines où les études sont courtes.
5.8 Exercice.
On a relevé sur n = 10 individus deux variables qualitatives, la variable X à 4 modalités
{A, B, C, D} et la variable Y à trois modalités {1, 2, 3}. Les résultats sont regroupés dans la
table 5.5 qui donne sous forme d’une ?, les modalités relevées sur un individu.
Ind A B C D 1 2 3
1 ? ?
2 ? ?
3 ? ?
4 ? ?
5 ? ?
6 ? ?
7 ? ?
8 ? ?
9 ? ?
10 ? ?
Table 5.5 – Tableau de présence/absence
1. Donner la table de contingence associée.

2. Quelles sont les deux matrices à diagonaliser lors de l’AFC de cette table.
3. Donner les valeurs propres de l’AFC.
4. Donner les axes principaux de l’ACP des profils-lignes, et ceux de l’ACP des profils-
colonnes.
5. Donner les composantes principales des profils-lignes et des profils-colonnes.

6. Faire la représentation simultanée des profils-lignes et des profils-colonnes sur le plan
principal.
CA factor map
Doc.F
Doc
0.4
Doc.H
PLLSH
● SVT
●
Ma.F
0.2
Ma
SHS
AL F ● Dr
●
Ma.H
SF
Dim 2 (15.51%)
●
Tot EG
0.0
Lic.F ● ●
●
H
Lic
La Lic.H
−0.2
ES
−0.4
STAPS
−0.6
−0.4 −0.2 0.0 0.2 0.4 0.6 0.8
Dim 1 (70.72%)
Figure 5.2 – AFC sur les données des universités. Plan principal
Chapitre 6
Références.
un bon investissement : ”Probabilités, Analyse des données et Statistique”, de Gilbert

Saporta. Editions Technip.
Pour apprendre R, et autres.. : ”Statistiques avec R”, de Pierre-André Cornillon,
Arnaud Guyader, François Husson, Nicolas Jégou, Julie Josse, Maela Kloareg, Eric
Matzner-Lober, Laurent Rouviére. Presses Universitaires de Rennes.
ainsi que le site des auteurs du livres :
http ://math.agrocampus-ouest.fr/infoglueDeliverLive/enseignement/support2cours/livres
/statistiques.avec.R
deux sites où vous trouverez beaucoup d’informations utiles :
— Le site de Ricco Rakotomalala : http ://chirouble.univ-lyon2.fr/ ricco/data-mining/
— Le site http ://wikistat.fr/
Le polycopié du cours de M1MASS d’”Analyse exploratoire des données”, fait
par Marie-Christine Roubaud. Je la remercie chaleureusement de m’avoir gracieu-
sement donné ses fichiers sources. Les chapitres sur l’ACP et l’AFC en sont une simple
retouche.
105

AnalyseDonnees PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

AnalyseDonnees PDF

Transféré par

Droits d'auteur :

Formats disponibles

Aix Marseille Université

Cours d’Analyse des données.

2 Statistique descriptive unidimensionnelle. 9

3 Statistique descriptive bidimensionnelle. 29

3.3.2 Quantités empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4 Analyse en Composantes Principales. 55

5 Analyse Factorielle des Correspondances (AFC). 85

5.3 ACP des deux nuages profils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

d’intérêt. La tableau suivant donne la terminologie des méthodes utilisées suivant la

Variable à expliquer Variable à expliquer

Avant de rentrer dans l’analyse de données multidimensionnelles, nous allons commencer

Si tous les individus ont même poids, alors wi = n1 .

2.1 Une seule variable quantitative discrète.

Table 2.1 – Tableau représentant les données de l’exemple 2.1.

2.1.1 Différentes représentations.

2.1.2 Caractéristiques numériques

Caractéristiques de position : elles donnent un ordre de grandeur de la série.

Une représentation synthétique de ces caractéristiques est donnée par le diagramme-boı̂te

0.4 Tout l’intervalle est

Figure 2.2 – Quantiles empiriques sur les données de l’exemple 2.1.

Figure 2.3 – Diagramme-boı̂te sur les données de l’exemple 2.1.

2.2 Une seule variable quantitative continue.

2.2.1 Représentations graphiques.

et on peut montrer que la convergence est uniforme (théorème de Glivenko-Cantelli).

L’histogramme associé à ce découpage est la courbe x ∈ Ij 7→ Hn (x) = nj .

n(xmax − xmin )/k. L’histogramme normalisé est alors la courbe

Par la loi des grands nombres, on a alors pour (presque) tout ω,

— le paramètre dit de lissage λ est à choisir (strictement positif..).

où la dernière égalité

lim lim ĥn,λ (x) = fX (x) .

2.2.2 Caractéristiques numériques.

2.3 Une seule variable qualitative.

Histogramme normalisé Estimateur à noyau

Courbes cumulatives Diagramme boîte

Blond Roux Châtain Brun Noir de jais

2.4 Vers la statistique inférentielle. Normalisation de don-

Blond Roux Chât Brun Noir

Diagramme baton Camembert

2.4.1 Comment tester la normalité ?

2.4.2 Que faire si l’hypothèse de normalité n’est pas satisfaite ?

Proposition 2.4.1 : Si X est une variable de fonction de répartition F continue, Y = Φ−1 ◦

P(Y ≤ x) = P(Φ−1 (F (X)) ≤ x) = P(F (X) ≤ Φ(x)) = P(X ≤ F −1 (Φ(x))) = F (F −1 (Φ(x))

La fonction de répartition de Y étant la fonction de répartition de N(0, 1), Y ∼ N(0, 1).

∀α ∈]0, 1[ , F −1 (α) = H(Φ−1 (α))

Figure 2.6 – Les transformations de Bickel & Doksum

Les transformations de Box-Cox.

effet pour tout x ∈ R, en utilisant la croissance de hλ,θ ,

1.4 Densités Fonctions de répartition Graphe Quantile−Quantile

−2 −1 0 1 2 3 −2 −1 0 1 2 3 −0.5 0.0 0.5 1.0 1.5 2.0

Figure 2.7 – Ecart à la normalité des données brutes

Densités Fonctions de répartition Graphe Quantile−Quantile

Figure 2.8 – Ecart à la normalité des données transformées

2.5.2 Une seule variable quantitative continue.

0.8140209 -0.3069065 -0.1498516 0.4691868 -1.3875180 0.1511367 0.7778028 1.2516469

1. Tracer l’histogramme correspondant au découpage

R =] − ∞, −3]∪] − 3, −2]∪] − 2, −1]∪] − 1, 0]∪]0, 1]∪]1, 2]∪]2, 3]∪]3, +∞[ .

2. Tracer la fonction de répartition empirique ;

Exercice 4: Approximation de la densité par un histogramme.

dn = sup |hn (x) − φ(x)| ,

où φ(x) désigne la densité de la loi N(0, 1)

4. Tracer le graphe n → dn . Commenter.

dn = sup |Fn (x) − Φ(x)| ,

où Φ(x) désigne la fonction de répartition de la loi N(0, 1) ;

Yij = µi + ij , i ∈ {1, · · · , r} , j ∈ {1, · · · , ni }

puisque et X sont indépendantes. Donc P [Y ≤ t|X = cj ] = P [µj + ≤ t] est la fonction