Analyse Des Donnees

Analyse des donnees
Francois Brucker
28 janvier 2007
2
Table des matières
1 Les donnees 7
1.1 Espaces de representation . . . . . . . . . . . . . . . . . . . . 7
1.2 Espaces engendres par des variables . . . . . . . . . . . . . . . 8
1.2.1 Variables numeriques . . . . . . . . . . . . . . . . . . . 8
1.2.2 Variables ordinale et nominales . . . . . . . . . . . . . 9
1.3 Espace des modèles . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Distances et similitude dans les espaces de representation . . . 12
1.4.1 Dissimilarites et similarites . . . . . . . . . . . . . . . 13
1.4.2 Variables continues . . . . . . . . . . . . . . . . . . . . 14
1.4.3 Variables booleennes (presence/absence) . . . . . . . . 15
2 Description dune ou deux variables 17
2.1 Description dune variable . . . . . . . . . . . . . . . . . . . . 18
2.1.1 Distribution . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.2 Valeurs centrales . . . . . . . . . . . . . . . . . . . . . 21
2.1.3 Paramètres de dispersion . . . . . . . . . . . . . . . . . 23
2.1.4 Bote à moustaches . . . . . . . . . . . . . . . . . . . . 27
2.2 Description de deux variables . . . . . . . . . . . . . . . . . . 27
2.2.1 Nuage de points et regression lineaire . . . . . . . . . 28
2.2.2 Correlation lineaire et axe principal . . . . . . . . . . 31
2.2.3 Test du
2
dindependance . . . . . . . . . . . . . . . . 33
3 Analyse en composantes principales 37
3.1 Exemple avec les mains . . . . . . . . . . . . . . . . . . . . . 37
3.2 Principe de la methode (sans les mains) . . . . . . . . . . . . . 39
3.3 Reformulation des donnees . . . . . . . . . . . . . . . . . . . . 40
3.3.1 Matrice de donnees . . . . . . . . . . . . . . . . . . . . 40
3.3.2 Poids des donnees . . . . . . . . . . . . . . . . . . . . . 40
3
4 TABLE DES MATI
`
ERES
3.3.3 Matrices de description . . . . . . . . . . . . . . . . . 41
3.3.4 Reduction des donnees . . . . . . . . . . . . . . . . . . 42
3.4 Recherche des sous-espaces principaux . . . . . . . . . . . . . 43
3.4.1 Un sous-espace à 1 dimension . . . . . . . . . . . . . . 45
3.4.2 Sous-espaces principaux à plus d1 dimension . . . . . 47
3.4.3 Axes principaux . . . . . . . . . . . . . . . . . . . . . . 48
3.5 Inertie et sous-espace principal . . . . . . . . . . . . . . . . . 48
3.6 Description du nuage des individus . . . . . . . . . . . . . . . 50
3.6.1 Description du nuage des caractères . . . . . . . . . . . 52
3.6.2 Reconstructions et transitions . . . . . . . . . . . . . . 53
3.7 Interpretation des resultats . . . . . . . . . . . . . . . . . . . . 54
3.7.1 Valeurs propres, facteurs et composantes principales . . 55
3.7.2 Composantes principales et representation graphique . 55
3.7.3 Interpretation des axes et des projections . . . . . . . . 58
3.8 Cas General et utilisation des metriques . . . . . . . . . . . . 60
3.8.1 Metrique . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.8.2 Espace des individus . . . . . . . . . . . . . . . . . . . 61
3.8.3 Espace des caractères . . . . . . . . . . . . . . . . . . 61
3.8.4 A.C.P avec une metrique quelconque . . . . . . . . . . 62
3.9 Quelques remarques . . . . . . . . . . . . . . . . . . . . . . . . 63
3.9.1 Lanalyse en facteurs communs et speciques . . . . . . 63
3.9.2 Lanalyse en composante principale . . . . . . . . . . . 63
4 Classication 65
4.1 Modèles de classication . . . . . . . . . . . . . . . . . . . . . 66
4.1.1 Partitions et hierarchies . . . . . . . . . . . . . . . . . 68
4.2 Methodes de partitionnement . . . . . . . . . . . . . . . . . . 71
4.2.1 Choix dune partition . . . . . . . . . . . . . . . . . . . 71
4.2.2 k-means . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2.3 Algorithme des transferts . . . . . . . . . . . . . . . . 80
4.3 Lalgorithme de Classication Ascendante Hierarchique (C.A.H.)
82
4.3.1 Pseudo-code . . . . . . . . . . . . . . . . . . . . . . . . 82
4.3.2 Cas particuliers . . . . . . . . . . . . . . . . . . . . . . 83
4.3.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . 83
TABLE DES MATI
`
ERES 5
5 Lanalyse discriminante 87
5.1 Principe de la methode . . . . . . . . . . . . . . . . . . . . . . 87
5.1.1 Matrices de variances intraclasse et interclasses . . . . 88
5.1.2 Variance dun caractère . . . . . . . . . . . . . . . . . . 88
5.1.3 Facteurs et caractères discriminants . . . . . . . . . . . 89
5.1.4 Recherche des facteurs . . . . . . . . . . . . . . . . . . 90
5.2 Lanalyse discriminante decisionnelle . . . . . . . . . . . . . . 90
5.3 Lanalyse discriminante comme cas particulier dA.C.P. . . . . 91
6 Lanalyse factorielle des correspondances 93
6.1 Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.2 Les nuages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.3 La distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.4 Analyses des nuages . . . . . . . . . . . . . . . . . . . . . . . 97
6.4.1 Matrices V . . . . . . . . . . . . . . . . . . . . . . . . 97
6.4.2 A.C.P en ligne et colonne . . . . . . . . . . . . . . . . 98
6.4.3 Valeurs propres . . . . . . . . . . . . . . . . . . . . . . 98
6.4.4 Vecteurs Propres et composantes pruincipales . . . . . 99
6.5 Representation simultanee des lignes et des colonnes . . . . . . 100
6.6 Interpretations . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.6.1 Contribution absolue dune modalite à un axe . . . . . 101
6.6.2 Contribution relative dun axe à une modalite . . . . . 102
6.7

Elements supplementaires . . . . . . . . . . . . . . . . . . . . 102
6.8 Exemple simple . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6 TABLE DES MATI
`
ERES
Chapitre 1
Les donnees
1.1 Espaces de representation
Pour analyser un ensemble ni dobjets X (dans la suite de ce syllabus,
on supposera toujours que le nombre delements de X est n et on les notera
indieremment x
1
, x
2
, . . ., x
n
, x, y, z, t, . . .), il faut disposer dinformations
permettant soit de caracteriser les objets soit de les comparer. Ces informa-
tions se laissent representer de diverses manières qui correspondent à autant
despaces de representation dans lesquels les objets peuvent etre plonges.
Une description des objets mobilise le plus souvent des paramètres (que lon
supposera en nombre ni) et lon parlera alors despace de representation
engendre par des variables. Ces variables peuvent etre de plusieurs types :
variables numeriques, variables ordinales et variables nominales.
On appellera le plus souvent individus les objets de X et caractères les
variables associees.
Une variable numerique peut-etre discrète ou continue. On dit quune
variable est continue lorsque entre deux valeurs observees toute valeur est
observable (une taille, un poids). Votre compte en banque, compte en cen-
times deuros, est quant à lui un exemple de variable discrète.
Une variable ordinale ne retient que des comparaisons entre des valeurs
(je prefère x à y, x est plus interessant que y, . . .). Chaque variable ordinale
induit une relation dordre soit sur lensemble X, soit sur un ensemble de
references a priori independant de X (un peu, beaucoup, à la folie, pas du
tout, . . .).
Une variable nominale est decrite par un ensemble de valeurs non com-
7
8 CHAPITRE 1. LES DONN
EES
parables (une categorie socioprofessionnelle, une couleur, une appartenance
politique, . . .). Un cas particulier de variables ordinales sont les variables bi-
naires qui ne prennent que deux valeurs notees 0 et 1. Celles-ci peuvent etre
dichotomiques : les deux modalites sont mutuellement exclusives et toutes
deux signicatives (le 1 et le 2 qui, plutot que 0 et 1 designent le sexe pour
la securite sociale), ou de presence/absence : seule une modalite à un sens
(posseder ou pas un caractère donne).
1.2 Espaces engendres par des variables
Supposons que nos n objets soient decrits par un ensemble de p variables.
Lespace de representation E qui leur sera associe sera le produit cartesien
des ensembles engendre par icelles. On a ainsi E = R
p
, lorsque les variables
sont continues ; tandis dans dans les autres cas on peut poser E = N
p
. Les
variables booleennes correspondant au cas particulier {0, 1}
p
.
1.2.1 Variables numeriques
Lespace euclidien R
p
est lespace de representation de analyse (geome-
trique) des donnees, cest pourquoi le present syllabus lui sera presque ex-
clusivement consacre. Chaque objet x
i
X est ici code par un p-uplet
x
i
= (x
1
i
, x
2
i
, . . . , x
p
i
) dans lequel x
j
i
est la valeur que prend la j-ième variable
sur lobjet x
i
Le tableau ci-après (tableau 1.1) montre un exemple dobjets (les lignes)
decrites par des donnees numeriques (les colonnes).
En analyse des donnees, la demarche dière de celle adoptee en statistique
inferentielle o` u lensemble des objets est souvent vu comme un echantillon
dune population plus vaste et lon cherche à trouver des informations sur
cette population à partir de lechantillon considere. Ici, X est la population
et les valeurs prises par chaque variable constituent une distribution observee
à partir de laquelle on peut calculer des paramètres (la moyenne, la variance,
. . .), expliquer les valeurs prises par certaines variables à partir de valeurs
prises par dautre (regressions), ou encore structurer les donnees (analyses
factorielles).
1.2. ESPACES ENGENDR
ES PAR DES VARIABLES 9

Tab. 1.1 Patrimoine selon la categorie socioprofessionnelle
Livrets

Epargne Placements Actions Pierre Terres
logement obligatoires
bons,. . . (assurances)
(LIV) (ELB) (POA) (ACT) (PIE) (TER)
Anciens independants
non agricoles (AI) 8,00 6,00 10,00 23,00 44,00 9,00
Professions liberales
(PL) 6,00 8,00 17,00 25,00 35,00 9,00
Industriels, artisans
commercants (IAC) 5,00 6,00 13,00 36,00 34,00 6,00
Cadres superieurs (CS) 9,00 9,00 14,00 40,00 23,00 5,00
Agriculteurs (AG) 11,00 13,00 16,00 7,00 19,00 34,00
Anciens agriculteurs
(AA) 14,00 13,00 13,00 6,00 27,00 27,00
Anciens salaries (AS) 16,00 14,00 13,00 25,00 26,00 6,00
Professions
intermediaires (PI) 17,00 15,00 17,00 20,00 26,00 5,00
Employes (EM) 22,00 14,00 18,00 11,00 27,00 8,00
Ouvriers (OU) 24,00 18,00 25,00 8,00 20,00 5,00
1.2.2 Variables ordinale et nominales
Une variable ordinale induit un ordre total sur lensemble X des objets,
lespace de representation associe est donc un produit direct dordre totaux.
Nous ne parlerons que très peu de ce genre de donnees par la suite, et nous
nous restreindrons aux variables booleennes, dont le tableau 1.2 donne un
exemple.
A : lanimal pond-t-il des ufs ?
B : presence de plumes ?
C : presence decailles ?
D : presence de dents ?
E : lanimal vole-t-il ?
F : lanimal nage-t-il ?
G : lanimal respire-t-il dans lair (1) ou dans leau (0) ?
Ce genre de donnees peut etre represente en utilisant une terminologie
booleenne. Soit X lensemble des n objets decrits par un ensemble A =
{A, B, C, . . .} de m attributs ou variables binaires. Chacun, par exemple A,
peut prendre les valeurs a (dite forme directe, codee 1) et a (dite forme
indirecte, codee 0). Ceci peut etre ramene à un tableau de valeurs 0 ou 1
avec n lignes correspondant aux elements de X et m colonnes correspondant
aux attributs. Par abus de notation, la variable A sera parfois confondue avec
sa forme directe a.
EES
Tab. 1.2 tableau booleen
A B C D E F G
Autruche 1 1 0 0 0 1 1
Canari 1 1 0 0 1 0 1
Canard 1 1 0 0 1 1 1
Requin 1 0 0 1 0 1 0
Saumon 1 0 1 0 0 1 0
Grenouille 1 0 0 0 0 1 1
Crocodile 1 0 0 1 0 1 1
Barracuda 1 0 1 1 0 1 0
Le tableau 1.2 est alors equivalent à la formule ci-après qui est veriee
par les assignations induites par les lignes :
= ab c
d e
fg ab c
de
fg
ab c
defg a
b cd ef g
a
bc
d ef g a
b c
d efg
a
b cd efg a
bcd ef g
La formule est alors vraie si et seulement si les variables binaires cor-
respondent à une ligne du tableau. En eet, chaque ligne du tableau 1.2 est
une suite de variables binaire liee par des ET (la première ligne du tableau
est ainsi ab c
d e
fg qui correspond à lautruche), chaque ligne etant liee aux

autres par des OU (le symbole ).
En utilisant le calcul dans les algèbres de Boole, on peut simplier .
Par exemple, à chaque fois quon a deux monome du type x x, on peut
utiliser la règle (x) ( x) = (par exemple ab c
d e
fg ab c
de
fg = ab c
fg).
Après simplication, la formule precedente donne :
= [b c
dg(

f e)
b c ef(d g)
b ef g(d c)]a
La simplication de montre que la variable a nest pas pertinente
pour decrire les dierences entre nos animaux puisquils pondent tous des
ufs (la variable a est vraie pour toute les lignes). Cette formule reduite
peut se representer comme dans la gure 1.1, qui permet de caracteriser les
dierences entre les individus.
1.3. ESPACE DES MOD
`
ELES 11
a
b c d g b c e f b e f g
e d g d c f
Autruche
Canari
Canari
Canard
Requin Grenouille
Crocodile
Requin
Barracuda
Saumon
Barracuda
Fig. 1.1 relation entre les animaux du tableau 1.2
La gure 1.1 montre par exemple que les dierences entre un canard et
une autruche est alors e et f, une autruche ne volant pas et un canard ne
nageant pas.
Attention, les animaux peuvent se retrouver dans plusieurs branches, ainsi
la dierence entre une autruche et un canari etant uniquement la variable e
(lautruche se dierenciant du canari par le fait quelle ne vole pas).
1.3 Espace des modèles
Analyser des donnees revient à les reorganiser selon la methode choisie.
Chaque methode opère un recodage des donnees, les plongeant dans un autre
espace appele espace des modèles.
Si lespace de representation correspond à un espace naturel de re-
presentation des donnees, lespace des modèles correspond quant à lui à un
espace de travail o` u les donnees sont iterativement traitees (recodees) jusque
à la n de lanalyse. On obtiendra ainsi par exemple des classes dobjets, ou
encore un ensemble de vecteurs sur lesquels on projette les objets. Cest de cet
espace que lon pourra deduire des connaissances propres aux donnees, cest
à dire de reconnatre des congurations, des structures, des formes, induites
par les caracteristiques propres des objets.
Analyser des donnees est ainsi un processus o` u lon commence par choisir
les caracteristiques des objets que nous voulons analyser (les placer dans
lespace de representation), puis une methode danalyse (une classication
non-hierarchique, ou une analyse en composantes principales par exemple).
Les resultats (dans lespace des modèles) pouvant alors etre interpretes et
EES
nous renseigner sur les objets eux-memes (ceux du vrai monde). Ce processus
est schematise dans la gure 1.2.
Le vrai
monde
Espace de
reprsentation
Espace des
modles
codage re-codage
re-codage connaissances
i
n
f
o
r
m
a
t
i
o
n
s
q
u
e
s
t
i
o
n
s

?
m
a
t
h
s

+
a
l
g
o
r
i
t
h
m
e
s
Rponses
Fig. 1.2 chane de lanalyse
1.4 Distances et similitude dans les espaces
de representation
Comme vu dans la partie precedente, le choix de caractères permettant
de decrire les objets à analyser permet de les situer dans un espace de
representation E. Reconnatre des structures induites par cette representation
implique une etape preliminaire qui est de se doter doutils metriques permet-
tant de mesurer des distances (ou des ressemblances, des dissemblances, . . .)
entre lesdits objets. Pour cela, il nous faut associer à chaque paire dobjets un
nombre positif ou nul, dautant plus petit que les objets sont semblables
(ou, si cela à un sens dans E, que les objets sont proches lun de lautre).
Après avoir rappele les dierentes denitions de dissimilarite et de dis-
tances, nous donnerons quelques types particuliers de distances parmi les
1.4. DISTANCES ET SIMILITUDE DANS LES ESPACES DE REPR
ESENTATION13
plus usites, pour des variables continues et des variables booleennes.
1.4.1 Dissimilarites et similarites
Denition 1 On appelle dissimilarite sur un ensemble dobjets X, une fonc-
tion d de X X dans lensemble des reels telle que les proprietes ci-dessous
soient satisfaites :
(D
1
) : d(x, y) 0 pour tous x, y X (positivite)
(D
2
) : d(x, x) = 0 pour tout x X
(D
3
) : d(x, y) = d(y, x) pour tous x, y X (symetrie)
On dira quune dissimilarite d sur X est propre lorsque :
(D
4
) : d(x, y) = 0 x = y pour tous x, y X
Une dissimilarite propre d sur X est appelee une distance si elle satisfait
linegalite triangulaire :
(D
5
) : d(x, y) d(x, z) +d(z, y) pour tous x, y, z X
Un espace metrique est un couple (X, d) forme dun ensemble dobjets X
et dune distance d sur X.
On peut, par opposition aux dissimilarites qui soulignent les dissem-
blances entre objets, denir une similarite sur X qui en soulignera les res-
semblances. Une similarite s sur X veriera donc, outre (D
1
) et (D
3
), une
propriete duale de (D
2
) :
(D
2
) : d(x, x) = max{d(x, y)|y X} pour tout x X
On peut facilement associer une dissimilarite d à toute similarite s :
d(x, y) = max{s(x, x), s(y, y)} s(x, y)
et reciproquement, associer une similarite s à toute dissimilarite d :
s(x, y) = max{d(z, t)|z, t X} d(x, y)
Remarque 1 On peut noter que la première transformation nest pas une
bijection et quil est impossible, dans le cas general, de retrouver la similarite
initiale à partir de la dissimilarite. Ceci vient du fait que pour deux objets
x et y on peut avoir s(x, x) = s(y, y) alors que d(x, x) est toujours egal à
d(y, y) (puisque ca vaut 0).
EES
1.4.2 Variables continues
Nous nous restreignons ici aux distances issues des normes L
q
. Les dis-
tances de correlation et la distance du
2
seront etudiees plus tard, dans le
cadre de lanalyse en composantes principales et de lanalyse factorielle des
correspondances.
On rappelle que pour un espace de representation E = R
p
, chaque objet
x
i
de X est un vecteur à m dimension x
i
= (x
1
i
, . . . x
j
i
, . . . x
p
i
). On peut ainsi
denir les distances :
L
1
(encore appelee distance de Manhattan, ou city block distance) :
d(x
i
, x
j
) =
1kp
1
p
|x
k
i
x
k
j
|
L
2
(encore appelee distance euclidienne) :
d(x
i
, x
j
) =

1kp
1
p
(x
k
i
x
k
j
)
2
et plus generalement L
q
:
d(x
i
, x
j
) = (
1kp
1
p
|x
k
i
x
k
j
|
q
)
1
q
et, nalement L
(encore appelee distance du sup ou norme uniforme) :

d(x
i
, x
j
) = sup
1kp
|x
k
i
x
k
j
|
Le resultat suivant (du à Gauss (1931) dans le cas de 3 dimensions et
generalise en 1850 par Hermite) permet de caracteriser une distance eucli-
dienne :
Theorème 1 Une condition necessaire et susante pour quune distance d
soit euclidienne est quil existe x tel que la matrice carree de terme general
w
ij
=
1
2
(d(x, x
i
)
2
+d(x, x
j
)
2
d(x
i
, x
j
)
2
)
soit semi-denie positive (cest à dire que ses valeurs propres sont toutes
positives ou nulles). La dimension minimale de lespace euclidien o` u (X, d)
peut-etre isometriquement plonge est egal au rang de la matrice (w
ij
)
i,j
. De
plus, cette propriete est independante du choix de x.
1.4. DISTANCES ET SIMILITUDE DANS LES ESPACES DE REPR
ESENTATION15
1.4.3 Variables booleennes (presence/absence)
Ici, lespace de representation est E = {0, 1}
p
et une variable positionnee
à 1 (respectivement 0) signie la presence (respectivement labsence) de lat-
tribut. Seule la valeur 1 est ainsi signicative.
Si lon considère les variables comme des attributs (presents ou absents),
chaque objet x
i
possède un ensemble E
i
de caractères (E
i
est donc constitue
des variables qui prennent sur x
i
la valeur 1). En notant E\F lensemble des
elements de E qui ne sont pas dans F, la dierence symetrique entre E
i
et
E
j
peut secrire :
E
i
E
j
= (E
i
\E
j
) (E
j
\E
i
)
De là, on peut deduire un grand nombre de distances dont :
la distance de la dierence symetrique :
d(x
i
, x
j
) = |E
i
E
j
|
la distance de la dierence symetrique normalisee (encore appelee dis-
tance de Hamming) :
d(x
i
, x
j
) =
|E
i
E
j
|
p
la distance de Jaccard :
d(x
i
, x
j
) = 1
|E
i
E
j
|
|E
i
E
j
|
distance de Czekanovski-Dice :
d(x
i
, x
j
) = 1
2|E
i
E
j
|
|E
i
| +|E
j
|
distance de Ochia :
1
|E
i
E
j
|
|E
i
|.|E
j
|
distance de Braun-Blanquet :
1
|E
i
E
j
|
max{|E
i
|, |E
j
|}
distance de Simpson :
1
|E
i
E
j
|
min{|E
i
|, |E
j
|}
. . .
EES
Toutes ces distances permettent de mesurer des dierences entres objets.
Il convient de bien choisir sa distance selon les dierences que lon veut
mesurer. De facon classique, lorsque le choix dune distance à utiliser nest
pas evidente, on a coutume dutiliser la distance de Jaccard qui est un bon
compromis.
Chapitre 2
Description dune ou deux
variables
On sinteresse dans ce chapitre aux espaces de representation tels que
E = R (partie 2.1) et E = R
2
(partie 2.2). La statistique descriptive permet un
pre-traitement ecace des donnees, en brossant lallure generale des donnees
(moyenne, ecart type, . . .) et fournit des representations graphiques (histo-
grammes, bote à moustaches, . . .) permettant de synthetiser les resultats.
Lexemple l-rouge que nous utiliserons ici est constitue dune population
de 26 etudiants passant un controle. Pour chaque candidat, on note :
le temps mis à eectuer lepreuve (variable x),
le nombre derreurs commises (variable y).
Tab. 2.1 Resultats dexamen pour 26 candidats
Candidat n
o
1 2 3 4 5 6 7 8 9 10 11 12 13
x 15 15 20 10 15 30 10 10 5 5 5 10 10
y 4 5 10 0 4 10 2 5 0 1 0 3 3
Candidat n
o
14 15 16 17 18 19 20 21 22 23 24 25 26
x 20 15 10 5 20 30 30 30 40 10 5 10 10
y 6 3 2 0 6 8 5 10 12 3 0 2 3
17
18 CHAPITRE 2. DESCRIPTION DUNE OU DEUX VARIABLES
2.1 Description dune variable
Lespace de representation associe à nos objets est ici lensemble des
nombres reels.
2.1.1 Distribution
Denition 2 On appellera distribution statistique (ou encore fonction de
repartition) de X la donnee des couples {(c
1
, n
1
), . . . , (c
i
, n
i
), . . . , (c
k
, n
k
)}
tel que les c
i
forment un partition en k intervalles (appeles aussi classes)
de lensemble des valeurs prises par la variable ( c
1
= [a
0
, a
1
], c
i
=]a
i1
, a
i
],
c
k
=]a
k1
, a
k
]) et les n
i
le nombre de valeurs observees dans lintervalle c
i
.
Par convention le centre des intervalles est egalement note c
i
.
Remarque 2 Pour une variable discrète, la distribution statistique associee
est egalement notee {(c
1
, n
1
), . . . , (c
i
, n
i
), . . . , (c
k
, n
k
)}, mais ici, les c
i
repre-
sentent toutes les valeurs prises par la variable et les n
i
le nombre de fois que
la valeur c
i
a ete prise.
Le nombre dintervalles dans une distribution statistique est choisi en
fonction de n, de manière à representer le mieux possible la distribution des
valeurs et on a n =
1ik
n
i
. Il nexiste pas de choix pertinent du nombre
et de lamplitude des classes, mais il est plus aise de prendre des classes
de meme amplitude et, empiriquement, on a coutume dutiliser la règle de
Sturges comme choix de k :
k = 1 +
10 ln (n)
3 ln (10)
Parfois, cependant, la decoupe en intervalles ira de soi, par exemple lorsque
x ne prend que des valeurs entières puisque lon se ramènera au cas dune
variable discrète.
Denition 3 Pour une distribution statistique donnee, on appellera frequence
de i le rapport f
i
=
n
i
n
, et sa frequence cumulee la somme F
i
= f
1
+ f
2
+
. . . +f
i
=
1ji
f
j
.
Denition 4 On appelle histogramme des frequences pour une distribution
statistique donnee ((]a
ji
, a
j
], n
j
) pour 1 j k), le graphique tel que les
classes sont reportees en abcisse et au-dessus de chacune delle un rectangle
daire egale ou proportionnelle à la frequence de la classe est trace.
2.1. DESCRIPTION DUNE VARIABLE 19
Attention, ce sont les aires des rectangles qui sont importantes. Lorsque
les bases des rectangles est identique la hauteur est alors proportionnelle
à laire mais dans quelques (rares) cas les bases seront de longueurs dierentes
et dans ces cas là il faudra faire attention.
Remarque 3 Pour le cas dune distribution statistique associee à une va-
riable discrète ((c
j
, n
j
) pour 1 j k), lhistogramme des frequences est le
graphique tel que les modalites c
j
sont reportees en abcisse et au-dessus de
chacun des c
j
un segment de hauteur egale ou proportionnelle à la frequence
de la modalite est trace.
La gure 2.1 montre lhistogramme des frequences de la variable x de la
table 2.1. Nous navons pas utilise la règle de Sturges puisquun decoupage
en intervalles centres autour des notes possibles est plus naturel.
Histogram of temps
temps
F
r
e
q
u
e
n
c
y
10 20 30 40
0
2
4
6
8
Fig. 2.1 Histogramme des frequences de la variable x de la table 2.1
Remarque 4 On rencontre parfois un type particulier dhistogramme ap-
pelee tige et feuille (stem and leaf ) dont un exemple (representation de la
variable x de la table 2.1) est presente ci-après.
0 55555
1 000000000
1 5555
2 000
2
3 0000
3
4 0
Cette representation consiste en un histogramme dont la representation
separe dizaine (à gauche) et unite (à droite), chaque unite etant repete autant
de fois quil y a delements (dans lexemple ci-dessus, il y a 5 element qui
valent 5, 9 qui valent 10, 0 qui valent 20, . . .).
Indiquons aussi quune distribution statistique peut etre representee par
un camembert. La gure 2.2 represente le camembert de la variable x de la
table 2.1.
Denition 5 Un camembert est un disque dont les parts sont egales ou pro-
portionnelles à la frequence de la classe associee.
5
10
15
20
30
40
Fig. 2.2 Camembert des frequences de la variable x de la table 2.1
Denition 6 On appelle graphique des frequences cumulees pour une dis-
tribution statistique donnee ((]a
ji
, a
j
], n
j
) pour 1 j k), le graphique tel
que les classes sont reportees en abcisse et au-dessus de chacune delle un
rectangle de hauteur egal à F
i
est trace.
La gure 2.3 est un exemple de graphique des frequences cumulees.
10 20 30 40
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
ecdf(temps)
x
F
n
(
x
)
Fig. 2.3 histogramme des frequences cumulees de la variable x de la
table 2.1
2.1.2 Valeurs centrales
Aussi appelees paramètres de positions, les valeurs centrales sont des
nombres autour desquels se repartissent les valeurs observees de la variable
consideree. Cest autour delles que sont calcules les paramètres de dispersion.
Il y a essentiellement deux paramètres de positions pour une variable : la
moyenne et la mediane.
Denition 7 La moyenne x dune variable x est denie par lexpression :
x =
1
n
1in
x
i
La moyenne de la variable x de la table 2.1 est par exemple egale à 15.19.
Pour denir la mediane, il faut tout dabord ranger les elements de X par
ordre croissant. Si lon note x
1
, x
2
, . . ., x
n
les n valeurs prises par la variable
x, on notera x
(1)
, x
(2)
, . . .x
(n)
ces memes elements ranges par ordre croissant
(si, par exemple, x
1
= 12, x
2
= 1 et x
3
= 1 on aura x
(1)
= 1, x
(2)
= 1 et
x
(3)
= 12).
Denition 8 Si on note m et d la partie entière et decimale de
n+1
2
, la
mediane me(x) de la variable x est denie par :
me(x) = x
(m)
+d(x
(m+1)
x
(m)
)
Par exemple, la mediane de la variable x de la table 2.1 est 10.0. Cette
denition implique des resultats dierents selon la taille de n. Si n est impair,
d = 0 et la mediane est une des valeurs de la variable et si n est pair, la
mediane vaut la moyenne des deux valeurs centrales.
Remarque 5 On trouve dans la litterature dautres denitions de la mediane
pour n pair, par exemple prendre pour mediane nimporte quelle valeur entre
les deux valeurs centrales (ce qui implique que la mediane peut etre lune
ou lautre des deux valeurs centrales) ou tout simplement rendre lintervalle
entre les deux valeurs.
Enn, on denit la classe modale, qui est un paramètre de position associe
à une distribution statistique. Pour la distribution statistique de la gure 2.1,
la classe modale est ]7.5, 12.5]
Denition 9 On appelle classe modale mo(x) dune distribution statistique
(]a
ji
, a
j
], n
j
) (pour 1 j k) dune variable x est egal à un intervalle
]a
i1
a
i
] tel que n
i
= max
1jn
{n
j
}
Les quantites qui viennent detre parachutees peuvent etre introduites
de manière geometrique. Pour ce faire, ordonnons totalement et arbitrai-
rement les elements de X (on parlera alors du iième individu).
`
A chaque
variable quantitative x est associe le vecteur v(x) de R
n
dont la coordonnee
sur le iième individu est x
i
. Pour resumer x en une seule valeur on cher-
chera à determiner un nombre reel a tel que a
i approche au mieux v(x) (
i
designant le vecteur dont toutes les coordonnees valent 1). Techniquement,
on munira R
n
dune norme || || et on cherchera lelement a R solution du
problème :
min
aR
||v(x) a
i||
1. Pour la norme || ||
1
(||v(x)||
1
=
i
1
n
|x
i
|) la mediane de x est solution
du problème,
2. Pour la norme euclidienne || ||
2
(||x(x)||
2
2
=
i
1
n
|x
i
|
2
), la moyenne x
est lunique solution du problème,
3. Pour la norme uniforme || ||
(||v(x)||
= max
i
x
i
), la solution du
problème est la moyenne des valeurs extremes
1
2
(min
i
x
i
max
i
x
i
).
4. Plus generalement, on appellera valeur centrale dordre q de la va-
riable x toute solution du problème pour la norme || ||
q
(||v(x)||
q
=
(
i
1
n
|x
i
|
q
)
1
q
).
2.1.3 Paramètres de dispersion
Les paramètres de dispersion sont des nombres permettant de mesurer
lamplitude des variations autour dune valeur centrale.
Les paramètres de dispersion que nous denirons dans cette partie sont
essentiellement de deux types, ceux lies (de près ou de loin) à la variance, et
ceux lies à la repartition des valeurs (les quartiles).
Denition 10 La variance dune variable est le nombre s
2
(x) deni par
lexpression :
s
2
(x) =
1
n
1in
(x
i
x)
2
La racine carree de s
2
(x), notee s(x) est appele ecart-type de la variable.
On peut (facilement) demontrer que la variance est egalement egal à
s
2
(x) = (
1
n
1in
x
2
i
) ( x)
2
, formule plus pratique lorsque lon doit calculer
une variance à la main.
Remarque 6 Attention : il ne faut pas confondre variance et variance
corrigee. La variance corrigee s
2
c
(x) denie par lexpression :
s
2
c
(x) =
1
n 1
1in
(x
i
x)
2
=
n
n 1
s
2
(x)
est un estimateur et non un paramètre de dispersion.
Estimateurs et variance corrigee
Pour comprendre la remarque ci-dessus, il faut parler un peu de statistique
et destimateurs. En statistique, on considère le plus souvent une variable
denie sur une population bien plus importante que lechantillon dont on
dispose (par exemple le solde en banque de toute la population francaise
par rapport à un echantillon dune centaine de personnes). Lensemble de
la population est alors une variable aleatoire X qui possède une moyenne
(X) (appelee esperance mathematique) et une variance
2
(X) denie telle
que
2
(X) = ((X (X))
2
). Par linearite de loperateur () on montre
facilement que
2
(X) = (X
2
) ((X))
2
.
Le problème est alors destimer (X) et
2
(X) alors que nous ne possedons
que n valeurs x
i
prises par la variable aleatoire X. Chaque valeur x
i
etant
egalement une variable aleatoire de memes paramètres que X.
On appelle alors estimateur de la moyenne (X) (resp. de la variance
2
(X)) une suite (T
n
) fonction de (x
1
, . . . , x
n
) telle que pour tout > 0 la
probabilite que |T
n
(X)| > (resp. |T
n
2
(X)| > ) tend vers 0 lorsque
n tend vers linni.
Dans le cadre de ce cours, on admettra que x et s
2
(x) sont des estimateurs
de (X) et
2
(X) respectivement.
Il existe cependant une foultitude destimateurs de moyenne et de va-
riance, parmi ceux existant, on peut essayer de degager des estimateurs
meilleurs que dautres. On peut pour cela se baser sur le biais.
Le biais dun estimateur T
n
de la quantite est :
(T
n
)
Un estimateur est dit sans biais si (T
n
) = 0 (cest à dire si sa moyenne
est egale à ce quil estime) et asymptotiquement sans biais si lim(T
n
) = 0.
Calculons le biais de nos estimateurs. Commencons par lestimateur de
la moyenne :
( x (X)) = (
1
n
1in
x
i
(X))
=
1
n
1in
(x
i
) (X)
=
1
n
1in
(X) (X)
= 0
Lestimateur x est donc un estimateur sans biais de la moyenne (X).
En ce qui concerne la variance :
(s
2
(x)
2
(X)) = (
1
n
1in
(x
i
x)
2
2
(X))
= (
1
n
1in
(x
i
)
2
( x)
2
2
(X))
=
1
n
1in
(x
2
i
) ( x
2
)
2
(X)
En utilisant le fait que
2
(Y ) = (Y
2
) ((Y ))
2
pour toute variable
aleatoire Y , on en deduit que
2
(x
i
) = (x
2
i
) (x
i
)
2
et que
2
( x) = ( x
2
)
(( x))
2
. Comme x est un estimateur sans biais de (X) que
2
(x
i
) =
2
(X)
et que (x
i
) = (X), on a :
(s
2
(x)
2
(X)) =
2
( x)
Les variables x
i
etant independantes :
2
( x) =
2
(
1
n
1in
x
i
)
=
1
n
2
2
(
1in
x
i
)
=
1
n
2
(n
2
(x
i
))
=
1
n
2
(X)
Finalement :
(s
2
(x)
2
(X)) =
1
n
2
(X)
Lestimateur s
2
(x) est donc seulement asymptotiquement sans biais, sa
moyenne etant egale à
n1
n

2
(X) et donc sous-estime constamment la veritable
variance de X.
En refaisant les calculs avec s
2
c
(x) on se rend compte que (s
2
c
(X)) =
2
(X) et donc quil est sans biais.
Lorsque les (x
i
) sont un echantillon dune population plus grande on a
coutume dutiliser la variance corrigee s
2
c
(x) puisquelle est sans biais. Cepen-
dant dans le cas qui nous occupe, les (x
i
) representent la population en son
entier, sa variance est donc egale à s
2
(x) et nous navons pas à nous soucier
de la variance corrigee.
Comparaisons de variances
Une variance ne peut etre comparee (et interpretee) que par rapport à une
autre variance puisque cest la moyenne des carres des ecarts à la moyenne.
En pratique, cest lecart-type qui est le plus utilise car il sexprime avec la
meme unite que la variable, et donc que sa moyenne. On peut ainsi combiner
ecart-type et moyenne pour obtenir un paramètre de dispersion appele coef-
cient de variation qui represente une variabilite relative de la variable (au
contraire de lecart-type qui represente une variabilite absolue). De la meme
manière que lon peut denir les valeurs centrales par rapport à des normes
L
q
(cf. 2.1.2), si lon considère la quantite
q
(x) = ||v(x) c
i||
q
o` u c est une valeur centrale dordre q de x, lecart type de x est exactement
2
. Cette quantite represente en quelque sorte lerreur entre les variables
et sa representation par une valeur centrale.
Autres paramètres de dispersion
Denition 11 Le coecient de variation cv(x)est deni par lexpression :
cv(x) = 100
s(x)
x
Si la population est plus grande que lechantillon considere, le coecient
de variation utilise s
c
(x) et non plus s(x), il est alors deni par lexpression :
cv(x) = 100
sc(x)
x
.
Letendue dune variable qui est le paramètre de dispersion e(x) deni par
la dierence entre la plus grande et la plus petite valeur de la variable etant
très sensible aux valeurs extremes, on preferera utiliser les quartiles pour
calculer la repartition des valeurs.
Denition 12 On deni les quartiles comme suit. Soient m et d les parties
entières et decimales de
n+1
4
et m
et d
les parties entières et decimales de

3(n+1)
4
. On notera, comme en 2.1.2, x
(1)
, x
(2)
, . . ., x
(n)
les valeurs de x rangees
par ordre croissant.
le premier quartile note q
0,25
(x) est deni par lexpression : q
0,25
(x) =
x
(
m) +d(x
(m+1)
x
(m)
),
le deuxième quartile note q
0,5
(x) est egal à la mediane de x,
le troisième quartile note q
0,75
(x) est deni par lexpression : q
0,75
(x) =
x
(
m
) +d
(x
(m
+1)
x
(m
)
).
Letendue inter-quartile IQR(x) etant deni par IQR(x) = q
0,75
q
0,25
.
2.2. DESCRIPTION DE DEUX VARIABLES 27
Ces paramètres de dispersion permettent de denir des intervalles o` u se
trouvent un pourcentage donne de valeurs. Par exemple, il y a 25% des valeurs
en dessous de q
0,25
, entre q
0,25
et q
0,5
, entre q
0,5
et q
0,75
, et au-dessus de q
0,75
.
De meme, il y a 50% des valeurs de la variable au-dessous de q
0,5
, au-dessus
de q
0,5
et dans IRQ(x).
Si lon veut raner (daucun diraient chipoter), on peut de la meme
manière denir des deciles (on decoupe en dixième et non plus en quart) ou
des centiles (on decoupe en centième).
2.1.4 Bote à moustaches
La bote à moustache (encore appelee boxplot) est un graphique permet-
tant dobserver globalement les paramètres de position et de dispersion.
Denition 13 Une bote à moustache est un graphique constitue de deux
axes : laxe vertical, muni dune echelle numerique qui correspond aux valeurs
la variable observee et laxe horizontal, sans echelle. Un segment horizontal
(de longueur arbitraire) est trace en regard de la mediane, puis une bote est
reportee avec les cotes superieur et inferieur en regard de q
0,75
et q
0,25
respecti-
vement. Enn, deux segments verticaux sont trace vers lexterieur de la bote
(les moustaches) joignant le milieu du cote superieur (resp. inferieur) à la
plus grande (resp. la plus petite) valeur inferieure ou egale (resp. superieure
ou egale) à q
0,75
+
3
2
IQR(x) (resp. q
0,25
3
2
IQR(x)).
On peut egalement rajouter deux points marquant les valeurs les plus
extremes si elles ne sont pas dans les moustaches, et un autre point en regard
de la moyenne. La gure 2.4 montre ce type de graphique pour la variable
x et y de la table 2.1, ou pourra remarquer que la mediane de x est egale à
q
0,25
et est très dierente de la moyenne.
Les extremites de la bote à moustache sont appelees valeurs adjacentes,
et lorsque quune valeur se trouve au-delà des valeurs adjacentes, elle peut
etre considere comme extreme et peut eventuellement etre omise.
2.2 Description de deux variables
Lespace de representation associe à nos objets est ici lensemble R
2
, tout
x
i
X est donc un couple de reels x
i
= (x
1
i
, x
2
i
). La table 2.1 est un exemple
temps erreurs
0
1
0
2
0
3
0
4
0
Fig. 2.4 bote à moustaches des variables x et y de la table 2.1
de ce type despace de representation. Ceci revient à considerer un ensemble
X dobjets par deux variables reelles, x et y par exemple.
2.2.1 Nuage de points et regression lineaire
Supposons que lon cherche à decrire lensemble X dobjets decrit par
deux variables reelles x et y. On appellera champ du couple (x, y) lensemble
K = {(x
i
, y
i
)|1 i n} que lon peut representer dans le plan par n points
M
i
dabcisse x
i
et dordonnee y
i
, le centre de gravite du nuage etant bien
evidemment le point G = ( x, y). La gure 2.5 montre le graphique associe à
la table 2.1 du nombre derreurs commises par rapport au temps mis pour
eectuer lexamen, le centre gravite du nuage etant represente par un +.
Un simple regard sur le nuage peut informer sur lexistence et la forme
dune eventuelle liaison entre les deux variables. On peut par exemple cher-
cher à determiner une eventuelle liaison lineaire entre les deux variables (le
nuage a tendance à setirer le long dune droite), on peut alors tenter dex-
pliquer la variable y (appelee variable expliquee) par la variable x (appelee
variable explicative). On cherche ainsi à determiner sil existe deux reels a et
b tels que pour tout 1 i n : y
i
a +bx
i
.
5 10 15 20 25 30 35 40
0
2
4
6
8
1
0
1
2
temps
e
r
r
e
u
r
s
+
Fig. 2.5 nuage de points de la table 2.1
La manière la plus courante pour arriver à nos ns est dutiliser la methode
des moindres carres, cest à dire trouver deux reels a et b qui realisent le mi-
nimum de :
h(a, b) =
n
i=1
1
n
(y
i
a bx
i
)
2
= ||v(y) v(ax +b)||
2
2
Le nombre h(a, b) est appele residu quadratique. Il quantie lecart de nos
donnees par rapport à la droite sensee les representer. Trouver le minimum
de h(a, b) se fait simplement en utilisant la methode dite gros bourrin : on
derive par rapport à a et b.
On a alors :
h(a, b)
a
= 2
1
n
i
(y
i
a bx
i
) = 2y + 2a + 2bx
De là,
h(a,b)
a
= 0 implique que :
a = y bx
h(a,b)
b
= 2
1
n
i
x
i
(y
i
a bx
i
)
= 2[
i
x
i
y
i
ax b
1
n
i
x
2
i
]
En remplacant a par y bx, on obtient alors :
h(a,b)
b
= 2[
i
x
i
y
i
(y bx)x b
1
n
i
x
2
i
]
= 2[
i
1
n
(x
i
y
i
xy) +b(x
2
1
n
i
x
2
i
)]
= 2[
1
n
i
(x
i
x)(y
i
y) +bs
2
(x)]
On pose alors cov(x, y) =
1
n
1in
(x
i
x)(y
i
y) (appelee covariance
de x et de y), et lequation
h(a,b)
b
= 0 conduit à :
b =
cov(x, y)
s
2
(x)
Remarque 7 La covariance est une generalisation de la variance pour deux
variables. Elle permet de voir comment varie une variable par rapport à
lautre. Une valeur positive de covariance entre x et y montre que lorsque x
augmente (resp. diminue) y à tendance à augmenter (resp. diminue) egalement
et une valeur negative de la covariance montre quen general si x augmente
(resp. diminue) y va diminuer (resp. augmenter). On a de plus que cov(x, x) =
s
2
(x) 0.
La droite obtenue est appelee droite de regression lineaire de y par x
et possède la propriete de passer par le centre de gravite du nuage (i.e.
y = a x +b). Le residu quadratique vaut alors :
h(a, b) = s(y)
2
cov(x, y)
s(x)s(y)
La qualite de la regression sera dautant meilleure que ce residu est faible.

Pour cela, deux facteurs seront predominants :
un faible ecart-type de la variable y,
une forte valeur de
cov(x,y)
s(x)s(y)
La gure 2.6 reprend le nuage de la gure 2.5 en y ajoutant la droite de
regression lineaire. On a a = 0.85 et b = 0.33.
5 10 15 20 25 30 35 40
0
2
4
6
8
1
0
1
2
temps
e
r
r
e
u
r
s
+
Fig. 2.6 droite de regression lineaire de la table 2.1
2.2.2 Correlation lineaire et axe principal
Dans la partie precedente, on a choisi dexpliquer une variable (la va-
riable y de la table 2.1) par une autre (la variable x de la table 2.1). Ce
choix peut paratre arbitraire puisque lon aurait p ut tout aussi bien tenter
dexpliquer la variable x par la variable y et obtenir une droite de regression
dierente, comme le montre la gure 2.7 o` u les deux droite de regression sont
superposees.
Comme vue dans la partie 2.2.1, les deux droites de regressions lineaires
passent par le centre de gravite du nuage, les deux droites sont alors egales
si et seulement si leurs pentes le sont. Comme x = a
+ b
y est equivalent à
y =
a
+
1
b
x, les pentes des droites de regression y = a +by et x = a
+b
y
sont egales si et seulement si b =
1
b
, cest à dire si et seulement si :
cov(x, y)
s(x)s(y)
2
= 1
On note r(x, y) la quantite
cov(x,y)
s(x)s(y)
= r(x, y) et on lappelle (fort juste-
ment) coecient de correlation lineaire. On peut prouver que |r(x, y)| 1)
5 10 15 20 25 30 35 40
0
2
4
6
8
1
0
1
2
temps
e
r
r
e
u
r
s
+
Fig. 2.7 les deux droites de regression lineaires de la table 2.1
quelques soient x et y et que |r(x, y)| = 1 si et seulement si les points (x
i
, y
i
)
(1 i n) sont alignes.
Remarque 8 Une valeur de r(x, y) proche de 1 signie donc que si x aug-
mente, y augmente egalement de facon lineaire (et que si y augmente, x
augmente egalement) et une valeur de r(x, y) proche de -1 signie que si x
augmente, y decrot (et reciproquement).
En fait, plus r
2
(x, y) est proche de 1, plus le nuage de points se concentre
autour dune droite passant par le centre de gravite du nuage et ayant une
pente intermediaire entre la droite de regression de y par x et la droite de
regression de x par y. Cette droite est appelee axe principal.
Laxe principal peut sobtenir directement en changeant la droite à op-
timiser. Soit D une droite dequation y = a
D
+ b
D
x. Chercher la droite de
regression de y par x revient à chercher la droite D
y
qui minimise la somme
des carres des ecarts |y
i
a
D
b
D
x
i
| (le segment vertical en pointille sur la
gure 2.8). De la meme manière chercher la droite de regression de x par y
revient à chercher la droite D
x
qui minimise la somme des carres des ecarts
|x
i
+
a
D
b
D
1
b
D
y
i
| (le segment horizontal en pointille sur la gure 2.8).
On voit bien par là que la regression de y par x et la regression de x
par y ne permet dobtenir la meme droite que si les points sont dejà alignes.
Laxe principal est le resultat dune autre forme doptimisation : on cherche
la droite D
qui minimise la somme des carres des distances des points (x

i
, y
i
)
à la droite (le segment en gras sur la gure 2.8).
droite D
(xi,yi)
Fig. 2.8 Les dierentes optimisations par rapport à D
La gure 2.9 montre le nuage de points de la table 2.1, les deux droites
de regressions (en traits pleins) et laxe principal (en pointilles).
Les quantites que nous venons dintroduire sinterprètent dans R
n
muni de
la norme euclidienne. cov(x, y) est le produit scalaire de v(x) x
i et v(y) y
i.
r(x, y) est le cosinus de langle de v(x) x
i et v(y) y
i. Lalignement dans
R
2
du nuage correspond à la colinearite dans R
n
des vecteurs denis par les
variables, la correlation nulle correspond à lorthogonalite, dans ce dernier
cas on dit que les variables sont independantes.
2.2.3 Test du
2
dindependance
Avant de commencer lanalyse proprement dite dun jeu de donnees (i.e.
trouver une structure, des relations entre les donnees), la première question
à se poser est : suis-je en droit de le faire ?
Il se peut en eet quil ny ait strictement rien à trouver, que la distribu-
tion des valeurs soit totalement aleatoire.
Pour verier cela, on commence par construire un tableau de contingence.
Un tableau de contingence de deux variables x et y possède autant de lignes
5 10 15 20 25 30 35 40
0
2
4
6
8
1
0
1
2
temps
e
r
r
e
u
r
s
+
Fig. 2.9 droites de regression lineaires et axe principal de la table 2.1
que x a de valeurs dierentes (notees v
1
x
, . . . v
p
x
) et autant de colonnes que
y a de valeurs dierentes (notees v
1
y
, . . . , v
q
y
). Une case C
ij
correspond alors
au nombre delements (x
m
, y
m
) de X tels que x
m
= v
i
x
et y
m
= v
j
y
, chaque
element de X se retrouve dans une et une seule case du tableau.
La table 2.2 donne le tableau de contingence de la table 2.1. En divisant
chaque case par le cardinal de X (ici 26), on obtient les dierentes frequences
dapparitions des modalites.
Si les deux variables mises en jeu etaient independantes, la frequence
dapparition de la modalite v
i
x
et v
j
y
serait egale à la frequence dapparition
de la modalite v
i
x
multipliee par la frequence dapparition de v
j
y
.
Ainsi en posant C
i
=
j
C
ij
et C
j
=
i
C
ij
, plus les
C
ij
n
sont eloignes de
C
i
n

C
j
n
, plus les deux variables sont dependantes, et ainsi, plus la recherche
de structures entre ces variables est legitime.
On calcul la quantite :
D
2
=
i,j
C
ij
C
i
C
j
n
2
C
i
C
j
n
Si les deux variables sont independantes D
2
sera proche de 0 et au contraire
Tab. 2.2 Tableau de contingence de la table 2.1
x\ y 0 1 2 3 4 5 6 8 10 12 total ligne
5 4 1 0 0 0 0 0 0 0 0 5
10 1 0 3 4 0 1 0 0 0 0 9
15 0 0 0 1 2 1 0 0 0 0 4
20 0 0 0 0 0 0 2 0 1 0 3
30 0 0 0 0 0 1 0 1 2 0 4
40 0 0 0 0 0 0 0 0 0 1 1
total colonne 5 1 3 5 2 3 2 1 3 1 26
si les variables sont liees, D
2
sera grand. On peut quantier cette liaison entre
variable en utilisant les statistiques.
Les valeurs C
ij
du tableau sont alors considerees comme des valeurs dune
variable aleatoire C dont on ne connat pas la loi. Si D
2
est petite, il y a toute
les chances que la loi regissant C soit le produit de deux lois independantes,
lune regissant les lignes lautre les colonnes. Ci cest le cas, D
2
est une
variable aleatoire dont on connat la loi : elle suit une loi du
2
à (p1)(q1)
degres de liberte. Par abus de notation au appellera par la suite
2
dun
tableau de contingence la quantite D
2
.
La densite de probabilite f(x) dune loi du
2
à n degre de liberte est
egale à :
f(x) =
1
2
n/2
(n/2)
e
x/2
x
n/21
si x > 0
0 sinon
avec (z) =
+
0
t
z1
e
t
dt qui est appelee fonction gamma.
Lesperance et la variance dune variable aleatoire X suivant une loi du
2
à n degres de liberte est (X) = n et
2
(X) = 2n. La gure 2.10 montre
la densite de probabilite dune loi du
2
à 4 degres de libertes.
Dans notre exemple, p = 10 et q = 6 et donc si les deux variables sont
independantes, D
2
suit une loi du
2
à 45 degres de liberte. Dans ce cas là,
D
2
à 99% de chances detre compris entre 0 et 70 (lintegrale de la fonction
de densite entre 0 et 70 vaut 0.99). Il y a donc moins d1% de chance que la
valeur de D
2
soit plus grand que 70. On trouve que D
2
= 95.3, qui est une
valeur très hypothetique si D
2
suivait une loi du
2
. On a donc moins d1% de
chance de se tromper en rejetant lhypothèse dindependance, risque que lon
peut prendre : on considère alors que nos donnees ne sont pas independantes,
0 20 40 60 80 100 120
0
.
0
5
0
.
1
0
0
.
1
5
densit de probabilit
valeur
d
e
n
s
i
t
Fig. 2.10 Densite de probabilite du

2
à 4 degres de liberte.
ce qui legitime une analyse.
Chapitre 3
Analyse en composantes
principales
On sinteressera dans ce chapitre aux objets de X decrits par p variables
reelles. Lespace de representation associe est ainsi R
p
.
3.1 Exemple avec les mains
Lorsque la population à etudier est decrite par deux variables, la simple
lecture de leurs valeurs (du nuage produit) peut eventuellement fournir une
idee de lintensivite de la liaison entre les deux variables, comme le montre
la gure 3.1.
x
y
x
y
x
y
Absence de liaison Forte liaison Trois groupes homognes
Fig. 3.1 Formes particulières de nuages
Letude visuelle du nuage ne donne cependant que rarement toute lin-
formation desiree. Lexemple l rouge du chapitre 2 (table 2.1) est à cet
37
38 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
egard signicatif. Le coecient de correlation lineaire eleve (r(x, y) = 0.9)
conduisant à une explication lineaire des donnees. Si lon cherche mainte-
nant à etudier le comportement de notre population detudiants, on peut
imaginer deux formes de nuages presentant une forte correlation (gure 3.2).
temps
erreurs
Nuage 1
temps
erreurs
Nuage 2
Fig. 3.2 Formes particulières de nuages
Le premier nuage de la gure 3.2 ordonne, grosso modo, les individus
selon leur aptitude à lepreuve (peu de temps et peu derreurs sopposant
à beaucoup de temps et beaucoup derreurs).
Lordre traduit par le deuxième nuage de la gure 3.2 peut sembler moins
clair aux profanes que nous sommes, mais un psychologue linterpreterait en
terme dattitude (on prend son temps et on fait bien sopposant à on bacle
et on fait mal).
Partant de nos donnees, on est parvenu à degager deux variables per-
tinentes pour decrire le comportement de notre population : lattitude et
laptitude. Remarquons que celles-ci decrivent des phenomènes que lon sup-
pose (au moins intuitivement) independant : les deux axes determines sont
orthogonaux.
Appelons facteurs nos deux nouvelles variables (elles remplacent les va-
riables temps et erreurs), ils seront dautant plus pertinents avec nos
donnees que nos variables dorigines ont une forte correlation avec au moins
un de nos nouveaux axes (lautre axe etant obtenu par orthogonalite).
Reste à extraire les facteurs. On peut pour cela faire une analogie avec la
mecanique. Si lon assimile nos objets à des points materiels, la droite la plus
proche du nuage de points est celle qui correspond à laxe principal dinertie
du nuage. Cet axe est exactement laxe principal denie en 2.2.2.
Cet exemple à deux variables montre le but de lanalyse en composantes
principale : determiner des axes pertinents pour lexplication des correlations
3.2. PRINCIPE DE LA M
ETHODE (SANS LES MAINS) 39

entre variables.
3.2 Principe de la methode (sans les mains)
Si lanalyse visuelle du nuage peut nous permettre, soit de degager direc-
tement la structure, soit de determiner des axes pertinents, lorsque les objets
sont decrits par plus de trois variables (sinon, on peut toujours representer le
nuage dans lespace), la representation graphique devient impossible. Ainsi,
les dix categories socioprofessionnelles de la table 1.1 sont representables dans
un espace à six dimensions (ce qui graphiquement commence à faire mal aux
yeux). Si lon veut cependant obtenir une representation graphique plane de
la table 1.1, on peut projeter les points de lespace à p dimensions sur un
plan (à deux dimensions). Il faut cependant choisir judicieusement le plan
de projection pour que les distortions par rapport à lespace originel soient
minimales.
Soient x
i
et x
j
deux elements de X et d(x
i
, x
j
) la distance de lun à
lautre dans R
p
. En projetant ces elements sur un plan, la distance entre les
deux projections d(p(x
i
), p(x
j
)) est plus petite que d(x
i
, x
j
), on se xera donc
comme critère de choix de plan, celui qui maximise la moyenne des carres
des distances entre les projections.
On peut determiner un plan par deux droites D
1
et D
2
orthogonales
entre elles. De part la relation de Pythagore, la distance au carre entre
deux points projetes sur ce plan est egal à la somme des deux distances
au carre des projections des points sur les deux droites : d
2
(p(x
i
), p(x
j
)) =
d
2
(
i
,
j
) +d
2
(
i
,
j
) (avec
k
et
k
les projetes de x
k
(1 k n) sur D
1
et
D
2
respectivement).
Le plan minimisant la moyenne des carres des distances entre les pro-
jections, appele plan principal peut donc etre determine iterativement. On
commence par chercher la droite D
1
maximisant la moyennes des d
2
(
i
,
j
),
puis une droite D
2
, orthogonale à D
1
maximisant la moyenne des d
2
(
i
,
j
).
On peut alors continuer le processus et trouver p droites orthogonales entre
elles formant une nouvelle base de R
p
, appeles axe principaux du nuage.
La meilleure representation des donnees en q < p dimension est alors la
projection de lensemble X sur les q premiers axes principaux. Ceci est la
methode de lanalyse en composantes principale : remplacer la base cano-
nique de R
p
par une base forme des axes principaux, representant mieux les
donnees (pensez aux axes aptitudes et attitude du debut du chapitre),
et permettre ainsi de reduire lespace de representation aux q axes les plus
representatifs.
Lanalyse en composantes principales est une methode factorielle, car elle
reduit le nombre de caractères, non pas en eliminant tel ou tel variable jugee
non pertinente, mais en construisant de nouveaux axes, plus pertinents.
3.3 Reformulation des donnees
3.3.1 Matrice de donnees
Les n individus x
i
etant decrits par p variables (x
i
= (x
1
i
, . . . , x
p
i
)), on
peut, par abus de notation, noter X la matrice à n lignes et p colonnes
telle lelement à la ligne i et colonne j soit x
j
i
. Si X represente lespace des
individus,
t
X (la matrice transposee de X) represente lespace des caractères,
chaque caractère etant represente par les n individus quil decrit. On note
alors x
j
(1 j p) la ligne j de
t
X qui decrit le caractère j.
Le centre de gravite du nuage g = (

x
1
, . . . ,

x
p
) est un individu, la plupart
du temps ctif, decrit par les moyennes respectives des dierents caractères.
Dans lexemple de la table 1.1, le centre de gravite du nuage vaut par
exemple g = (13.2, 11.6, 15.6, 20.1, 28.1, 11.4)
On dit quune variable est centree si sa moyenne est nulle. Centrer des
variables revient à deplacer le centre du repère vers g et donc à retirer sa
moyenne à chaque caractère x
i

x
i
.
On considerera par la suite que toute les variables sont centrees, ce qui
simplie grandement les notations matricielles.
3.3.2 Poids des donnees
Dans les chapitres precedents, nous avons toujours considere que le poids
de chaque donnee etait le meme. Ce nest cependant pas toujours le cas. De
facon generale, à chaque objet x
i
(1 i n) est associe un poids p
i
tel que
i
p
i
= 1.
Ces poids sont rassembles dans une matrice diagonale D telle que D =
diag(x
1
, x
2
, . . . , x
n
). On a donc, si D = (d
ij
)
1i,jn
, d
ii
= p
i
pour tout 1
i n et d
ij
= 0 si i = j.
Dans le cas o` u tous les poids sont identiques, cette matrice est une matrice
diagonale dordre n egale à
1
n
I
n
(I
n
etant la matrice identite dordre n).
3.3. REFORMULATION DES DONN
EES 41
3.3.3 Matrices de description
On appelle matrice de variance la matrice carree V contenant à la ligne
i et la ligne j la covariance entre la variable i et la variable j. Cette matrice
est symetrique et sa diagonale contient les variances des dierentes variables.
Cette matrice peut etre calculee par la formule :
V =
t
XDX
s
2
1
. . . s
1j
. . . s
1p
.
.
.
.
.
.
s
2
i
s
ij
s
ip
.
.
.
.
.
.
s
2
p
o` u D est la matrice des poids des individus.

Pour obtenir la matrice de correlation R, matrice carree telle que r(x
i
, x
j
)
soit sur la ligne i et la colonne j, on note D1
s
la matrice diagonale denie
telle que :
D1
s
=
1
s
1
.
.
. 0
1
s
i
0
.
.
.
1
sp
On a alors :
R = D1
s
V D1
s
=
1
.
.
. r(x
i
, x
j
)
1
.
.
.
1
La matrice de correlation possède une diagonale de 1 puisquil ny a pas

plus correle quune variable avec elle-meme. La matrice de correlation de
la table 1.1 est presente dans la table 3.1. On peut dejà remarquer que la
variable representant les livrets (LIV) est très fortement correlee avec la va-
riable representant lepargne obligatoire, alors que la pierre (PIE) ne lest
que très peu avec les placements (POA)
Tab. 3.1 Matrice de correlation de la table 2.1
LIV 1
ELB 0.9127151 1
POA 0.6798236 0.7027894 1
ACT -0.6262121 -0.6785415 -0.4475890 1
PIE -0.5604978 -0.7667056 -0.5806489 0.3698211 1
TER -0.1230438 0.1016693 -0.1580415 -0.5950052 -0.2779655 1
LIV ELB POA ACT PIE TER
3.3.4 Reduction des donnees
Le choix de la distance à utiliser est primordiale dans toute analyse
de donnees, car elle determine les resultats obtenus. Un mauvais choix de
metrique conduit le plus souvent à de mauvais resultats.
Lorsque le repère utilise est orthonorme, on est tente dutiliser une dis-
tance euclidienne classique et dans ce cas la distance (ici entre deux individus)
est :
d
2
(x
i
, x
j
) =
1kp
(x
k
i
x
k
j
)
2
.
Si ce choix est adapte lorsque toutes les variables ont meme unite, il
peut etre prejudiciable dans notre cas, puisque chaque variable se denit par
rapport à sont unite propre (un homme pouvant etre deni par son age, son
salaire et bien sur la grosseur de sa voiture). Utiliser une metrique euclidienne
revient alors à melanger les torchons et les serviettes.
Il est donc indispensable de trouver une metrique qui permette de com-
parer des individus decrits par des variables heterogènes.
Pour eviter cet ecueil, nos donnees (supposees centrees) sont reduites.
Cest à dire que chaque variable (les x
j
) est divisee par son ecart type. Ceci
a pour but quune fois reduites, lecart type de chaque variable est egal à 1.
De manière matricielle, ceci revient à remplacer la matrice X par XD1
s
.
Le principal avantage de cette metrique est que la distance entre individus ne
depend plus des unites choisies puisque les nombres
x
j
s
j
sont sans unites. De
plus, elle accorde la meme importance à chaque caractère quelque soit sa dis-
persion. Ne pas lutiliser revient à accorder plus dimportance aux caractères
de forte dispersion quà ceux de faible dispersion.
Les ecarts types des dierentes variables de la table 1.1 sont representes
3.4. RECHERCHE DES SOUS-ESPACES PRINCIPAUX 43
dans le tableau ci-après :
6.545567 4.087923 4.115013 12.041133 7.607745 10.319345
Remarque 9 Lorsque des donnees sont centrees et reduites, les matrices V
et R sont identiques, et D1
s
= I
n
.
Dans tout ce qui suivra, on supposera nos donnees centrees et reduites.
3.4 Recherche des sous-espaces principaux
On considère ici une matrice de donnees X à n lignes et p colonnes centree
et reduite. On utilisera dans ce qui suit la distance, et donc la norme eucli-
dienne usuelle. Cest à dire que ||x
i
||
2
=
1jp
(x
j
i
)
2
et que la distance entre
x
i
et x
j
est egale à ||x
i
x
j
||. De plus, en notant < x
i
, x
k
>=
j
x
j
i
x
j
k
= x
i
t
x
j
(
t
x
j
est le transpose du vecteur ligne x
j
) le produit scalaire entre x
i
et x
k
on
a que ||x
i
||
2
=< x
i
, x
i
>.
Le but recherche est de comprendre comment se comportent les donnees
les unes par rapport aux autres. Chaque donnee etant composee de p va-
riables, il est illusoire de rechercher une structure en regardant la matrice
X dans son ensemble. On cherche alors à reduire le nombre de paramètres
en esperant que lerreur commise en considerant un nombre de variables
inferieure à p soit negligeable devant le gain en interpretabilite.
Nos donnees etant des points (au nombre de n) de lespace R
p
, reduire le
nombre de variable peut seectuer en projetant nos points sur un sous-espace
de R
p
. Pour que ce sous-espace ait un sens, il faut que les points projetes et
les points initiaux ne soient pas trop eloignes.
Pour ecrire ca de facon formelle, notons p(x
i
) la projection de lindividu
x
i
sur un sous-espace H de R
p
. Le sous-espace H est dautant meilleur pour
notre analyse que la quantite
i
p
i
||x
i
p(x
i
)||
2
soit petite (p
i
est toujours le poids de lindividu i). En eet, si ||x
i
p(x
i
)||
est petite, ceci signie que le point et son projete sont proches.
On appelle alors sous-espace principal un sous-espace de R
p
minimisant
la quantite
i
p
i
||x
i
p(x
i
)||
2
.
La question etant maintenant, comment trouver cet espace ?
Avant de caracteriser complètement H, nous allons triturer un petit peut
lequation
i
p
i
||x
i
p(x
i
)||
2
. Pour cela notons g le centre de gravite de nos
individus. Les donnees etant centrees, g est egal à lorigine du repère.
g
p(g)
xi
p(xi)
H
Fig. 3.3 projection sur H
On peut alors ecrire en utilisant Pythagore (gure 3.3) que :
i
p
i
||x
i
p(x
i
)||
2
=
i
p
i
||x
i
p(g)||
2
i
p
i
||p(x
i
) p(g)||
2
Or :
i
p
i
||x
i
p(g)||
2
=
i
p
i
(||x
i
||
2
+||p(g)||
2
2 < x
i
, p(g) >)
=
i
p
i
||x
i
||
2
+||p(g)||
2
2
i
p
i
< x
i
, p(g) >
=
i
p
i
||x
i
||
2
+||p(g)||
2
2 
=
i
p
i
||x
i
||
2
+||p(g)||
2
2 < g, p(g) >
Comme g est egale à lorigine du repère on a < g, p(g) >=< 0, p(g) >= 0 et
donc nalement que :
i
p
i
||x
i
p(g)||
2
=
i
p
i
||x
i
||
2
+||p(g)||
2
Cette relation est connue sous le nom de relation de Huygens.
De là :
i
p
i
||x
i
p(x
i
)||
2
=
i
p
i
||x
i
||
2
+||p(g)||
2
i
p
i
||p(x
i
) p(g)||
2
On se rend ainsi compte que puisque :
i
p
i
||x
i
||
2
est une constante quelque soit H,
i
||p(x
i
) p(g)||
2
est une constante pour tout sous-espace parallèle à
H,
||p(g)||
2
= 0 si g = p(g).
Le sous-espace H que nous recherchons passe forcement par lorigine du
repère (cest à dire lorsque p(g) = g = 0).
Notre problème devient ainsi : trouver un sous-espace H passant par
lorigine du repère maximisant la quantite :
i
p
i
||p(x
i
)||
2
On est donc passe de la recherche dun sous espace Hminimisant
i
p
i
||x
i
p(x
i
)||
2
à la recherche dun sous-espace passant par lorigine maximisant
i
p
i
||p(x
i
)||
2
.
3.4.1 Un sous-espace à 1 dimension
Commencons pas essayer de trouver un sous-espace principal à une di-
mension (une droite) D, passant par lorigine et maximisant
i
p
i
||p(x
i
)||
2
.
Si lon connat un vecteur directeur u R
p
de D on a, car nos donnees
sont centrees, que :
Xu =
p(x
1
)
.
.
.
p(x
i
)
.
.
.
p(x
n
)
Ainsi, matriciellement parlant :
i
p
i
||p(x
i
)||
2
=
t
(Xu)D(Xu)
=
t
u
t
XDXu
=
t
uV u
Trouver D est donc equivalent à trouver un vecteur unitaire u de R
p
maximisant
t
uV u.
Trouver u peut se faire de plusieurs manières. La plus simple, mais la
moins interessante, est dannuler les derives partielles de
t
uV u. Mais comme
je suis un (enorme) faineant, on va resoudre cette equation sans calcul.
Pour cela, on peut remarquer que la matrice V est symetrique et semi-
denie positive (i.e. ses valeurs propres sont positives). En eet, pour tout
vecteur de R
p
,
t
uV u est positif (puisque egal à
i
p
i
||p(x
i
)||
2
). Si u est un
vecteur propre de V de valeur propre ,
t
uV u =
t
u(u) =
t
uu = ||u||
2
. On
en deduit que 0.
Or on sait (ou plus vraisemblablement , on savait) que les vecteurs propres
dune matrice symetrique semi-denie positive forment une base orthonormee.
Soit alors u
1
, u
2
, . . ., u
p
les vecteurs propres de V ranges par ordre decroissant
de leurs valeurs propres respectives (
1

2
. . .
p
).
Tout vecteur unitaire u se decompose ainsi en u =
1
u
1
+. . .
p
u
p
.
De là :
t
uV u =
t
(
i
u
i
)V (
j

j
u
j
)
=
t
(
i
u
i
)(
j

j
V u
j
)
=
t
(
i
u
i
)(
j

j
j
u
j
)
= 
=
i
(
i
)
=
i
(
j
(
i
j
))
Les u
i
formant une base orthonormee, on a alors :
t
uV u =
i
(
j
(
i
j
))
=
i
(
2
i
i
)
=
i
(
2
i
i
||u
i
||
2
)
=
i
(
2
i
i
)
Comme
1

i
pour tout i 1, on a du coup :
t
uV u =
i
(
2
i
i
)

i
(
1
i
1
)

1
(
2
i
)

1
||u||
2

1
Or pour u
1
,
t
u
1
V u
1
=
t
u
1
(
1
u
1
) =
1
t
u
1
u
1
=
1
||u
1
||
2
=
1
.
On a donc nalement que :
pour tout vecteur unitaire u,
t
uV u
1
,
t
u
1
V u
1
=
1
.
La droite D maximisant
i
p
i
||p(x
i
)||
2
est donc de vecteur directeur u
1
,
vecteur propre de V associe à
1
, la plus grande de ses valeurs propres.
3.4.2 Sous-espaces principaux à plus d1 dimension
La partie precedente montre que si lon veut trouver un sous-espace à 1
dimension maximisant la quantite
i
p
i
||p(x
i
)||
2
pour des donnees centrees
et reduites, il faut prendre comme espace la droite de vecteur directeur u
1
,
vecteur propre associe à la valeur propre la plus grande de la matrice V =
t
XDX.
Mais quen est-il lorsque lon cherche à maximiser la quantite
i
p
i
||p(x
i
)||
2
pour un espace de dimension quelconque ?
Une propriete des espaces orthogonaux va nous aider grandement. Soit
R
p
= HH
une decomposition de lespace en somme directe de deux sous-

espaces orthogonaux. En notant p
H
(x
i
) la projection de x
i
sur H et p
H
(x
i
)
la projection de x
i
sur H
, on a clairement que :
i
p
i
||x
i
||
2
=
i
p
i
||p
H
(x
i
)||
2
+
i
p
i
||p
H
(x
i
)||
2
De plus :
Proposition 1 Si on designe par m
k
lensemble des sous-espaces principaux
de dimension k, les deux assertions suivantes sont equivalentes :
(i) H
k+l
m
k+l
(ii) H
k+l
= H
k
H
l
, avec H
k
m
k
, H
k
sous espace de H
k+l
, H
l
m
l
et
H
k
orthogonal à H
l
.
Preuve. Pour plus de clarte, notons I(H) =
i
p
i
||p
H
(x
i
)||
2
.
(i) (ii). Soit L m
l
et L orthogonal à H
k
. On pose de plus H
k+l
= H
k
H
l
. On a alors I((H
k
L)
) = I(H
k
L
) = I(H
k
) +I(L
) et I(H
k+l
) =
I(H
k
)+I(H
l
). Comme I(H
k+l
) I(H
k
L), il vient I((H
k+l
)
) I((H
k
L)
). Do` u I(H
l
) I(L) ce qui prouve que H
l
m
l
.
(ii) (i). Soit U m
k+l
, la dimension de U plus la dimension de H
k
est egal à n + l, la dimension de U H
k
est ainsi superieure ou egal à l,
U contient un sous-espace V de dimension l et orthogonal à H
k
. Il existe
de plus W tel que U = V W et ainsi : I(U
) = I(V
) + I(W
) et
I(H
k+l
) = I(H
k
) +I(H
l
) on en deduit ainsi I(U) = I(H
k+l
)
Cette proposition nous montre que trouver un sous-espace principal à k
dimensions peut se faire à partir de sous-espace à k 1 dimensions. Connais-
sant un sous-espace principal H à k1 dimension, il sut en eet de trouver
un sous-espace principal H
à 1 dimension dans lorthogonal de H, et le sous-

espace H H
est un sous-espace principal à k dimensions.

Trouver un sous-espace à 2 dimensions revient donc à trouver un sous-
espace à 1 dimension dans lorthogonal de la droite engendree par u
1
.
On peut alors proceder comme dans la partie precedente. Un vecteur
unitaire u dans lorthogonal de u
1
va secrire
2
u
2
+. . .
p
u
p
o` u les u
1
, u
2
, . . .,
u
p
sont les vecteurs propres de V ranges par ordre decroissant de leurs valeurs
propres respectives (
1

2
. . .
p
). Ceci puisque les u
i
(1 i p)
forment une base orthonormee de R
p
.
En reproduisant le meme raisonnement que precedemment, on conclut
que le vecteur recherche nest rien dautre que u
2
.
On en conclut alors quun sous espace principal de dimension k est exac-
tement u
1
u
2
. . . u
k
.
3.4.3 Axes principaux
On a vu que si lon note u
1
, u
2
, . . ., u
p
les vecteurs propres de V ranges par
ordre decroissant de leurs valeurs propres respectives (
1

2
. . .
p
),
les sous espaces principaux de dimension k sont egaux à u
1
u
2
. . . u
k
pour des donnees centrees et reduites.
On appelle alors iième axe principal le sous-espace engendre par u
i
.
Les u
i
quant à eux sont appele facteurs principaux
Pour laxe principal k (1 k p), on a alors :
la projection p(x
i
) de x
i
sur cet axe est egal à la iième ligne du vecteur
colonne Xu
k
,
i
p
i
||p(x
i
)||
2
=
k
De plus, on a que
i
p
i
||x
i
||
2
=
k

k
puisque R
p
= u
1
u
2
. . . u
p
.
3.5 Inertie et sous-espace principal
On appelle inertie du nuage la moyenne des carrees des distances des
points du nuage à son centre de gravite g. Les donnees etant centree, linertie
I du nuage est alors :
I =
1in
p
i
||x
i
||
2
Linertie est un paramètre de dispersion du nuage, puisquelle mesure
leloignement relatif des points par rapport à son centre de gravite. Cest une
3.5. INERTIE ET SOUS-ESPACE PRINCIPAL 49
variance non normee (on ne divise pas par le nombre de points). On peut de
plus montrer que
I =
1
2
j
p
i
p
j
||x
i
x
j
||
2
en eet :
j
p
i
p
j
||x
i
x
j
||
2
=
j
p
i
p
j
(||x
i
||
2
+||x
j
||
2
2 < x
i
, x
j
>)
=
j
p
i
p
j
||x
i
||
2
+
j
p
i
p
j
||x
j
||
2
2
j
p
i
p
j
< x
i
, x
j
>
= 2
i
p
i
||x
i
||
2
2
j

On conclut en remarquant que
i
p
i
x
i
est egal au centre de gravite du nuage
qui est egal à 0 puisque les donnees sont centrees.
On peut egalement denir linertie par rapport à un autre point. Linertie
par rapport à un point h est alors egale à I
h
=
1in
p
i
||x
i
h||
2
. Grace à
la formule de Huygens, on peut montrer que :
I
h
= I +||g h||
2
M
= I +||h||
2
Linertie par rapport à un point dierent du centre de gravite est donc tou-
jours superieure à linertie du nuage.
Les notions dinertie et de sous-espace principal sont lies puisque les sous-
espaces principaux sont ceux qui maximisent linertie des projetes des indi-
vidus. De plus, on a que linertie totale du nuage est egale à la somme des
inerties des axes principaux (cf. partie precedente).
Linertie tient donc le role de linformation du nuage, information repar-
tie dans tous les axes principaux.
On a en eet que linertie du nuage est egale à : I =
1jp
j
et que
linertie associee à laxe principal j est egal à
j
. De plus, comme la somme
des valeurs propres dune matrice est egale à sa trace (i.e. la somme de
ses elements diagonaux), on a egalement que I = trace(V ). Nos donnees
etant reduites, les elements diagonaux de V sont tous egaux à 1 et donc
trace(V ) = p.
Chaque axe principal explique donc une part dinertie etant egale à son
inertie divisee par linertie totale, cette quantite valant ici

i
p
.
La part dinertie expliquee par le plan forme par les facteurs u
i
et u
j
est
egale à linertie des projetes sur ce plan divise par linertie totale. Les u
i
formant une base orthogonale de R
p
, cette inertie expliquee vaut :

i
+
j
p
.
3.6 Description du nuage des individus
On rappelle que les facteurs principaux u
1
, u
2
, . . ., u
p
sont les vecteurs
propres de la matrice V associes aux valeurs propres
1

2
. . .
p
.
Comme les u
i
forment une base orthonormee de R
p
, ils tiennent lieu de nou-
veaux axes.
Pour cette nouvelle base, les coordonnees des individus sont alors egales
aux projections diceux sur les axes principaux. La projection des points sur
laxe principal j etant egal au vecteur colonne Xu
j
(la projection du ième
points sur laxe principal j est egal à la ième coordonnee de Xu
j
).
On appelle alors composantes principales les vecteurs colonnes c
j
= Xu
j
pour tout 1 j p (cf. gure 3.4).
x
i
1
x
i
2
x
i
1
u
2
u
1
c
i
2
c
i
Fig. 3.4 facteurs principaux, composantes principales
Remarque 10 Dans la nouvelle base, lindividu x
i
a donc pour coordonnees
(c
1
i
, c
2
i
, . . . , c
p
i
).
Les composantes principales sont ainsi les nouvelles variables, combinai-
sons lineaires des variables initiales.
En particulier :
1. chaque composante principale est une variable centree :
1in
p
i
c
j
i
= 0
car c
j
est une combinaison lineaire des x
j
qui sont centres,
2. la variance de c
j
vaut
j
:
1in
p
i
(c
j
i
)
2
=
t
c
j
Dc
j
=
t
u
jt
XDXu
j
=
t
u
j
V u
j
=
j
.
3.6. DESCRIPTION DU NUAGE DES INDIVIDUS 51
On peut alors visualiser le nuage X sur le plan principal dinertie qui
est le sous-espace principal de dimension 2, cest à dire en ne prenant en
compte que les deux premières composantes principales, ou sur tout autre
sous-espace forme à partir des facteurs principaux.
La qualite de la representation de X sur ces axes pourra alors etre etudie
du point de vue local ou global.
Le point de vue global : on evalue la qualite de lapproximation du nuage
par un plan ou un axe. Cette qualite sera dautant meilleure que linertie de
ce sous-espace est forte (ce qui signie que les points seront globalement
proche de leurs projetes). Linertie totale du nuage valant trace(V ) = p, on
introduit les parts dinertie expliquee :
par laxe u
j
qui vaut

j
p
,
par le plan forme par les facteurs u
i
et u
j
et qui vaut

i
+
j
p
,
Le point de vue local : plus le point x
i
est proche du sous-espace H (le
plus souvent un axe ou un plan) sur lequel on le projette, plus pertinente
est sa representation. On a donc coutume de mesurer cette proximite par le
cosinus de langle de x
i
et de H : cos
2
=
||projection de x
i
sur H||
2
||x
i
||
2
(cette
formule peut etre aisement expliquee par la gure 3.5 et le fait que le cosinus
dun angle dans un triangle rectangle est egal au cote adjacent de langle
divise par lhypotenuse).
Le cosinus carre de langle entre x
i
et le facteur u
j
est donc egal à cos
2
=
|c
j
i
|
2
||x
i
||
2
et le cosinus carre de angle entre x
i
et le plan u
j
u
k
est egal à cos
2
=
|c
j
i
|
2
+|c
k
i
|
2
||x
i
||
2
.
c
j
g
x
i
c
j
i
q
Fig. 3.5 angle de projection
3.6.1 Description du nuage des caractères
Les caractères initiaux x
1
, x
2
, . . . , x
p
forment un sous-espace F
de R
n
de
dimension au plus p. Les p composantes principales c
1
, c
2
, . . ., c
p
, que lon
supposera librement independants pour simplier lecriture, sont obtenus par
combinaisons lineaires des caractères initiaux.
On peut alors decrire les composantes principales (les nouvelles variables)
par les correlations quelles entretiennent avec les anciennes variables.
La correlation entre une composante principale c
j
et une variable initiale
x
k
est egale (cf. partie 2.2.2) à
r(x
k
, c
j
) =
cov(x
k
, c
j
)
s(c
j
)s(x
k
)
Nos donnees etant reduites, s(x
k
) = 1. Calculons s(c
j
). Nos donnees etant
centrees, on a :
s
2
(c
j
) =
t
c
j
Dc
j
=
t
(Xu
j
)DXu
j
=
t
u
j
t
XDXu
j
=
t
u
j
V u
j
=
j
On a donc s(c
j
) =
j
.
Passons au calcul de cov(x
k
, c
j
). Les x
k
et les c
j
etant centrees, on a :
cov(x
k
, c
j
) =
t
x
k
Dc
j
=
t
x
k
DXx
j
x
k
etant la kème colonne de X, en notant e
k
le vecteur colonne de R
n
valant 0 sur toutes ses lignes sauf à la ligne k o` u il vaut 1, on a x
k
= Xe
k
.
Donc :
cov(x
k
, c
j
) =
t
Xe
k
DXx
j
=
t
e
k
t
XDXx
j
=
t
e
k
V u
j
=
j
t
e
k
u
j
La covariance entre x
k
et c
j
est donc egale à
j
multiplie par la kème
composante du vecteur u
j
, que lon note (u
j
)
k
Finalement :
3.6. DESCRIPTION DU NUAGE DES INDIVIDUS 53
r(c
j
, x
k
) =

j
(u
j
)
k
j
=
j
(u
j
)
k
Comme on a toujours r
2
(x
j
, c
k
) + r
2
(x
j
, c
k
) 1 (pour sen convaincre,

remarquez que c
k
et c
k
sont orthogonaux, et donc une correlation lineaire

de 1 avec un axe entrane une correlation lineaire de 0 avec lautre. De facon
plus formelle, le resultat vient du fait que r(x
j
, c
k
) est le cosinus entre les axes
denis par x
j
et c
k
, cf. partie 3.8.3) en projetant les x
j
sur le plan principal
(c
1
, c
2
) (ou plus generalement sur le plan (c
k
, c
k
)), on obtient des points à

linterieur dun cercle de rayon 1 (cf. gure 3.6).
c
1
c
2
x
j
r(x ,c )
j 2
r(x ,c )
j 1
Fig. 3.6 Cercle des correlations
Ce cercle permet de voir dun seul coup doeil les correlations lineaires de
toutes les variables initiales avec deux composantes principales particulières.
3.6.2 Reconstructions et transitions
La dualite individus caractères se traduit par des formules de transitions
entres facteurs principaux et composantes principales. On a :
c
j
= Xu
j
On en deduit que c
j t
u
j
= Xu
j
t
u
j
, soit
1jp
c
j t
u
j
= X
1jp
u
j
t
u
j
.
Les (u
j
)
1jp
etant une base orthonormee de R
p
,
1jp
u
j
t
u
j
est la matrice
unite p p, on en deduit :
X =
1jp
c
j t
u
j
3.7 Interpretation des resultats
On etudie dans cette partie lanalyse en composante principale du ta-
bleau 1.1.
Meme si les dierents calculs peuvent etre (et sont) eectues par ordi-
nateur, la lecture des resultats est extremement important, puisquils per-
mettent de caracteriser les axes principaux, souligner les correlations, et sur-
tout, eviter les interpretations erronees.
On commence par centrer et reduire les donnees, on obtient alors le ta-
bleau de donne represente en gure 3.2.
Tab. 3.2 Tableau centre reduit de la table 1.1
AI -0.79 -1.37 -1.36 0.24 2.09 -0.23
PL -1.1 -0.88 0.34 0.41 0.91 -0.23
IAC -1.25 -1.37 -0.63 1.32 0.78 -0.52
CS -0.64 -0.64 -0.39 1.65 -0.67 -0.62
AG -0.34 0.34 0.1 -1.09 -1.2 2.19
AA 0.12 0.34 -0.63 -1.17 -0.14 1.51
AS 0.43 0.59 -0.63 0.41 -0.28 -0.52
PI 0.58 0.83 0.34 -0.01 -0.28 -0.62
EM 1.34 0.59 0.58 -0.76 -0.14 -0.33
OU 1.65 1.57 2.28 -1 -1.06 -0.62
3.7. INTERPR
ETATION DES R
ESULTATS 55
3.7.1 Valeurs propres, facteurs et composantes princi-
pales
Les valeurs propres de la matrice de correlation de nos donnees (cf.
table 3.1) est donne dans la table 3.3. Linertie cumulee represente liner-
tie des projections des individus sur le sous-espace principal à k dimension,
et est donc egal à
1ik

i
.
Tab. 3.3 Valeurs propre de la matrice de correlation de la table 1.1
i
i
% dinertie inertie cumulee
1 3.6 60 60
2 1.40 23 83
3 0.61 10 94
4 0.35 5 99
5 0.04 1 100
6 0 0 100
On trouve que la dernière valeur propre est nulle, ce qui est normal
puisque la somme des colonnes fait toujours 100 dans la table 1.1, les ca-
ractères sont lies par une relation lineaire (chaque ligne correspond en eet
à des pourcentages par categorie socioprofessionnelles).
On voit que les deux premiers axes principaux expliquent à eux seul plus
de 80% de linertie du nuage, nous resumerons donc nos donnees sur le plan
forme de ces deux axes.
Il ny a pas de methode generale pour savoir combien daxes principaux
considerer, rien ne remplacant lexperience. Un critère pouvant etre utilise
est cependant de reperer une chute dinertie entre deux axes consecutifs. La
methode la plus s ur consistant à ne choisir quaprès avoir etudie la signica-
tion possible des axes.
Les deux premiers vecteurs propres sont donnes dans la table 3.4 ci-après.
3.7.2 Composantes principales et representation gra-
phique
Les composantes principales donnent les projections des individus sur
les facteurs principaux (les vecteurs propres). Les composantes principales
Tab. 3.4 les deux premiers vecteurs propres de la matrice de correlation
de la table 1.1
attributs u
1
u
2
LIV -0.470 0.230
ELB -0.510 0.072
POA -0.417 0.311
ACT 0.403 0.418
PIE 0.414 0.041
TER -0.109 -0.818
associes aux deux premiers facteurs principaux (cf. table 3.4) est represente
dans la table 3.5.
Tab. 3.5 les deux premières composantes principales associees aux vecteurs
propres de la gure 3.4
categorie c
1
c
2
socioprofessionnelle
AI 2.77 -0.35
PL 1.46 0.20
IAC 2.59 0.45
CS 1.31 0.90
AG -1.30 -2.44
AA -0.70 -1.98
AS -0.14 0.56
PI -0.94 0.83
EM -1.58 0.50
OU -3.48 1.31
Les composantes principales nous donnent les coordonnees des individus
dans le plan forme par les deux premiers facteurs principaux, cest à dire
dans le plan principal. La gure 3.7 represente les projections des individus
sur le plan principal (il sut de prendre les composantes principales puisque
la base des vecteurs propres est orthonormee).
3.7. INTERPR
ETATION DES R
ESULTATS 57
+
+
+
+
+
+
+
+
+
+
3 2 1 0 1 2 3
1
0
1
2
premier facteur
d
e
u
x
i
e
m
e

f
a
c
t
e
u
r
AI
PL
IAC
CS
AG
AA
AS
PI
EM
OU
Fig. 3.7 Plan principal
Les representations des categories socioprofessionnelles de la gure 3.7
sont des projections, il ne faut donc pas confondre proximite dans le plan
principal et proximite dans le nuage de points. Il faut donc regarder la qua-
lite de la projection. Par exemple, une categorie socioprofessionnelle presque
orthogonale à une des composantes principale sera très deformee dans le
plan principal, et on ne pourra pas tenir compte de sa projection pour lin-
terpretation.
Une des methode les plus courantes pour juger de la qualite de la pro-
jection est dexaminer langle que fait lindividu avec le plan de projection
(cest letude local de la partie 3.6). La table 3.6 donne les dierents angles
des individus par rapport au plan principal.
Tab. 3.6 Angle entre categories socioprofessionnelles et le plan principal
AI PL IAC CS AG AA AS PI EM OU
cos
2
() 0.79 0.62 0.96 0.50 0.90 0.94 0.20 0.88 0.78 0.96
On remarque que tous les individus sont bien representes dans le plan
principal, à part lindividu correspondant à la categorie socioprofessionnelle
AS (Anciens Salaries) qui forme un angle de 63 degres (arccos(
0.20) 63
)
avec le plan principal.
Remarque 11 Lorsque de nombreux points sont mal representes dans le
plan principal, il est necessaire detudier les plan principaux denis par dautres
axes principaux (1 et 3, 2 et 3, . . .).
3.7.3 Interpretation des axes et des projections
Linterpretation des axes, combinaisons lineaires des caractères princi-
paux, est certainement la partie la plus delicate de lanalyse. Habituellement,
deux points de vues sont etudies :
les correlations avec les caractères de depart,
letude des individus typiques (ceux dont les projections sont les meilleurs).
Les correlations avec les caractères de departs sont eectues via le cercle
des correlations (cf. 3.6.1). Celui associe à notre exemple est reproduit en
gure 3.8.
la variable TER (terre) est très negativement correlee avec laxe c
2
,
3.7. INTERPR
ETATION DES R
ESULTATS 59
+
+
+
+
+
+
1.0 0.5 0.0 0.5 1.0
1
.0
0
.5
0
.0
0
.5
1
.0
c1
c
2
LIV
ELB
POA
ACT
PIE
TER
Fig. 3.8 Cercle des correlations
les variables ELB (epargne obligatoire), LIV (livrets, logements,
bons,. . .) et POA (placements) sont très negativement correles avec
laxe c
1
,
les variables PIE (pierres) et ACT (actions) sont très positivement
correles avec laxe c
1
(En etudiant les projections sur les axes dordres
superieurs, on remarque que le troisième axe principal permettrait de
separer ces deux variables).
Ces constatations nous permettent de caracteriser les dierents axes.
Le premier axe separe les produits duciaires (à gauche) des actes de
proprietes (à droite), et le deuxième axe separe les proprietaires terriens (en
bas) des autres.
En regardant les individus, à part AS qui ne se projette que très mal sur
le plan principal (on le voit bien puisque sa projection est presque au centre
du graphique, ce qui est un cas general de mauvaise projection), on peut les
regrouper en trois ensembles distincts ;
les agriculteurs (retraites ou non) qui se caracterisent par un fort pa-
trimoine terrien,
les classes superieures et moyennes aisees (CS, AI, IAC et PL) se ca-
racterisant par un fort patrimoine de propriete et peu (en proportion)
de produits bancaires,
les classes moyennes et pauvres (OU, EM et PI) se caracterisant par
un fort patrimoine duciaire (en proportion, pas en quantite. . .)
On peut egalement voir un glissement vers la droite des retraites par
rapport aux memes categories socioprofessionnelles encore en activites.
3.8 Cas General et utilisation des metriques
On supposera toujours que nos donnees sont centrees. Lorsque lon ne
reduit pas les donnees, on ne peut plus utiliser la metrique euclidienne,
comme on la vu. On se doit donc dutiliser une metrique adaptee à notre
analyse. Procedons ici de facon generale et etudions le problème pour une
metrique donnee.
3.8.1 Metrique
Dune facon generale, si M est une matrice symetrique denie positive
(cest à dire dont toutes ses valeurs propres sont strictement positives), on
denit un produit scalaire comme etant :
< e
i
, e
j
>=
t
(e
i
e
j
)M(e
i
e
j
)
e
i
et e
j
etant des vecteurs colonnes. Une distance d peut alors etre denie
via la norme associee au produit scalaire :
d
2
(e
i
, e
j
) = ||e
i
e
j
||
2
M
=
t
(e
i
e
j
)M(e
i
e
j
)
||e
i
||
M
est la norme associee à d et est appelee M-norme ; M est alors
appelee metrique de lespace. La distance euclidienne est un cas particulier
de la denition ci-dessus, en prenant M egal à la matrice identite. De plus,
toute norme est issue dun produit scalaire de ce type.
On peut montrer que si M est une matrice symetrique denie positive, il
existe une matrice T (inversible puisque M est inversible) telle que M =
t
TT.
On a ainsi
||e
i
e
j
||
2
M
=
t
(e
i
e
j
)M(e
i
e
j
)
=
t
(e
i
e
j
)
t
TT(e
i
e
j
)
=
t
(Te
i
Te
j
)(Te
i
Te
j
)
Les x
i
etant quant à eux des vecteurs lignes, remplacer le tableau de
donnees X par X
t
T nous permettra ensuite dutiliser la metrique euclidienne.
3.8. CAS G
EN
ERAL ET UTILISATION DES M
ETRIQUES 61
Tout se passe alors comme suit : on commence par trouver une metrique M,
puis on transforme notre tableau de donnees par X
t
T (tableau que nous
continuerons à appeler X par abus de notations) et on utilise la metrique
euclidienne.
Cest exactement ce que nous avons fait precedemment en reduisant nos
donnees, comme le montre la partie suivante.
3.8.2 Espace des individus
La metrique la plus utilisee pour lanalyse en composantes principales est
la matrice diagonale :
D 1
s
2
=
t
D1
s
D1
s
=
1
s
2
1
.
.
. 0
1
s
2
i
0
.
.
.
1
s
2
p
Ceci revient à remplacer X par X

t
D1
s
= XD1
s
(cf. partie precedente), et
donc à diviser chaque x
j
par son ecart type. Les ecarts types des nouvelles
variables sont alors toutes egales à 1 : on reduit les donnees.
3.8.3 Espace des caractères
Pour etudier les distances entre caractères, le choix de la metrique ne se
pose pas, on utilise la matrice D . En eet, ||x
i
||
2
D
= s
2
i
puisque les donnees
sont centrees. La longueur dun caractère est egal à sa variance et si les
donnees sont reduites, les caractères sont normes.
De plus, utiliser cette metrique rend les composantes principales ortho-
gonales entres elles. En eet :
< c
j
, c
j
> =
t
c
j
Dc
j
=
t
(Xu
j
)D(Xu
j
)
=
t
u
j
t
XDXu
j
=
t
u
j
V u
j
=
j
t
u
j
u
j
Les u
j
formant une base orthogonale pour la distance euclidienne on a
bien que < c
j
, c
j
>= 0 si j = j
.
Mais la raison fondamentale du choix de D comme metrique tient au fait
que dans un espace euclidien on denit langle entre deux vecteurs e
i
et e
j
par son cosinus qui est egal à :
cos
ij
=
< e
i
, e
j
>
||e
i
||||e
j
||
en utilisant la D-norme on a alors que cos
ij
= r(e
i
, e
j
).
On sinteresse donc, dans lespace des caractères, plus particulièrement
aux angles entre caractères quaux distances entre points.
3.8.4 A.C.P avec une metrique quelconque
Nous nallons pas ici redevelopper tous les calculs. Nous donnons juste
les resultats.
Soit X nos donnees que lon supposera centrees. X est une matrice à n
lignes (nos n individus) et p colonnes (nos p variables).
On se donne une metrique entre individus en choisissant une matrice M
symetrique denie positive (M = D 1
s
2
pour lA.C.P classique). Il nest pas
necessaire de choisir une metrique particulière pour les variable, cest toujours
la D-norme qui est utilisee (o` u D est la matrice des poids).
La seule dierence entre une A.C.P. utilisant la metrique euclidienne et
une A.C.P. utilisant une metrique quelconque et dans le calcul des compo-
santes principales. Les facteurs propres sont ici les vecteurs propres u
1
, . . .u
p
de la matrice MV (et non plus juste V ) associes aux valeurs propres de MV
ranges par ordre decroissants
1
. . .
p
.
On a alors que linertie totale du nuage est egale à I = trace(MV ) =
i
(attention car linertie depend de la distance utilisee).
Les composantes principales c
j
sont toujours egales à Xu
j
.
En resume, si M est la matrice choisie pour tenir lieu de norme et X la
matrice des donnees centree :
V =
t
XDX,
les facteurs propres sont les vecteurs propres u
1
, . . .u
p
de la matrice
MV , associes aux valeurs propres de MV ranges par ordre decroissants
1
. . .
p
,
trace(MV ) =
i
,
les composantes principales c
j
sont egales à c
j
= Xu
j
,
en notant D la matrice des poids, on a : ||c
j
||
D
=
j
.
3.9. QUELQUES REMARQUES 63
3.9 Quelques remarques
Lanalyse en composante principale est une des deux principales methodes
danalyse factorielle (lautre etant lanalyse en facteurs communs et speciques).
Issue essentiellement des travaux de Spearman sur la description de lintelli-
gence dun individu (1904). Lanalyse factorielle se propose dexpliquer des
liaisons entre des variables à laide de facteurs independants. Elle postule un
modèle lineaire de la forme x
j
i
=
k
c
j
k
u
k
i
o` u les u
k
representent les facteurs
independants.
3.9.1 Lanalyse en facteurs communs et speciques
Lanalyse en facteurs communs et speciques cherche à expliquer les
correlations des variables à laide :
dun seul facteur commun, le facteur general G des facteurs de groupe,
intervenant seulement dans une part des variables ;
un facteur specique à chaque variables.
Traditionnellement, le modèle lineaire correspondant secrit
x
j
i
= a
j
G
i
+
k
b
j
k
B
k
i
+ c
j
S
j
i

facteur general facteur de groupe facteur specique
Ce type de modèle a donne lieu à de nombreuses generalisations.
3.9.2 Lanalyse en composante principale
Lanalyse en composante principale sappuie essentiellement sur les tra-
vaux de Hotelling (1933). Elle presuppose la normalite des variables x
j
(sous
cette hypothèse le nuage X denira experimentalement des hyperellispesodes
concentriques degale densite), ce sont les axes principaux de ces ellipsodes
qui deniront les facteurs.
Il convient donc de reserver cette analyse aux observations dont on peut
tester quon pouvait les les considerer extraites de variables normales.
Chapitre 4
Classication
Le seul moyen de faire une methode instructive et naturelle,
est de mettre ensemble les choses qui se ressemblent
et de separer celles qui dièrent les unes des autres.
Georges Buon, Histoire naturelle, 1749.
Cette phrase du celèbre naturaliste et ecrivain Georges Buon peut servir
de denition generale à un modèle de classication. Les modèles les plus
classiquement utilises en classication sont, sans conteste, les partitions et
les hierarchies de parties. Dans les deux cas, les objets qui se ressemblent
sont regroupes en classes. Pour les partitions, les classes sont deux à deux
disjointes ; pour les hierarchies, elles peuvent etre embotees. Dans les deux
cas, elles ne sont pas empietantes au sens o` u lintersection de deux dentres
elles nen produira jamais de troisième. Nous ne parlerons pas dans ce cours de
modèles en classes empietantes, sujet par trop vaste pour cette introduction
à lanalyse des donnees.
Le modèle hierarchique est herite des sciences naturelles (classication
des espèces animales et vegetales), le modèle non hierarchique correspond à
des pratiques statistiques usuelles dans des domaines tels que la reconnais-
sance des formes, lapprentissage, la recherche operationnelle (aectation de
ressources), . . .o` u il sagit de discriminer sans ambigute.
Une des vertus de la non-empietance est de doter la classication de
solides assises mathematiques. Les partitions dun ensemble ni sont en eet
au cur de la theorie combinatoire (denombrements, rangements, geometries
nies, . . .). On connat aussi leur importance en probabilite et statistiques
(via la theorie de linformation et divers tests dhypothèses). Les hierarchies
de parties et leurs avatars : les ultrametriques, possèdent egalement de belles
65
66 CHAPITRE 4. CLASSIFICATION
et fortes proprietes (Leclerc, 1979, 1981, 1985a, et 1985b). Il est dailleurs
remarquable que le premier traite, en langue francaise (à notre connaissance)
sur la classication commence par une etude detaillee du treillis des partitions
dun ensemble ni (Lerman, 1970).
Les hierarchies de parties, dès lors quelles sont indicees (cest à dire
lorsque lon assigne à chaque classe un nombre reel evaluant son niveau)
sont en bijection avec un type particulier de distances : les ultrametriques. Un
interet majeur de ce theorème de bijection est de reduire la recherche dune
classication sur un ensemble X dobjets à la recherche dune dissimilarite
dun type donne sur X (une ultrametrique). Lorsque les objets à classier sont
eux-memes decrits par une dissimilarite, le problème devient complètement
homogène : transformer une dissimilarite quelconque en une dissimilarite dun
type donne. La classication sinscrit alors dans le champ de lapproximation
mathematique.
Dans cet esprit, nous nous restreindrons dans ce chapitre au cas o` u des ob-
jets à classier sont decrits par des dissimilarites, que ces dissimilarites soient
directement observees ou quelles soient calculees à partir de caractères (cf.
Kuntz (1992) pour une discussion detaillee du calcul de dissimilarites à par-
tir de donnees de presence-absence). De plus, par soucis de concision, nous
nous restreignons aux modèles non-empietant que sont les partitions et les
hierarchies de parties. Il sagit là dune approche particulière. Dautres uti-
lisent par exemple une description des objets par des caractères et cherchent
à obtenir des classications sans le truchement de dissimilarites.
4.1 Modèles de classication
On supposera que X est decrit par une dissimilarite propre (cf. 1.4.1) d.
On cherche alors à construire sur X une classication en classes homogènes
au sens de d.
Denition 14 Un sous ensemble K de 2
X
sera appele système de classes
sur X si et seulement si il verie les trois proprietes ci-dessous :
C
1
: X K et K,
C
2
: x X, {x} K,
C
3
: A, B K, A B = entrane A B K.
Laxiome C
3
assure quun système de classes est clos par intersection
nie non vide de ses elements. Un exemple de système de classe est donne en
4.1. MOD
`
ELES DE CLASSIFICATION 67
gure 4.1.
Fig. 4.1 Un système de classes très classe
Si K est un système de classes sur X, on appellera X lensemble de base
de K et classes de K tous ses elements. Les singletons {x} et {X} seront
appelees classes triviales de K.
Denition 15 Un sous ensemble R = {P
1
, P
2
, . . . , P
k
} de 2
X
sera appele
recouvrement de X si et seulement si il verie les deux proprietes ci-dessous :
R
1
: pour tout 1 i k, P
k
= ,
R
2
: pour tous 1 i = j k, P
i
P
j
et P
j
P
i
,
R
3
: P
1
P
2
. . . P
k
= X.
Un exemple de système de classe est donne en gure 4.2.
Fig. 4.2 Un recouvrement
4.1.1 Partitions et hierarchies
On appellera modèle de classes tout sous ensemble de 2
X
qui est soit
un système de classe, soit un recouvrement. Nous nous restreignons à deux
modèles de classes particuliers, les partitions (qui sont un ensemble particulier
de recouvrement) et les hierarchies (cas particulier de système de classes).
Modèle de classe
Denition 16 Une partition P est un recouvrement tel que pour toutes
classes A et B de P : A B = si A = B.
Denition 17 Une hierarchie est un système de classes H tel que pour
toutes classes A et B de P : A B {A, B, }
Pour une hierarchie, de part la denition, deux classes sont donc toujours
soit incluses lune dans lautre, soit dintersection vide. On peut donc, en ra-
joutant les classes triviales, considerer une partition comme un cas particulier
dune hierarchie.
Les classes dune hierarchie etant soient incluses lune dans lautre soit
dintersection vide. On a coutume de representer cet arbre sous la forme de
la gure 4.3 o` u chaque classe est represente par un segment. On appelle cette
representation un dendrogramme.
Fig. 4.3 Un dendrogramme
Indicage
On peut munir une hierarchie, ou plus generalement tout système de
classe K, dun indice.
Denition 18 Un indice sur une système de classe K est une fonction f de
lensemble des classes de K dans lensemble des reels positifs, et telle que :
4.1. MOD
`
ELES DE CLASSIFICATION 69
f({x}) = 0 pour tout x X,
quelques soient A, B K, A B implique f(A) < f(B).
La paire (K, f) est alors appelee système de classe indice. Le reel f(A)
o` u A K est alors appele hauteur de A. La representation dune hierarchie
indicee est aisee en utilisant les dendrogrammes. La hauteur de chaque classe
etant proportionnelle à la heur du segment la representant. Un exemple de
hierarchie indicee est presente en gure 4.4.
1
2
3
4
Fig. 4.4 Representation dune hierarchie indicee
Il est clair que toute hierarchie peut etre indicee. On peut par exemple
utiliser comme indice dune classe A la valeur f(A) = |A| 1.
Indicer une hierarchie va nous permettre de les mettre en relation avec
un type particulier de dissimilarite, les ultrametriques.
Ultrametriques
Denition 19 Une dissimilarite d sur X est une ultrametrique si et seule-
ment si linegalite suivante (appelee inegalite ultrametrique) est veriee quelques
soient x, y, z X :
d(x, y) max {d(x, z), d(y, z)}
On peut verier quune ultrametrique verie linegalite triangulaire et est
donc une distance. De plus linegalite ultrametrique est equivalente au fait
que pour trois objets x, y, z X, les deux plus grandes des trois distances
d(x, y), d(x, z) et d(y, z) sont egales.
On a ainsi coutume de dire que pour une ultrametrique, tout triangle
est isocèle et la base est le plus petit des cotes. La gure 4.5 montre un tel
triangle.
x y z
Fig. 4.5 Un triangle ultrametrique
Denition 20 On appelle boule de centre x et de rayon dune dissimilarite
d sur X lensemble B(x, ) = {y|d(x, y) }.
On appelle classe dune ultrametrique sur X une boule de centre x et de
rayon R
+
. Pour trouver toutes les classes dune ultrametrique, on peut
bien evidemment se restreindre aux boules dont le rayon est une des valeurs
prises par la dissimilarite.
Le theorème suivant montre la relation forte entre les ultrametriques et
les hierarchies.
Theorème 2 (Benzecri (1973), Johnson(1967)) Les dissimilarites dont
lensemble de leurs boules forment une hierarchie sont exactement les ul-
trametriques.
De plus, lensemble des boules dune ultrametrique value par leur rayon
forme une hierarchie indicee.
Ce theorème est fondamental car il permet, à partir dune dissimilarite
dorigine de construire une hierarchie en approximant cette dissimilarite par
une ultrametrique. Lalgorithme de classication ascendante hierarchique en
est un exemple (cf. partie 4.3).
La hierarchie associee à la dissimilarite d ci-après est presentee en -
gure 4.6
x 0
y 1 0
d : z 3 3 0
t 3 3 2 0
u 4 4 4 4 0
x y z t u
4.2. M
ETHODES DE PARTITIONNEMENT 71
x y z t u
Fig. 4.6 hierarchie indicee associee à d
4.2 Methodes de partitionnement
4.2.1 Choix dune partition
Mesures de ressemblances entre classes
On suppose que nos donnees sont munies dune dissimilarite d et que
lon possède une partition P = {C
1
, . . . , C
p
} sur X. On peut alors denir
une dissimilarite sur P en utilisant la dissimilarite d, an de se donner une
mesure sur les classes.
Lorsque la dissimilarite d nest pas une distance euclidienne, on a coutume
de denir la dissimilarite entre deux classes C
i
et C
j
(i = j) dune des trois
facons ci-dessous :
(C
i
, C
j
) = min{d(x, y)|x C
i
, y C
j
}, appelee distance du saut
minimum,
(C
i
, C
j
) = max{d(x, y)|x C
i
, y C
j
}, appelee distance du saut
maximum,
(C
i
, C
j
) =
1
|C
i
||C
j
|
xC
i
,yC
j
d(x, y), appelee distance moyenne.
Lorsque la dissimilarite est une distance euclidienne, on peut mettre à
prot lexistence du barycentre (i.e. le centre de gravite) de chaque classe.
On peut alors soit denir la dissimilarite entre deux classes comme etant la
distance entre leurs deux barycentres.
Un autre moyen est dutiliser, comme en Analyse en Composantes Prin-
cipales, un critère dinertie. Le critère le plus utilise est le critère de Ward qui
mesure entre deux classes la perte dinertie que lon encourt à les regrouper.
On rappelle que linertie dun nuage de points est egale à la moyenne des
carres des distances des points au centre de gravite du nuage que lon note g
(cf. partie 3.5). On suppose donc que les elements x
i
de X sont tous munis
dun poids p
i
(on pourra, par exemple, considerer que les poids sont tous
egaux à
1
n
). Chaque classe est alors aectee dun poids P
i
egal à la somme
des points des elements dicelle.
En notant g
i
le centre de gravite de la classe C
i
, linertie de C
i
est alors
egale à I
i
=
x
j
C
i
p
j
d
2
(x
j
, g
i
). La somme de toutes les inertie des classes
est appelee inertie intraclasse et on la note I
W
:
I
W
=
1ip
I
i
Remarque 12 De facon intuitive, une partition sur X sera dautant meilleure
que linertie intraclasse sera petite. Cependant, la partition à n element
possède une inertie intraclasse nulle. On pourra donc chercher à trouver une
partition à p < n classes qui minimise linertie intraclasse. Cette idee sera
developpee dans les parties suivantes, patience.
On appelle inertie interclasse la quantite I
B
= I I
W
et on peut montrer
que cette quantite est egale à :
I
B
=
1ip
P
i
d
2
(g
i
, g)
Suite à la remarque precedente, cette egalite montre donc que minimiser
linertie intraclasse revient à maximiser linertie interclasse puisque linertie
du nuage est constante quelque-soit la partition choisie.
Le critère de Ward prend alors comme dissimilarite entre deux classes C
i
et C
j
la perte dinertie intraclasse entre la partition initiale et la partition o` u
C
i
et C
j
ont ete fusionnees. Si on note g
i,j
le centre de gravite de la classe
C
i
C
j
, cette perte est egale à la quantite :
(C
i
, C
j
) = P
i
d
2
(g
i
, g) +P
j
d
2
(g
j
, g) (P
i
+P
j
)d
2
(g
i,j
, g)
En utilisant le fait que :
d
2
(g
i,j
, g) =
P
i
P
i
+P
j
d
2
(g
i
, g) +
P
j
P
i
+P
j
d
2
(g
j
, g) +
P
i
P
j
(P
i
+P
j
)
2
d
2
(g
i
, g
j
)
on trouve que la perte dinertie est positive et vaut :
(C
i
, C
j
) =
P
i
P
j
P
i
+P
j
d
2
(g
i
, g
j
)
4.2. M
Remarque 13 Attention, les deux dissimilarites entre classes presentees
lorsque les donnees sont euclidienne ne sont pas des distances. En eet, deux
classes disjointes peuvent avoir un meme barycentre.
La gure 4.7 montre quelques exemples de mesure de ressemblance entre
classes.
g1 g2
max
min
Fig. 4.7 Exemple de mesures de ressemblance entre classe pour une distance
euclidienne.
Mesures de stabilites dune partition
De meme que lon a deni une mesure de ressemblance à une classe dune
partition sur X, on peut, si lon dispose dune dissimilarite sur X denir une
mesure de stabilite (aussi appele indice de qualite) dune partition.
Une mesure de stabilite est ainsi une fonction f de lensemble des parti-
tions sur X dans lensemble des reels positifs. On peut par exemple prendre
comme mesure de stabilite pour une partition P = {C
1
, . . . , C
p
} une des
fonction suivante lorsque la dissimilarite sur X nest pas euclidienne :
f(P) = max
CP
max{d(x, y)|x, y C}
f(P) =
CP
max{d(x, y)|x, y C}
f(P) =
CP
x,yC
d(x, y)
f(P) =
CP
1
|C|
x,yC
d(x, y)
f(P) = max
CP
x,yC
d(x, y)
Si les donnees sont decrites par une distance euclidienne, on peut utiliser
comme mesure de stabilite linertie intraclasse denie ci-avant.
Remarque 14 Toutes les mesures de stabilites decrites ici sont telles que,
intuitivement, les partitions decrivant le mieux les donnees seront celles qui
realisent un minimum de ces fonctions à nombre classes xe. Si on ne xe
pas les classes, la partition à n elements est en eet toujours celle qui realise
le minimum.
Nombre de partition sur X et consequences
Les parties precedentes montrent que lon peut, une fois une mesure de
stabilite choisie, comparer deux partitions sur X au regard de la dissimilarite
decrivant les donnees. De plus, les dierentes remarques montrent que, choisir
la meilleure partition, ne peut se faire que si lon determine à lavance le
nombre de classes quelle doit contenir.
On est donc en face dun problème doptimisation : il faut choisir une
partition minimisant une mesure de stabilite choisie. Une solution possible
est dessayer toutes les partitions possibles (leur nombre est ni) et choisir la
meilleure. Cependant, cette solution est irrealisable en pratique car le nombre
de partitions possible explose exponentiellement avec |X|.
On peut montrer que le nombre de partitions sur un ensemble X (avec
|X| = n) est egal au nombre de Bell B
n
. Ce nombre se calcul avec la
recurrence suivante :
B
0
= 1
B
n
=
1in
C
i1
n1
B
ni
On montre de meme que le nombre de partitions sur X à k classes est
egal au nombre de Stirling de deuxième espèce S
n,k
que lon calcul par la
formule de recurrence suivante :
S
n,n1
=
n(n1)
2
S
n,2
= 2
n1
1
S
n,k
= S
n1,k1
+kS
n1,k
La table 4.1 donne les premiers nombres de Bell et de stirling. Ces nombres
grossissent exponentiellement.
La triste nouvelle est que pour les mesures de stabilites donnees dans la
partie precedente, trouver une partition à k classes minimisant une de ces
mesures se trouve etre un problème NP-dile. Cest à dire quà priori il ny
a pas dautre manière que de regarder toutes les partitions possibles avant
den determiner une qui realise le minimum. Cest pourquoi, les algorithmes
de partitionnement utilisees sont tous des heuristiques (cest à dire quils
trouvent la plupart du temps une partition acceptable, mais sans garanti
doptimalite). Nous en presentons trois, parmi les plus couramment utilises.
4.2. M
Tab. 4.1 B
n
et S
n,k
pour n 7.
S
n,k
n\ k 1 2 3 4 5 6 7 B
n
1 1 1
2 1 1 2
3 1 3 1 5
4 1 7 6 1 15
5 1 15 25 10 52
6 1 31 90 65 15 1 203
7 1 63 301 350 140 21 1 877
4.2.2 k-means
Les algorithmes de regroupement autour de centres mobiles (Forgy, 1965,
McQUeen 1967 ou encore All et Ball, 1967) admettent beaucoup de variantes.
Ils peuvent etre iteratifs (et proche des pratiques dapprentissage) ou non.
Les centres ainsi que le critère de regroupement peuvent aussi etre calcules
de diverses manières. Nous nous contenterons ici de presenter lalgorithme
classique des k-means ainsi que sa variante online. Nous mentionnerons ici
et là quelques variantes sans pour autant les expliciter.
Lalgorithme des k-means, appele aussi algorithme des centres mobiles est
certainement du à LLoyd (1957), Forgy (1965) et vraisemblablement dautres.
Les k-means (algorithme 4.2.2) sont fait pour partitionner des donnees
euclidiennes. On considerera donc dans la suite de cette partie que chaque
objet x est un point de R
p
tel que x
i
soit sa ième coordonnee et que la
distance utilisee d est la distance euclidienne, cest à dire :
d
2
(x, y) =
1ip
(x
i
y
i
)
2
Pour tout sous-ensemble C de X, on notera g(C) =
1
|C|
xC
x son centre
de gravite.
k-means : Partitionnement en k classes a partir dun ensemble X de points
de R
p
.
debut
soient x
1
, . . ., x
k
, k elements de X
g
i
x
i
pour tout 1 i k
C
i
pour tout 1 i k
on s arrete FAUX
tant que on s arrete est FAUX
C
i
pour tout 1 i k
pour chaque x X
soit i
0
tel que d(x, g
i
0
) = min{d(x, g
j
)|1 j k}
C
i
0
C
i
0
{x}
n (pour chaque)
si {C
1
, . . . , C
k
} = {C
1
, . . . , C
k
}
alors
C
i
C
i
pour tout 1 i k
g
i
g(C
i
) pour tout 1 i k
n (alors)
sinon on s arrete VRAI
n (tant que)
n
Voici un exemple du deroulement des k-means. On considère les huit
points de R
2
de la gure 4.8.
1
2
3
4
5
1 2 3 4 5
Fig. 4.8 Huit points de R
2
En appliquant lalgorithme precedent pour k = 2 et en prenant comme
points de depart g
1
= (1, 1) et g
2
= (1, 2).
La distance au carre des points au centre est alors :
d
2
(1, 1) (1, 2) (2, 1) (2, 2) (4, 4) (4, 5) (5, 4) (5, 5)
g
1
0 1 1 2 18 25 25 32
g
2
1 0 2 1 13 18 20 25
Les nouvelles classes sont alors C
1
= {(1, 1), (2, 1)} de centre de gravite
g
1
= (
3
2
, 1) et C
2
= {(1, 2), (2, 2), (4, 4), (4, 5), (5, 4), (5, 5)} de centre de gra-
4.2. M
vite g
2
= (
7
2
,
22
6
). La distance au carre des points au centre est alors :
d
2
(1, 1) (1, 2) (2, 1) (2, 2) (4, 4) (4, 5) (5, 4) (5, 5)
g
1
1
4
5
4
1
4
5
4
61
4
89
4
85
4
113
4
g
2
481
36
325
36
337
36
181
36
13
36
73
36
85
36
145
36
Après cette etape, les nouvelles classes sont alors les classes naturelles :
C
1
= {(1, 1), (1, 2), (2, 1), (2, 2)},
C
1
= {(4, 4), (4, 5), (5, 4), (5, 5)}.
Une nouvelle iteration ne changeant pas les classes, lalgorithme sarrete.
Pour que lalgorithme fonctionne, il faut lui specier le nombre de classes
k que lon veut produire. Le critère darret est ici la stabilisation des classes.
Ce critère peut neanmoins se reveler inadequat pour quelques cas critiques
(comme nous le verrons dans un exemple). On a donc coutume de rajouter
comme critère darret un nombre maximum diteration.
Pour prouver la convergence de lalgorithme, nous allons montrer que les
k-means optimisent localement linertie intraclasse I
W
.
Notons C
1
, . . .C
k
les k classes formees avant une iteration de lalgorithme,
g
1
, . . ., g
k
leurs centres de gravite associes, C
1
, . . .C
k
les k classes modiees
après iteration et g
1
, . . ., g
k
leurs centres de gravite.
Avant literation, I
W
vaut :
I
W
({C
1
, . . . , C
k
}) =
1ik
xC
i
d
2
(x, g
i
)
Puisque lon aecte chaque individu à la classe dont le barycentre est le
plus proche on a alors que :
1ik
xC
i
d
2
(x, g
i
)
1ik
xC
i
d
2
(x, g
i
)
La formule de Huygens nous donne ensuite que :
xC
i
d
2
(x, g
i
) =
xC
i
d
2
(x, g
i
) +d
2
(g
i
, g
i
)
et donc :
I
W
({C
1
, . . . , C
k
})

1ik
xC
i
d
2
(x, g
i
)
I
W
({C
1
, . . . , C
k
})
`
A chaque iteration, linertie intraclasse I
W
diminue, on est donc en presence
dune suite positive et decroissante, donc convergente.
Attention cependant, la convergence de la valeur de la fonction objectif
ne signie pas la convergence des classes trouvees. Le seul moyen de faire
converger les classes est de ne pas changer un point de classe si lon a le
choix entre changer celui-ci ou pas (ce cas est possible en cas degalite de
distance entres centres de gravite).
Lexperience prouve cependant que les k-means convergent très rapide-
ment, une dizaine diterations etant seulement necessaire. On a donc coutume
de remplacer le critère de stabilisation des classes par un un nombre maxi-
mum diteration (10 en general). Comme chaque iteration peut etre eectuee
en O(nkp) operations, cet algorithme est lineaire lorsque le nombre de classes,
la dimension et le nombre diterations sont xes (ce qui est le cas habituel).
Lalgorithme des k-means, tout comme lalgorithme des transferts (voir
partie 4.2.3) est très sensible aux elements initiaux. En changer peut produire
une autre partition, les partitions resultantes etant toutes deux des minima
locaux de I
W
. Une facon classique de contourner le problème est de relancer
lalgorithme plusieurs fois en changeant les points initiaux, et de prendre la
meilleure partition.
Certaines variantes des k-means comme le global k-means (Likas, Vlas-
sis et Verbeek, 2003) ou les k-harmonic means permettent egalement detre
moins sensible aux paramètres de depart.
Nous allons maintenant presenter une variante des k-means (McQueen
1967) o` u le centre de gravite est recalcule à chaque fois quun point est
examine.
Online k-means : Partitionnement en k classes a partir dun ensemble X
de points de R
p
et un nombre diteration m.
debut
soient x
1
, . . ., x
k
, k elements de X
g
i
x
i
pour tout 1 i k
j 1
tant que j < m
n
i
1 pour tout 1 i k
pour chaque x X
soit i
0
tel que d(x, g
i
0
) = min{d(x, g
j
)|1 j k}
g
i
0

1
n
i
0
+1
(n
i
0
g
i
0
+x)
n
i
0
n
i
0
+ 1
4.2. M
n (pour chaque)
C
i
pour tout 1 i k
pour chaque x X
soit i
0
tel que d(x, g
i
0
) = min{d(x, g
j
)|1 j k}
C
i
0
C
i
0
{x}
n (pour chaque)
g
i
g(C
i
) pour tout 1 i k
j j + 1
n (tant que)
n
Cette variante depend donc de lordre du choix des elements. Bottou et
Bengio (1995) on prouve que cet variante converge. On pourra consulter pour
plus de details Bottou 1991 qui explicite des condition susantes pour que
des algorithmes de ce type convergent.
Eectuons lalgorithme online k-means sur les six points de R de la -
gure 4.9.
1
2
18
19
20
35
Fig. 4.9 Six points R
On lance lalgorithme des k-means en choisissant 35, 20 et 19 comme
points de depart. Les 3 classes de depart sont donc C
1
= {35} (de centre de
gravite g
1
= 35), C
2
= {20} (de centre de gravite g
2
= 20)et C
3
= {19} (de
centre de gravite g
3
= 19).
On considère ensuite 18. Le centre de gravite le plus proche etant g
3
, les
classes et centres de gravite deviennent :
C
1
= {35}, g
1
= 35,
C
2
= {20}, g
2
= 20,
C
3
= {18, 19}, g
3
= 18.5.
On considère maintenant le point 2. Le centre de gravite le plus proche
etant g
3
, on a :
C
1
= {35}, g
1
= 35,
C
2
= {20}, g
2
= 20,
C
3
= {2, 18, 19}, g
3
= 13.
Enn, après avoir considere le point 1 :
C
1
= {35}, g
1
= 35,
C
2
= {20}, g
2
= 20,
C
3
= {1, 2, 18, 19}, g
3
= 10.
On peut maintenant creer les classes nales en aectant les points aux
centres de gravite le plus proche (qui sont ici g
1
= 35, g
2
= 20 et g
3
= 10),
ce qui nous donne :
C
1
= {35},
C
2
= {18, 19, 20},
C
3
= {1, 2}.
On retrouve bien les classes naturelles. Pour vous rendre compte que
cela nest pas toujours le cas, prenez comme points de depart 1, 2 et 18 et
considerez dans lordre les points 19, 20 et 35.
4.2.3 Algorithme des transferts
Lalgorithme de transfert est une methode generale de partitionnement
qui depend dune mesure de stabilite f (appelee aussi critère devaluation
dans ce contexte). Tout comme lalgorithme des centres mobiles ou des k-
means, le nombre de classes k est xe au depart. Cependant, ce nombre de
classes peut diminuer au court de lalgorithme.
En fonction de la mesure de qualite choisie, cet algorithme peut etre
applique à des donnees simplement decrites par une dissimilarite. On peut
par exemple choisir pour f la fonction associant à une partition P :
f(P) =
CP
(
1
|C|
x=yC
d
2
(x, y))
Ou tout autre mesure de stabilite decrite dans la partie 4.2.1.
Remarque 15 Cet algorithme ne peut bien evidemment pas servir à resoudre
des problèmes NP-dicile (je vous laisse en exercice le soin de voir pourquoi),
la partition obtenue est ainsi souvent un minimum local.
Pseudo-code
Initialisation
choix de k classes arbitraires C
1
, . . .C
k
4.2. M
x
t

i
t

j
t

f
t
0
STOP FAUX
Tant Que STOP est FAUX
f
t
f({C
1
, . . . C
k
})
Pour Tout 1 i k
Pour Tout x C
i
Pour Tout 1 j k tel que i = j
Si f({C
1
, . . . , C
i
\{x}, . . . C
j
{x} . . . C
k
}) < f
t
Alors
f
t
f({C
1
, . . . , C
i
\{x}, . . . C
j
{x} . . . C
k
})
x
t
x
i
t
i
j
t
j
Fin Alors
Fin Si
Fin Pour Tout
Fin Pour Tout
Fin Pour Tout
Si f
t
< f({C
1
, . . . C
k
})
Alors
C
it
C
it
\{x
t
}
C
jt
C
jt
{x
t
}
Fin Alors
Sinon
STOP VRAI
Fin Sinon
Fin Si
Fin Tant Que
Convergence de lalgorithme
La convergence de lalgorithme est assuree par le fait que la suite des
mesures de stabilite à chaque iteration est decroissante et positive, donc
convergente.
4.3 Lalgorithme de Classication Ascendante
Hierarchique (C.A.H.)
Lalgorithme de C.A.H. est une methode generale de construction dune
hierarchie à partir de donnees decrites par une dissimilarite. Il depend dune
mesure de ressemblance entre classes, tout comme lalgorithme des transfert
depend dune mesure de stabilite.
Nous donnerons ici une version metrique de lalgorithme de C.A.H. On
transformera donc une dissimilarite d sur X en une ultrametrique u. On
pourra ensuite deduire la hierarchie associee en calculant les classes de u.
De facon plus classe, on peut decrire lalgorithme de classication hierar-
chique comme suit : on construit une suite de partition de plus en plus ne,
la première contenant n classes, la seconde n 1, la troisième n 2 et ainsi
de suite jusquà nobtenir plus quune seule classe contenant tous les objets.
Passer dune partition à la suivante se faisant en fusionnant deux classes de
la première partition.
4.3.1 Pseudo-code
Soit f une mesure de ressemblance sur X.
Initialisation
k = n
C
1
, C
2
, . . . , C
n
est une partition de X en n classes
Pour Tous x, y X
u(x, y) f({x}, {y})
Fin Pour Tout
Tant Que k > 1
Soient x
0
et y
0
tels que pour tous z et t : u(x
0
, y
0
) u(z, t)
Soient i
0
et j
0
tels que x
0
C
i
0
et y
0
C
j
0
Pour Tous x C
i
0
C
j
0
, y C
k
tel que k = i
0
et k = j
0
u(x, y) f(C
i
0
C
j
0
, C
k
)
Fin Pour Tous
C
i
0
= C
i
0
C
j
0
De j = j
0
+ 1 à j = k
C
j1
C
j
Fin De
k k 1
4.3. LALGORITHME DE CLASSIFICATIONASCENDANTE HI
ERARCHIQUE (C.A.H.) 83
Fin Tant Que
4.3.2 Cas particuliers
Lorsque les donnees sont euclidiennes, on a coutume dutiliser comme
mesure de ressemblance sur X le critère de Ward (cf. 4.2.1). Lorsque les
donnees ne sont pas euclidiennes, on utilise le plus souvent lune des trois
mesures egalement decrites en 4.2.1. Lalgorithme de C.A.H. est alors appele :
lien simple lorsque la mesure de ressemblance est la distance du saut
minimum,
lien moyen lorsque la mesure de ressemblance est la distance moyenne,
lien complet lorsque la mesure de ressemblance est la distance du saut
maximum.
4.3.3 Exemples
On utilisera dans cette partie la matrice d ci-après.
Tab. 4.2 La dissimilarite exemple d.
x 0
y 1 0
d : z 1 2 0
t 3 5 3 0
u 5 5 5 4 0
x y z t u
Que lon utilise le lien simple, le lien moyen ou le lien complet, un choix
sore à nous dès la première iteration. On peut, soit choisir la paire xy, soit
la paire xz. Dans le premier cas, on obtient les 3 hierarchies indicees de la
gure 4.10, dans lautre, les trois hierarchies indicees de la gure 4.11.
On peut tirer deux remarques essentielles de ces exemples :
la hierarchie solution depend de la mesure de ressemblance choisie (la
classe {x, y} nexistant pas pour le lien simple et la classe {t, u} nexis-
tant que pour le lien moyen),
lordre dagregation des paires de classes modie la hierarchie resultante.
1
2
3
4
5
x y z
t u
lien simple
1
2
3
4
5
x y z
t u
lien complet
1
2
3
4
5
x y z
t u
lien moyen
Fig. 4.10 lien simple, moyen et complet en agregeant x et y
1
2
3
4
5
x y z
t u
lien simple
1
2
3
4
5
x z y
t u
lien complet
1
2
3
4
5
x z y
t u
lien moyen
Fig. 4.11 lien simple, moyen et complet en agregeant x et z
4.3. LALGORITHME DE CLASSIFICATIONASCENDANTE HI
ERARCHIQUE (C.A.H.) 85
On pourra cependant remarquer que seules les deux hierarchies issues du
lien simple en changeant lordre dagregation sont identiques. Cette remarque
est un cas general, quelque-soit lordre dagregation des donnees, la hierarchie
issue du lien simple est unique.
Chapitre 5
Lanalyse discriminante
Lanalyse discriminante porte sur les classements que lon peut eectuer
au sein dune population. On a coutume de distinguer :
la discrimination à but descriptif : une population en q classes de X
etant donnee (on les note X
1
, . . ., X
q
) et X etant par ailleurs decrit
par des variables quantitatives x
1
, . . ., x
p
. On cherche de nouvelles
variables, combinaisons lineaires des x
j
, independantes et separant au
mieux ces classes.
La discrimination à but decisionnel : on dispose toujours dune partition
de X et de p variables x
j
. X est considere comme un echantillon dun
ensemble X (X X) sur lequel sont denis les x
j
. Le problème est de
determiner, à partir des valeurs x
j
, à quelle classe if faudrait aecter
i X X.
On supposera dans la suite de ce chapitre que les donnees, et donc la
matrice X, sont centrees.
5.1 Principe de la methode
Chacun des n individus est un vecteur de R
p
. Les q classes dindividus
forment chacune un nuage et le but de lanalyse discriminante est de trou-
ver des vecteurs, combinaisons lineaires des caractères initiaux, separant au
mieux lesdits nuages.
Ainsi, de meme quen A.C.P., on cherche une nouvelle base de R
p
mais
ces nouveaux caractères ne sont plus de variance maximum (i.e. des axes
portant le plus dinertie) mais ceux pour qui :
87
88 CHAPITRE 5. LANALYSE DISCRIMINANTE
les individus dune meme classe se projettent sur des valeurs voisines,
deux individus de classes dierentes se projettent sur des valeurs dierentes.
Ceci signie que sur chaque axe, la variance des projections des individus
dune meme classe doit etre la plus faible possible et la variance dindividus
de classes dierentes la plus grande possible.
5.1.1 Matrices de variances intraclasse et interclasses
Nos donnees etant centrees, la matrice de variance du nuage (cf. par-
tie 3.3.3) est egale à V =
t
XDX, o` u D est la matrice des poids des individus.
Pour chaque classe 1 k q dindividus on peut calculer la matrice de
variance W
k
des caractères restreints aux elements de la classe k :en notant
X
k
la matrice des individus de la classe k, W
k
=
t
X
k
DX
k
. En associant à
chaque classe k un poids P
k
egal à la somme des poids de chaque individu
de la classe (P
k
=
x
i
X
k
p
k
), on appelle matrice intraclasse la matrice W :
W =
q
i=1
P
k
W
K
En notant g
k
= (g
k
1
, . . . , g
k
p
) le centre de gravite de chaque classe (avec
g
k
i
=
P
x
j
X
k
p
i
x
i
j
P
k
), on appelle matrice interclasse la matrice B de terme
generique :
b
ij
=
q
k=1
P
k
(g
i
k
)(g
j
k
)
On obtient facilement legalite :
V =
q
i=1
P
k
W
K
+B = W +B
5.1.2 Variance dun caractère
Soit u R
p
. Le caractère qui lui est associe est alors c = Xu. De la meme
manière quen A.C.P. (cf. 3.6.1), la metrique utilisee est celle induite par la
matrice des poids D.
La norme du caractère c est alors egale à :
||c||
2
D
=
t
cDc =
t
u
t
XDXu =
t
uV u =
t
uWu +
t
uBu
5.1. PRINCIPE DE LA M
ETHODE 89
La norme dun caractère peut ainsi se decomposer en somme de deux
variances :
t
uWu, variance intraclasse, rendant compte de la variation des valeurs
de projections sur u des individus à linterieur dune meme classe,
t
uBu, variance interclasse, rendant compte de la dispersion des projec-
tions des centres de gravite des dierentes classes sur u.
Les vecteurs de la base de R
p
recherches sont donc ceux tels que
t
uWu
soit le maximum possible et tels que
t
uBu soit le minimum possible.
5.1.3 Facteurs et caractères discriminants
Soit u R
p
et c = Xu son caractère associe. Le caractère est dit parfai-
tement discriminant si
t
uWu = 0. On a alors
t
uBu qui est maximum et vaut
t
uV u (bref, cest le meilleur caractère que lon puisse trouver).
Dans la pratique, ce cas ideal napparat malheureusement pas et il faut
donc trouver le meilleur caractère qui, dune part maximise la variance in-
terclasse et, dautre part minimise la variance intraclasse.
De part legalite V = X +B, on en deduit
t
uBu
t
uV u
+
t
uWu
t
uV u
= 1
et donc, le meilleur caractère possible est celui qui maximise
t
uBu
t
uV u
ce caractère minimisant egalement
t
uWu
t
uV u
Soit c = Xu un tel caractère. Le vecteur u annule donc les derivees par-
tielles de
t
uBu
t
uV u
(
t
uBu et
t
uV u sont des fonctions de R
p
dans R continues
et derivables car polynomiales. Elles se derivent donc de facon usuelle, en
derivant coordonnee par coordonnee). On peut representer de facon matri-
cielle le système à annuler :
2(
t
uV u)Bu 2(
t
uBu)V u
(
t
uV u)
2
Ainsi :
2(
t
uV u)Bu 2(
t
uBu)V u = 0
Bu =
t
uBu
t
uV u
V u
V
1
Bu =
t
uBu
t
uV u
u
t
uBu
t
uV u
etant un scalaire, on en deduit que u est un vecteur propre de la
matrice V
1
B associe à la plus grande valeur propre puisque
t
uBu
t
uV u
est maxi-
mum.
5.1.4 Recherche des facteurs
Les facteurs discriminants sont, on la vu, les vecteurs propres de la ma-
trice V
1
B. De meme quen A.C.P. on montre quen ordonnant les valeurs
propres par ordre decroissant
1

2
. . .
p
, les vecteurs propres u
i
as-
socies forment une base orthonormee de R
p
maximisant la discrimination.
On peut montrer quen essayant de minimiser la quantite
t
uWu
t
uV u
, on est
ramene à chercher les vecteurs propres de la matrice W
1
B, vecteurs propres
identiques à ceux de V
1
B. On montre de plus que W
1
Bu
i
=

i
(1
i
)
u
i
.
Les valeurs propres de V
1
B etant positives, on en deduit quelles sont
toutes plus petite que 1 et quune valeur propre egale à 1 correspond à un
caractère parfaitement discriminant (i.e.
t
uWu = 0). On peut egalement
remarquer quil y a au plus q 1 valeurs propres non nulle puisque la matrice
B est formee à partir des q centres de gravite des classes dont la somme
ponderee par le poids des classes est egale au centre de gravite du nuage et
vaut donc 0 puisque nos donnees sont centrees.
5.2 Lanalyse discriminante decisionnelle
Lorsquil y a uniquement deux classes dobjets, il nexiste quun seul fac-
teur discriminant u, donne par lequation :
u = V
1
(g
2
g
1
) = W
1
(g
2
g
1
)
Le problème est maintenant de pouvoir aecter tout nouveau caractère c
à une des deux classes possible. De part lequation ci-dessus, on peut decider
de choisir daecter c
à la classe dont le centre de gravite est le plus proche

au sens de la metrique induite par V
1
. Cette metrique est appele distance
de Mahalanobis.
5.3. LANALYSE DISCRIMINANTE COMME CAS PARTICULIER DA.C.P.91
On aecte donc c
à la classe 1 si et seulement si
t
(c
g
1
)V
1
(c
g
1
) <
t
(c
g
2
)V
1
(c
g
2
). Ceci revient à se placer de part et dautre de lhyperplan
orthogonal à u (pour la metrique V
1
), hyperplan appele hyperplan de Fisher
(cf. gure 5.1).
Dcision d1 Dcision d2
Classe 1
Classe 2
g1
g2
Fig. 5.1 Hyperplan de Fisher
Ce critère de decision se generalise aisement à plus de deux classes, et
donc pour chaque nouveau caractère c
on laecte à la classe l telle que :

d
V
1(c
, g
l
) = min
1iq
d
V
1(c
, g
i
)
5.3 Lanalyse discriminante comme cas par-
ticulier dA.C.P.
En considerant la matrice G à q lignes et p colonnes tels que la ligne i
soit le centre de gravite de la classe i et en utilisant la matrice diagonale des
poids D
q
de chaque classe (le poids dune classe etant egal à la somme des
poids des individus de la classe), on a :
V =
t
GD
q
G = B
Ainsi, puisque les facteurs principaux sont les vecteurs propres de la ma-
trice MV (o` u M est la metrique utilisee, cf. 3.6), en utilisant la metrique
M = V
1
(on utilise la distance de Mahalanobis) on retrouve les vecteurs et
valeurs propres de lanalyse discriminante.
Chapitre 6
Lanalyse factorielle des
correspondances
Cette methode, introduite pour lanalyse de questionnaires et de tableaux
de contingences par J.-P. Benzecri, lanalyse factorielle des correspondances
est de part la richesse de ses interpretations, fort etudiee et intensivement
utilisee en analyse des donnees car la validite de la methode setant à tout
tableau de donnees veriant les deux proprietes suivantes :
les donnees sont toutes positives,
les donnees sont homogènes (i.e. les grandeurs representees dans le
tableau sont toutes de meme grandeur).
Lanalyse des correspondances est en fait un sous-produit de lanalyse
canonique (que nous ne verront pas). Or cette dernière sappuie essentielle-
ment sur des considerations geometriques (calcul de langle que forment deux
sous-espaces vectoriels), et permettrait dintroduire lanalyse des correspon-
dances de facon rigoureuse et elegante. Cependant, une telle presentation ne
fait que peu appel à lintuition statistique. Celle-ci nous paraissant tout
à fait essentielle, ce chapitre sera consacree à une introduction heuristique
à lanalyse des correspondance. La justication geometrique des principes
enonces viendra au chapitre suivant traitant de lanalyse canonique.
Nous utiliserons comme exemple dans ce chapitre les donnees de la table 6.1
qui recense le niveau hierarchique et lorigine sociale des 390 salaries dune
entreprise.
Le nombre delements dun tableau de contingence est la somme des lignes
et des colonnes, et sera donc note n. Ici, n = 390 qui est le nombre de salaries
consideres.
93
94CHAPITRE 6. LANALYSE FACTORIELLE DES CORRESPONDANCES
Tab. 6.1 tableau de contingence entre niveau hierarchique et origine sociale
cadres agriculteurs ouvriers/ employes autre

ouvriers\ employes 11 14 107 75 207
matrise 1 10 60 30 102
cadre 23 2 166 40 81
35 26 183 146 390

6.1 Les donnees
Lanalyse factorielle des correspondances (A.F.C.) porte sur la description
de variables nominales.
On considère deux variables nominales x et y sur la population X, repre-
sentees par leur tableau de contingence N = (n
ij
)
1iL,1jK
à L lignes et K
colonnes (cf. tableau 6.1). Cest dire que notre attention ne porte que sur les
modalites des deux variables, les noms des individus prenant ces modalites
etant oubliees.
x devient la variable ligne, y la variable colonne. On utilisera les notation
suivantes :
n
ij
sera lelement du tableau de contingence situe à la ligne i et la
colonne j,
n
i
=
1jK
n
ij
,
n
j
=
1iL
n
ij
,
n =
1jK
n
j
=
1iL
n
i
Les nombres n
i
(1 i L) et n
j
(1 j K) sont appelees distribu-
tions marginales. Non pas quils soient moins important que dautres mais
parce que habituellement, ils sont ecrits dans les marges.
Les matrices D
L
et D
K
traduisent ces distributions marginales de facon
matricielle. Ces matrices sont alors des matrices diagonales à L et K lignes
respectivement :
6.2. LES NUAGES 95
D
L
=
n
1
.
.
. 0
n
i
0
.
.
.
n
L
D
K
=
n
1
.
.
. 0
n
j
0
.
.
.
n
K
De meme, si lon sinteresse aux frequences, on pourra noter :

f
ij
=
n
ij
n
,
f
i
=
n
i
n
,
f
j
=
n
j
n
,
Le
2
du tableau (cf. partie 2.2.3) secrit alors :
2
=
ij
(n
ij
n
i
n
j
n
)
2
n
i
n
j
n
= n
ij
(f
ij
f
i
f
j
)
2
f
i
f
j
6.2 Les nuages
Au tableau N correspond a priori deux nuages de points :
en ligne, L points dans R
K
, les n
ij
formant les coordonnees du point i,
en colonne, K points de R
L
(de coordonnees n
ij
).
Ces deux nuages sont tout aussi important lun que lautre. On devra donc
dans toute A.F.C. eectuer deux analyses, lune en ligne et lautre en colonne.
Les vecteurs ainsi obtenus risquent detre extremement sensibles aux eec-
tifs marginaux. Ainsi, dans lexemple du tableau 6.1, la dernière ligne (23, 2,
166,40) est globalement plus petite par rapport à la première (11,14,107,75).
De plus les populations ne sont pas homogènes puisquelle se compose de 207
ouvriers et seulement 81 cadres. Pour pallier cet inconvenient, on divise selon
loption (ligne ou colonne) leectif n
ij
par les valeurs marginales (n
i
ou n
j
)
correspondante. On obtient ainsi deux nuages :
X
L
: L points dans R
K
, deni tel que
X
L
= D
1
L
N
N
K
: K points dans R
L
, deni tel que
X
K
= D
1
K
t
N
Ces deux matrices X
L
et X
K
sont appeles respectivement tableau des
prols lignes et tableau des prols colonnes (cf. tableau 6.2).
Tab. 6.2 Prols lignes et colonnes du tableau 6.1
X
L
=
11
207
14
207
107
207
75
207
1
102
10
102
60
102
31
102
23
81
2
81
16
81
40
81
X
K
=
11
35
1
35
23
35
14
26
10
26
2
26
107
183
60
183
16
183
75
146
31
146
40
146
6.3 La distance
Selon lespace considere, R
L
ou R
K
, on pourrait prendre la distance eu-
clidienne :
entre deux lignes i et i
2
L
(i, i
) =
j
(
n
ij
n
i
n
i
j
n
i
)
2
=
j
(
f
ij
f
i
f
i
j
f
i
)
2
entre deux colonnes j et j
2
K
(j, j
) =
i
(
n
ij
n
j
n
ij
n
j
)
2
=
i
(
f
ij
f
j
f
ij
f
j
)
2
Une telle distance apporte cependant un tracas. Reprenons lexemple
du tableau 6.1. Leectif de la colonne j
0
ouvrier employe est assez
considerable, en tout cas beaucoup plus important que celui de la colonne
cadre. Dans un tel cas, la dierence (
n
ij
0
n
i
n
i
j
0
n
i
)
2
joue un role excessif dans
le calcul de
2
L
(i, i
).
Ainsi, pour i = ouvriers employeset i = agents de matrise, on
trouve comme contribution des coordonnees à
2
L
(i, i
)
cadres : 8,3 %
agriculteurs : 12%
ouvriers employes : 33%
autres : 46,2%
Les deux dernières modalites ecrasent les deux premières. An deviter
cet inconvenient, on pondère, lors du calcul de la distance :
pour le nuage X
L
de R
K
, la jième coordonnee par
n
n
j
=
1
f
j
pour le nuage N
K
de R
L
, la iième coordonnee par
n
n
i
=
1
f
i
Les distances deviennent alors
6.4. ANALYSES DES NUAGES 97
entre les lignes
2
L
(i, i
) =
j
n
n
j
(
n
ij
n
i
n
i
j
n
i
)
2
=
j
1
f
j
(
f
ij
f
i
f
i
j
f
i
)
2
entre les colonnes
2
K
(j, j
) =
i
n
n
i
(
n
ij
f
j
n
ij
n
j
)
2
=
i
1
f
i
(
f
ij
f
j
f
ij
f
j
)
2
Cet type de metrique est appele metrique du
2
. Les M-normes associes
sont alors :
la matrice M
L
= nD
1
k
pour lanalyse en lignes,
la matrice M
K
= nD
1
L
pour lanalyse en colonnes.
Un autre interet de la metrique du
2
est quelle verie le principe dequiva-
lence distributionnelle.

Enoncons le pour les prols lignes. Si les deux moda-
lites i et i
ont des prols identiques, on peut les regrouper en une seule et

sommer leurs eectifs. Il ny a plus alors que L 1 modalites en lignes et
les distances d
2
K
(j, j
) construites dans R
L1
à partir de ce nouveau tableau
concide avec celles que lon avait precedemment denies dans R
L
(on pourra
le demontrer en exercice).
6.4 Analyses des nuages
Nous allons reprendre ici les resultats de la partie 3.8. La seule dierence
notable est que nos donnees ne sont pas centrees. Cependant, nos donnees
etant issues dun tableau de contingence, le centre de gravite du nuage na
pas de sens physique ici. Nous ne centrerons donc pas les donnees, et nous
appliquerons tout de meme les resultats de la partie 3.8, ses eets etant
negligeables (cf. partie 6.4.2).
6.4.1 Matrices V
La matrice V =
t
XDX de lACP etait egale à la matrice de variance-
covariance car les donnees etaient centrees. Ici, les donnees etant non centree,
les matrices correspondantes ne correspondent plus à la variance. La matrice
D est la matrice des poids. Pour lanalyse en ligne, cette matrice correspond
alors à
1
n
D
L
, et à
1
n
D
K
pour lanalyse ne colonne. On a donc :
V
L
=
t
X
L
(
1
n
D
L
)X
L
pour lanalyse en ligne,
V
K
=
t
X
K
(
1
n
D
K
)X
K
pour lanalyse en colonne.
6.4.2 A.C.P en ligne et colonne
Les facteurs propres sont les vecteurs propres de la matrice MV .
Analyse en ligne
Ici la matrice MV = M
L
V
L
. On a alors :
M
L
V
L
= (nD
1
K
)(
t
X
L
(
1
n
D
L
)X
L
)
= nD
1
K
t
(D
1
L
N)
1
n
D
L
D
1
L
N
= nD
1
K
t
N
t
D
1
L
1
n
D
L
D
1
L
N
= D
1
K
t
ND
1
L
N
Analyse en colonne
Ici la matrice MV = M
K
V
K
. On a alors :
M
L
V
L
= (nD
1
L
)(
t
X
K
(
1
n
D
K
)X
K
)
= nD
1
L
t
(D
1
K
t
N)
1
n
D
K
D
1
K
t
N
= nD
1
L
tt
N
t
D
1
K
1
n
D
K
D
1
K
t
N
= D
1
L
ND
1
K
t
N
6.4.3 Valeurs propres
On peut montrer que les valeurs propres de D
1
K
t
ND
1
L
N et D
1
L
ND
1
K
t
N
sont les memes et toutes plus petites que 1.
Il ressort de cela quil ny a au plus que min{K, L} vecteurs propres
associes à des valeurs propres non nulles.
Les donnees etant non centrees, on peut de plus montrer que le centre
de gravite (que lon peut denir meme sil na pas de realite physique)
g
L
des lignes est vecteur propre de M
L
V
L
pour la valeur propre 1 et que le
centre de gravite g
K
des colonnes est vecteur propre de M
K
V
K
pour la valeur
propre 1 egalement.
Ces vecteurs propres nous sont inutiles, on ne considerera donc pas les
centres de gravite comme des vecteurs propres. On note alors
1

2

. . .
min{K,L}1
les valeurs propres associes aux vecteurs propres dierents
de g
L
et g
K
.
6.4. ANALYSES DES NUAGES 99
Remarque 16 Si lon avait centre les donnees, les centres de gravites (des
donnees non centrees) auraient ete vecteurs propres de la valeur propre 0.
Ceci participe du fait quon les ignore dans notre analyse non centree.
Comme la trace de la matrice MV est egale à la somme des valeurs
propres, on a :
trace(M
L
V
L
) = trace(M
K
V
K
)
= 1 +
1
+. . . +
min{K,L}1
=
j
n
2
ij
n
i
n
j
= 1 +

2
n
Le
2
remplace ici linertie de lACP. En AFC, cest ainsi le
2
qui tient
lieu dinformation.
6.4.4 Vecteurs Propres et composantes pruincipales
Soient u
1
, . . ., u
min{K,L}1
les vecteurs propres de lanalys en ligne associes
aux valeurs propres
1

2
. . .
min{K,L}1
et v
1
, . . ., v
min{K,L}1
les
vecteurs propres de lanalyse en colonne associe aux memes valeurs propres.
Les composantes principales sont alors :
pour lanalyse en ligne :
c
i
= X
L
u
i
= D
1
L
Nu
i
pour lanalyse en colonne :
d
j
= X
k
v
j
= D
1
K
t
Nv
j
Ces composantantes principales entretiennent une propriete plus quinteressante.
En eet, les composante principales en lignes sont des vecteurs propres de
lanalyse en colonne et reciproquement.
Pour montrer cela, considerons c
i
, ième composante principale de lana-
lyse en ligne. On a alors :
(M
K
V
K
)c
i
= (M
K
V
K
)(X
L
u
i
)
= (D
1
L
ND
1
K
t
N)(D
1
L
Nu
i
)
= D
1
L
N(D
1
K
t
N)(D
1
L
N)u
i
= D
1
L
N(M
L
V
L
)u
i
Comme u
i
est un vecteur propre de M
L
V
L
de valeur propre
i
on a :
(M
K
V
K
)c
i
= D
1
L
N(M
L
V
L
)u
i
= D
1
L
N
i
u
i
=
i
(D
1
L
N)u
i
=
i
X
L
u
i
=
i
c
i
On a exactement le meme resultat pour les colonnes, à savoir :
(M
L
V
L
)d
j
=
j
d
j
Les normes des composantes principales c
i
et d
i
etant egales à
i
(cf.
partie 3.8, les normes sont associes aux matrices des poids), on a les egalites
suivantes :
i
v
i
= c
i
i
u
i
= d
i
6.5 Representation simultanee des lignes et
des colonnes
LACP des prols ligne et des prols colonnes sont a priori eectue sur
des espaces de dimensions dierentes (de dimension K pour les prols lignes
et L pour les prols colonnes). Cependant, nous avons vu precedemment quil
existe, de part les formules de transitions, de grandes liaisons entre les deux
analyses. On pourra donc representer simultanement les resultats des deux
analyses sur le meme graphique.
On a vu que les composantes principales c
j
des prols lignes sont egales à
j
v
j
et que les composantes principales d
j
des prols colonnes sont egales
à
j
u
j
. Plusieurs conventions sont possibles pour representer ces resultats,
nous ne presentons que la plus usitee.
On supperpose les graphiques issus des ACP en lignes et en colonnes, cest
à dire que lon represente sur le meme graphique les points de coordonnees
j
v
j
et ceux de coordonnees
j
u
j
.
Dans ce genre de representation, il faut faire attention dans linterpretation
dune proximite entre un point i issu des prols lignes et un point j issu des
prols colonnes. La seule chose que lon puisse dire est que les individus du
tableau de contingence possedant la modalite i ont un barycentre proche des
6.6. INTERPR
ETATIONS 101
individus possedant la modalite j. Ceci signie la plupart du temps, mais pas
toujours (attention, gros piège possible : cette possibilite ne peut etre veriee
que sur le tableau initial), que ces deux modalites sont liees.
6.6 Interpretations
Pour une AFC, on a vue que ce qui tenait lieu dinformation etait le
2
.
Les parts de
2
fournissent une estimation globale de la qualite des
representations factorielles. Localement, on dispose de deux indices : les
contributions absolues et relatives.
6.6.1 Contribution absolue dune modalite à un axe
Chaque axe est represente par sa composante principale. Or :
||c
i
||
2
= ||d
i
||
2
=
i
De plus, les normes etant celles des poids des individus, on a :
||c
j
||
2
=
1iL
n
i
n
((c
j
)
i
)
2
=
1iL
n
i
n
(
j
(v
j
)
i
)
2
De meme :
||d
i
||
2
=
1jK
n
j
n
((d
i
)
j
)
2
=
1jK
n
j
n
(
i
(u
i
)
j
)
2
On a alors pour tout axe h (1 h min{K, L}) :
h
=
1iL
n
i
n
(
h
(v
h
)
i
)
2
=
1jK
n
j
n
(
h
(u
h
)
j
)
2
La ligne i de lanalyse en ligne contribue donc à laxe h de :
CA
h
(i) = (
h
f
i
(v
h
)
i
)
2
=
f
i
(c
h
i
)
2
h
et la ligne j de lanalyse en colonne contribue à laxe h de :
CA
h
(j) = (
h
f
j
(u
h
)
j
)
2
=
f
j
(d
h
j
)
2
h
La part de chi
2
du hième axe (dont linertie est egale à
h
) due à la
modalite ligne i est donc egale à f
i
((v
h
)
i
)
2
et celle due à la modalite colonne
j est egale à f
j
((u
h
)
j
)
2
Ces contributions permettent de deceler les modalites ayant joue un grand
role dans la formation dun axe et, par suite, dinterpreter icelui.
6.6.2 Contribution relative dun axe à une modalite
De meme quen ACP on regarde le cosinus carre de langle entre les prols
lignes ou colonnes et les axes principaux. La somme des cosinus carrees des
angles entre un meme individu et tout les axes est bien evidemment egal à
1.
Du point de vue de linterpretation, un individu presque perpendiculaire
à un axe principal signie que que ledit individu est totalement etranger à la
tendance exprimee par laxe en question.
6.7

Elements supplementaires
Il sagit de la technique qui, les axes etant calcules, permet de projeter
dans les plans factoriels une modalite supplementaire. Cette pratique, per-
mise par les programmes, savère souvent fort utile (par exemple lorsquà
lissue dune analyse des points savèrent très eloignes des autres, on aura
interet à refaire lanalyse en les traitant en elements supplementaires).
6.8 Exemple simple
Le tableau 6.3 indique les habitudes de lecture dune famille (1 = lit,
0 = ne lit pas).
Les tableaux des prols lignes et colonnes correspondant valent :
X
L
= D
1
L
N : 5 points dans R
3
1 0 0
0 1 0
1
3
1
3
1
3
1
2
0
1
2
0
1
2
1
2
6.8. EXEMPLE SIMPLE 103

Tab. 6.3 Habitudes de lecture
l
Equipe Elle Spirou n

i
père 1 0 0 1
mère 0 1 0 1
ane 1 1 1 3
cadet 1 0 1 2
lle 0 1 1 2
n
j
3 3 3 9
X
K
= D
K
t
N : 3 points dans R
5
1 0
1
3
1
3
0
0
1
3
1
3
0
1
3
0 0
1
3
1
3
1
3
Le nuage X
L
est represente sur la gure 6.1. Il est situe dans le plan
dequation x +y +z = 1.
Pre
Mre
Cadet
Ain
Fille
(Spirou)
(l'quipe)
(Elle)
Axe 1
Axe 2
Fig. 6.1 Le nuage N
L
La symetrie evidente de la gure fait que le centre de gravite est situe
en ane. Les axes 1 et 2 sont egalement represente sur la gure 6.1. Ils ont
pour part dinertie respective 75% et 25% (comme le montrerait le calcul).
Linterpretation des axes va de soi. Laxe 1 represente le sexe des membres
de la famille et laxe 2 leur lage.
On obtient les coordonnees sur ces axes des trois journaux en calculant
les composantes des vecteurs de la base initiale. La representation simultanee
usuelle est indiquee sur la gure 6.2.
Pre Mre
Ain
Cadet Fille
Spirou
l'quipe
Elle
AXE 2 (25%)
AXE 1 (75%)
Fig. 6.2 Representation factorielle

Analyse Des Donnees

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse Des Donnees

Transféré par

Droits d'auteur :

Formats disponibles

Analyse des donnees

ES PAR DES VARIABLES 9

fg qui correspond `a lautruche), chaque ligne etant liee aux

(encore appelee distance du sup ou norme uniforme) :

i approche au mieux v(x) (

les parties enti`eres et decimales de

La qualite de la regression sera dautant meilleure que ce residu est faible.

x, les pentes des droites de regression y = a +by et x = a

, cest `a dire si et seulement si :

qui minimise la somme des carres des distances des points (x

Fig. 2.10 Densite de probabilite du

ETHODE (SANS LES MAINS) 39

o` u D est la matrice des poids des individus.

La matrice de correlation poss`ede une diagonale de 1 puisquil ny a pas

Ainsi, matriciellement parlant :

une decomposition de lespace en somme directe de deux sous-

`a 1 dimension dans lorthogonal de H, et le sous-

est un sous-espace principal `a k dimensions.

) 1 (pour sen convaincre,

sont orthogonaux, et donc une correlation lineaire

)), on obtient des points `a

ERAL ET UTILISATION DES M

Ceci revient `a remplacer X par X

`a la classe dont le centre de gravite est le plus proche

on laecte `a la classe l telle que :

35 26 183 146 390

De meme, si lon sinteresse aux frequences, on pourra noter :

ont des prols identiques, on peut les regrouper en une seule et

6.8. EXEMPLE SIMPLE 103

Equipe Elle Spirou n

Vous aimerez peut-être aussi