Vous êtes sur la page 1sur 104

Analyse des donnees

Francois Brucker

28 janvier 2007
2
Table des matieres

1 Les donnees 7
1.1 Espaces de representation . . . . . . . . . . . . . . . . . . . . 7
1.2 Espaces engendres par des variables . . . . . . . . . . . . . . . 8
1.2.1 Variables numeriques . . . . . . . . . . . . . . . . . . . 8
1.2.2 Variables ordinale et nominales . . . . . . . . . . . . . 9
1.3 Espace des modeles . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Distances et similitude dans les espaces de representation . . . 12
1.4.1 Dissimilarites et similarites . . . . . . . . . . . . . . . 13
1.4.2 Variables continues . . . . . . . . . . . . . . . . . . . . 14
1.4.3 Variables booleennes (presence/absence) . . . . . . . . 15

2 Description dune ou deux variables 17


2.1 Description dune variable . . . . . . . . . . . . . . . . . . . . 18
2.1.1 Distribution . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.2 Valeurs centrales . . . . . . . . . . . . . . . . . . . . . 21
2.1.3 Parametres de dispersion . . . . . . . . . . . . . . . . . 23
2.1.4 Bote a moustaches . . . . . . . . . . . . . . . . . . . . 27
2.2 Description de deux variables . . . . . . . . . . . . . . . . . . 27
2.2.1 Nuage de points et regression lineaire . . . . . . . . . 28
2.2.2 Correlation lineaire et axe principal . . . . . . . . . . 31
2.2.3 Test du 2 dindependance . . . . . . . . . . . . . . . . 33

3 Analyse en composantes principales 37


3.1 Exemple avec les mains . . . . . . . . . . . . . . . . . . . . . 37
3.2 Principe de la methode (sans les mains) . . . . . . . . . . . . . 39
3.3 Reformulation des donnees . . . . . . . . . . . . . . . . . . . . 40
3.3.1 Matrice de donnees . . . . . . . . . . . . . . . . . . . . 40
3.3.2 Poids des donnees . . . . . . . . . . . . . . . . . . . . . 40

3
4 TABLE DES MATIERES

3.3.3 Matrices de description . . . . . . . . . . . . . . . . . 41


3.3.4 Reduction des donnees . . . . . . . . . . . . . . . . . . 42
3.4 Recherche des sous-espaces principaux . . . . . . . . . . . . . 43
3.4.1 Un sous-espace a 1 dimension . . . . . . . . . . . . . . 45
3.4.2 Sous-espaces principaux a plus d1 dimension . . . . . 47
3.4.3 Axes principaux . . . . . . . . . . . . . . . . . . . . . . 48
3.5 Inertie et sous-espace principal . . . . . . . . . . . . . . . . . 48
3.6 Description du nuage des individus . . . . . . . . . . . . . . . 50
3.6.1 Description du nuage des caracteres . . . . . . . . . . . 52
3.6.2 Reconstructions et transitions . . . . . . . . . . . . . . 53
3.7 Interpretation des resultats . . . . . . . . . . . . . . . . . . . . 54
3.7.1 Valeurs propres, facteurs et composantes principales . . 55
3.7.2 Composantes principales et representation graphique . 55
3.7.3 Interpretation des axes et des projections . . . . . . . . 58
3.8 Cas General et utilisation des metriques . . . . . . . . . . . . 60
3.8.1 Metrique . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.8.2 Espace des individus . . . . . . . . . . . . . . . . . . . 61
3.8.3 Espace des caracteres . . . . . . . . . . . . . . . . . . 61
3.8.4 A.C.P avec une metrique quelconque . . . . . . . . . . 62
3.9 Quelques remarques . . . . . . . . . . . . . . . . . . . . . . . . 63
3.9.1 Lanalyse en facteurs communs et specifiques . . . . . . 63
3.9.2 Lanalyse en composante principale . . . . . . . . . . . 63

4 Classification 65
4.1 Modeles de classification . . . . . . . . . . . . . . . . . . . . . 66
4.1.1 Partitions et hierarchies . . . . . . . . . . . . . . . . . 68
4.2 Methodes de partitionnement . . . . . . . . . . . . . . . . . . 71
4.2.1 Choix dune partition . . . . . . . . . . . . . . . . . . . 71
4.2.2 k-means . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2.3 Algorithme des transferts . . . . . . . . . . . . . . . . 80
4.3 Lalgorithme de Classification Ascendante Hierarchique (C.A.H.)
82
4.3.1 Pseudo-code . . . . . . . . . . . . . . . . . . . . . . . . 82
4.3.2 Cas particuliers . . . . . . . . . . . . . . . . . . . . . . 83
4.3.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . 83
TABLE DES MATIERES 5

5 Lanalyse discriminante 87
5.1 Principe de la methode . . . . . . . . . . . . . . . . . . . . . . 87
5.1.1 Matrices de variances intraclasse et interclasses . . . . 88
5.1.2 Variance dun caractere . . . . . . . . . . . . . . . . . . 88
5.1.3 Facteurs et caracteres discriminants . . . . . . . . . . . 89
5.1.4 Recherche des facteurs . . . . . . . . . . . . . . . . . . 90
5.2 Lanalyse discriminante decisionnelle . . . . . . . . . . . . . . 90
5.3 Lanalyse discriminante comme cas particulier dA.C.P. . . . . 91

6 Lanalyse factorielle des correspondances 93


6.1 Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.2 Les nuages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.3 La distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.4 Analyses des nuages . . . . . . . . . . . . . . . . . . . . . . . 97
6.4.1 Matrices V . . . . . . . . . . . . . . . . . . . . . . . . 97
6.4.2 A.C.P en ligne et colonne . . . . . . . . . . . . . . . . 98
6.4.3 Valeurs propres . . . . . . . . . . . . . . . . . . . . . . 98
6.4.4 Vecteurs Propres et composantes pruincipales . . . . . 99
6.5 Representation simultanee des lignes et des colonnes . . . . . . 100
6.6 Interpretations . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.6.1 Contribution absolue dune modalite a un axe . . . . . 101
6.6.2 Contribution relative dun axe a une modalite . . . . . 102
6.7 Elements supplementaires . . . . . . . . . . . . . . . . . . . . 102
6.8 Exemple simple . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6 TABLE DES MATIERES
Chapitre 1

Les donnees

1.1 Espaces de representation


Pour analyser un ensemble fini dobjets X (dans la suite de ce syllabus,
on supposera toujours que le nombre delements de X est n et on les notera
indifferemment x1 , x2 , . . ., xn , x, y, z, t, . . .), il faut disposer dinformations
permettant soit de caracteriser les objets soit de les comparer. Ces informa-
tions se laissent representer de diverses manieres qui correspondent a autant
despaces de representation dans lesquels les objets peuvent etre plonges.
Une description des objets mobilise le plus souvent des parametres (que lon
supposera en nombre fini) et lon parlera alors despace de representation
engendre par des variables. Ces variables peuvent etre de plusieurs types :
variables numeriques, variables ordinales et variables nominales.
On appellera le plus souvent individus les objets de X et caracteres les
variables associees.
Une variable numerique peut-etre discrete ou continue. On dit quune
variable est continue lorsque entre deux valeurs observees toute valeur est
observable (une taille, un poids). Votre compte en banque, compte en cen-
times deuros, est quant a lui un exemple de variable discrete.
Une variable ordinale ne retient que des comparaisons entre des valeurs
(je prefere x a y, x est plus interessant que y, . . .). Chaque variable ordinale
induit une relation dordre soit sur lensemble X, soit sur un ensemble de
references a priori independant de X (un peu, beaucoup, a la folie, pas du
tout, . . .).
Une variable nominale est decrite par un ensemble de valeurs non com-

7
8 CHAPITRE 1. LES DONNEES

parables (une categorie socioprofessionnelle, une couleur, une appartenance


politique, . . .). Un cas particulier de variables ordinales sont les variables bi-
naires qui ne prennent que deux valeurs notees 0 et 1. Celles-ci peuvent etre
dichotomiques : les deux modalites sont mutuellement exclusives et toutes
deux significatives (le 1 et le 2 qui, plutot que 0 et 1 designent le sexe pour
la securite sociale), ou de presence/absence : seule une modalite a un sens
(posseder ou pas un caractere donne).

1.2 Espaces engendres par des variables


Supposons que nos n objets soient decrits par un ensemble de p variables.
Lespace de representation E qui leur sera associe sera le produit cartesien
des ensembles engendre par icelles. On a ainsi E = Rp , lorsque les variables
sont continues ; tandis dans dans les autres cas on peut poser E = Np . Les
variables booleennes correspondant au cas particulier {0, 1}p .

1.2.1 Variables numeriques


Lespace euclidien Rp est lespace de representation de analyse (geome-
trique) des donnees, cest pourquoi le present syllabus lui sera presque ex-
clusivement consacre. Chaque objet xi X est ici code par un p-uplet
xi = (x1i , x2i , . . . , xpi ) dans lequel xji est la valeur que prend la j-ieme variable
sur lobjet xi
Le tableau ci-apres (tableau 1.1) montre un exemple dobjets (les lignes)
decrites par des donnees numeriques (les colonnes).
En analyse des donnees, la demarche differe de celle adoptee en statistique
inferentielle ou lensemble des objets est souvent vu comme un echantillon
dune population plus vaste et lon cherche a trouver des informations sur
cette population a partir de lechantillon considere. Ici, X est la population
et les valeurs prises par chaque variable constituent une distribution observee
a partir de laquelle on peut calculer des parametres (la moyenne, la variance,
. . .), expliquer les valeurs prises par certaines variables a partir de valeurs
prises par dautre (regressions), ou encore structurer les donnees (analyses
factorielles).
1.2. ESPACES ENGENDRES PAR DES VARIABLES 9

Tab. 1.1 Patrimoine selon la categorie socioprofessionnelle


Livrets Epargne Placements Actions Pierre Terres
logement obligatoires
bons,. . . (assurances)
(LIV) (ELB) (POA) (ACT) (PIE) (TER)
Anciens independants
non agricoles (AI) 8,00 6,00 10,00 23,00 44,00 9,00
Professions liberales
(PL) 6,00 8,00 17,00 25,00 35,00 9,00
Industriels, artisans
commercants (IAC) 5,00 6,00 13,00 36,00 34,00 6,00
Cadres superieurs (CS) 9,00 9,00 14,00 40,00 23,00 5,00
Agriculteurs (AG) 11,00 13,00 16,00 7,00 19,00 34,00
Anciens agriculteurs
(AA) 14,00 13,00 13,00 6,00 27,00 27,00
Anciens salaries (AS) 16,00 14,00 13,00 25,00 26,00 6,00
Professions
intermediaires (PI) 17,00 15,00 17,00 20,00 26,00 5,00
Employes (EM) 22,00 14,00 18,00 11,00 27,00 8,00
Ouvriers (OU) 24,00 18,00 25,00 8,00 20,00 5,00

1.2.2 Variables ordinale et nominales

Une variable ordinale induit un ordre total sur lensemble X des objets,
lespace de representation associe est donc un produit direct dordre totaux.
Nous ne parlerons que tres peu de ce genre de donnees par la suite, et nous
nous restreindrons aux variables booleennes, dont le tableau 1.2 donne un
exemple.
A: lanimal pond-t-il des ufs ?
B: presence de plumes ?
C: presence decailles ?
D: presence de dents ?
E: lanimal vole-t-il ?
F: lanimal nage-t-il ?
G: lanimal respire-t-il dans lair (1) ou dans leau (0) ?
Ce genre de donnees peut etre represente en utilisant une terminologie
booleenne. Soit X lensemble des n objets decrits par un ensemble A =
{A, B, C, . . .} de m attributs ou variables binaires. Chacun, par exemple A,
peut prendre les valeurs a (dite forme directe, codee 1) et a (dite forme
indirecte, codee 0). Ceci peut etre ramene a un tableau de valeurs 0 ou 1
avec n lignes correspondant aux elements de X et m colonnes correspondant
aux attributs. Par abus de notation, la variable A sera parfois confondue avec
sa forme directe a.
10 CHAPITRE 1. LES DONNEES

Tab. 1.2 tableau booleen

A B C D E F G
Autruche 1 1 0 0 0 1 1
Canari 1 1 0 0 1 0 1
Canard 1 1 0 0 1 1 1
Requin 1 0 0 1 0 1 0
Saumon 1 0 1 0 0 1 0
Grenouille 1 0 0 0 0 1 1
Crocodile 1 0 0 1 0 1 1
Barracuda 1 0 1 1 0 1 0

Le tableau 1.2 est alors equivalent a la formule ci-apres qui est verifiee
par les assignations induites par les lignes :
fg abcde
= abcde fg

abcdef g abcdef g
g abcdef
abcdef g
abcdef g abcdef g

La formule est alors vraie si et seulement si les variables binaires cor-


respondent a une ligne du tableau. En effet, chaque ligne du tableau 1.2 est
une suite de variables binaire liee par des ET (la premiere ligne du tableau
fg qui correspond a lautruche), chaque ligne etant liee aux
est ainsi abcde
autres par des OU (le symbole ).
En utilisant le calcul dans les algebres de Boole, on peut simplifier .
Par exemple, a chaque fois quon a deux monome du type x x, on peut
fg abcde
utiliser la regle (x) (x) = (par exemple abcde fg = abcdfg).
Apres simplification, la formule precedente donne :

f e) bcef (d g) bef g(d c)]a


= [bcdg(

La simplification de montre que la variable a nest pas pertinente


pour decrire les differences entre nos animaux puisquils pondent tous des
ufs (la variable a est vraie pour toute les lignes). Cette formule reduite
peut se representer comme dans la figure 1.1, qui permet de caracteriser les
differences entre les individus.
1.3. ESPACE DES MODELES 11

bcdg bcef befg

f e d g d c
Autruche Canari Requin Grenouille Requin Saumon
Canari Canard Crocodile Barracuda Barracuda

Fig. 1.1 relation entre les animaux du tableau 1.2

La figure 1.1 montre par exemple que les differences entre un canard et
une autruche est alors e et f , une autruche ne volant pas et un canard ne
nageant pas.
Attention, les animaux peuvent se retrouver dans plusieurs branches, ainsi
la difference entre une autruche et un canari etant uniquement la variable e
(lautruche se differenciant du canari par le fait quelle ne vole pas).

1.3 Espace des modeles


Analyser des donnees revient a les reorganiser selon la methode choisie.
Chaque methode opere un recodage des donnees, les plongeant dans un autre
espace appele espace des modeles.
Si lespace de representation correspond a un espace naturel de re-
presentation des donnees, lespace des modeles correspond quant a lui a un
espace de travail ou les donnees sont iterativement traitees (recodees) jusque
a la fin de lanalyse. On obtiendra ainsi par exemple des classes dobjets, ou
encore un ensemble de vecteurs sur lesquels on projette les objets. Cest de cet
espace que lon pourra deduire des connaissances propres aux donnees, cest
a dire de reconnatre des configurations, des structures, des formes, induites
par les caracteristiques propres des objets.
Analyser des donnees est ainsi un processus ou lon commence par choisir
les caracteristiques des objets que nous voulons analyser (les placer dans
lespace de representation), puis une methode danalyse (une classification
non-hierarchique, ou une analyse en composantes principales par exemple).
Les resultats (dans lespace des modeles) pouvant alors etre interpretes et
12 CHAPITRE 1. LES DONNEES

nous renseigner sur les objets eux-memes (ceux du vrai monde). Ce processus
est schematise dans la figure 1.2.

connaissances re-codage

codage re-codage
Le vrai Espace de Espace des
monde reprsentation modles
info

ma rithm
rm

alg
?

ths
atio

ns

o
tio

+
ns

es
qu

es
Rponses

Fig. 1.2 chane de lanalyse

1.4 Distances et similitude dans les espaces


de representation
Comme vu dans la partie precedente, le choix de caracteres permettant
de decrire les objets a analyser permet de les situer dans un espace de
representation E. Reconnatre des structures induites par cette representation
implique une etape preliminaire qui est de se doter doutils metriques permet-
tant de mesurer des distances (ou des ressemblances, des dissemblances, . . .)
entre lesdits objets. Pour cela, il nous faut associer a chaque paire dobjets un
nombre positif ou nul, dautant plus petit que les objets sont semblables
(ou, si cela a un sens dans E, que les objets sont proches lun de lautre).
Apres avoir rappele les differentes definitions de dissimilarite et de dis-
tances, nous donnerons quelques types particuliers de distances parmi les
1.4. DISTANCES ET SIMILITUDE DANS LES ESPACES DE REPRESENTATION13

plus usites, pour des variables continues et des variables booleennes.

1.4.1 Dissimilarites et similarites


Definition 1 On appelle dissimilarite sur un ensemble dobjets X, une fonc-
tion d de X X dans lensemble des reels telle que les proprietes ci-dessous
soient satisfaites :
(D1 ) : d(x, y) 0 pour tous x, y X (positivite)
(D2 ) : d(x, x) = 0 pour tout x X
(D3 ) : d(x, y) = d(y, x) pour tous x, y X (symetrie)

On dira quune dissimilarite d sur X est propre lorsque :


(D4 ) : d(x, y) = 0 x = y pour tous x, y X
Une dissimilarite propre d sur X est appelee une distance si elle satisfait
linegalite triangulaire :
(D5 ) : d(x, y) d(x, z) + d(z, y) pour tous x, y, z X
Un espace metrique est un couple (X, d) forme dun ensemble dobjets X
et dune distance d sur X.
On peut, par opposition aux dissimilarites qui soulignent les dissem-
blances entre objets, definir une similarite sur X qui en soulignera les res-
semblances. Une similarite s sur X verifiera donc, outre (D1 ) et (D3 ), une
propriete duale de (D2 ) :
(D20 ) : d(x, x) = max{d(x, y)|y X} pour tout x X
On peut facilement associer une dissimilarite d a toute similarite s :

d(x, y) = max{s(x, x), s(y, y)} s(x, y)

et reciproquement, associer une similarite s a toute dissimilarite d :

s(x, y) = max{d(z, t)|z, t X} d(x, y)

Remarque 1 On peut noter que la premiere transformation nest pas une


bijection et quil est impossible, dans le cas general, de retrouver la similarite
initiale a partir de la dissimilarite. Ceci vient du fait que pour deux objets
x et y on peut avoir s(x, x) 6= s(y, y) alors que d(x, x) est toujours egal a
d(y, y) (puisque ca vaut 0).
14 CHAPITRE 1. LES DONNEES

1.4.2 Variables continues


Nous nous restreignons ici aux distances issues des normes Lq . Les dis-
tances de correlation et la distance du 2 seront etudiees plus tard, dans le
cadre de lanalyse en composantes principales et de lanalyse factorielle des
correspondances.
On rappelle que pour un espace de representation E = Rp , chaque objet
xi de X est un vecteur a m dimension xi = (x1i , . . . xji , . . . xpi ). On peut ainsi
definir les distances :
L1 (encore appelee distance de Manhattan, ou city block distance) :
X 1
d(xi , xj ) = |xki xkj |
1kp
p

L2 (encore appelee distance euclidienne) :


s
X 1
d(xi , xj ) = (xki xkj )2
1kp
p

et plus generalement Lq :
X 1 1
d(xi , xj ) = ( |xki xkj |q ) q
1kp
p

et, finalement L (encore appelee distance du sup ou norme uniforme) :


d(xi , xj ) = sup |xki xkj |
1kp

Le resultat suivant (du a Gauss (1931) dans le cas de 3 dimensions et


generalise en 1850 par Hermite) permet de caracteriser une distance eucli-
dienne :
Theoreme 1 Une condition necessaire et suffisante pour quune distance d
soit euclidienne est quil existe x tel que la matrice carree de terme general
1
wij = (d(x, xi )2 + d(x, xj )2 d(xi , xj )2 )
2
soit semi-definie positive (cest a dire que ses valeurs propres sont toutes
positives ou nulles). La dimension minimale de lespace euclidien ou (X, d)
peut-etre isometriquement plonge est egal au rang de la matrice (wij )i,j . De
plus, cette propriete est independante du choix de x.
1.4. DISTANCES ET SIMILITUDE DANS LES ESPACES DE REPRESENTATION15

1.4.3 Variables booleennes (presence/absence)


Ici, lespace de representation est E = {0, 1}p et une variable positionnee
a 1 (respectivement 0) signifie la presence (respectivement labsence) de lat-
tribut. Seule la valeur 1 est ainsi significative.
Si lon considere les variables comme des attributs (presents ou absents),
chaque objet xi possede un ensemble Ei de caracteres (Ei est donc constitue
des variables qui prennent sur xi la valeur 1). En notant E\F lensemble des
elements de E qui ne sont pas dans F , la difference symetrique entre Ei et
Ej peut secrire :
Ei 4Ej = (Ei \Ej ) (Ej \Ei )
De la, on peut deduire un grand nombre de distances dont :
la distance de la difference symetrique :
d(xi , xj ) = |Ei 4Ej |
la distance de la difference symetrique normalisee (encore appelee dis-
tance de Hamming) :
|Ei 4Ej |
d(xi , xj ) =
p
la distance de Jaccard :
|Ei Ej |
d(xi , xj ) = 1
|Ei Ej |
distance de Czekanovski-Dice :
2|Ei Ej |
d(xi , xj ) = 1
|Ei | + |Ej |
distance de Ochia :
|Ei Ej |
1 p
|Ei |.|Ej |
distance de Braun-Blanquet :
|Ei Ej |
1
max{|Ei |, |Ej |}
distance de Simpson :
|Ei Ej |
1
min{|Ei |, |Ej |}
...
16 CHAPITRE 1. LES DONNEES

Toutes ces distances permettent de mesurer des differences entres objets.


Il convient de bien choisir sa distance selon les differences que lon veut
mesurer. De facon classique, lorsque le choix dune distance a utiliser nest
pas evidente, on a coutume dutiliser la distance de Jaccard qui est un bon
compromis.
Chapitre 2

Description dune ou deux


variables

On sinteresse dans ce chapitre aux espaces de representation tels que


E = R (partie 2.1) et E = R2 (partie 2.2). La statistique descriptive permet un
pre-traitement efficace des donnees, en brossant lallure generale des donnees
(moyenne, ecart type, . . .) et fournit des representations graphiques (histo-
grammes, bote a moustaches, . . .) permettant de synthetiser les resultats.
Lexemple fil-rouge que nous utiliserons ici est constitue dune population
de 26 etudiants passant un controle. Pour chaque candidat, on note :
le temps mis a effectuer lepreuve (variable x),
le nombre derreurs commises (variable y).

Tab. 2.1 Resultats dexamen pour 26 candidats

Candidat no 1 2 3 4 5 6 7 8 9 10 11 12 13
x 15 15 20 10 15 30 10 10 5 5 5 10 10
y 4 5 10 0 4 10 2 5 0 1 0 3 3
Candidat no 14 15 16 17 18 19 20 21 22 23 24 25 26
x 20 15 10 5 20 30 30 30 40 10 5 10 10
y 6 3 2 0 6 8 5 10 12 3 0 2 3

17
18 CHAPITRE 2. DESCRIPTION DUNE OU DEUX VARIABLES

2.1 Description dune variable


Lespace de representation associe a nos objets est ici lensemble des
nombres reels.

2.1.1 Distribution
Definition 2 On appellera distribution statistique (ou encore fonction de
repartition) de X la donnee des couples {(c1 , n1 ), . . . , (ci , ni ), . . . , (ck , nk )}
tel que les ci forment un partition en k intervalles (appeles aussi classes)
de lensemble des valeurs prises par la variable ( c1 = [a0 , a1 ], ci =]ai1 , ai ],
ck =]ak1 , ak ]) et les ni le nombre de valeurs observees dans lintervalle ci .
Par convention le centre des intervalles est egalement note ci .
Remarque 2 Pour une variable discrete, la distribution statistique associee
est egalement notee {(c1 , n1 ), . . . , (ci , ni ), . . . , (ck , nk )}, mais ici, les ci repre-
sentent toutes les valeurs prises par la variable et les ni le nombre de fois que
la valeur ci a ete prise.
Le nombre dintervalles dans une distribution statistique est choisi en
fonction de n, de maniere
P a representer le mieux possible la distribution des
valeurs et on a n = 1ik ni . Il nexiste pas de choix pertinent du nombre
et de lamplitude des classes, mais il est plus aise de prendre des classes
de meme amplitude et, empiriquement, on a coutume dutiliser la regle de
Sturges comme choix de k :
10 ln (n)
k =1+
3 ln (10)
Parfois, cependant, la decoupe en intervalles ira de soi, par exemple lorsque
x ne prend que des valeurs entieres puisque lon se ramenera au cas dune
variable discrete.
Definition 3 Pour une distribution statistique donnee, on appellera frequence
ni
de i le rapport
P fi = n , et sa frequence cumulee la somme Fi = f1 + f2 +
. . . + fi = 1ji fj .
Definition 4 On appelle histogramme des frequences pour une distribution
statistique donnee ((]aji , aj ], nj ) pour 1 j k), le graphique tel que les
classes sont reportees en abcisse et au-dessus de chacune delle un rectangle
daire egale ou proportionnelle a la frequence de la classe est trace.
2.1. DESCRIPTION DUNE VARIABLE 19

Attention, ce sont les aires des rectangles qui sont importantes. Lorsque
les bases des rectangles est identique la hauteur est alors proportionnelle
a laire mais dans quelques (rares) cas les bases seront de longueurs differentes
et dans ces cas la il faudra faire attention.

Remarque 3 Pour le cas dune distribution statistique associee a une va-


riable discrete ((cj , nj ) pour 1 j k), lhistogramme des frequences est le
graphique tel que les modalites cj sont reportees en abcisse et au-dessus de
chacun des cj un segment de hauteur egale ou proportionnelle a la frequence
de la modalite est trace.

La figure 2.1 montre lhistogramme des frequences de la variable x de la


table 2.1. Nous navons pas utilise la regle de Sturges puisquun decoupage
en intervalles centres autour des notes possibles est plus naturel.

Histogram of temps
8
6
Frequency

4
2
0

10 20 30 40

temps

Fig. 2.1 Histogramme des frequences de la variable x de la table 2.1

Remarque 4 On rencontre parfois un type particulier dhistogramme ap-


pelee tige et feuille (stem and leaf ) dont un exemple (representation de la
variable x de la table 2.1) est presente ci-apres.
20 CHAPITRE 2. DESCRIPTION DUNE OU DEUX VARIABLES

0 55555
1 000000000
1 5555
2 000
2
3 0000
3
4 0
Cette representation consiste en un histogramme dont la representation
separe dizaine (a gauche) et unite (a droite), chaque unite etant repete autant
de fois quil y a delements (dans lexemple ci-dessus, il y a 5 element qui
valent 5, 9 qui valent 10, 0 qui valent 20, . . .).

Indiquons aussi quune distribution statistique peut etre representee par


un camembert. La figure 2.2 represente le camembert de la variable x de la
table 2.1.

Definition 5 Un camembert est un disque dont les parts sont egales ou pro-
portionnelles a la frequence de la classe associee.

10

40

15 30

20

Fig. 2.2 Camembert des frequences de la variable x de la table 2.1


2.1. DESCRIPTION DUNE VARIABLE 21

Definition 6 On appelle graphique des frequences cumulees pour une dis-


tribution statistique donnee ((]aji , aj ], nj ) pour 1 j k), le graphique tel
que les classes sont reportees en abcisse et au-dessus de chacune delle un
rectangle de hauteur egal a Fi est trace.
La figure 2.3 est un exemple de graphique des frequences cumulees.

ecdf(temps)
1.0
0.8
0.6
Fn(x)

0.4
0.2
0.0

10 20 30 40

Fig. 2.3 histogramme des frequences cumulees de la variable x de la


table 2.1

2.1.2 Valeurs centrales


Aussi appelees parametres de positions, les valeurs centrales sont des
nombres autour desquels se repartissent les valeurs observees de la variable
consideree. Cest autour delles que sont calcules les parametres de dispersion.
Il y a essentiellement deux parametres de positions pour une variable : la
moyenne et la mediane.
Definition 7 La moyenne x dune variable x est definie par lexpression :
1 X
x = xi
n 1in
22 CHAPITRE 2. DESCRIPTION DUNE OU DEUX VARIABLES

La moyenne de la variable x de la table 2.1 est par exemple egale a 15.19.


Pour definir la mediane, il faut tout dabord ranger les elements de X par
ordre croissant. Si lon note x1 , x2 , . . ., xn les n valeurs prises par la variable
x, on notera x(1) , x(2) , . . .x(n) ces memes elements ranges par ordre croissant
(si, par exemple, x1 = 12, x2 = 1 et x3 = 1 on aura x(1) = 1, x(2) = 1 et
x(3) = 12).
n+1
Definition 8 Si on note m et d la partie entiere et decimale de 2
, la
mediane me(x) de la variable x est definie par :
me(x) = x(m) + d(x(m+1) x(m) )
Par exemple, la mediane de la variable x de la table 2.1 est 10.0. Cette
definition implique des resultats differents selon la taille de n. Si n est impair,
d = 0 et la mediane est une des valeurs de la variable et si n est pair, la
mediane vaut la moyenne des deux valeurs centrales.
Remarque 5 On trouve dans la litterature dautres definitions de la mediane
pour n pair, par exemple prendre pour mediane nimporte quelle valeur entre
les deux valeurs centrales (ce qui implique que la mediane peut etre lune
ou lautre des deux valeurs centrales) ou tout simplement rendre lintervalle
entre les deux valeurs.
Enfin, on definit la classe modale, qui est un parametre de position associe
a une distribution statistique. Pour la distribution statistique de la figure 2.1,
la classe modale est ]7.5, 12.5]
Definition 9 On appelle classe modale mo(x) dune distribution statistique
(]aji , aj ], nj ) (pour 1 j k) dune variable x est egal a un intervalle
]ai1 ai ] tel que ni = max1jn {nj }
Les quantites qui viennent detre parachutees peuvent etre introduites
de maniere geometrique. Pour ce faire, ordonnons totalement et arbitrai-
rement les elements de X (on parlera alors du iieme individu). A chaque
variable quantitative x est associe le vecteur ~v (x) de Rn dont la coordonnee
sur le iieme individu est xi . Pour resumer x en une seule valeur on cher-
chera a determiner un nombre reel a tel que a~i approche au mieux ~v (x) (~i
designant le vecteur dont toutes les coordonnees valent 1). Techniquement,
on munira Rn dune norme || || et on cherchera lelement a R solution du
probleme :
min ||~v (x) a~i||
aR
2.1. DESCRIPTION DUNE VARIABLE 23

1
P
1. Pour la norme || ||1 (||~v (x)||1 = i n |xi |) la mediane de x est solution
du probleme,
1
2. Pour la norme euclidienne || ||2 (||~x(x)||22 = 2
P
i n |xi | ), la moyenne x
est lunique solution du probleme,
3. Pour la norme uniforme || || (||~v (x)|| = maxi xi ), la solution du
probleme est la moyenne des valeurs extremes 12 (mini xi maxi xi ).
4. Plus generalement, on appellera valeur centrale dordre q de la va-
riable x toute solution du probleme pour la norme || ||q (||~v (x)||q =
1
( i n1 |xi |q ) q ).
P

2.1.3 Parametres de dispersion


Les parametres de dispersion sont des nombres permettant de mesurer
lamplitude des variations autour dune valeur centrale.
Les parametres de dispersion que nous definirons dans cette partie sont
essentiellement de deux types, ceux lies (de pres ou de loin) a la variance, et
ceux lies a la repartition des valeurs (les quartiles).

Definition 10 La variance dune variable est le nombre s2 (x) defini par


lexpression :
1 X
s2 (x) = (xi x)2
n 1in

La racine carree de s2 (x), notee s(x) est appele ecart-type de la variable.

On peut P(facilement) demontrer que la variance est egalement egal a


s2 (x) = ( n1 1in x2i ) (x)2 , formule plus pratique lorsque lon doit calculer
une variance a la main.

Remarque 6 Attention : il ne faut pas confondre variance et variance


corrigee. La variance corrigee s2c (x) definie par lexpression :

1 X n 2
s2c (x) = (xi x)2 = s (x)
n 1 1in n1

est un estimateur et non un parametre de dispersion.


24 CHAPITRE 2. DESCRIPTION DUNE OU DEUX VARIABLES

Estimateurs et variance corrigee


Pour comprendre la remarque ci-dessus, il faut parler un peu de statistique
et destimateurs. En statistique, on considere le plus souvent une variable
definie sur une population bien plus importante que lechantillon dont on
dispose (par exemple le solde en banque de toute la population francaise
par rapport a un echantillon dune centaine de personnes). Lensemble de
la population est alors une variable aleatoire X qui possede une moyenne
(X) (appelee esperance mathematique) et une variance 2 (X) definie telle
que 2 (X) = ((X (X))2 ). Par linearite de loperateur () on montre
facilement que 2 (X) = (X 2 ) ((X))2 .
Le probleme est alors destimer (X) et 2 (X) alors que nous ne possedons
que n valeurs xi prises par la variable aleatoire X. Chaque valeur xi etant
egalement une variable aleatoire de memes parametres que X.
On appelle alors estimateur de la moyenne (X) (resp. de la variance
2
(X)) une suite (Tn ) fonction de (x1 , . . . , xn ) telle que pour tout  > 0 la
probabilite que |Tn (X)| >  (resp. |Tn 2 (X)| > ) tend vers 0 lorsque
n tend vers linfini.
Dans le cadre de ce cours, on admettra que x et s2 (x) sont des estimateurs
de (X) et 2 (X) respectivement.
Il existe cependant une foultitude destimateurs de moyenne et de va-
riance, parmi ceux existant, on peut essayer de degager des estimateurs
meilleurs que dautres. On peut pour cela se baser sur le biais.
Le biais dun estimateur Tn de la quantite est :

(Tn )

Un estimateur est dit sans biais si (Tn ) = 0 (cest a dire si sa moyenne


est egale a ce quil estime) et asymptotiquement sans biais si lim (Tn ) = 0.
Calculons le biais de nos estimateurs. Commencons par lestimateur de
la moyenne :

1
P
(x (X)) = (Pn 1in xi (X))
1
= n P1in (xi ) (X)
= n1 1in (X) (X)
= 0

Lestimateur x est donc un estimateur sans biais de la moyenne (X).


2.1. DESCRIPTION DUNE VARIABLE 25

En ce qui concerne la variance :

(s2 (x) 2 (X)) = ( n1 P1in (xi x)2 2 (X))


P
1 2 2 2
= (Pn 1in (xi ) (x) (X))
= n1 1in (x2i ) (x2 ) 2 (X)

En utilisant le fait que 2 (Y ) = (Y 2 ) ((Y ))2 pour toute variable


aleatoire Y , on en deduit que 2 (xi ) = (x2i ) (xi )2 et que 2 (x) = (x2 )
((x))2 . Comme x est un estimateur sans biais de (X) que 2 (xi ) = 2 (X)
et que (xi ) = (X), on a :

(s2 (x) 2 (X)) = 2 (x)

Les variables xi etant independantes :

2 (x) = 2 ( n1 P1in xi )
P
= n12 2 ( 1in xi )
= n12 (n 2 (xi ))
= n1 2 (X)

Finalement :
1
(s2 (x) 2 (X)) = 2 (X)
n
2
Lestimateur s (x) est donc seulement asymptotiquement sans biais, sa
moyenne etant egale a n1
n
2 (X) et donc sous-estime constamment la veritable
variance de X.
En refaisant les calculs avec s2c (x) on se rend compte que (s2c (X)) =
2 (X) et donc quil est sans biais.
Lorsque les (xi ) sont un echantillon dune population plus grande on a
coutume dutiliser la variance corrigee s2c (x) puisquelle est sans biais. Cepen-
dant dans le cas qui nous occupe, les (xi ) representent la population en son
entier, sa variance est donc egale a s2 (x) et nous navons pas a nous soucier
de la variance corrigee.

Comparaisons de variances

Une variance ne peut etre comparee (et interpretee) que par rapport a une
autre variance puisque cest la moyenne des carres des ecarts a la moyenne.
En pratique, cest lecart-type qui est le plus utilise car il sexprime avec la
26 CHAPITRE 2. DESCRIPTION DUNE OU DEUX VARIABLES

meme unite que la variable, et donc que sa moyenne. On peut ainsi combiner
ecart-type et moyenne pour obtenir un parametre de dispersion appele coef-
ficient de variation qui represente une variabilite relative de la variable (au
contraire de lecart-type qui represente une variabilite absolue). De la meme
maniere que lon peut definir les valeurs centrales par rapport a des normes
Lq (cf. 2.1.2), si lon considere la quantite

q (x) = ||~v (x) c~i||q

ou c est une valeur centrale dordre q de x, lecart type de x est exactement


2 . Cette quantite represente en quelque sorte lerreur entre les variables
et sa representation par une valeur centrale.

Autres parametres de dispersion

Definition 11 Le coefficient de variation cv(x)est defini par lexpression :

s(x)
cv(x) = 100
x
Si la population est plus grande que lechantillon considere, le coefficient
de variation utilise sc (x) et non plus s(x), il est alors defini par lexpression :
cv(x) = 100 scx(x) .

Letendue dune variable qui est le parametre de dispersion e(x) defini par
la difference entre la plus grande et la plus petite valeur de la variable etant
tres sensible aux valeurs extremes, on preferera utiliser les quartiles pour
calculer la repartition des valeurs.

Definition 12 On defini les quartiles comme suit. Soient m et d les parties


entieres et decimales de n+1 4
et m0 et d0 les parties entieres et decimales de
3(n+1)
4
. On notera, comme en 2.1.2, x(1) , x(2) , . . ., x(n) les valeurs de x rangees
par ordre croissant.
le premier quartile note q0,25 (x) est defini par lexpression : q0,25 (x) =
x( m) + d(x(m+1) x(m) ),
le deuxieme quartile note q0,5 (x) est egal a la mediane de x,
le troisieme quartile note q0,75 (x) est defini par lexpression : q0,75 (x) =
x( m0 ) + d0 (x(m0 +1) x(m0 ) ).
Letendue inter-quartile IQR(x) etant defini par IQR(x) = q0,75 q0,25 .
2.2. DESCRIPTION DE DEUX VARIABLES 27

Ces parametres de dispersion permettent de definir des intervalles ou se


trouvent un pourcentage donne de valeurs. Par exemple, il y a 25% des valeurs
en dessous de q0,25 , entre q0,25 et q0,5 , entre q0,5 et q0,75 , et au-dessus de q0,75 .
De meme, il y a 50% des valeurs de la variable au-dessous de q0,5 , au-dessus
de q0,5 et dans IRQ(x).
Si lon veut raffiner (daucun diraient chipoter), on peut de la meme
maniere definir des deciles (on decoupe en dixieme et non plus en quart) ou
des centiles (on decoupe en centieme).

2.1.4 Bote a moustaches


La bote a moustache (encore appelee boxplot) est un graphique permet-
tant dobserver globalement les parametres de position et de dispersion.

Definition 13 Une bote a moustache est un graphique constitue de deux


axes : laxe vertical, muni dune echelle numerique qui correspond aux valeurs
la variable observee et laxe horizontal, sans echelle. Un segment horizontal
(de longueur arbitraire) est trace en regard de la mediane, puis une bote est
reportee avec les cotes superieur et inferieur en regard de q0,75 et q0,25 respecti-
vement. Enfin, deux segments verticaux sont trace vers lexterieur de la bote
(les moustaches) joignant le milieu du cote superieur (resp. inferieur) a la
plus grande (resp. la plus petite) valeur inferieure ou egale (resp. superieure
ou egale) a q0,75 + 32 IQR(x) (resp. q0,25 23 IQR(x)).

On peut egalement rajouter deux points marquant les valeurs les plus
extremes si elles ne sont pas dans les moustaches, et un autre point en regard
de la moyenne. La figure 2.4 montre ce type de graphique pour la variable
x et y de la table 2.1, ou pourra remarquer que la mediane de x est egale a
q0,25 et est tres differente de la moyenne.
Les extremites de la bote a moustache sont appelees valeurs adjacentes,
et lorsque quune valeur se trouve au-dela des valeurs adjacentes, elle peut
etre considere comme extreme et peut eventuellement etre omise.

2.2 Description de deux variables


Lespace de representation associe a nos objets est ici lensemble R2 , tout
xi X est donc un couple de reels xi = (x1i , x2i ). La table 2.1 est un exemple
28 CHAPITRE 2. DESCRIPTION DUNE OU DEUX VARIABLES

40
30
20
10
0

temps erreurs

Fig. 2.4 bote a moustaches des variables x et y de la table 2.1

de ce type despace de representation. Ceci revient a considerer un ensemble


X dobjets par deux variables reelles, x et y par exemple.

2.2.1 Nuage de points et regression lineaire


Supposons que lon cherche a decrire lensemble X dobjets decrit par
deux variables reelles x et y. On appellera champ du couple (x, y) lensemble
K = {(xi , yi )|1 i n} que lon peut representer dans le plan par n points
Mi dabcisse xi et dordonnee yi , le centre de gravite du nuage etant bien
evidemment le point G = (x, y). La figure 2.5 montre le graphique associe a
la table 2.1 du nombre derreurs commises par rapport au temps mis pour
effectuer lexamen, le centre gravite du nuage etant represente par un +.
Un simple regard sur le nuage peut informer sur lexistence et la forme
dune eventuelle liaison entre les deux variables. On peut par exemple cher-
cher a determiner une eventuelle liaison lineaire entre les deux variables (le
nuage a tendance a setirer le long dune droite), on peut alors tenter dex-
pliquer la variable y (appelee variable expliquee) par la variable x (appelee
variable explicative). On cherche ainsi a determiner sil existe deux reels a et
b tels que pour tout 1 i n : yi ' a + bxi .
2.2. DESCRIPTION DE DEUX VARIABLES 29

12
10
8
erreurs

+
4
2
0

5 10 15 20 25 30 35 40

temps

Fig. 2.5 nuage de points de la table 2.1

La maniere la plus courante pour arriver a nos fins est dutiliser la methode
des moindres carres, cest a dire trouver deux reels a et b qui realisent le mi-
nimum de :
n
X 1
h(a, b) = (yi a bxi )2 = ||~v (y) ~v (ax + b)||22
i=1
n

Le nombre h(a, b) est appele residu quadratique. Il quantifie lecart de nos


donnees par rapport a la droite sensee les representer. Trouver le minimum
de h(a, b) se fait simplement en utilisant la methode dite gros bourrin : on
derive par rapport a a et b.
On a alors :

h(a, b) 1X
= 2 (yi a bxi ) = 2y + 2a + 2bx
a n i

h(a,b)
De la, a
= 0 implique que :

a = y bx
30 CHAPITRE 2. DESCRIPTION DUNE OU DEUX VARIABLES

h(a,b)
= 2 n1P i xi (yi a bxP
P
b i)
1
= 2[ i xi yi ax b n i x2i ]
En remplacant a par y bx, on obtient alors :
h(a,b)
= 2[Pi xi yi (y bx)x b n1 P
P P 2
b i xi ]
1 2 1 2
= 2[ P i n (xi yi xy) + b(x n i xi )]
= 2[ n1 i (xi x)(yi y) + bs2 (x)]

On pose alors cov(x, y) = n1 1in (xi x)(yi y) (appelee covariance


P

de x et de y), et lequation h(a,b)


b
= 0 conduit a :

cov(x, y)
b=
s2 (x)

Remarque 7 La covariance est une generalisation de la variance pour deux


variables. Elle permet de voir comment varie une variable par rapport a
lautre. Une valeur positive de covariance entre x et y montre que lorsque x
augmente (resp. diminue) y a tendance a augmenter (resp. diminue) egalement
et une valeur negative de la covariance montre quen general si x augmente
(resp. diminue) y va diminuer (resp. augmenter). On a de plus que cov(x, x) =
s2 (x) 0.

La droite obtenue est appelee droite de regression lineaire de y par x


et possede la propriete de passer par le centre de gravite du nuage (i.e.
y = ax + b). Le residu quadratique vaut alors :
 2 !
cov(x, y)
h(a, b) = s(y)2 1
s(x)s(y)

La qualite de la regression sera dautant meilleure que ce residu est faible.


Pour cela, deux facteurs seront predominants :
un faible ecart-type de la variable y,
une forte valeur de cov (x,y)
s(x)s(y)
La figure 2.6 reprend le nuage de la figure 2.5 en y ajoutant la droite de
regression lineaire. On a a = 0.85 et b = 0.33.
2.2. DESCRIPTION DE DEUX VARIABLES 31

12
10
8
erreurs

+
4
2
0

5 10 15 20 25 30 35 40

temps

Fig. 2.6 droite de regression lineaire de la table 2.1

2.2.2 Correlation lineaire et axe principal


Dans la partie precedente, on a choisi dexpliquer une variable (la va-
riable y de la table 2.1) par une autre (la variable x de la table 2.1). Ce
choix peut paratre arbitraire puisque lon aurait put tout aussi bien tenter
dexpliquer la variable x par la variable y et obtenir une droite de regression
differente, comme le montre la figure 2.7 ou les deux droite de regression sont
superposees.
Comme vue dans la partie 2.2.1, les deux droites de regressions lineaires
passent par le centre de gravite du nuage, les deux droites sont alors egales
si et seulement si leurs pentes le sont. Comme x = a0 + b0 y est equivalent a
0
y = ab0 + b10 x, les pentes des droites de regression y = a + by et x = a0 + b0 y
sont egales si et seulement si b = b10 , cest a dire si et seulement si :
 2
cov(x, y)
=1
s(x)s(y)

On note r(x, y) la quantite cov (x,y)


s(x)s(y)
= r(x, y) et on lappelle (fort juste-
ment) coefficient de correlation lineaire. On peut prouver que |r(x, y)| 1)
32 CHAPITRE 2. DESCRIPTION DUNE OU DEUX VARIABLES

12
10
8
erreurs

+
4
2
0

5 10 15 20 25 30 35 40

temps

Fig. 2.7 les deux droites de regression lineaires de la table 2.1

quelques soient x et y et que |r(x, y)| = 1 si et seulement si les points (xi , yi )


(1 i n) sont alignes.

Remarque 8 Une valeur de r(x, y) proche de 1 signifie donc que si x aug-


mente, y augmente egalement de facon lineaire (et que si y augmente, x
augmente egalement) et une valeur de r(x, y) proche de -1 signifie que si x
augmente, y decrot (et reciproquement).

En fait, plus r2 (x, y) est proche de 1, plus le nuage de points se concentre


autour dune droite passant par le centre de gravite du nuage et ayant une
pente intermediaire entre la droite de regression de y par x et la droite de
regression de x par y. Cette droite est appelee axe principal.
Laxe principal peut sobtenir directement en changeant la droite a op-
timiser. Soit D une droite dequation y = aD + bD x. Chercher la droite de
regression de y par x revient a chercher la droite Dy qui minimise la somme
des carres des ecarts |yi aD bD xi | (le segment vertical en pointille sur la
figure 2.8). De la meme maniere chercher la droite de regression de x par y
revient a chercher la droite Dx qui minimise la somme des carres des ecarts
|xi + abDD b1D yi | (le segment horizontal en pointille sur la figure 2.8).
2.2. DESCRIPTION DE DEUX VARIABLES 33

On voit bien par la que la regression de y par x et la regression de x


par y ne permet dobtenir la meme droite que si les points sont deja alignes.
Laxe principal est le resultat dune autre forme doptimisation : on cherche
la droite D qui minimise la somme des carres des distances des points (xi , yi )
a la droite (le segment en gras sur la figure 2.8).

(xi,yi)

droite D

Fig. 2.8 Les differentes optimisations par rapport a D

La figure 2.9 montre le nuage de points de la table 2.1, les deux droites
de regressions (en traits pleins) et laxe principal (en pointilles).

Les quantites que nous venons dintroduire sinterpretent dans Rn muni de


la norme euclidienne. cov(x, y) est le produit scalaire de ~v (x) x~i et ~v (y) y~i.
r(x, y) est le cosinus de langle de ~v (x) x~i et ~v (y) y~i. Lalignement dans
R2 du nuage correspond a la colinearite dans Rn des vecteurs definis par les
variables, la correlation nulle correspond a lorthogonalite, dans ce dernier
cas on dit que les variables sont independantes.

2.2.3 Test du 2 dindependance


Avant de commencer lanalyse proprement dite dun jeu de donnees (i.e.
trouver une structure, des relations entre les donnees), la premiere question
a se poser est : suis-je en droit de le faire ?
Il se peut en effet quil ny ait strictement rien a trouver, que la distribu-
tion des valeurs soit totalement aleatoire.
Pour verifier cela, on commence par construire un tableau de contingence.
Un tableau de contingence de deux variables x et y possede autant de lignes
34 CHAPITRE 2. DESCRIPTION DUNE OU DEUX VARIABLES

12
10
8
erreurs

+
4
2
0

5 10 15 20 25 30 35 40

temps

Fig. 2.9 droites de regression lineaires et axe principal de la table 2.1

que x a de valeurs differentes (notees vx1 , . . . vxp ) et autant de colonnes que


y a de valeurs differentes (notees vy1 , . . . , vyq ). Une case Cij correspond alors
au nombre delements (xm , ym ) de X tels que xm = vxi et ym = vyj , chaque
element de X se retrouve dans une et une seule case du tableau.
La table 2.2 donne le tableau de contingence de la table 2.1. En divisant
chaque case par le cardinal de X (ici 26), on obtient les differentes frequences
dapparitions des modalites.
Si les deux variables mises en jeu etaient independantes, la frequence
dapparition de la modalite vxi et vyj serait egale a la frequence dapparition
de la modalite vxi multipliee par la frequence dapparition de vyj .
P P C
Ainsi en posant Ci = j Cij et Cj = i Cij , plus les nij sont eloignes de
Ci C
n
nj , plus les deux variables sont dependantes, et ainsi, plus la recherche
de structures entre ces variables est legitime.
On calcul la quantite :
 2
C C
X Cij in j
D2 = Ci Cj
i,j n

Si les deux variables sont independantes D2 sera proche de 0 et au contraire


2.2. DESCRIPTION DE DEUX VARIABLES 35

Tab. 2.2 Tableau de contingence de la table 2.1


x\ y 0 1 2 3 4 5 6 8 10 12 total ligne
5 4 1 0 0 0 0 0 0 0 0 5
10 1 0 3 4 0 1 0 0 0 0 9
15 0 0 0 1 2 1 0 0 0 0 4
20 0 0 0 0 0 0 2 0 1 0 3
30 0 0 0 0 0 1 0 1 2 0 4
40 0 0 0 0 0 0 0 0 0 1 1
total colonne 5 1 3 5 2 3 2 1 3 1 26

si les variables sont liees, D2 sera grand. On peut quantifier cette liaison entre
variable en utilisant les statistiques.
Les valeurs Cij du tableau sont alors considerees comme des valeurs dune
variable aleatoire C dont on ne connat pas la loi. Si D2 est petite, il y a toute
les chances que la loi regissant C soit le produit de deux lois independantes,
lune regissant les lignes lautre les colonnes. Ci cest le cas, D2 est une
variable aleatoire dont on connat la loi : elle suit une loi du 2 a (p1)(q 1)
degres de liberte. Par abus de notation au appellera par la suite 2 dun
tableau de contingence la quantite D2 .
La densite de probabilite f (x) dune loi du 2 a n degre de liberte est
egale a :
1
ex/2 xn/21 si x > 0

f (x) = 2n/2 (n/2)
0 sinon
R +
avec (z) = 0 tz1 et dt qui est appelee fonction gamma.
Lesperance et la variance dune variable aleatoire X suivant une loi du
2 a n degres de liberte est (X) = n et 2 (X) = 2n. La figure 2.10 montre
la densite de probabilite dune loi du 2 a 4 degres de libertes.
Dans notre exemple, p = 10 et q = 6 et donc si les deux variables sont
independantes, D2 suit une loi du 2 a 45 degres de liberte. Dans ce cas la,
D2 a 99% de chances detre compris entre 0 et 70 (lintegrale de la fonction
de densite entre 0 et 70 vaut 0.99). Il y a donc moins d1% de chance que la
valeur de D2 soit plus grand que 70. On trouve que D2 = 95.3, qui est une
valeur tres hypothetique si D2 suivait une loi du 2 . On a donc moins d1% de
chance de se tromper en rejetant lhypothese dindependance, risque que lon
peut prendre : on considere alors que nos donnees ne sont pas independantes,
36 CHAPITRE 2. DESCRIPTION DUNE OU DEUX VARIABLES

densit de probabilit

0.15
densit

0.10
0.05

0 20 40 60 80 100 120

valeur

Fig. 2.10 Densite de probabilite du 2 a 4 degres de liberte.

ce qui legitime une analyse.


Chapitre 3

Analyse en composantes
principales

On sinteressera dans ce chapitre aux objets de X decrits par p variables


reelles. Lespace de representation associe est ainsi Rp .

3.1 Exemple avec les mains


Lorsque la population a etudier est decrite par deux variables, la simple
lecture de leurs valeurs (du nuage produit) peut eventuellement fournir une
idee de lintensivite de la liaison entre les deux variables, comme le montre
la figure 3.1.

y y y

x x x
Absence de liaison Forte liaison Trois groupes homognes

Fig. 3.1 Formes particulieres de nuages

Letude visuelle du nuage ne donne cependant que rarement toute lin-


formation desiree. Lexemple fil rouge du chapitre 2 (table 2.1) est a cet

37
38 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

egard significatif. Le coefficient de correlation lineaire eleve (r(x, y) = 0.9)


conduisant a une explication lineaire des donnees. Si lon cherche mainte-
nant a etudier le comportement de notre population detudiants, on peut
imaginer deux formes de nuages presentant une forte correlation (figure 3.2).

erreurs erreurs

temps temps
Nuage 1 Nuage 2

Fig. 3.2 Formes particulieres de nuages

Le premier nuage de la figure 3.2 ordonne, grosso modo, les individus


selon leur aptitude a lepreuve (peu de temps et peu derreurs sopposant
a beaucoup de temps et beaucoup derreurs).
Lordre traduit par le deuxieme nuage de la figure 3.2 peut sembler moins
clair aux profanes que nous sommes, mais un psychologue linterpreterait en
terme dattitude (on prend son temps et on fait bien sopposant a on bacle
et on fait mal).
Partant de nos donnees, on est parvenu a degager deux variables per-
tinentes pour decrire le comportement de notre population : lattitude et
laptitude. Remarquons que celles-ci decrivent des phenomenes que lon sup-
pose (au moins intuitivement) independant : les deux axes determines sont
orthogonaux.
Appelons facteurs nos deux nouvelles variables (elles remplacent les va-
riables temps et erreurs), ils seront dautant plus pertinents avec nos
donnees que nos variables dorigines ont une forte correlation avec au moins
un de nos nouveaux axes (lautre axe etant obtenu par orthogonalite).
Reste a extraire les facteurs. On peut pour cela faire une analogie avec la
mecanique. Si lon assimile nos objets a des points materiels, la droite la plus
proche du nuage de points est celle qui correspond a laxe principal dinertie
du nuage. Cet axe est exactement laxe principal definie en 2.2.2.
Cet exemple a deux variables montre le but de lanalyse en composantes
principale : determiner des axes pertinents pour lexplication des correlations
3.2. PRINCIPE DE LA METHODE (SANS LES MAINS) 39

entre variables.

3.2 Principe de la methode (sans les mains)


Si lanalyse visuelle du nuage peut nous permettre, soit de degager direc-
tement la structure, soit de determiner des axes pertinents, lorsque les objets
sont decrits par plus de trois variables (sinon, on peut toujours representer le
nuage dans lespace), la representation graphique devient impossible. Ainsi,
les dix categories socioprofessionnelles de la table 1.1 sont representables dans
un espace a six dimensions (ce qui graphiquement commence a faire mal aux
yeux). Si lon veut cependant obtenir une representation graphique plane de
la table 1.1, on peut projeter les points de lespace a p dimensions sur un
plan (a deux dimensions). Il faut cependant choisir judicieusement le plan
de projection pour que les distortions par rapport a lespace originel soient
minimales.
Soient xi et xj deux elements de X et d(xi , xj ) la distance de lun a
lautre dans Rp . En projetant ces elements sur un plan, la distance entre les
deux projections d(p(xi ), p(xj )) est plus petite que d(xi , xj ), on se fixera donc
comme critere de choix de plan, celui qui maximise la moyenne des carres
des distances entre les projections.
On peut determiner un plan par deux droites D1 et D2 orthogonales
entre elles. De part la relation de Pythagore, la distance au carre entre
deux points projetes sur ce plan est egal a la somme des deux distances
au carre des projections des points sur les deux droites : d2 (p(xi ), p(xj )) =
d2 (i , j ) + d2 (i , j ) (avec k et k les projetes de xk (1 k n) sur D1 et
D2 respectivement).
Le plan minimisant la moyenne des carres des distances entre les pro-
jections, appele plan principal peut donc etre determine iterativement. On
commence par chercher la droite D1 maximisant la moyennes des d2 (i , j ),
puis une droite D2 , orthogonale a D1 maximisant la moyenne des d2 (i , j ).
On peut alors continuer le processus et trouver p droites orthogonales entre
elles formant une nouvelle base de Rp , appeles axe principaux du nuage.
La meilleure representation des donnees en q < p dimension est alors la
projection de lensemble X sur les q premiers axes principaux. Ceci est la
methode de lanalyse en composantes principale : remplacer la base cano-
nique de Rp par une base forme des axes principaux, representant mieux les
donnees (pensez aux axes aptitudes et attitude du debut du chapitre),
40 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

et permettre ainsi de reduire lespace de representation aux q axes les plus


representatifs.
Lanalyse en composantes principales est une methode factorielle, car elle
reduit le nombre de caracteres, non pas en eliminant tel ou tel variable jugee
non pertinente, mais en construisant de nouveaux axes, plus pertinents.

3.3 Reformulation des donnees


3.3.1 Matrice de donnees
Les n individus xi etant decrits par p variables (xi = (x1i , . . . , xpi )), on
peut, par abus de notation, noter X la matrice a n lignes et p colonnes
telle lelement a la ligne i et colonne j soit xji . Si X represente lespace des
individus, t X (la matrice transposee de X) represente lespace des caracteres,
chaque caractere etant represente par les n individus quil decrit. On note
alors xj (1 j p) la ligne j de t X qui decrit le caractere j.
Le centre de gravite du nuage g = (x1 , . . . , xp ) est un individu, la plupart
du temps fictif, decrit par les moyennes respectives des differents caracteres.
Dans lexemple de la table 1.1, le centre de gravite du nuage vaut par
exemple g = (13.2, 11.6, 15.6, 20.1, 28.1, 11.4)
On dit quune variable est centree si sa moyenne est nulle. Centrer des
variables revient a deplacer le centre du repere vers g et donc a retirer sa
moyenne a chaque caractere xi xi .
On considerera par la suite que toute les variables sont centrees, ce qui
simplifie grandement les notations matricielles.

3.3.2 Poids des donnees


Dans les chapitres precedents, nous avons toujours considere que le poids
de chaque donnee etait le meme. Ce nest cependant pas toujours le cas. De
facon
P generale, a chaque objet xi (1 i n) est associe un poids pi tel que
i pi = 1.
Ces poids sont rassembles dans une matrice diagonale D telle que D =
diag(x1 , x2 , . . . , xn ). On a donc, si D = (dij )1i,jn , dii = pi pour tout 1
i n et dij = 0 si i 6= j.
Dans le cas ou tous les poids sont identiques, cette matrice est une matrice
diagonale dordre n egale a n1 In (In etant la matrice identite dordre n).
3.3. REFORMULATION DES DONNEES 41

3.3.3 Matrices de description


On appelle matrice de variance la matrice carree V contenant a la ligne
i et la ligne j la covariance entre la variable i et la variable j. Cette matrice
est symetrique et sa diagonale contient les variances des differentes variables.
Cette matrice peut etre calculee par la formule :

s21 . . . s1j . . . s1p



... ..
.


t 2
V = XDX si sij sip

.. .
. ..


s2p
ou D est la matrice des poids des individus.
Pour obtenir la matrice de correlation R, matrice carree telle que r(xi , xj )
soit sur la ligne i et la colonne j, on note D 1 la matrice diagonale definie
s
telle que :
1

s1
..
. 0
1

D1 = si

s
...
0
1
sp

On a alors :

1
...
r(xi , xj )


R = D1 V D1 = 1

s s


...

1

La matrice de correlation possede une diagonale de 1 puisquil ny a pas


plus correle quune variable avec elle-meme. La matrice de correlation de
la table 1.1 est presente dans la table 3.1. On peut deja remarquer que la
variable representant les livrets (LIV) est tres fortement correlee avec la va-
riable representant lepargne obligatoire, alors que la pierre (PIE) ne lest
que tres peu avec les placements (POA)
42 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

Tab. 3.1 Matrice de correlation de la table 2.1


LIV 1
ELB 0.9127151 1
POA 0.6798236 0.7027894 1
ACT -0.6262121 -0.6785415 -0.4475890 1
PIE -0.5604978 -0.7667056 -0.5806489 0.3698211 1
TER -0.1230438 0.1016693 -0.1580415 -0.5950052 -0.2779655 1
LIV ELB POA ACT PIE TER

3.3.4 Reduction des donnees


Le choix de la distance a utiliser est primordiale dans toute analyse
de donnees, car elle determine les resultats obtenus. Un mauvais choix de
metrique conduit le plus souvent a de mauvais resultats.
Lorsque le repere utilise est orthonorme, on est tente dutiliser une dis-
tance euclidienne classique et dans ce cas la distance (ici entre deux individus)
est : X
d2 (xi , xj ) = (xki xkj )2
1kp
.
Si ce choix est adapte lorsque toutes les variables ont meme unite, il
peut etre prejudiciable dans notre cas, puisque chaque variable se definit par
rapport a sont unite propre (un homme pouvant etre defini par son age, son
salaire et bien sur la grosseur de sa voiture). Utiliser une metrique euclidienne
revient alors a melanger les torchons et les serviettes.
Il est donc indispensable de trouver une metrique qui permette de com-
parer des individus decrits par des variables heterogenes.
Pour eviter cet ecueil, nos donnees (supposees centrees) sont reduites.
Cest a dire que chaque variable (les xj ) est divisee par son ecart type. Ceci
a pour but quune fois reduites, lecart type de chaque variable est egal a 1.
De maniere matricielle, ceci revient a remplacer la matrice X par XD 1 .
s
Le principal avantage de cette metrique est que la distance entre individus ne
j
depend plus des unites choisies puisque les nombres xsj sont sans unites. De
plus, elle accorde la meme importance a chaque caractere quelque soit sa dis-
persion. Ne pas lutiliser revient a accorder plus dimportance aux caracteres
de forte dispersion qua ceux de faible dispersion.
Les ecarts types des differentes variables de la table 1.1 sont representes
3.4. RECHERCHE DES SOUS-ESPACES PRINCIPAUX 43

dans le tableau ci-apres :


LIV ELB POA ACT PIE TER
6.545567 4.087923 4.115013 12.041133 7.607745 10.319345

Remarque 9 Lorsque des donnees sont centrees et reduites, les matrices V


et R sont identiques, et D 1 = In .
s

Dans tout ce qui suivra, on supposera nos donnees centrees et reduites.

3.4 Recherche des sous-espaces principaux


On considere ici une matrice de donnees X a n lignes et p colonnes centree
et reduite. On utilisera dans ce qui suit P la distance, et donc la norme eucli-
dienne usuelle. Cest a dire que ||xi ||2 = 1jp (xji )2 et que la distance entre
xi et xj est egale a ||xi xj ||. De plus, en notant < xi , xk >= j xji xjk = xi t xj
P
(t xj est le transpose du vecteur ligne xj ) le produit scalaire entre xi et xk on
a que ||xi ||2 =< xi , xi >.
Le but recherche est de comprendre comment se comportent les donnees
les unes par rapport aux autres. Chaque donnee etant composee de p va-
riables, il est illusoire de rechercher une structure en regardant la matrice
X dans son ensemble. On cherche alors a reduire le nombre de parametres
en esperant que lerreur commise en considerant un nombre de variables
inferieure a p soit negligeable devant le gain en interpretabilite.
Nos donnees etant des points (au nombre de n) de lespace Rp , reduire le
nombre de variable peut seffectuer en projetant nos points sur un sous-espace
de Rp . Pour que ce sous-espace ait un sens, il faut que les points projetes et
les points initiaux ne soient pas trop eloignes.
Pour ecrire ca de facon formelle, notons p(xi ) la projection de lindividu
xi sur un sous-espace H de Rp . Le sous-espace H est dautant meilleur pour
notre analyse que la quantite
X
pi ||xi p(xi )||2
i

soit petite (pi est toujours le poids de lindividu i). En effet, si ||xi p(xi )||
est petite, ceci signifie que le point et son projete sont proches.
On appelle
P alors sous-espace principal un sous-espace de Rp minimisant
la quantite i pi ||xi p(xi )||2 .
44 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

La question etant maintenant, comment trouver cet espace ?


Avant de
Pcaracteriser completement H, nous allons triturer un petit peut
2
lequation i pi ||xi p(xi )|| . Pour cela notons g le centre de gravite de nos
individus. Les donnees etant centrees, g est egal a lorigine du repere.

xi

p(xi) p(g)
H

Fig. 3.3 projection sur H

On peut alors ecrire en utilisant Pythagore (figure 3.3) que :


X X X
pi ||xi p(xi )||2 = pi ||xi p(g)||2 pi ||p(xi ) p(g)||2
i i i

Or :
pi ||xi p(g)||2 = Pi pi (||xi ||2 + ||p(g)||2 2P
P P
i < xi , p(g) >)
= Pi pi ||xi ||2 + ||p(g)||2 2 iPpi < xi , p(g) >
2 2
= Pi pi ||xi || + ||p(g)|| 2 < i pi xi , p(g) >
2 2
= i pi ||xi || + ||p(g)|| 2 < g, p(g) >

Comme g est egale a lorigine du repere on a < g, p(g) >=< 0, p(g) >= 0 et
donc finalement que :
X X
pi ||xi p(g)||2 = pi ||xi ||2 + ||p(g)||2
i i

Cette relation est connue sous le nom de relation de Huygens.


De la :
X X X
pi ||xi p(xi )||2 = pi ||xi ||2 + ||p(g)||2 pi ||p(xi ) p(g)||2
i i i

On se rend ainsi compte que puisque :


3.4. RECHERCHE DES SOUS-ESPACES PRINCIPAUX 45

Pi pi ||xi ||2 est une constante quelque soit H,


P
2
i ||p(xi ) p(g)|| est une constante pour tout sous-espace parallele a
H,
||p(g)||2 = 0 si g = p(g).
Le sous-espace H que nous recherchons passe forcement par lorigine du
repere (cest a dire lorsque p(g) = g = 0).
Notre probleme devient ainsi : trouver un sous-espace H passant par
lorigine du repere maximisant la quantite :
X
pi ||p(xi )||2
i
P
On est donc passe de la recherche dun sous espace H minimisant i pi ||xi
2
p(x
P i )|| a la 2recherche dun sous-espace passant par lorigine maximisant
i pi ||p(xi )|| .

3.4.1 Un sous-espace a 1 dimension


Commencons pas essayer de trouver un sous-espace principal
P a une di-
mension (une droite) D, passant par lorigine et maximisant i pi ||p(xi )||2 .
Si lon connat un vecteur directeur u Rp de D on a, car nos donnees
sont centrees, que :

p(x1 )
..
.
Xu = p(xi )

.
..
p(xn )
Ainsi, matriciellement parlant :
2 t
P
i pi ||p(xi )|| = (Xu)D(Xu)
t t
= u XDXu
t
= uV u
Trouver D est donc equivalent a trouver un vecteur unitaire u de Rp
maximisant t uV u.
Trouver u peut se faire de plusieurs manieres. La plus simple, mais la
moins interessante, est dannuler les derives partielles de t uV u. Mais comme
je suis un (enorme) faineant, on va resoudre cette equation sans calcul.
46 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

Pour cela, on peut remarquer que la matrice V est symetrique et semi-


definie positive (i.e. ses valeurs propres sont positives). En effet, pour tout
vecteur de R , uV u est positif (puisque egal a i pi ||p(xi )||2 ). Si u est un
p t
P
vecteur propre de V de valeur propre , t uV u =t u(u) = t uu = ||u||2 . On
en deduit que 0.
Or on sait (ou plus vraisemblablement , on savait) que les vecteurs propres
dune matrice symetrique semi-definie positive forment une base orthonormee.
Soit alors u1 , u2 , . . ., up les vecteurs propres de V ranges par ordre decroissant
de leurs valeurs propres respectives (1 2 . . . p ).
Tout vecteur unitaire u se decompose ainsi en u = 1 u1 + . . . p up .
De la :
t
uV u = t ( i i ui )V ( j j uj )
P P

= t ( i i ui )( j j V uj )
P P

= t ( i i ui )( j j j uj )
P P
P P
= < i i ui , j j j uj >
P P
= i (i < ui , j j j uj >)
P P
= i( j (i j j < ui , uj >))

Les ui formant une base orthonormee, on a alors :


t
P P
uV u = ( ( < ui , uj >))
Pi 2 j i j j
= Pi (i i < ui , ui >)
= Pi (i2 i ||ui ||2 )
2
= i (i i )

Comme 1 i pour tout i 1, on a du coup :


t
uV u = Pi (i2 i )
P
1
i (
Pi 12)
1 ( i i )
1 ||u||2
1
Or pour u1 , t u1 V u1 =t u1 (1 u1 ) = 1 t u1 u1 = 1 ||u1 ||2 = 1 .
On a donc finalement que :
pour tout vecteur unitaire u, t uV u 1 ,
t u 1 V u 1 = 1 .
La droite D maximisant i pi ||p(xi )||2 est donc de vecteur directeur u1 ,
P
vecteur propre de V associe a 1 , la plus grande de ses valeurs propres.
3.4. RECHERCHE DES SOUS-ESPACES PRINCIPAUX 47

3.4.2 Sous-espaces principaux a plus d1 dimension


La partie precedente montre que Psi lon veut2 trouver un sous-espace a 1
dimension maximisant la quantite i pi ||p(xi )|| pour des donnees centrees
et reduites, il faut prendre comme espace la droite de vecteur directeur u1 ,
vecteur propre associe a la valeur propre la plus grande de la matrice V =
t
XDX.
Mais quen est-il lorsque lon cherche a maximiser la quantite i pi ||p(xi )||2
P
pour un espace de dimension quelconque ?
Une propriete des espaces orthogonaux va nous aider grandement. Soit
R = H H une decomposition de lespace en somme directe de deux sous-
p

espaces orthogonaux. En notant pH (xi ) la projection de xi sur H et pH (xi )


la projection de xi sur H , on a clairement que :
X X X
pi ||xi ||2 = pi ||pH (xi )||2 + pi ||pH (xi )||2
i i i

De plus :

Proposition 1 Si on designe par mk lensemble des sous-espaces principaux


de dimension k, les deux assertions suivantes sont equivalentes :
(i) Hk+l mk+l
(ii) Hk+l = Hk Hl , avec Hk mk , Hk sous espace de Hk+l , Hl ml et
Hk orthogonal a Hl .

Preuve. Pour plus de clarte, notons I(H) = i pi ||pH (xi )||2 .


P
(i) (ii). Soit L ml et L orthogonal a Hk . On pose de plus Hk+l = Hk
Hl . On a alors I((Hk L) ) = I(Hk L ) = I(Hk ) + I(L ) et I(Hk+l
)=

I(Hk )+I(Hl ). Comme I(Hk+l ) I(Hk L), il vient I((Hk+l ) ) I((Hk
L) ). Dou I(Hl ) I(L) ce qui prouve que Hl ml .
(ii) (i). Soit U mk+l , la dimension de U plus la dimension de Hk
est egal a n + l, la dimension de U Hk est ainsi superieure ou egal a l,
U contient un sous-espace V de dimension l et orthogonal a Hk . Il existe
de plus W tel que U = V W et ainsi : I(U ) = I(V ) + I(W ) et

I(Hk+l ) = I(Hk ) + I(Hl ) on en deduit ainsi I(U ) = I(Hk+l )

Cette proposition nous montre que trouver un sous-espace principal a k


dimensions peut se faire a partir de sous-espace a k 1 dimensions. Connais-
sant un sous-espace principal H a k 1 dimension, il suffit en effet de trouver
48 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

un sous-espace principal H 0 a 1 dimension dans lorthogonal de H, et le sous-


espace H H 0 est un sous-espace principal a k dimensions.
Trouver un sous-espace a 2 dimensions revient donc a trouver un sous-
espace a 1 dimension dans lorthogonal de la droite engendree par u1 .
On peut alors proceder comme dans la partie precedente. Un vecteur
unitaire u dans lorthogonal de u1 va secrire 2 u2 +. . . p up ou les u1 , u2 , . . .,
up sont les vecteurs propres de V ranges par ordre decroissant de leurs valeurs
propres respectives (1 2 . . . p ). Ceci puisque les ui (1 i p)
forment une base orthonormee de Rp .
En reproduisant le meme raisonnement que precedemment, on conclut
que le vecteur recherche nest rien dautre que u2 .
On en conclut alors quun sous espace principal de dimension k est exac-
tement u1 u2 . . . uk .

3.4.3 Axes principaux


On a vu que si lon note u1 , u2 , . . ., up les vecteurs propres de V ranges par
ordre decroissant de leurs valeurs propres respectives (1 2 . . . p ),
les sous espaces principaux de dimension k sont egaux a u1 u2 . . . uk
pour des donnees centrees et reduites.
On appelle alors iieme axe principal le sous-espace engendre par ui .
Les ui quant a eux sont appele facteurs principaux
Pour laxe principal k (1 k p), on a alors :
la projection p(xi ) de xi sur cet axe est egal a la iieme ligne du vecteur
colonne Xuk ,
2
P
i pi ||p(xi )|| =P
k
De plus, on a que i pi ||xi ||2 = k k puisque Rp = u1 u2 . . . up .
P

3.5 Inertie et sous-espace principal


On appelle inertie du nuage la moyenne des carrees des distances des
points du nuage a son centre de gravite g. Les donnees etant centree, linertie
I du nuage est alors : X
I= pi ||xi ||2
1in

Linertie est un parametre de dispersion du nuage, puisquelle mesure


leloignement relatif des points par rapport a son centre de gravite. Cest une
3.5. INERTIE ET SOUS-ESPACE PRINCIPAL 49

variance non normee (on ne divise pas par le nombre de points). On peut de
plus montrer que
1 XX
I= pi pj ||xi xj ||2
2 i j

en effet :
2
p p (||xi ||2 + ||xj ||2 2 < xi , xj >)
P P P P
p i p j ||x i x j || =
i j Pi Pj i j
pi pj ||xi ||2 + i j pi pj ||xj ||2
P P
= i Pj P
2 i j pi pj < xi , xj >
= 2 i pi ||xi ||2 2 j < i pi xi , xj >
P P P

P
On conclut en remarquant que i pi xi est egal au centre de gravite du nuage
qui est egal a 0 puisque les donnees sont centrees.
On peut egalement definir linertie par rapport
P a un autre point.2 Linertie
par rapport a un point h est alors egale a Ih = 1in pi ||xi h|| . Grace a
la formule de Huygens, on peut montrer que :

Ih = I + ||g h||2M = I + ||h||2

Linertie par rapport a un point different du centre de gravite est donc tou-
jours superieure a linertie du nuage.
Les notions dinertie et de sous-espace principal sont lies puisque les sous-
espaces principaux sont ceux qui maximisent linertie des projetes des indi-
vidus. De plus, on a que linertie totale du nuage est egale a la somme des
inerties des axes principaux (cf. partie precedente).
Linertie tient donc le role de linformation du nuage, information repar-
tie dans tous les axes principaux. P
On a en effet que linertie du nuage est egale a : I = 1jp j et que
linertie associee a laxe principal j est egal a j . De plus, comme la somme
des valeurs propres dune matrice est egale a sa trace (i.e. la somme de
ses elements diagonaux), on a egalement que I = trace(V ). Nos donnees
etant reduites, les elements diagonaux de V sont tous egaux a 1 et donc
trace(V ) = p.
Chaque axe principal explique donc une part dinertie etant egale a son
inertie divisee par linertie totale, cette quantite valant ici pi .
La part dinertie expliquee par le plan forme par les facteurs ui et uj est
egale a linertie des projetes sur ce plan divise par linertie totale. Les ui
+
formant une base orthogonale de Rp , cette inertie expliquee vaut : i p j .
50 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

3.6 Description du nuage des individus


On rappelle que les facteurs principaux u1 , u2 , . . ., up sont les vecteurs
propres de la matrice V associes aux valeurs propres 1 2 . . . p .
Comme les ui forment une base orthonormee de Rp , ils tiennent lieu de nou-
veaux axes.
Pour cette nouvelle base, les coordonnees des individus sont alors egales
aux projections diceux sur les axes principaux. La projection des points sur
laxe principal j etant egal au vecteur colonne Xuj (la projection du ieme
points sur laxe principal j est egal a la ieme coordonnee de Xuj ).
On appelle alors composantes principales les vecteurs colonnes cj = Xuj
pour tout 1 j p (cf. figure 3.4).

1
x i x i

1 2
c i c i

1 2
u u
2
x i

Fig. 3.4 facteurs principaux, composantes principales

Remarque 10 Dans la nouvelle base, lindividu xi a donc pour coordonnees


(c1i , c2i , . . . , cpi ).

Les composantes principales sont ainsi les nouvelles variables, combinai-


sons lineaires des variables initiales.
En particulier :
1. chaque composante principale est une variable centree : 1in pi cji = 0
P
car cj est une combinaison lineaire des xj qui sont centres,
2. la variance de cj vaut j : 1in pi (cji )2 = t cj Dcj = t uj t XDXuj =
P
t j
u V u j = j .
3.6. DESCRIPTION DU NUAGE DES INDIVIDUS 51

On peut alors visualiser le nuage X sur le plan principal dinertie qui


est le sous-espace principal de dimension 2, cest a dire en ne prenant en
compte que les deux premieres composantes principales, ou sur tout autre
sous-espace forme a partir des facteurs principaux.
La qualite de la representation de X sur ces axes pourra alors etre etudie
du point de vue local ou global.

Le point de vue global : on evalue la qualite de lapproximation du nuage


par un plan ou un axe. Cette qualite sera dautant meilleure que linertie de
ce sous-espace est forte (ce qui signifie que les points seront globalement
proche de leurs projetes). Linertie totale du nuage valant trace(V ) = p, on
introduit les parts dinertie expliquee :

par laxe uj qui vaut pj ,
i +j
par le plan forme par les facteurs ui et uj et qui vaut p
,

Le point de vue local : plus le point xi est proche du sous-espace H (le


plus souvent un axe ou un plan) sur lequel on le projette, plus pertinente
est sa representation. On a donc coutume de mesurer cette proximite par le
||projection de xi sur H||2
cosinus de langle de xi et de H : cos2 = ||xi ||2
(cette
formule peut etre aisement expliquee par la figure 3.5 et le fait que le cosinus
dun angle dans un triangle rectangle est egal au cote adjacent de langle
divise par lhypotenuse).
Le cosinus carre de langle entre xi et le facteur uj est donc egal a cos2 =
j 2
|ci |
||xi ||2
et le cosinus carre de angle entre xi et le plan uj uk est egal a cos2 =
|cji |2 +|cki |2
||xi ||2
.

x
i

g q
cj
cj
i

Fig. 3.5 angle de projection


52 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

3.6.1 Description du nuage des caracteres


Les caracteres initiaux x1 , x2 , . . . , xp forment un sous-espace F 0 de Rn de
dimension au plus p. Les p composantes principales c1 , c2 , . . ., cp , que lon
supposera librement independants pour simplifier lecriture, sont obtenus par
combinaisons lineaires des caracteres initiaux.
On peut alors decrire les composantes principales (les nouvelles variables)
par les correlations quelles entretiennent avec les anciennes variables.
La correlation entre une composante principale cj et une variable initiale
k
x est egale (cf. partie 2.2.2) a

cov(xk , cj )
r(xk , cj ) =
s(cj )s(xk )

Nos donnees etant reduites, s(xk ) = 1. Calculons s(cj ). Nos donnees etant
centrees, on a :
s2 (cj ) = t cj Dcj
= t (Xuj )DXuj
= t uj t XDXuj
= t uj V u j
= j
p
On a donc s(cj ) = j .
Passons au calcul de cov(xk , cj ). Les xk et les cj etant centrees, on a :

cov(xk , cj ) = t k
x Dcj
t k
= x DXxj
xk etant la keme colonne de X, en notant ek le vecteur colonne de Rn
valant 0 sur toutes ses lignes sauf a la ligne k ou il vaut 1, on a xk = Xek .
Donc :

cov(xk , cj ) = t Xek DXxj


= t ek t XDXxj
= t ek V uj
= j t ek uj
La covariance entre xk et cj est donc egale a j multiplie par la keme
composante du vecteur uj , que lon note (uj )k
Finalement :
3.6. DESCRIPTION DU NUAGE DES INDIVIDUS 53

j (uj )k
r(cj , xk ) =
p j
= j (uj )k
0
Comme on a toujours r2 (xj , ck ) + r2 (xj , ck ) 1 (pour sen convaincre,
0
remarquez que ck et ck sont orthogonaux, et donc une correlation lineaire
de 1 avec un axe entrane une correlation lineaire de 0 avec lautre. De facon
plus formelle, le resultat vient du fait que r(xj , ck ) est le cosinus entre les axes
definis par xj et ck , cf. partie 3.8.3) en projetant les xj sur le plan principal
0
(c1 , c2 ) (ou plus generalement sur le plan (ck , ck )), on obtient des points a
linterieur dun cercle de rayon 1 (cf. figure 3.6).

c2

j 2 xj
r(x ,c )

j 1
r(x ,c ) c1

Fig. 3.6 Cercle des correlations

Ce cercle permet de voir dun seul coup doeil les correlations lineaires de
toutes les variables initiales avec deux composantes principales particulieres.

3.6.2 Reconstructions et transitions


La dualite individus caracteres se traduit par des formules de transitions
entres facteurs principaux et composantes principales. On a :

cj = Xuj
54 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

On en deduit que cj t uj = Xuj t uj , soit 1jp j t t


P P
c u j = X 1jp uj uj .
Les (uj )1jp etant une base orthonormee de Rp , 1jp uj t uj est la matrice
P
unite p p, on en deduit :

X
X= c j t uj
1jp

3.7 Interpretation des resultats


On etudie dans cette partie lanalyse en composante principale du ta-
bleau 1.1.
Meme si les differents calculs peuvent etre (et sont) effectues par ordi-
nateur, la lecture des resultats est extremement important, puisquils per-
mettent de caracteriser les axes principaux, souligner les correlations, et sur-
tout, eviter les interpretations erronees.
On commence par centrer et reduire les donnees, on obtient alors le ta-
bleau de donne represente en figure 3.2.

Tab. 3.2 Tableau centre reduit de la table 1.1

LIV ELB POA ACT PIE TER


AI -0.79 -1.37 -1.36 0.24 2.09 -0.23
PL -1.1 -0.88 0.34 0.41 0.91 -0.23
IAC -1.25 -1.37 -0.63 1.32 0.78 -0.52
CS -0.64 -0.64 -0.39 1.65 -0.67 -0.62
AG -0.34 0.34 0.1 -1.09 -1.2 2.19
AA 0.12 0.34 -0.63 -1.17 -0.14 1.51
AS 0.43 0.59 -0.63 0.41 -0.28 -0.52
PI 0.58 0.83 0.34 -0.01 -0.28 -0.62
EM 1.34 0.59 0.58 -0.76 -0.14 -0.33
OU 1.65 1.57 2.28 -1 -1.06 -0.62
3.7. INTERPRETATION DES RESULTATS 55

3.7.1 Valeurs propres, facteurs et composantes princi-


pales
Les valeurs propres de la matrice de correlation de nos donnees (cf.
table 3.1) est donne dans la table 3.3. Linertie cumulee represente liner-
tie des projectionsP des individus sur le sous-espace principal a k dimension,
et est donc egal a 1ik i .

Tab. 3.3 Valeurs propre de la matrice de correlation de la table 1.1

i i % dinertie inertie cumulee


1 3.6 60 60
2 1.40 23 83
3 0.61 10 94
4 0.35 5 99
5 0.04 1 100
6 0 0 100

On trouve que la derniere valeur propre est nulle, ce qui est normal
puisque la somme des colonnes fait toujours 100 dans la table 1.1, les ca-
racteres sont lies par une relation lineaire (chaque ligne correspond en effet
a des pourcentages par categorie socioprofessionnelles).
On voit que les deux premiers axes principaux expliquent a eux seul plus
de 80% de linertie du nuage, nous resumerons donc nos donnees sur le plan
forme de ces deux axes.
Il ny a pas de methode generale pour savoir combien daxes principaux
considerer, rien ne remplacant lexperience. Un critere pouvant etre utilise
est cependant de reperer une chute dinertie entre deux axes consecutifs. La
methode la plus sur consistant a ne choisir quapres avoir etudie la significa-
tion possible des axes.
Les deux premiers vecteurs propres sont donnes dans la table 3.4 ci-apres.

3.7.2 Composantes principales et representation gra-


phique
Les composantes principales donnent les projections des individus sur
les facteurs principaux (les vecteurs propres). Les composantes principales
56 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

Tab. 3.4 les deux premiers vecteurs propres de la matrice de correlation


de la table 1.1

attributs u1 u2
LIV -0.470 0.230
ELB -0.510 0.072
POA -0.417 0.311
ACT 0.403 0.418
PIE 0.414 0.041
TER -0.109 -0.818

associes aux deux premiers facteurs principaux (cf. table 3.4) est represente
dans la table 3.5.

Tab. 3.5 les deux premieres composantes principales associees aux vecteurs
propres de la figure 3.4

categorie c1 c2
socioprofessionnelle
AI 2.77 -0.35
PL 1.46 0.20
IAC 2.59 0.45
CS 1.31 0.90
AG -1.30 -2.44
AA -0.70 -1.98
AS -0.14 0.56
PI -0.94 0.83
EM -1.58 0.50
OU -3.48 1.31

Les composantes principales nous donnent les coordonnees des individus


dans le plan forme par les deux premiers facteurs principaux, cest a dire
dans le plan principal. La figure 3.7 represente les projections des individus
sur le plan principal (il suffit de prendre les composantes principales puisque
la base des vecteurs propres est orthonormee).
3.7. INTERPRETATION DES RESULTATS 57

OU
+
CS
1

PI +
+
EM AS
+ + IAC
+
PL
+
deuxieme facteur

AI
+
1

AA
+
2

AG
+
3

3 2 1 0 1 2 3

premier facteur

Fig. 3.7 Plan principal


58 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

Les representations des categories socioprofessionnelles de la figure 3.7


sont des projections, il ne faut donc pas confondre proximite dans le plan
principal et proximite dans le nuage de points. Il faut donc regarder la qua-
lite de la projection. Par exemple, une categorie socioprofessionnelle presque
orthogonale a une des composantes principale sera tres deformee dans le
plan principal, et on ne pourra pas tenir compte de sa projection pour lin-
terpretation.
Une des methode les plus courantes pour juger de la qualite de la pro-
jection est dexaminer langle que fait lindividu avec le plan de projection
(cest letude local de la partie 3.6). La table 3.6 donne les differents angles
des individus par rapport au plan principal.

Tab. 3.6 Angle entre categories socioprofessionnelles et le plan principal

AI PL IAC CS AG AA AS PI EM OU
cos2 () 0.79 0.62 0.96 0.50 0.90 0.94 0.20 0.88 0.78 0.96

On remarque que tous les individus sont bien representes dans le plan
principal, a part lindividu correspondant a la categorie socioprofessionnelle

AS (Anciens Salaries) qui forme un angle de 63 degres (arccos( 0.20) ' 63 )
avec le plan principal.

Remarque 11 Lorsque de nombreux points sont mal representes dans le


plan principal, il est necessaire detudier les plan principaux definis par dautres
axes principaux (1 et 3, 2 et 3, . . .).

3.7.3 Interpretation des axes et des projections


Linterpretation des axes, combinaisons lineaires des caracteres princi-
paux, est certainement la partie la plus delicate de lanalyse. Habituellement,
deux points de vues sont etudies :
les correlations avec les caracteres de depart,
letude des individus typiques (ceux dont les projections sont les meilleurs).
Les correlations avec les caracteres de departs sont effectues via le cercle
des correlations (cf. 3.6.1). Celui associe a notre exemple est reproduit en
figure 3.8.
la variable TER (terre) est tres negativement correlee avec laxe c2 ,
3.7. INTERPRETATION DES RESULTATS 59

1.0
ACT

0.5
+
POA
+
LIV
+

ELB
+ PIE
+

0.0
c2

0.5

TER
1.0

1.0 0.5 0.0 0.5 1.0

c1

Fig. 3.8 Cercle des correlations

les variables ELB (epargne obligatoire), LIV (livrets, logements,


bons,. . .) et POA (placements) sont tres negativement correles avec
laxe c1 ,
les variables PIE (pierres) et ACT (actions) sont tres positivement
correles avec laxe c1 (En etudiant les projections sur les axes dordres
superieurs, on remarque que le troisieme axe principal permettrait de
separer ces deux variables).
Ces constatations nous permettent de caracteriser les differents axes.
Le premier axe separe les produits fiduciaires (a gauche) des actes de
proprietes (a droite), et le deuxieme axe separe les proprietaires terriens (en
bas) des autres.
En regardant les individus, a part AS qui ne se projette que tres mal sur
le plan principal (on le voit bien puisque sa projection est presque au centre
du graphique, ce qui est un cas general de mauvaise projection), on peut les
regrouper en trois ensembles distincts ;
les agriculteurs (retraites ou non) qui se caracterisent par un fort pa-
trimoine terrien,
les classes superieures et moyennes aisees (CS, AI, IAC et PL) se ca-
racterisant par un fort patrimoine de propriete et peu (en proportion)
de produits bancaires,
les classes moyennes et pauvres (OU, EM et PI) se caracterisant par
un fort patrimoine fiduciaire (en proportion, pas en quantite. . .)
60 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

On peut egalement voir un glissement vers la droite des retraites par


rapport aux memes categories socioprofessionnelles encore en activites.

3.8 Cas General et utilisation des metriques


On supposera toujours que nos donnees sont centrees. Lorsque lon ne
reduit pas les donnees, on ne peut plus utiliser la metrique euclidienne,
comme on la vu. On se doit donc dutiliser une metrique adaptee a notre
analyse. Procedons ici de facon generale et etudions le probleme pour une
metrique donnee.

3.8.1 Metrique
Dune facon generale, si M est une matrice symetrique definie positive
(cest a dire dont toutes ses valeurs propres sont strictement positives), on
definit un produit scalaire comme etant :

< ei , ej >= t (ei ej )M (ei ej )

ei et ej etant des vecteurs colonnes. Une distance d peut alors etre definie
via la norme associee au produit scalaire :

d2 (ei , ej ) = ||ei ej ||2M = t (ei ej )M (ei ej )

||ei ||M est la norme associee a d et est appelee M -norme ; M est alors
appelee metrique de lespace. La distance euclidienne est un cas particulier
de la definition ci-dessus, en prenant M egal a la matrice identite. De plus,
toute norme est issue dun produit scalaire de ce type.
On peut montrer que si M est une matrice symetrique definie positive, il
existe une matrice T (inversible puisque M est inversible) telle que M = t T T .
On a ainsi

||ei ej ||2M = t
(ei ej )M (ei ej )
t
= (ei ej )t T T (ei ej )
t
= (T ei T ej )(T ei T ej )

Les xi etant quant a eux des vecteurs lignes, remplacer le tableau de


donnees X par X t T nous permettra ensuite dutiliser la metrique euclidienne.
3.8. CAS GENERAL ET UTILISATION DES METRIQUES 61

Tout se passe alors comme suit : on commence par trouver une metrique M ,
puis on transforme notre tableau de donnees par X t T (tableau que nous
continuerons a appeler X par abus de notations) et on utilise la metrique
euclidienne.
Cest exactement ce que nous avons fait precedemment en reduisant nos
donnees, comme le montre la partie suivante.

3.8.2 Espace des individus


La metrique la plus utilisee pour lanalyse en composantes principales est
la matrice diagonale :
1
s21
..
.

0
t
1
D 12 = D1 D1 = s2i

s s s
..
0 .
1
s2p

Ceci revient a remplacer X par X t D 1 = XD 1 (cf. partie precedente), et


s s
donc a diviser chaque xj par son ecart type. Les ecarts types des nouvelles
variables sont alors toutes egales a 1 : on reduit les donnees.

3.8.3 Espace des caracteres


Pour etudier les distances entre caracteres, le choix de la metrique ne se
pose pas, on utilise la matrice D . En effet, ||xi ||2D = s2i puisque les donnees
sont centrees. La longueur dun caractere est egal a sa variance et si les
donnees sont reduites, les caracteres sont normes.
De plus, utiliser cette metrique rend les composantes principales ortho-
gonales entres elles. En effet :
0 0
< c j , cj > = t j
c Dcj
t
= (Xuj )D(Xuj 0 )
t t
= uj XDXuj 0
t
= uj V u j 0
= j 0 t u j u j 0
Les uj formant une base orthogonale pour la distance euclidienne on a
0
bien que < cj , cj >= 0 si j 6= j 0 .
62 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

Mais la raison fondamentale du choix de D comme metrique tient au fait


que dans un espace euclidien on definit langle entre deux vecteurs ei et ej
par son cosinus qui est egal a :

< ei , ej >
cos ij =
||ei ||||ej ||

en utilisant la D-norme on a alors que cos ij = r(ei , ej ).


On sinteresse donc, dans lespace des caracteres, plus particulierement
aux angles entre caracteres quaux distances entre points.

3.8.4 A.C.P avec une metrique quelconque


Nous nallons pas ici redevelopper tous les calculs. Nous donnons juste
les resultats.
Soit X nos donnees que lon supposera centrees. X est une matrice a n
lignes (nos n individus) et p colonnes (nos p variables).
On se donne une metrique entre individus en choisissant une matrice M
symetrique definie positive (M = D 12 pour lA.C.P classique). Il nest pas
s
necessaire de choisir une metrique particuliere pour les variable, cest toujours
la D-norme qui est utilisee (ou D est la matrice des poids).
La seule difference entre une A.C.P. utilisant la metrique euclidienne et
une A.C.P. utilisant une metrique quelconque et dans le calcul des compo-
santes principales. Les facteurs propres sont ici les vecteurs propres u1 , . . .up
de la matrice M V (et non plus juste V ) associes aux valeurs propres de M V
ranges par ordre decroissants 1 . . . p .
P On a alors que linertie totale du nuage est egale a I = trace(M V ) =
i i (attention car linertie depend de la distance utilisee).
Les composantes principales cj sont toujours egales a Xuj .
En resume, si M est la matrice choisie pour tenir lieu de norme et X la
matrice des donnees centree :
V = t XDX,
les facteurs propres sont les vecteurs propres u1 , . . .up de la matrice
M V , associes aux valeurs propres de M V ranges par ordre decroissants
1 . . . p , P
trace(M V ) = i i ,
les composantes principales cj sont egales a cj = Xu pj ,
j
en notant D la matrice des poids, on a : ||c ||D = j .
3.9. QUELQUES REMARQUES 63

3.9 Quelques remarques


Lanalyse en composante principale est une des deux principales methodes
danalyse factorielle (lautre etant lanalyse en facteurs communs et specifiques).
Issue essentiellement des travaux de Spearman sur la description de lintelli-
gence dun individu (1904). Lanalyse factorielle se propose dexpliquer des
liaisons entre des variables a laidePde facteurs independants. Elle postule un
modele lineaire de la forme xji = k cjk uki ou les uk representent les facteurs
independants.

3.9.1 Lanalyse en facteurs communs et specifiques


Lanalyse en facteurs communs et specifiques cherche a expliquer les
correlations des variables a laide :
dun seul facteur commun, le facteur general G des facteurs de groupe,
intervenant seulement dans une part des variables ;
un facteur specifique a chaque variables.
Traditionnellement, le modele lineaire correspondant secrit

xji =
P j k
aj Gi + k bk Bi + cj Sij

facteur general facteur de groupe facteur specifique

Ce type de modele a donne lieu a de nombreuses generalisations.

3.9.2 Lanalyse en composante principale


Lanalyse en composante principale sappuie essentiellement sur les tra-
vaux de Hotelling (1933). Elle presuppose la normalite des variables xj (sous
cette hypothese le nuage X definira experimentalement des hyperellispesodes
concentriques degale densite), ce sont les axes principaux de ces ellipsodes
qui definiront les facteurs.
Il convient donc de reserver cette analyse aux observations dont on peut
tester quon pouvait les les considerer extraites de variables normales.
64 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
Chapitre 4

Classification

Le seul moyen de faire une methode instructive et naturelle,


est de mettre ensemble les choses qui se ressemblent
et de separer celles qui different les unes des autres.
Georges Buffon, Histoire naturelle, 1749.
Cette phrase du celebre naturaliste et ecrivain Georges Buffon peut servir
de definition generale a un modele de classification. Les modeles les plus
classiquement utilises en classification sont, sans conteste, les partitions et
les hierarchies de parties. Dans les deux cas, les objets qui se ressemblent
sont regroupes en classes. Pour les partitions, les classes sont deux a deux
disjointes ; pour les hierarchies, elles peuvent etre embotees. Dans les deux
cas, elles ne sont pas empietantes au sens ou lintersection de deux dentres
elles nen produira jamais de troisieme. Nous ne parlerons pas dans ce cours de
modeles en classes empietantes, sujet par trop vaste pour cette introduction
a lanalyse des donnees.
Le modele hierarchique est herite des sciences naturelles (classification
des especes animales et vegetales), le modele non hierarchique correspond a
des pratiques statistiques usuelles dans des domaines tels que la reconnais-
sance des formes, lapprentissage, la recherche operationnelle (affectation de
ressources), . . .ou il sagit de discriminer sans ambigute.
Une des vertus de la non-empietance est de doter la classification de
solides assises mathematiques. Les partitions dun ensemble fini sont en effet
au cur de la theorie combinatoire (denombrements, rangements, geometries
finies, . . .). On connat aussi leur importance en probabilite et statistiques
(via la theorie de linformation et divers tests dhypotheses). Les hierarchies
de parties et leurs avatars : les ultrametriques, possedent egalement de belles

65
66 CHAPITRE 4. CLASSIFICATION

et fortes proprietes (Leclerc, 1979, 1981, 1985a, et 1985b). Il est dailleurs


remarquable que le premier traite, en langue francaise (a notre connaissance)
sur la classification commence par une etude detaillee du treillis des partitions
dun ensemble fini (Lerman, 1970).
Les hierarchies de parties, des lors quelles sont indicees (cest a dire
lorsque lon assigne a chaque classe un nombre reel evaluant son niveau)
sont en bijection avec un type particulier de distances : les ultrametriques. Un
interet majeur de ce theoreme de bijection est de reduire la recherche dune
classification sur un ensemble X dobjets a la recherche dune dissimilarite
dun type donne sur X (une ultrametrique). Lorsque les objets a classifier sont
eux-memes decrits par une dissimilarite, le probleme devient completement
homogene : transformer une dissimilarite quelconque en une dissimilarite dun
type donne. La classification sinscrit alors dans le champ de lapproximation
mathematique.
Dans cet esprit, nous nous restreindrons dans ce chapitre au cas ou des ob-
jets a classifier sont decrits par des dissimilarites, que ces dissimilarites soient
directement observees ou quelles soient calculees a partir de caracteres (cf.
Kuntz (1992) pour une discussion detaillee du calcul de dissimilarites a par-
tir de donnees de presence-absence). De plus, par soucis de concision, nous
nous restreignons aux modeles non-empietant que sont les partitions et les
hierarchies de parties. Il sagit la dune approche particuliere. Dautres uti-
lisent par exemple une description des objets par des caracteres et cherchent
a obtenir des classifications sans le truchement de dissimilarites.

4.1 Modeles de classification


On supposera que X est decrit par une dissimilarite propre (cf. 1.4.1) d.
On cherche alors a construire sur X une classification en classes homogenes
au sens de d.

Definition 14 Un sous ensemble K de 2X sera appele systeme de classes


sur X si et seulement si il verifie les trois proprietes ci-dessous :
C1 : X K et 6 K,
C2 : x X, {x} K,
C3 : A, B K, A B 6= entrane A B K.

Laxiome C3 assure quun systeme de classes est clos par intersection


finie non vide de ses elements. Un exemple de systeme de classe est donne en
4.1. MODELES DE CLASSIFICATION 67

figure 4.1.

Fig. 4.1 Un systeme de classes tres classe

Si K est un systeme de classes sur X, on appellera X lensemble de base


de K et classes de K tous ses elements. Les singletons {x} et {X} seront
appelees classes triviales de K.

Definition 15 Un sous ensemble R = {P1 , P2 , . . . , Pk } de 2X sera appele


recouvrement de X si et seulement si il verifie les deux proprietes ci-dessous :
R1 : pour tout 1 i k, Pk 6= ,
R2 : pour tous 1 i 6= j k, Pi 6 Pj et Pj 6 Pi ,
R3 : P1 P2 . . . Pk = X.

Un exemple de systeme de classe est donne en figure 4.2.

Fig. 4.2 Un recouvrement


68 CHAPITRE 4. CLASSIFICATION

4.1.1 Partitions et hierarchies


On appellera modele de classes tout sous ensemble de 2X qui est soit
un systeme de classe, soit un recouvrement. Nous nous restreignons a deux
modeles de classes particuliers, les partitions (qui sont un ensemble particulier
de recouvrement) et les hierarchies (cas particulier de systeme de classes).

Modele de classe
Definition 16 Une partition P est un recouvrement tel que pour toutes
classes A et B de P : A B = si A =
6 B.
Definition 17 Une hierarchie est un systeme de classes H tel que pour
toutes classes A et B de P : A B {A, B, }
Pour une hierarchie, de part la definition, deux classes sont donc toujours
soit incluses lune dans lautre, soit dintersection vide. On peut donc, en ra-
joutant les classes triviales, considerer une partition comme un cas particulier
dune hierarchie.
Les classes dune hierarchie etant soient incluses lune dans lautre soit
dintersection vide. On a coutume de representer cet arbre sous la forme de
la figure 4.3 ou chaque classe est represente par un segment. On appelle cette
representation un dendrogramme.

Fig. 4.3 Un dendrogramme

Indicage
On peut munir une hierarchie, ou plus generalement tout systeme de
classe K, dun indice.
Definition 18 Un indice sur une systeme de classe K est une fonction f de
lensemble des classes de K dans lensemble des reels positifs, et telle que :
4.1. MODELES DE CLASSIFICATION 69

f ({x}) = 0 pour tout x X,


quelques soient A, B K, A ( B implique f (A) < f (B).

La paire (K, f ) est alors appelee systeme de classe indice. Le reel f (A)
ou A K est alors appele hauteur de A. La representation dune hierarchie
indicee est aisee en utilisant les dendrogrammes. La hauteur de chaque classe
etant proportionnelle a la heur du segment la representant. Un exemple de
hierarchie indicee est presente en figure 4.4.

Fig. 4.4 Representation dune hierarchie indicee

Il est clair que toute hierarchie peut etre indicee. On peut par exemple
utiliser comme indice dune classe A la valeur f (A) = |A| 1.
Indicer une hierarchie va nous permettre de les mettre en relation avec
un type particulier de dissimilarite, les ultrametriques.

Ultrametriques
Definition 19 Une dissimilarite d sur X est une ultrametrique si et seule-
ment si linegalite suivante (appelee inegalite ultrametrique) est verifiee quelques
soient x, y, z X :

d(x, y) max {d(x, z), d(y, z)}

On peut verifier quune ultrametrique verifie linegalite triangulaire et est


donc une distance. De plus linegalite ultrametrique est equivalente au fait
que pour trois objets x, y, z X, les deux plus grandes des trois distances
d(x, y), d(x, z) et d(y, z) sont egales.
On a ainsi coutume de dire que pour une ultrametrique, tout triangle
est isocele et la base est le plus petit des cotes. La figure 4.5 montre un tel
triangle.
70 CHAPITRE 4. CLASSIFICATION

x y z

Fig. 4.5 Un triangle ultrametrique

Definition 20 On appelle boule de centre x et de rayon dune dissimilarite


d sur X lensemble B(x, ) = {y|d(x, y) }.

On appelle classe dune ultrametrique sur X une boule de centre x et de


rayon R+ . Pour trouver toutes les classes dune ultrametrique, on peut
bien evidemment se restreindre aux boules dont le rayon est une des valeurs
prises par la dissimilarite.
Le theoreme suivant montre la relation forte entre les ultrametriques et
les hierarchies.

Theoreme 2 (Benzecri (1973), Johnson(1967)) Les dissimilarites dont


lensemble de leurs boules forment une hierarchie sont exactement les ul-
trametriques.
De plus, lensemble des boules dune ultrametrique value par leur rayon
forme une hierarchie indicee.

Ce theoreme est fondamental car il permet, a partir dune dissimilarite


dorigine de construire une hierarchie en approximant cette dissimilarite par
une ultrametrique. Lalgorithme de classification ascendante hierarchique en
est un exemple (cf. partie 4.3).
La hierarchie associee a la dissimilarite d ci-apres est presentee en fi-
gure 4.6

x 0
y 1 0
d: z 3 3 0
t 3 3 2 0
u 4 4 4 4 0
x y z t u
4.2. METHODES DE PARTITIONNEMENT 71

x y z t u

Fig. 4.6 hierarchie indicee associee a d

4.2 Methodes de partitionnement


4.2.1 Choix dune partition
Mesures de ressemblances entre classes
On suppose que nos donnees sont munies dune dissimilarite d et que
lon possede une partition P = {C1 , . . . , Cp } sur X. On peut alors definir
une dissimilarite sur P en utilisant la dissimilarite d, afin de se donner une
mesure sur les classes.
Lorsque la dissimilarite d nest pas une distance euclidienne, on a coutume
de definir la dissimilarite entre deux classes Ci et Cj (i 6= j) dune des trois
facons ci-dessous :
(Ci , Cj ) = min{d(x, y)|x Ci , y Cj }, appelee distance du saut
minimum,
(Ci , Cj ) = max{d(x, y)|x Ci , y Cj }, appelee distance du saut
maximum,
1
P
(Ci , Cj ) = |Ci ||C j| xCi ,yCj d(x, y), appelee distance moyenne.

Lorsque la dissimilarite est une distance euclidienne, on peut mettre a


profit lexistence du barycentre (i.e. le centre de gravite) de chaque classe.
On peut alors soit definir la dissimilarite entre deux classes comme etant la
distance entre leurs deux barycentres.
Un autre moyen est dutiliser, comme en Analyse en Composantes Prin-
cipales, un critere dinertie. Le critere le plus utilise est le critere de Ward qui
mesure entre deux classes la perte dinertie que lon encourt a les regrouper.
On rappelle que linertie dun nuage de points est egale a la moyenne des
carres des distances des points au centre de gravite du nuage que lon note g
72 CHAPITRE 4. CLASSIFICATION

(cf. partie 3.5). On suppose donc que les elements xi de X sont tous munis
dun poids pi (on pourra, par exemple, considerer que les poids sont tous
egaux a n1 ). Chaque classe est alors affectee dun poids Pi egal a la somme
des points des elements dicelle.
En notantP gi le centre de gravite de la classe Ci , linertie de Ci est alors
egale a Ii = xj Ci pj d2 (xj , gi ). La somme de toutes les inertie des classes
est appelee inertie intraclasse et on la note IW :
X
IW = Ii
1ip

Remarque 12 De facon intuitive, une partition sur X sera dautant meilleure


que linertie intraclasse sera petite. Cependant, la partition a n element
possede une inertie intraclasse nulle. On pourra donc chercher a trouver une
partition a p < n classes qui minimise linertie intraclasse. Cette idee sera
developpee dans les parties suivantes, patience.
On appelle inertie interclasse la quantite IB = I IW et on peut montrer
que cette quantite est egale a :
X
IB = Pi d2 (gi , g)
1ip

Suite a la remarque precedente, cette egalite montre donc que minimiser


linertie intraclasse revient a maximiser linertie interclasse puisque linertie
du nuage est constante quelque-soit la partition choisie.
Le critere de Ward prend alors comme dissimilarite entre deux classes Ci
et Cj la perte dinertie intraclasse entre la partition initiale et la partition ou
Ci et Cj ont ete fusionnees. Si on note gi,j le centre de gravite de la classe
Ci Cj , cette perte est egale a la quantite :
(Ci , Cj ) = Pi d2 (gi , g) + Pj d2 (gj , g) (Pi + Pj )d2 (gi,j , g)
En utilisant le fait que :
Pi Pj Pi Pj
d2 (gi,j , g) = d2 (gi , g) + d2 (gj , g) + d2 (gi , gj )
Pi + Pj Pi + Pj (Pi + Pj )2
on trouve que la perte dinertie est positive et vaut :
Pi Pj 2
(Ci , Cj ) = d (gi , gj )
Pi + Pj
4.2. METHODES DE PARTITIONNEMENT 73

Remarque 13 Attention, les deux dissimilarites entre classes presentees


lorsque les donnees sont euclidienne ne sont pas des distances. En effet, deux
classes disjointes peuvent avoir un meme barycentre.
La figure 4.7 montre quelques exemples de mesure de ressemblance entre
classes.

max

g1 g2
min

Fig. 4.7 Exemple de mesures de ressemblance entre classe pour une distance
euclidienne.

Mesures de stabilites dune partition


De meme que lon a defini une mesure de ressemblance a une classe dune
partition sur X, on peut, si lon dispose dune dissimilarite sur X definir une
mesure de stabilite (aussi appele indice de qualite) dune partition.
Une mesure de stabilite est ainsi une fonction f de lensemble des parti-
tions sur X dans lensemble des reels positifs. On peut par exemple prendre
comme mesure de stabilite pour une partition P = {C1 , . . . , Cp } une des
fonction suivante lorsque la dissimilarite sur X nest pas euclidienne :
f (P) = PmaxCP max{d(x, y)|x, y C}
f (P) = PCP max{d(x,
P y)|x, y C}
f (P) = CP x,yC d(x, y)
1
P P
f (P) = CP |C| d(x, y)
P x,yC
f (P) = maxCP x,yC d(x, y)
Si les donnees sont decrites par une distance euclidienne, on peut utiliser
comme mesure de stabilite linertie intraclasse definie ci-avant.
Remarque 14 Toutes les mesures de stabilites decrites ici sont telles que,
intuitivement, les partitions decrivant le mieux les donnees seront celles qui
realisent un minimum de ces fonctions a nombre classes fixe. Si on ne fixe
pas les classes, la partition a n elements est en effet toujours celle qui realise
le minimum.
74 CHAPITRE 4. CLASSIFICATION

Nombre de partition sur X et consequences

Les parties precedentes montrent que lon peut, une fois une mesure de
stabilite choisie, comparer deux partitions sur X au regard de la dissimilarite
decrivant les donnees. De plus, les differentes remarques montrent que, choisir
la meilleure partition, ne peut se faire que si lon determine a lavance le
nombre de classes quelle doit contenir.
On est donc en face dun probleme doptimisation : il faut choisir une
partition minimisant une mesure de stabilite choisie. Une solution possible
est dessayer toutes les partitions possibles (leur nombre est fini) et choisir la
meilleure. Cependant, cette solution est irrealisable en pratique car le nombre
de partitions possible explose exponentiellement avec |X|.
On peut montrer que le nombre de partitions sur un ensemble X (avec
|X| = n) est egal au nombre de Bell Bn . Ce nombre se calcul avec la
recurrence suivante :

B0 = 1P
i1
Bn = 1in Cn1 Bni

On montre de meme que le nombre de partitions sur X a k classes est


egal au nombre de Stirling de deuxieme espece Sn,k que lon calcul par la
formule de recurrence suivante :

Sn,n1 = n(n1)
2
Sn,2 = 2n1 1
Sn,k = Sn1,k1 + kSn1,k

La table 4.1 donne les premiers nombres de Bell et de stirling. Ces nombres
grossissent exponentiellement.
La triste nouvelle est que pour les mesures de stabilites donnees dans la
partie precedente, trouver une partition a k classes minimisant une de ces
mesures se trouve etre un probleme NP-diffile. Cest a dire qua priori il ny
a pas dautre maniere que de regarder toutes les partitions possibles avant
den determiner une qui realise le minimum. Cest pourquoi, les algorithmes
de partitionnement utilisees sont tous des heuristiques (cest a dire quils
trouvent la plupart du temps une partition acceptable, mais sans garanti
doptimalite). Nous en presentons trois, parmi les plus couramment utilises.
4.2. METHODES DE PARTITIONNEMENT 75

Tab. 4.1 Bn et Sn,k pour n 7.

Sn,k n\ k 1 2 3 4 5 6 7 Bn
1 1 1
2 1 1 2
3 1 3 1 5
4 1 7 6 1 15
5 1 15 25 10 52
6 1 31 90 65 15 1 203
7 1 63 301 350 140 21 1 877

4.2.2 k-means
Les algorithmes de regroupement autour de centres mobiles (Forgy, 1965,
McQUeen 1967 ou encore All et Ball, 1967) admettent beaucoup de variantes.
Ils peuvent etre iteratifs (et proche des pratiques dapprentissage) ou non.
Les centres ainsi que le critere de regroupement peuvent aussi etre calcules
de diverses manieres. Nous nous contenterons ici de presenter lalgorithme
classique des k-means ainsi que sa variante online. Nous mentionnerons ici
et la quelques variantes sans pour autant les expliciter.
Lalgorithme des k-means, appele aussi algorithme des centres mobiles est
certainement du a LLoyd (1957), Forgy (1965) et vraisemblablement dautres.
Les k-means (algorithme 4.2.2) sont fait pour partitionner des donnees
euclidiennes. On considerera donc dans la suite de cette partie que chaque
objet x est un point de Rp tel que xi soit sa ieme coordonnee et que la
distance utilisee d est la distance euclidienne, cest a dire :
X
d2 (x, y) = (xi y i )2
1ip

1
P
Pour tout sous-ensemble C de X, on notera g(C) = |C| xC x son centre
de gravite.
k-means : Partitionnement en k classes a partir dun ensemble X de points
de Rp .

debut
soient x1 , . . ., xk , k elements de X
76 CHAPITRE 4. CLASSIFICATION

gi xi pour tout 1 i k
Ci pour tout 1 i k
on s arrete FAUX
tant que on s arrete est FAUX
Ci0 pour tout 1 i k
pour chaque x X
soit i0 tel que d(x, gi0 ) = min{d(x, gj )|1 j k}
Ci00 Ci00 {x}
fin (pour chaque)
6 {C10 , . . . , Ck0 }
si {C1 , . . . , Ck } =
alors
Ci Ci0 pour tout 1 i k
gi g(Ci ) pour tout 1 i k
fin (alors)
sinon on s arrete VRAI
fin (tant que)
fin
Voici un exemple du deroulement des k-means. On considere les huit
points de R2 de la figure 4.8.
5
4
3
2
1

1 2 3 4 5

Fig. 4.8 Huit points de R2

En appliquant lalgorithme precedent pour k = 2 et en prenant comme


points de depart g1 = (1, 1) et g2 = (1, 2).
La distance au carre des points au centre est alors :

d2 (1, 1) (1, 2) (2, 1) (2, 2) (4, 4) (4, 5) (5, 4) (5, 5)


g1 0 1 1 2 18 25 25 32
g2 1 0 2 1 13 18 20 25

Les nouvelles classes sont alors C1 = {(1, 1), (2, 1)} de centre de gravite
g1 = ( 32 , 1) et C2 = {(1, 2), (2, 2), (4, 4), (4, 5), (5, 4), (5, 5)} de centre de gra-
4.2. METHODES DE PARTITIONNEMENT 77

vite g2 = ( 72 , 22
6
). La distance au carre des points au centre est alors :

d2 (1, 1) (1, 2) (2, 1) (2, 2) (4, 4) (4, 5) (5, 4) (5, 5)


1 5 1 5 61 89 85 113
g1 4 4 4 4 4 4 4 4
481 325 337 181 13 73 85 145
g2 36 36 36 36 36 36 36 36

Apres cette etape, les nouvelles classes sont alors les classes naturelles :
C1 = {(1, 1), (1, 2), (2, 1), (2, 2)},
C1 = {(4, 4), (4, 5), (5, 4), (5, 5)}.

Une nouvelle iteration ne changeant pas les classes, lalgorithme sarrete.


Pour que lalgorithme fonctionne, il faut lui specifier le nombre de classes
k que lon veut produire. Le critere darret est ici la stabilisation des classes.
Ce critere peut neanmoins se reveler inadequat pour quelques cas critiques
(comme nous le verrons dans un exemple). On a donc coutume de rajouter
comme critere darret un nombre maximum diteration.
Pour prouver la convergence de lalgorithme, nous allons montrer que les
k-means optimisent localement linertie intraclasse IW .
Notons C1 , . . .Ck les k classes formees avant une iteration de lalgorithme,
g1 , . . ., gk leurs centres de gravite associes, C10 , . . .Ck0 les k classes modifiees
apres iteration et g10 , . . ., gk0 leurs centres de gravite.
Avant literation, IW vaut :
X X
IW ({C1 , . . . , Ck }) = d2 (x, gi )
1ik xCi

Puisque lon affecte chaque individu a la classe dont le barycentre est le


plus proche on a alors que :
X X X X
d2 (x, gi ) d2 (x, gi )
1ik xCi 1ik xCi0

La formule de Huygens nous donne ensuite que :


X X
d2 (x, gi ) = d2 (x, gi0 ) + d2 (gi , gi0 )
xCi0 xCi0

et donc :
d2 (x, gi0 )
P P
IW ({C1 , . . . , Ck }) 1ik xCi0
IW ({C10 , . . . , Ck0 })
78 CHAPITRE 4. CLASSIFICATION

A chaque iteration, linertie intraclasse IW diminue, on est donc en presence


dune suite positive et decroissante, donc convergente.
Attention cependant, la convergence de la valeur de la fonction objectif
ne signifie pas la convergence des classes trouvees. Le seul moyen de faire
converger les classes est de ne pas changer un point de classe si lon a le
choix entre changer celui-ci ou pas (ce cas est possible en cas degalite de
distance entres centres de gravite).
Lexperience prouve cependant que les k-means convergent tres rapide-
ment, une dizaine diterations etant seulement necessaire. On a donc coutume
de remplacer le critere de stabilisation des classes par un un nombre maxi-
mum diteration (10 en general). Comme chaque iteration peut etre effectuee
en O(nkp) operations, cet algorithme est lineaire lorsque le nombre de classes,
la dimension et le nombre diterations sont fixes (ce qui est le cas habituel).
Lalgorithme des k-means, tout comme lalgorithme des transferts (voir
partie 4.2.3) est tres sensible aux elements initiaux. En changer peut produire
une autre partition, les partitions resultantes etant toutes deux des minima
locaux de IW . Une facon classique de contourner le probleme est de relancer
lalgorithme plusieurs fois en changeant les points initiaux, et de prendre la
meilleure partition.
Certaines variantes des k-means comme le global k-means (Likas, Vlas-
sis et Verbeek, 2003) ou les k-harmonic means permettent egalement detre
moins sensible aux parametres de depart.
Nous allons maintenant presenter une variante des k-means (McQueen
1967) ou le centre de gravite est recalcule a chaque fois quun point est
examine.
Online k-means : Partitionnement en k classes a partir dun ensemble X
de points de Rp et un nombre diteration m.

debut
soient x1 , . . ., xk , k elements de X
gi xi pour tout 1 i k
j1
tant que j < m
ni 1 pour tout 1 i k
pour chaque x X
soit i0 tel que d(x, gi0 ) = min{d(x, gj )|1 j k}
gi0 ni 1+1 (ni0 gi0 + x)
0
ni0 ni0 + 1
4.2. METHODES DE PARTITIONNEMENT 79

fin (pour chaque)


Ci pour tout 1 i k
pour chaque x X
soit i0 tel que d(x, gi0 ) = min{d(x, gj )|1 j k}
Ci0 Ci0 {x}
fin (pour chaque)
gi g(Ci ) pour tout 1 i k
j j+1
fin (tant que)
fin

Cette variante depend donc de lordre du choix des elements. Bottou et


Bengio (1995) on prouve que cet variante converge. On pourra consulter pour
plus de details Bottou 1991 qui explicite des condition suffisantes pour que
des algorithmes de ce type convergent.
Effectuons lalgorithme online k-means sur les six points de R de la fi-
gure 4.9.

2 19

1 18 20 35

Fig. 4.9 Six points R

On lance lalgorithme des k-means en choisissant 35, 20 et 19 comme


points de depart. Les 3 classes de depart sont donc C1 = {35} (de centre de
gravite g1 = 35), C2 = {20} (de centre de gravite g2 = 20)et C3 = {19} (de
centre de gravite g3 = 19).
On considere ensuite 18. Le centre de gravite le plus proche etant g3 , les
classes et centres de gravite deviennent :
C1 = {35}, g1 = 35,
C2 = {20}, g2 = 20,
C3 = {18, 19}, g3 = 18.5.
On considere maintenant le point 2. Le centre de gravite le plus proche
etant g3 , on a :
C1 = {35}, g1 = 35,
C2 = {20}, g2 = 20,
80 CHAPITRE 4. CLASSIFICATION

C3 = {2, 18, 19}, g3 = 13.


Enfin, apres avoir considere le point 1 :
C1 = {35}, g1 = 35,
C2 = {20}, g2 = 20,
C3 = {1, 2, 18, 19}, g3 = 10.
On peut maintenant creer les classes finales en affectant les points aux
centres de gravite le plus proche (qui sont ici g1 = 35, g2 = 20 et g3 = 10),
ce qui nous donne :
C1 = {35},
C2 = {18, 19, 20},
C3 = {1, 2}.
On retrouve bien les classes naturelles. Pour vous rendre compte que
cela nest pas toujours le cas, prenez comme points de depart 1, 2 et 18 et
considerez dans lordre les points 19, 20 et 35.

4.2.3 Algorithme des transferts


Lalgorithme de transfert est une methode generale de partitionnement
qui depend dune mesure de stabilite f (appelee aussi critere devaluation
dans ce contexte). Tout comme lalgorithme des centres mobiles ou des k-
means, le nombre de classes k est fixe au depart. Cependant, ce nombre de
classes peut diminuer au court de lalgorithme.
En fonction de la mesure de qualite choisie, cet algorithme peut etre
applique a des donnees simplement decrites par une dissimilarite. On peut
par exemple choisir pour f la fonction associant a une partition P :
X 1 X
f (P) = ( d2 (x, y))
CP
|C| x6=yC

Ou tout autre mesure de stabilite decrite dans la partie 4.2.1.

Remarque 15 Cet algorithme ne peut bien evidemment pas servir a resoudre


des problemes NP-difficile (je vous laisse en exercice le soin de voir pourquoi),
la partition obtenue est ainsi souvent un minimum local.

Pseudo-code
Initialisation
choix de k classes arbitraires C1 , . . .Ck
4.2. METHODES DE PARTITIONNEMENT 81

xt
it
jt
ft 0
STOP FAUX
Tant Que STOP est FAUX
ft f ({C1 , . . . Ck })
Pour Tout 1 i k
Pour Tout x Ci
Pour Tout 1 j k tel que i 6= j
Si f ({C1 , . . . , Ci \{x}, . . . Cj {x} . . . Ck }) < ft
Alors
ft f ({C1 , . . . , Ci \{x}, . . . Cj {x} . . . Ck })
xt x
it i
jt j
Fin Alors
Fin Si
Fin Pour Tout
Fin Pour Tout
Fin Pour Tout
Si ft < f ({C1 , . . . Ck })
Alors
Cit Cit \{xt }
Cjt Cjt {xt }
Fin Alors
Sinon
STOP VRAI
Fin Sinon
Fin Si
Fin Tant Que

Convergence de lalgorithme
La convergence de lalgorithme est assuree par le fait que la suite des
mesures de stabilite a chaque iteration est decroissante et positive, donc
convergente.
82 CHAPITRE 4. CLASSIFICATION

4.3 Lalgorithme de Classification Ascendante


Hierarchique (C.A.H.)
Lalgorithme de C.A.H. est une methode generale de construction dune
hierarchie a partir de donnees decrites par une dissimilarite. Il depend dune
mesure de ressemblance entre classes, tout comme lalgorithme des transfert
depend dune mesure de stabilite.
Nous donnerons ici une version metrique de lalgorithme de C.A.H. On
transformera donc une dissimilarite d sur X en une ultrametrique u. On
pourra ensuite deduire la hierarchie associee en calculant les classes de u.
De facon plus classe, on peut decrire lalgorithme de classification hierar-
chique comme suit : on construit une suite de partition de plus en plus fine,
la premiere contenant n classes, la seconde n 1, la troisieme n 2 et ainsi
de suite jusqua nobtenir plus quune seule classe contenant tous les objets.
Passer dune partition a la suivante se faisant en fusionnant deux classes de
la premiere partition.

4.3.1 Pseudo-code
Soit f une mesure de ressemblance sur X.

Initialisation
k=n
C1 , C2 , . . . , Cn est une partition de X en n classes
Pour Tous x, y X
u(x, y) f ({x}, {y})
Fin Pour Tout
Tant Que k > 1
Soient x0 et y0 tels que pour tous z et t : u(x0 , y0 ) u(z, t)
Soient i0 et j0 tels que x0 Ci0 et y0 Cj0
Pour Tous x Ci0 Cj0 , y Ck tel que k 6= i0 et k 6= j0
u(x, y) f (Ci0 Cj0 , Ck )
Fin Pour Tous
Ci0 = Ci0 Cj0
De j = j0 + 1 a j = k
Cj1 Cj
Fin De
k k1
4.3. LALGORITHME DE CLASSIFICATION ASCENDANTE HIERARCHIQUE (C.A.H.) 83

Fin Tant Que

4.3.2 Cas particuliers


Lorsque les donnees sont euclidiennes, on a coutume dutiliser comme
mesure de ressemblance sur X le critere de Ward (cf. 4.2.1). Lorsque les
donnees ne sont pas euclidiennes, on utilise le plus souvent lune des trois
mesures egalement decrites en 4.2.1. Lalgorithme de C.A.H. est alors appele :
lien simple lorsque la mesure de ressemblance est la distance du saut
minimum,
lien moyen lorsque la mesure de ressemblance est la distance moyenne,
lien complet lorsque la mesure de ressemblance est la distance du saut
maximum.

4.3.3 Exemples
On utilisera dans cette partie la matrice d ci-apres.

Tab. 4.2 La dissimilarite exemple d.

x 0
y 1 0
d: z 1 2 0
t 3 5 3 0
u 5 5 5 4 0
x y z t u

Que lon utilise le lien simple, le lien moyen ou le lien complet, un choix
soffre a nous des la premiere iteration. On peut, soit choisir la paire xy, soit
la paire xz. Dans le premier cas, on obtient les 3 hierarchies indicees de la
figure 4.10, dans lautre, les trois hierarchies indicees de la figure 4.11.
On peut tirer deux remarques essentielles de ces exemples :
la hierarchie solution depend de la mesure de ressemblance choisie (la
classe {x, y} nexistant pas pour le lien simple et la classe {t, u} nexis-
tant que pour le lien moyen),
lordre dagregation des paires de classes modifie la hierarchie resultante.
84 CHAPITRE 4. CLASSIFICATION

5 5 5
4 4 4
3 3 3
2 2 2
1 1 1

x y z t u x y z t u x y z t u
lien simple lien complet lien moyen

Fig. 4.10 lien simple, moyen et complet en agregeant x et y

5 5 5
4 4 4
3 3 3
2 2 2
1 1 1

x y z t u x z y t u x z y t u
lien simple lien complet lien moyen

Fig. 4.11 lien simple, moyen et complet en agregeant x et z


4.3. LALGORITHME DE CLASSIFICATION ASCENDANTE HIERARCHIQUE (C.A.H.) 85

On pourra cependant remarquer que seules les deux hierarchies issues du


lien simple en changeant lordre dagregation sont identiques. Cette remarque
est un cas general, quelque-soit lordre dagregation des donnees, la hierarchie
issue du lien simple est unique.
86 CHAPITRE 4. CLASSIFICATION
Chapitre 5

Lanalyse discriminante

Lanalyse discriminante porte sur les classements que lon peut effectuer
au sein dune population. On a coutume de distinguer :
la discrimination a but descriptif : une population en q classes de X
etant donnee (on les note X1 , . . ., Xq ) et X etant par ailleurs decrit
par des variables quantitatives x1 , . . ., xp . On cherche de nouvelles
variables, combinaisons lineaires des xj , independantes et separant au
mieux ces classes.
La discrimination a but decisionnel : on dispose toujours dune partition
de X et de p variables xj . X est considere comme un echantillon dun
ensemble X (X X ) sur lequel sont definis les xj . Le probleme est de
determiner, a partir des valeurs xj , a quelle classe if faudrait affecter
i X X.
On supposera dans la suite de ce chapitre que les donnees, et donc la
matrice X, sont centrees.

5.1 Principe de la methode


Chacun des n individus est un vecteur de Rp . Les q classes dindividus
forment chacune un nuage et le but de lanalyse discriminante est de trou-
ver des vecteurs, combinaisons lineaires des caracteres initiaux, separant au
mieux lesdits nuages.
Ainsi, de meme quen A.C.P., on cherche une nouvelle base de Rp mais
ces nouveaux caracteres ne sont plus de variance maximum (i.e. des axes
portant le plus dinertie) mais ceux pour qui :

87
88 CHAPITRE 5. LANALYSE DISCRIMINANTE

les individus dune meme classe se projettent sur des valeurs voisines,
deux individus de classes differentes se projettent sur des valeurs differentes.
Ceci signifie que sur chaque axe, la variance des projections des individus
dune meme classe doit etre la plus faible possible et la variance dindividus
de classes differentes la plus grande possible.

5.1.1 Matrices de variances intraclasse et interclasses


Nos donnees etant centrees, la matrice de variance du nuage (cf. par-
tie 3.3.3) est egale a V = t XDX, ou D est la matrice des poids des individus.
Pour chaque classe 1 k q dindividus on peut calculer la matrice de
variance Wk des caracteres restreints aux elements de la classe k :en notant
Xk la matrice des individus de la classe k, Wk = t Xk DXk . En associant a
chaque classe k unPpoids Pk egal a la somme des poids de chaque individu
de la classe (Pk = xi Xk pk ), on appelle matrice intraclasse la matrice W :
q
X
W = Pk W K
i=1

En notant g k = (g1k , . . . , gpk ) le centre de gravite de chaque classe (avec


pi xij
P
x X
gik = j
Pk
k
), on appelle matrice interclasse la matrice B de terme
generique :
q
X
bij = Pk (gki )(gkj )
k=1

On obtient facilement legalite :


q
X
V = Pk W K + B = W + B
i=1

5.1.2 Variance dun caractere


Soit u Rp . Le caractere qui lui est associe est alors c = Xu. De la meme
maniere quen A.C.P. (cf. 3.6.1), la metrique utilisee est celle induite par la
matrice des poids D.
La norme du caractere c est alors egale a :

||c||2D = t cDc = t u t XDXu = t uV u = t uW u + t uBu


5.1. PRINCIPE DE LA METHODE 89

La norme dun caractere peut ainsi se decomposer en somme de deux


variances :
t uW u, variance intraclasse, rendant compte de la variation des valeurs
de projections sur u des individus a linterieur dune meme classe,
t uBu, variance interclasse, rendant compte de la dispersion des projec-
tions des centres de gravite des differentes classes sur u.
Les vecteurs de la base de Rp recherches sont donc ceux tels que t uW u
soit le maximum possible et tels que t uBu soit le minimum possible.

5.1.3 Facteurs et caracteres discriminants


Soit u Rp et c = Xu son caractere associe. Le caractere est dit parfai-
tement discriminant si t uW u = 0. On a alors t uBu qui est maximum et vaut
t
uV u (bref, cest le meilleur caractere que lon puisse trouver).
Dans la pratique, ce cas ideal napparat malheureusement pas et il faut
donc trouver le meilleur caractere qui, dune part maximise la variance in-
terclasse et, dautre part minimise la variance intraclasse.
De part legalite V = X + B, on en deduit
t
uBu t uW u
t uV u
+ t =1
uV u
et donc, le meilleur caractere possible est celui qui maximise
t
uBu
t uV u

ce caractere minimisant egalement


t
uW u
t uV u

Soit c = Xu un tel caractere. Le vecteur u annule donc les derivees par-


t uBu
tielles de t uV u
(t uBu et t uV u sont des fonctions de Rp dans R continues
et derivables car polynomiales. Elles se derivent donc de facon usuelle, en
derivant coordonnee par coordonnee). On peut representer de facon matri-
cielle le systeme a annuler :

2(t uV u)Bu 2(t uBu)V u


(t uV u)2
90 CHAPITRE 5. LANALYSE DISCRIMINANTE

Ainsi :
2(t uV u)Bu 2(t uBu)V u = 0
t uBu
Bu = t uV u
Vu
t uBu
1
V Bu = t uV u u
t uBu
etant un scalaire, on en deduit que u est un vecteur propre de la
t uV u
t uBu
matrice V 1 B associe a la plus grande valeur propre puisque t uV u
est maxi-
mum.

5.1.4 Recherche des facteurs


Les facteurs discriminants sont, on la vu, les vecteurs propres de la ma-
trice V 1 B. De meme quen A.C.P. on montre quen ordonnant les valeurs
propres par ordre decroissant 1 2 . . . p , les vecteurs propres ui as-
socies forment une base orthonormee de Rp maximisant la discrimination.
t
On peut montrer quen essayant de minimiser la quantite tuW u
uV u
, on est
1
ramene a chercher les vecteurs propres de la matrice W B, vecteurs propres
i
identiques a ceux de V 1 B. On montre de plus que W 1 Bui = (1 i)
ui .
1
Les valeurs propres de V B etant positives, on en deduit quelles sont
toutes plus petite que 1 et quune valeur propre egale a 1 correspond a un
caractere parfaitement discriminant (i.e. t uW u = 0). On peut egalement
remarquer quil y a au plus q 1 valeurs propres non nulle puisque la matrice
B est formee a partir des q centres de gravite des classes dont la somme
ponderee par le poids des classes est egale au centre de gravite du nuage et
vaut donc 0 puisque nos donnees sont centrees.

5.2 Lanalyse discriminante decisionnelle


Lorsquil y a uniquement deux classes dobjets, il nexiste quun seul fac-
teur discriminant u, donne par lequation :

u = V 1 (g2 g1 ) = W 1 (g2 g1 )

Le probleme est maintenant de pouvoir affecter tout nouveau caractere c0


a une des deux classes possible. De part lequation ci-dessus, on peut decider
de choisir daffecter c0 a la classe dont le centre de gravite est le plus proche
au sens de la metrique induite par V 1 . Cette metrique est appele distance
de Mahalanobis.
5.3. LANALYSE DISCRIMINANTE COMME CAS PARTICULIER DA.C.P.91

On affecte donc c0 a la classe 1 si et seulement si t (c0 g1 )V 1 (c0 g1 ) <


t 0
(c g2 )V 1 (c0 g2 ). Ceci revient a se placer de part et dautre de lhyperplan
orthogonal a u (pour la metrique V 1 ), hyperplan appele hyperplan de Fisher
(cf. figure 5.1).

Dcision d1 Dcision d2

Classe 1

Classe 2

g1

g2

Fig. 5.1 Hyperplan de Fisher

Ce critere de decision se generalise aisement a plus de deux classes, et


donc pour chaque nouveau caractere c0 on laffecte a la classe l telle que :

dV 1 (c0 , gl ) = min dV 1 (c0 , gi )


1iq

5.3 Lanalyse discriminante comme cas par-


ticulier dA.C.P.
En considerant la matrice G a q lignes et p colonnes tels que la ligne i
soit le centre de gravite de la classe i et en utilisant la matrice diagonale des
poids Dq de chaque classe (le poids dune classe etant egal a la somme des
poids des individus de la classe), on a :

V = t GDq G = B
92 CHAPITRE 5. LANALYSE DISCRIMINANTE

Ainsi, puisque les facteurs principaux sont les vecteurs propres de la ma-
trice M V (ou M est la metrique utilisee, cf. 3.6), en utilisant la metrique
M = V 1 (on utilise la distance de Mahalanobis) on retrouve les vecteurs et
valeurs propres de lanalyse discriminante.
Chapitre 6

Lanalyse factorielle des


correspondances

Cette methode, introduite pour lanalyse de questionnaires et de tableaux


de contingences par J.-P. Benzecri, lanalyse factorielle des correspondances
est de part la richesse de ses interpretations, fort etudiee et intensivement
utilisee en analyse des donnees car la validite de la methode setant a tout
tableau de donnees verifiant les deux proprietes suivantes :
les donnees sont toutes positives,
les donnees sont homogenes (i.e. les grandeurs representees dans le
tableau sont toutes de meme grandeur).
Lanalyse des correspondances est en fait un sous-produit de lanalyse
canonique (que nous ne verront pas). Or cette derniere sappuie essentielle-
ment sur des considerations geometriques (calcul de langle que forment deux
sous-espaces vectoriels), et permettrait dintroduire lanalyse des correspon-
dances de facon rigoureuse et elegante. Cependant, une telle presentation ne
fait que peu appel a lintuition statistique. Celle-ci nous paraissant tout
a fait essentielle, ce chapitre sera consacree a une introduction heuristique
a lanalyse des correspondance. La justification geometrique des principes
enonces viendra au chapitre suivant traitant de lanalyse canonique.
Nous utiliserons comme exemple dans ce chapitre les donnees de la table 6.1
qui recense le niveau hierarchique et lorigine sociale des 390 salaries dune
entreprise.
Le nombre delements dun tableau de contingence est la somme des lignes
et des colonnes, et sera donc note n. Ici, n = 390 qui est le nombre de salaries
consideres.

93
94CHAPITRE 6. LANALYSE FACTORIELLE DES CORRESPONDANCES

Tab. 6.1 tableau de contingence entre niveau hierarchique et origine sociale

P
cadres agriculteurs ouvriers/ employes autre
ouvriers\ employes 11 14 107 75 207
matrise 1 10 60 30 102
cadre 23 2 166 40 81
P
35 26 183 146 390

6.1 Les donnees

Lanalyse factorielle des correspondances (A.F.C.) porte sur la description


de variables nominales.
On considere deux variables nominales x et y sur la population X, repre-
sentees par leur tableau de contingence N = (nij )1iL,1jK a L lignes et K
colonnes (cf. tableau 6.1). Cest dire que notre attention ne porte que sur les
modalites des deux variables, les noms des individus prenant ces modalites
etant oubliees.
x devient la variable ligne, y la variable colonne. On utilisera les notation
suivantes :
nij sera lelement du tableau de contingence situe a la ligne i et la
colonne
Pj,
ni = P1jK nij ,
nj =P 1iL nij , P
n = 1jK nj = 1iL ni
Les nombres ni (1 i L) et nj (1 j K) sont appelees distribu-
tions marginales. Non pas quils soient moins important que dautres mais
parce que habituellement, ils sont ecrits dans les marges.
Les matrices DL et DK traduisent ces distributions marginales de facon
matricielle. Ces matrices sont alors des matrices diagonales a L et K lignes
respectivement :
6.2. LES NUAGES 95


n1 n1
... ...
0 0


DL = ni DK = nj


... ...
0 0
nL nK
De meme, si lon sinteresse aux frequences, on pourra noter :
n
fij = nij ,
fi = nni ,
n
fj = nj ,
Le 2 du tableau (cf. partie 2.2.3) secrit alors :
X (nij ni nj )2 X (fij fi fj )2
2 n
= ni nj = n
ij n ij
fi fj

6.2 Les nuages


Au tableau N correspond a priori deux nuages de points :
en ligne, L points dans RK , les nij formant les coordonnees du point i,
en colonne, K points de RL (de coordonnees nij ).
Ces deux nuages sont tout aussi important lun que lautre. On devra donc
dans toute A.F.C. effectuer deux analyses, lune en ligne et lautre en colonne.
Les vecteurs ainsi obtenus risquent detre extremement sensibles aux effec-
tifs marginaux. Ainsi, dans lexemple du tableau 6.1, la derniere ligne (23, 2,
166,40) est globalement plus petite par rapport a la premiere (11,14,107,75).
De plus les populations ne sont pas homogenes puisquelle se compose de 207
ouvriers et seulement 81 cadres. Pour pallier cet inconvenient, on divise selon
loption (ligne ou colonne) leffectif nij par les valeurs marginales (ni ou nj )
correspondante. On obtient ainsi deux nuages :
XL : L points dans RK , defini tel que
XL = DL1 N
NK : K points dans RL , defini tel que
1 t
XK = DK N
Ces deux matrices XL et XK sont appeles respectivement tableau des
profils lignes et tableau des profils colonnes (cf. tableau 6.2).
96CHAPITRE 6. LANALYSE FACTORIELLE DES CORRESPONDANCES

Tab. 6.2 Profils lignes et colonnes du tableau 6.1


11 1 23

11 14 107 75
35 35 35
207
1
207
10
207
60
207
31
14 10 2
XL = 102 X = 26 26 26
K
107 60 16
102 102 102
23 2 16 40

183 183 183
81 81 81 81 75 31 40
146 146 146

6.3 La distance
Selon lespace considere, RL ou RK , on pourrait prendre la distance eu-
clidienne :
entre deux lignes i et i0 :
X nij ni0 j 2 X fij fi0 j 2
L2 (i, i0 ) = ( ) = ( )
j
ni ni0 j
fi fi0

entre deux colonnes j et j 0 :


X nij nij 0 2 X fij fij 0 2
2
K (j, j 0 ) = ( ) = ( )
i
n j n j 0
i
fj fj 0

Une telle distance apporte cependant un tracas. Reprenons lexemple


du tableau 6.1. Leffectif de la colonne j0 ouvrier employe est assez
considerable, en tout cas beaucoup plus important que celui de la colonne
n n0
cadre. Dans un tel cas, la difference ( niji0 ni 0j0 )2 joue un role excessif dans
i
le calcul de L2 (i, i0 ).
Ainsi, pour i = ouvriers employeset i = agents de matrise, on
trouve comme contribution des coordonnees a L2 (i, i0 )
cadres : 8,3 %
agriculteurs : 12%
ouvriers employes : 33%
autres : 46,2%
Les deux dernieres modalites ecrasent les deux premieres. Afin deviter
cet inconvenient, on pondere, lors du calcul de la distance :
pour le nuage XL de RK , la jieme coordonnee par nnj = f1j
pour le nuage NK de RL , la iieme coordonnee par nni = f1i
Les distances deviennent alors
6.4. ANALYSES DES NUAGES 97

entre les lignes


X n nij ni0 j 2 X 1 fij fi0 j 2
L2 (i, i0 ) = ( ) = ( )
j
n j n i n i0
j
fj fi fi0

entre les colonnes


X n nij nij 0 2 X 1 fij fij 0 2
2
K (j, j 0 ) = ( ) = ( )
i
n i fj n j 0
i
fi fj fj 0

Cet type de metrique est appele metrique du 2 . Les M -normes associes


sont alors :
la matrice ML = nDk1 pour lanalyse en lignes,
la matrice MK = nDL1 pour lanalyse en colonnes.
Un autre interet de la metrique du 2 est quelle verifie le principe dequiva-
lence distributionnelle. Enoncons le pour les profils lignes. Si les deux moda-
lites i et i0 ont des profils identiques, on peut les regrouper en une seule et
sommer leurs effectifs. Il ny a plus alors que L 1 modalites en lignes et
les distances d2K (j, j 0 ) construites dans RL1 a partir de ce nouveau tableau
concide avec celles que lon avait precedemment definies dans RL (on pourra
le demontrer en exercice).

6.4 Analyses des nuages


Nous allons reprendre ici les resultats de la partie 3.8. La seule difference
notable est que nos donnees ne sont pas centrees. Cependant, nos donnees
etant issues dun tableau de contingence, le centre de gravite du nuage na
pas de sens physique ici. Nous ne centrerons donc pas les donnees, et nous
appliquerons tout de meme les resultats de la partie 3.8, ses effets etant
negligeables (cf. partie 6.4.2).

6.4.1 Matrices V
La matrice V = t XDX de lACP etait egale a la matrice de variance-
covariance car les donnees etaient centrees. Ici, les donnees etant non centree,
les matrices correspondantes ne correspondent plus a la variance. La matrice
D est la matrice des poids. Pour lanalyse en ligne, cette matrice correspond
alors a n1 DL , et a n1 DK pour lanalyse ne colonne. On a donc :
98CHAPITRE 6. LANALYSE FACTORIELLE DES CORRESPONDANCES

VL = t XL ( n1 DL )XL pour lanalyse en ligne,


VK = t XK ( n1 DK )XK pour lanalyse en colonne.

6.4.2 A.C.P en ligne et colonne


Les facteurs propres sont les vecteurs propres de la matrice M V .

Analyse en ligne
Ici la matrice M V = ML VL . On a alors :
1 t
ML VL = (nDK )( XL ( n1 DL )XL )
= nDK (DL1 N ) n1 DL DL1 N
1 t
1 t t 1 1
= nDK N DL n DL DL1 N
1 t
= DK N DL1 N

Analyse en colonne
Ici la matrice M V = MK VK . On a alors :
ML VL = (nDL1 )(t XK ( n1 DK )XK )
= nDL1 t (DK1 t 1 t
N ) n1 DK DK N
1 tt t 1 1 1 t
= nDL N DK n DK DK N
= DL1 N DK 1 t
N

6.4.3 Valeurs propres


1 t
On peut montrer que les valeurs propres de DK N DL1 N et DL1 N DK
1 t
N
sont les memes et toutes plus petites que 1.
Il ressort de cela quil ny a au plus que min{K, L} vecteurs propres
associes a des valeurs propres non nulles.
Les donnees etant non centrees, on peut de plus montrer que le centre
de gravite (que lon peut definir meme sil na pas de realite physique)
gL des lignes est vecteur propre de ML VL pour la valeur propre 1 et que le
centre de gravite gK des colonnes est vecteur propre de MK VK pour la valeur
propre 1 egalement.
Ces vecteurs propres nous sont inutiles, on ne considerera donc pas les
centres de gravite comme des vecteurs propres. On note alors 1 2
. . . min{K,L}1 les valeurs propres associes aux vecteurs propres differents
de gL et gK .
6.4. ANALYSES DES NUAGES 99

Remarque 16 Si lon avait centre les donnees, les centres de gravites (des
donnees non centrees) auraient ete vecteurs propres de la valeur propre 0.
Ceci participe du fait quon les ignore dans notre analyse non centree.

Comme la trace de la matrice M V est egale a la somme des valeurs


propres, on a :

trace(ML VL ) = trace(MK VK )
= 1 + 1 + . . . + min{K,L}1
P P n2ij
= i j ni nj
2
= 1+ n

Le 2 remplace ici linertie de lACP. En AFC, cest ainsi le 2 qui tient


lieu dinformation.

6.4.4 Vecteurs Propres et composantes pruincipales


Soient u1 , . . ., umin{K,L}1 les vecteurs propres de lanalys en ligne associes
aux valeurs propres 1 2 . . . min{K,L}1 et v1 , . . ., vmin{K,L}1 les
vecteurs propres de lanalyse en colonne associe aux memes valeurs propres.
Les composantes principales sont alors :
pour lanalyse en ligne :

ci = XL ui = DL1 N ui

pour lanalyse en colonne :


1 t
dj = Xk vj = DK N vj

Ces composantantes principales entretiennent une propriete plus quinteressante.


En effet, les composante principales en lignes sont des vecteurs propres de
lanalyse en colonne et reciproquement.
Pour montrer cela, considerons ci , ieme composante principale de lana-
lyse en ligne. On a alors :

(MK VK )ci = (MK VK )(XL ui )


= (DL1 N DK
1 t
N )(DL1 N ui )
= DL1 N (DK
1 t
N )(DL1 N )ui
1
= DL N (ML VL )ui
100CHAPITRE 6. LANALYSE FACTORIELLE DES CORRESPONDANCES

Comme ui est un vecteur propre de ML VL de valeur propre i on a :


(MK VK )ci = DL1 N (ML VL )ui
= DL1 N i ui
= i (DL1 N )ui
= i XL ui
= i c i

On a exactement le meme resultat pour les colonnes, a savoir :

(ML VL )dj = j dj

Les normes des composantes principales ci et di etant egales a i (cf.
partie 3.8, les normes sont associes aux matrices des poids), on a les egalites
suivantes
:
i v i = c i
i ui = di

6.5 Representation simultanee des lignes et


des colonnes
LACP des profils ligne et des profils colonnes sont a priori effectue sur
des espaces de dimensions differentes (de dimension K pour les profils lignes
et L pour les profils colonnes). Cependant, nous avons vu precedemment quil
existe, de part les formules de transitions, de grandes liaisons entre les deux
analyses. On pourra donc representer simultanement les resultats des deux
analyses sur le meme graphique.
j
p On a vu que les composantes principales jc des profils lignes sont egales a
v et que les composantes principales d des profils colonnes sont egales
pj j
a j uj . Plusieurs conventions sont possibles pour representer ces resultats,
nous ne presentons que la plus usitee.
On supperpose les graphiques issus des ACP en lignes et en colonnes, cest
apdire que lon represente sur lepmeme graphique les points de coordonnees
j vj et ceux de coordonnees j uj .
Dans ce genre de representation, il faut faire attention dans linterpretation
dune proximite entre un point i issu des profils lignes et un point j issu des
profils colonnes. La seule chose que lon puisse dire est que les individus du
tableau de contingence possedant la modalite i ont un barycentre proche des
6.6. INTERPRETATIONS 101

individus possedant la modalite j. Ceci signifie la plupart du temps, mais pas


toujours (attention, gros piege possible : cette possibilite ne peut etre verifiee
que sur le tableau initial), que ces deux modalites sont liees.

6.6 Interpretations
Pour une AFC, on a vue que ce qui tenait lieu dinformation etait le
2
.
Les parts de 2 fournissent une estimation globale de la qualite des
representations factorielles. Localement, on dispose de deux indices : les
contributions absolues et relatives.

6.6.1 Contribution absolue dune modalite a un axe


Chaque axe est represente par sa composante principale. Or :

||ci ||2 = ||di ||2 = i

De plus, les normes etant celles des poids des individus, on a :

||cj ||2 = P1iL nni ((cj )i )2


P
ni 2
= 1iL n (j (vj )i )

De meme : nj
||di ||2 = ((di )j )2
P
P1jK n
nj
= 1jK n
(i (ui )j )2
On a alors pour tout axe h (1 h min{K, L}) :

h = P1iL nni (h (vh )i )2


P
nj 2
= 1jK n (h (uh )j )

La ligne i de lanalyse en ligne contribue donc a laxe h de :


fi (chi )2
CAh (i) = (h fi (vh )i )2 =
h
et la ligne j de lanalyse en colonne contribue a laxe h de :
fj (dhj )2
CAh (j) = (h fj (uh )j )2 =
h
102CHAPITRE 6. LANALYSE FACTORIELLE DES CORRESPONDANCES

La part de chi2 du hieme axe (dont linertie est egale a h ) due a la


modalite ligne i est donc egale a fi ((vh )i )2 et celle due a la modalite colonne
j est egale a fj ((uh )j )2
Ces contributions permettent de deceler les modalites ayant joue un grand
role dans la formation dun axe et, par suite, dinterpreter icelui.

6.6.2 Contribution relative dun axe a une modalite


De meme quen ACP on regarde le cosinus carre de langle entre les profils
lignes ou colonnes et les axes principaux. La somme des cosinus carrees des
angles entre un meme individu et tout les axes est bien evidemment egal a
1.
Du point de vue de linterpretation, un individu presque perpendiculaire
a un axe principal signifie que que ledit individu est totalement etranger a la
tendance exprimee par laxe en question.

6.7 Elements supplementaires


Il sagit de la technique qui, les axes etant calcules, permet de projeter
dans les plans factoriels une modalite supplementaire. Cette pratique, per-
mise par les programmes, savere souvent fort utile (par exemple lorsqua
lissue dune analyse des points saverent tres eloignes des autres, on aura
interet a refaire lanalyse en les traitant en elements supplementaires).

6.8 Exemple simple


Le tableau 6.3 indique les habitudes de lecture dune famille (1 = lit,
0 = ne lit pas).
Les tableaux des profils lignes et colonnes correspondant valent :
XL = DL1 N : 5 points dans R3

1 0 0
0 1 0
1 1 1

31 3 31

2
0 2
0 21 12
6.8. EXEMPLE SIMPLE 103

Tab. 6.3 Habitudes de lecture

lEquipe Elle Spirou ni


pere 1 0 0 1
mere 0 1 0 1
ane 1 1 1 3
cadet 1 0 1 2
fille 0 1 1 2
nj 3 3 3 9

XK = DK t N : 3 points dans R5
1 1

1 0 3 3
0
0 1 1
0 1
3 3 3
1 1 1
0 0 3 3 3

Le nuage XL est represente sur la figure 6.1. Il est situe dans le plan
dequation x + y + z = 1.
(Spirou)

Axe 1

Axe 2

Fille

Ain
Cadet
(Elle)
Mre

Pre

(l'quipe)

Fig. 6.1 Le nuage NL

La symetrie evidente de la figure fait que le centre de gravite est situe


en ane. Les axes 1 et 2 sont egalement represente sur la figure 6.1. Ils ont
104CHAPITRE 6. LANALYSE FACTORIELLE DES CORRESPONDANCES

pour part dinertie respective 75% et 25% (comme le montrerait le calcul).


Linterpretation des axes va de soi. Laxe 1 represente le sexe des membres
de la famille et laxe 2 leur lage.
On obtient les coordonnees sur ces axes des trois journaux en calculant
les composantes des vecteurs de la base initiale. La representation simultanee
usuelle est indiquee sur la figure 6.2.
AXE 2 (25%)

Pre Mre

l'quipe Elle

Ain

AXE 1 (75%)
Cadet Fille

Spirou

Fig. 6.2 Representation factorielle