Vous êtes sur la page 1sur 15

Variables qualitatives :

analyse des correspondances.


Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 1
Lanalyse factorielle des correspondances
But On cherche `a decrire la liaison entre deux variables qualitatives.
Exemple on peut regarder la repartition de la couleur des yeux en fonction de la
couleur des cheveux.
Dierence avec lACP lACP se fait dans un cadre dierent ; les variables sont
quantitatives et donc
il est possible de faire des operations mathematiques sur les valeurs des variables ;
par contre, il nest en general pas possible de compter les individus qui ont une
caracteristique donnee (taille=1, 83m)
Pourquoi deux variables ? le cas de plus de deux variables est lanalyse de corres-
pondance multiples, traite plus tard dans le cours.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 2
I Les donnees qualitatives
II Geometrie de nuages de prols
III LAFC : une ACP sur un nuage de prols
IV Aspects pratiques
V Analyse des correspondances multiples
VI LACM : une AFC sur tableau disjonctif
VII Aspects pratiques
VIII Interpretation externe
IX AFC vs. ACM
Variables qualitatives
Soit X une variable qualitative. On dispose dun echantillon de n individus sur
lesquels la variable est mesuree.
Modalites (ou categories) les valeurs que peut prendre une variable qualitative ;
si la variable a m modalites (valeurs possibles), on note x
i
, 1 i m, ces modalites,
ou plus simplement i.
Eectif le nombre doccurrence de la modalite i dans lechantillon ; on le note n
i
, et
on a

m
i=1
n
i
= n.
Frequence cest la grandeur f
i
= n
i
/n; la somme des frequences sur les modalites
est 1. On utilise souvent le pourcentage 100f
i
.
Representation on peut utiliser un tableau avec m lignes de la forme
.
.
.
.
.
.
.
.
.
x
i
n
i
f
i
.
.
.
.
.
.
.
.
.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 4
Tableau de contingence
Soient X
1
et X
2
deux variables qualitatives `a m
1
et m
2
modalites respectivement
decrivant un ensemble de n individus.
Denition le tableau de contingence est une matrice `a m
1
lignes et m
2
colonnes
renfermant les eectifs n
ij
dindividus tels que X
1
= i et X
2
= j .
N =
_
_
_
_
_
_
_
_
n
11
n
12
n
1m
2
n
21
n
22
.
.
.
.
.
. n
ij
.
.
.
.
.
.
n
m
1
1
n
m
1
m
2
_
_
_
_
_
_
_
_
La constitution de ce tableau est ce que les praticiens des enquetes appellent un
tri croise .
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 5
Marges et prols
Marge en ligne cest la somme n
i
=

m
2
j=1
n
ij
, cest-`a-dire leectif total de la
modalite i de X
1
.
On denit aussi le prol marginal des lignes n
i
/n.
Marge en colonne cest la somme n
j
=

m
1
i=1
n
ij
, cest-`a-dire leectif total de
la modalite j de X
2
.
On denit aussi le prol marginal des colonnes n
j
/n.
Deux lectures possibles selon la variable que lon privilegie, on peut denir
le tableau des prols-lignes n
ij
/n
i
, qui represente la frequence de la modalite j
conditionnellement `a X
1
= i ; la somme de chaque ligne est ramenee `a 100%.
le tableau des prols-colonnes n
ij
/n
j
, qui represente la frequence de la modalite
i conditionnellement `a X = j ; la somme de chaque colonne est ramenee `a 100%.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 6
Proprietes des prols
Moyenne la moyenne des prols-lignes (avec poids correspondant aux prols margi-
naux des lignes) est le prol marginal des colonnes :
m
1

i=1
n
i
n

n
ij
n
i
=
n
j
n
,
et de meme pour les colonnes

m
2
j=1
n
j
n

n
ij
n
j
=
n
i
n
.
Independance empirique lorsque tous les prols lignes sont identiques, il y a inde-
pendance entre X
1
et X
2
, puisque la connaissance de X
1
ne change pas la repartition
de X
2
. On a pour tout j
n
1j
n
1
=
n
2j
n
2
= =
n
rj
n
r
=
n
1j
+ + n
rj
n
1
+ + n
r
=
n
j
n
et donc n
ij
=
n
i
n
j
n
.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 7
Le
2
decart `a lindependance
Denition cest la grandeur suivante, aussi notee
2
ou X
2
d
2
=
m
1

i=1
m
2

j=1
_
n
ij

n
i
n
j
n
_
2
n
i
n
j
n
= n
_
_
m
1

i=1
m
2

j=1
n
2
ij
n
i
n
j
1
_
_
.
d
2
= 0 les variables sont independantes.
Borne superieure comme n
ij
n
i
, on a
m
1

i=1
m
2

j=1
n
2
ij
n
i
n
j

m
1

i=1
m
2

j=1
n
ij
n
j
=
m
2

j=1

m
1
i=1
n
ij
n
j
=
m
2

j=1
n
j
n
j
= m
2
,
et donc d
2
n(m
2
1). On fait de meme pour m
1
et

2
=
d
2
n
min(m
1
1, m
2
1).
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 8
Le
2
decart `a lindependance (suite)
Dependance fonctionnelle si
2
= m
2
1, alors pour chaque i soit n
ij
= n
i
, soit
n
ij
= 0 : il existe une unique case non nulle par ligne. X
2
est donc fonctionnellement
liee `a X
1
.
Dependance inverse cette relation ne signie pas que X
1
est fonctionnellement
liee `a X
2
, sauf si m
1
= m
2
. On peut alors representer le tableau comme une matrice
diagonale.
Contribution au
2
cest le terme
_
n
ij

n
i
n
j
n
_
2
n
i
n
j
n
qui permet de mettre en evidence les associations signicatives entre modalites de
deux variables.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 9
Caract`ere signicatif du
2
Probl`eme `a partir de quelle valeur de d
2
doit-on considerer que les variables X
1
et
X
2
sont independantes ?
Methode on suppose que X
1
et X
2
sont issus de tirages de deux variables aleatoires
independantes. On peut alors montrer que d
2
est une realisation dune variable aleatoire
D
2
qui suit une loi
2
(m
1
1)(m
2
1)
.
Denition Loi du khi-deux `a p degres de libertes
2
p
est la loi de la variable

p
i=1
U
2
i
,
o` u les U
i
sont des variables gaussiennes reduites independantes.
Le test du
2
on se xe un risque derreur (0.01 ou 0.05 en general) et on calcule
la valeur d
2
c
telle que P
_

2
(m
1
1)(m
2
1)
> d
2
c
_
= . Si d
2
> d
2
c
on consid`ere que
levenement est trop improbable et que donc que lhypoth`ese originale dindependance
doit etre rejetee. On trouvera en general ces valeurs dans une table precalculee.
Cas p grand quand p > 30, on consid`ere que
_
2
2
p

2p 1 est distribue comme


une variable gaussienne centree reduite N(0, 1).
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 10
I Les donnees qualitatives
II Geometrie de nuages de prols
III LAFC : une ACP sur un nuage de prols
IV Aspects pratiques
V Analyse des correspondances multiples
VI LACM : une AFC sur tableau disjonctif
VII Aspects pratiques
VIII Interpretation externe
IX AFC vs. ACM
Analyse des correspondances de deux variables : les donnees
Eectifs on a un tableau de contingence N `a m
1
lignes et m
2
colonnes resultant du
croisement de deux variables qualitatives X
1
et X
2
`a m
1
et m
2
modalites respective-
ment. On note D
1
et D
2
les matrices diagonales des eectifs marginaux
D
1
=
_
_
_
_
n
1
0
n
2
.
.
.
0 n
m
1

_
_
_
_
D
2
=
_
_
_
_
n
1
0
n
2
.
.
.
0 n
m
2
_
_
_
_
Prols le tableau des prols des lignes n
ij
/n
i
est donne par D
1
1
N et celui des
prols des colonnes n
ij
/n
j
par ND
1
2
.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 12
Representation geometrique des prols
Nuage de points les prols-lignes forment un nuage de m
1
points de R
m
2
. Chaque
point est aecte dun poids egal `a sa frequence marginale n
i
/n, et la matrice des poids
est donc
1
n
D
1
.
Centre de gravite cest le prol marginal car
g

=
1
n
(D
1
1
N)

D
1
1
m
1
=
_
n
1
n
, ,
n
m
2
n
_

Prols-colonnes les lignes du tableau D


1
2
N

forment un nuage de m
2
points de
R
m
1
, avec matrice de poids
1
n
D
2
et centre de gravite
g
c
=
_
n
1
n
, ,
n
m
1

n
_

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 13


Comment etudier ces donnees
Cas independant en cas dindependance empirique, on aura
n
ij
n
i
=
n
j
n
et
n
ij
n
j
=
n
i
n
et les deux nuages sont alors reduits `a leurs centres de gravite respectifs.
Dimension des nuages comme les prols somment `a 1, les m
1
prols-lignes sont
situes dans le sous-espace W
1
de dimension m
2
1 deni par

m
2
j=1
x
j
= 1 et x
j
0.
ACP letude de la forme des nuages au moyen de lanalyse en composantes principales
permettra de rendre compte de la structure des ecarts `a lindependance.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 14
La metrique du
2
Prols-lignes la distance entre deux prols-lignes i et i

est
d
2

2(i, i

) =
m
2

j=1
n
n
j
_
n
ij
n
i

n
i

j
n
i

_
2
,
ce qui revient `a utiliser la metrique diagonale nD
1
2
.
Inertie linertie totale du nuage des prols-lignes par rapport `a g

est
I
g

=
m
1

i=1
n
i
n
d
2

2(i, g

) =
m
1

i=1
m
2

j=1
n
i
n
j
_
n
ij
n
i

n
j
n
_
2
=
m
1

i=1
m
2

j=1
1
n
i
n
j
_
n
ij

n
i
n
j
n
_
2
=
2
Cette inertie mesure donc lecart `a lindependance.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 15
Pourquoi la metrique du
2
?
Ponderation la ponderation n/n
j
permet de donner des importances comparables
aux dierentes variables .

Equivalence distributionnelle si deux colonnes j et j

de N ont le meme prol,


il est logique de les regrouper en une seule deectif n
ij
+ n
ij
; on a alors quand
n
ij
/n
j
= n
ij
/n
j

n
n
j
_
n
ij
n
i

n
j
n
_
2
+
n
n
j

_
n
ij

n
i

n
j

n
_
2
=
n
n
j
+ n
j

_
n
ij
+ n
ij

n
i

n
j
+ n
j

n
_
2
La distance entre les prols-ligne est donc inchangee.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 16
Autres proprietes de la metrique du
2
Proprietes de g

le vecteur Og

est orthogonal `a W
1
au sens de la metrique du
2
car, pour tout x W
1
,
g

x, Og

2 = (x g

nD
1
2
g

= (x g

1
m
2
= 0.
et la norme de g

est g

2
= g

nD
1
2
g

= g

1
m
2
= 1.
Tous les vecteurs centres du nuages sont donc orthogonaux `a g

Prols-colonnes on denit la distance entre deux prols-colonnes j et j

comme
d
2

2(j, j

) =
m
1

i=1
n
n
i
_
n
ij
n
j

n
ij

n
j

_
2
,
ce qui correspond `a une metrique de matrice nD
1
1
. Ses proprietes sont similaires `a
celles sur les prols-lignes.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 17
I Les donnees qualitatives
II Geometrie de nuages de prols
III LAFC : une ACP sur un nuage de prols
IV Aspects pratiques
V Analyse des correspondances multiples
VI LACM : une AFC sur tableau disjonctif
VII Aspects pratiques
VIII Interpretation externe
IX AFC vs. ACM
ACP des deux nuages de prols
Il y a deux possibilites qui sont en dualite exacte
Prols-lignes
tableau de donnees X = D
1
1
N;
metrique M = nD
1
2
;
poids D =
D
1
n
.
Prols-colonnes
tableau de donnees X = D
1
2
N

;
metrique M = nD
1
1
;
poids D =
D
2
n
.
Autres donnees
Centre de gravite g = X

D1.
Matrice de variance-covariance
V = X

DXgg

= (X1g

D(X1g

)
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 19
Vecteurs propres de VM Centrage
g est un facteur principal g est vecteur propre de VM associe `a la valeur propre
0 car, comme g est
2
-orthogonal `a W,
VMg = (X1g

D(X1g

)Mg = 0,
et on a donc X

DXMg = VMg +gg

Mg = 0 +gg

2 = g.
Autres axes les autres valeurs et vecteurs propres de VM et X

DXM sont iden-


tiques car, pour tout vecteur u g
X

DXMu = VMu +gg

Mu = VMu +gg, u

2 = VMu.
Centrage il est inutile de centrer les tableaux de prol ; on eectue une ACP non
centree et on elimine la valeur propre 1 associee `a laxe principal g et au facteur principal
Mg = 1.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 20
Calcul de lACP
On fait dabord le calcul pour les prols-lignes.
Facteurs principaux ils sont vecteurs propres de
MX

DX = (nD
1
2
)(D
1
1
N)

D
1
n
(D
1
1
N) = D
1
2
N

D
1
1
N.
On a donc pour chaque axe principal k
D
1
2
N

D
1
1
Nu
k
=
k
u
k
Composantes principales la composante principale associee au facteur u
k
est a
k
=
Xu
k
= D
1
1
Nu
k
; elle est vecteur propre de la matrice D
1
1
ND
1
2
N

car
D
1
1
ND
1
2
N

a
k
= D
1
1
ND
1
2
N

D
1
1
Nu
k
=
k
D
1
1
Nu
k
=
k
a
k
Prols-colonnes on echange les indices 1 et 2 et on transpose N.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 21
Comparaison lignes-colonnes
ACP prols-lignes ACP prols-colonnes
Facteurs principaux
Vecteurs propres de
D
1
2
N

D
1
1
N
Vecteurs propres de
D
1
1
ND
1
2
N

Composantes principales
Vecteurs propres de
D
1
1
ND
1
2
N

normalises par
V (a
k
) = a

k
D
1
n
a
k
=
k
Vecteurs propres de
D
1
2
N

D
1
1
N
normalises par
V (a
k
) = b

k
D
2
n
b
k
=
k
Comparaison les deux analyses conduisent aux memes valeurs propres et les facteurs
principaux de lune sont les composantes principales de lautre (`a un facteur pr`es).
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 22
I Les donnees qualitatives
II Geometrie de nuages de prols
III LAFC : une ACP sur un nuage de prols
IV Aspects pratiques
V Analyse des correspondances multiples
VI LACM : une AFC sur tableau disjonctif
VII Aspects pratiques
VIII Interpretation externe
IX AFC vs. ACM
Interpretation des resultats
Coordonnees des points Les coordonnees des points-lignes et points-colonnes sob-
tiennent en cherchant les vecteurs propres des produits des deux tableaux de prols. Ce
sont les grandeurs principales `a obtenir.
Projection des nuages il est possible de projeter les deux nuages de points sur
le meme representations. On justiera plus tard le sens de cette representation et son
interpretation.
Cercle des correlations il na aucun interet ici, puisque les veritables variables sont
qualitatives.
(non) eet de taille comme les composantes variables sont centrees
(

m
1
i=1
n
i
a
ik
=

m
2
j=1
n
j
b
jk
= 0), ont sait que les coordonnees des a
k
et b
k
ne
peuvent etre toutes de meme signe ; il ny a donc jamais deet de taille .
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 24
Contributions `a linertie
Contribution des prols-lignes On sait que
k
=

m
1
i=1
n
i
n
(a
ik
)
2
, o` u a
ik
est
la coordonnee du prol-ligne i sur la ki`eme composante principale de lACP sur les
prols-lignes. On denit donc la contribution de la modalite i `a laxe principal k comme
n
i
n

(a
ik
)
2

k
.
On considerera les modalites ayant linuence la plus importante (typiquement >
n
i
/n, = 2 ou 3) comme constitutives des axes ; on regardera aussi le signe de
la coordonnee.
Il ny a pas ici de modalites sur-representees, puisquon ne peut pas les retirer.
Contribution des prols-colonnes pour les memes raisons, la contribution du de
la modalite j de X
2
`a laxe k est
n
j
n

(b
jk
)
2

k
.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 25
Qualite de la representation
Prols-lignes lAFC est une ACP, et on peut donc mesurer la qualite de la repre-
sentation de la modalite i (son prol-ligne) par un sous-espace factoriel. La qualite (le
cos
2
de langle entre le point et sa projection) secrit encore, pour le plan forme des q
premiers axes :

q
k=1
(a
ik
)
2

m
2
k=1
(a
ik
)
2
.
Comme pour lACP, > 0.8 signie tr`es bien represente et < 0.5 veut dire mal
represente . Les valeurs sont souvent donnees en 10000`e.
Prols-colonne Le principe est le meme, mais la formule devient, pour la modalite
j :

q
k=1
(b
jk
)
2

m
1
k=1
(b
jk
)
2
.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 26
Formules de transition
But on cherche une relation entre les vecteurs a
k
et b
k
pour eviter de faire deux
diagonalisation de matrice. Par exemple, si m
1
< m
2
, on diagonalisera la matrice
D
1
1
ND
1
2
N

.
Formules un calcul simple donne les formules suivantes
b
k
=
1

k
D
1
2
N

a
k
, soit b
jk
=
1

k
m
1

i=1
n
ij
n
j
a
ik
,
a
k
=
1

k
D
1
1
Nb
k
, soit a
ik
=
1

k
m
2

j=1
n
ij
n
i
b
jk
.
Methode comme a
k
est (`a une normalisation pr`es) le facteur principal associe `a b
k
,
on sait que b
k
= D
1
2
N

a
k
. Pour determiner , il sut decrire que b

k
D
2
n
b
k
=
k
.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 27
Decomposition de linertie

2
et valeurs propres on sait que linertie totale (et donc la somme des valeurs
propres) est egale `a
2
. Comme il y a au plus min(m
1
1, m
2
1) valeurs propres,
on obtient si m
1
< m
2

2
=
m
1
1

k=1

k
.
Choix du nombre de valeurs propres cest un probl`eme plus dicile
la r`egle de Kaiser
k
>
2
/(m1) sapplique mal ;
la r`egle du coude reste valide, mais est un peu subjective ;
on peut saider de la part dinertie expliquee, mais cest un peu complique.
On se contente souvent de regarder le premier plan principal.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 28
I Les donnees qualitatives
II Geometrie de nuages de prols
III LAFC : une ACP sur un nuage de prols
IV Aspects pratiques
V Analyse des correspondances multiples
VI LACM : une AFC sur tableau disjonctif
VII Aspects pratiques
VIII Interpretation externe
IX AFC vs. ACM
Analyse des correspondances multiples
But on veut etendre lAFC au cas de p 2 variables X
1
, X
2
. . . , X
p
`a
m
1
, m
2
, . . . , m
p
modalites. Ceci est particuli`erement utile pour lexploration denquetes
o` u les questions sont `a reponses multiples.
Probl`eme lanalyse des correspondances utilise une table de contingence qui est dif-
cilement generalisable au cas p > 2 .
Methode on cherche un moyen dierent de calculer lAFC pour p = 2 et on verie
que les resultats sont comparables. Si on a de la chance, on pourra etendre cette nouvelle
version pour p > 2 .
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 30
Les donnees
Donnees brutes chaque individu est decrit par les numeros des modalites quil pos-
s`ede pour chacune des p variables. Il nest pas possible de faire des calculs sur ce tableau,
o` u les valeurs sont arbitraires.
Tableau disjonctif on remplace la j`eme colonne par m
j
colonnes dindicatrices : on
met un zero dans chaque colonne, sauf celle correspondant `a la valeur x
j
i
de lindividu
i qui re coit 1.
Exemple On a trois variables (avec respectivement 3, 2 et 2 modalites) mesurees
sur 4 individus. Les tableaux brut (ci-dessous `a gauche) sont equivalents aux tableaux
disjonctifs `a droite.

1
3
2
3

2
1
1
1

1
2
1
2

1 0 0
0 0 1
0 1 0
0 0 1

0 1
1 0
1 0
1 0

1 0
0 1
1 0
0 1

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 31


Tableau disjonctif et tableau de contingence
Tableau disjonctif `a la variable X
j
on associe le tableau disjonctif X
j
`a n lignes et
m
j
colonnes.
Tableau de contingence on verie facilement que le tableau de contingence des
variables X
j
et X
k
est donne par
N
jk
= X

j
X
k
.
Eectifs marginaux la matrice diagonale des eectifs marginaux de la variable X
j
est donnee par
D
j
= X

j
X
j
.
Exemple N
21
=
_
0 1 2
1 0 0
_
D
2
=
_
3 0
0 1
_
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 32
Tableau disjonctif joint
Denition cest la matrice juxtaposee X = (X
1
|X
2
| |X
p
), qui poss`ede n lignes
et m
1
+ +m
p
colonnes. Chaque colonne represente une categorie, cest-`a-dire une
modalite dune variable.
Exemple pour lexemple de variables precedentes, on a le tableau disjonctif joint
suivant
_
_
_
_
1 0 0
0 0 1
0 1 0
0 0 1

0 1
1 0
1 0
1 0

1 0
0 1
1 0
0 1
_
_
_
_
Marges Chaque somme de lignes vaut 3. Les sommes de colonnes valent
_
1 1 2

3 1

2 2
_
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 33
I Les donnees qualitatives
II Geometrie de nuages de prols
III LAFC : une ACP sur un nuage de prols
IV Aspects pratiques
V Analyse des correspondances multiples
VI LACM : une AFC sur tableau disjonctif
VII Aspects pratiques
VIII Interpretation externe
IX AFC vs. ACM
Lien avec lAFC
Pourquoi ? Le tableau disjonctif X est une table de contingence (comptage de ca-
tegorie des individus).
Les lignes la somme des elements de chaque ligne de X est egale `a p. Le tableau
des prols-lignes est donc
1
p
X.
Les colonnes la somme des elements de chaque colonne de X est egale `a leectif
marginal de la categorie correspondante. Le tableau des prols colonnes est donc XD
1
,
o` u D est la matrice diagonale par blocs
D =
_
_
D
1
0
.
.
.
0 D
p
_
_
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 35
Cas p = 2
Probl`eme `a resoudre On applique lanalyse des correspondances `a X. Les compo-
santes principales de lACP en colonnes sont vecteurs propres de
(XD
1
)

1
2
X =
1
2
D
1
X

X
Or on a
X

X =
_
X

1
X

2
_
_
X
1
X
2

=
_
X

1
X
1
X

1
X
2
X

2
X
1
X

2
X
2
_
=
_
D
1
N
N

D
2
_
Finalement, les composantes principales sont valeurs propres de
1
2
_
D
1
1
0
0 D
1
2
_ _
D
1
N
N

D
2
_
=
1
2
_
I
m
1
D
1
1
N
D
1
2
N

I
m
2
_
.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 36
Resolution des equations
On note a
k
(resp. b
k
) les m
1
premi`eres (resp. m
2
derni`eres) coordonnees de la
composante principale k et
k
la valeur propre correspondante :
_
I
m
1
D
1
1
N
D
1
2
N

I
m
2
_ _
a
k
b
k
_
= 2
k
_
a
k
b
k
_
.
On obtient les equations
_
D
1
1
Nb
k
= (2
k
1)a
k
D
1
2
N

a
k
= (2
k
1)b
k
,
et donc on retrouve les coordonnees des lignes et des colonnes de Ndans lAFC classique
(avec
k
= (2
k
1)
2
) :
_
D
1
2
N

D
1
1
Nb
k
= (2
k
1)
2
b
k
D
1
1
ND
1
2
N

a
k
= (2
k
1)
2
a
k
.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 37
Le nombre de valeurs propres
Probl`eme on a a priori m
1
+ m
2
1 valeurs propres non nulles, ce qui est plus
important que dans le cas classique. En particulier pour chaque
k
, on a deux
k
possibles
_

k
=
1+

k
2
associee `a
_
a
k
b
k
_

k
=
1

k
2
associee `a
_
a
k
b
k
_
On ne garde donc que les valeurs
k
>
1
2
. On peut montrer quil y en a min(m
1

1, m
2
1).
Interpretation Linterpretation de la part dinertie expliquee par les valeurs propres
est maintenant tr`es dierente. En particulier les valeurs propres qui etaient tr`es separees
dans lAFC de N le beaucoup moins dans celle de X.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 38
Le cas general p > 2
But on cherche `a faire une representation des m
1
+ +m
p
categories comme points
dun espace de faible dimension.
Methode on fait une AFC sur le tableau disjonctif joint X = (X
1
|X
2
| |X
p
), qui
poss`ede n lignes et m
1
+ + m
p
colonnes.
Le tableau de Burt cest le tableau B = X

X, qui est un super-tableau de contin-


gence des variables X
1
, . . . , X
p
:
B = X

X =
_

_
X

1
X
1
X

1
X
2
X

1
X
p
X

2
X
1
X

2
X
2
.
.
.
.
.
.
.
.
.
X

p
X
1
X

p
X
p
_

_
=
_

_
D
1
N
12
N
1p
N
21
D
2
.
.
.
.
.
.
.
.
.
N
p1
D
p
_

_
Le tableau de Burt est donc forme de tableaux de contingence et de matrices deectifs
marginaux.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 39
Exemple de tableau de Burt
_
_
_
_
_
_
_
_
_
_
1 0 0 0 1 1 0
0 1 0 1 0 1 0
0 0 2 2 0 0 2
0 1 2 3 0 1 2
1 0 0 0 1 1 0
1 1 0 1 1 2 0
0 0 2 2 0 0 2
_
_
_
_
_
_
_
_
_
_
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 40
Les coordonnees factorielles des categories
Notation On note a
k
= (a
1k
, . . . , a
1k
)

le vecteur `a m
1
+ + m
p
composantes
des coordonnees factorielles des categories sur laxe k.
Calcul de lAFC sur X comme la matrice des prols lignes est
1
p
X et celle des
prols colonnes XD
1
, a
k
est vecteur propre de
(XD
1
)

1
p
X =
1
p
D
1
X

X =
1
p
D
1
B
et donc lequation des coordonnees des categories est
1
p
D
1
Ba
k
=
k
a
k
avec la convention de normalisation
1
np
a

k
Da
k
=
k
.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 41
I Les donnees qualitatives
II Geometrie de nuages de prols
III LAFC : une ACP sur un nuage de prols
IV Aspects pratiques
V Analyse des correspondances multiples
VI LACM : une AFC sur tableau disjonctif
VII Aspects pratiques
VIII Interpretation externe
IX AFC vs. ACM
Formules barycentriques
Les coordonnees des individus Soit c
k
le vecteur `a n composantes des coordon-
nees des n individus sur laxe factoriel associe `a la valeur propre
k
. Dapr`es les resultats
de sur lAFC, on a
c
k
=
1

k
1
p
Xa
k
et donc c
ik
=
1

k
1
p

j categorie de i
a
jk
Les seuls termes non nuls dans le calcul de Xa
k
sont les coordonnees de la categorie
de chaque variable possedee par lindividu. On a la normalisation
V (c
k
) =
1
n
c

k
c
k
=
1

k
np
2
a

k
X

Xa
k
=
1

k
np
2
a

k
(p
k
Da
k
) =
1
np
a

k
Da
k
=
k
Barycentre des categories
`
A 1/

k
pr`es, la coordonnee dun individu est egale `a
la moyenne arithmetique simple des coordonnees des categories auxquelles il appartient.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 43
Formules barycentriques (suite)
On a de meme la seconde formule
a
k
=
1

k
D
1
X

c
k
et donc a
jk
=
1

k
1
n
i

i de categorie j
c
ik
Les seuls termes non nuls de X

c
k
sont les coordonnees des individus ayant une
categorie donnee.
Barycentre des individus
`
A 1/

k
pr`es, la coordonnee dune categorie est egale
`a la moyenne arithmetique des coordonnees des n
j
individus de cette categorie.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 44
Barycentres et representation
Representation commune Les points representatifs des categories sont barycentres
des groupes dindividus. On peut donc representer individus et categories dans un meme
plan factoriel.
Moyennes Comme c
k
est une variable de moyenne nulle, la formule de barycentre
indique que pour chaque variable X
i
, les coordonnees de ses categories (ponderes par
les eectifs) sont de moyenne nulle. Aucun centrage nest donc necessaire

Echelle pour que les categories se trouvent visuellement au barycentre des individus
qui les representent on peut remplacer a
k
par

k
= D
1
X

c
k
=

k
a
k
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 45
Proprietes des valeurs propres
Valeur propres triviales La valeur propre 1 est associee (comme en AFC) `a la
composante z
0
= (1, . . . , 1) dans lespace des individus. Les autres vecteurs propres
lui sont orthogonaux, et donc de moyenne nulle.
Autres valeurs propres Si n >

p
i=1
m
i
, le rang de X est

p
i=1
m
i
p + 1 et
le nombre de valeurs propres non trivialement egales `a 0 ou 1 est q =

p
i=1
m
i
p.
Somme La somme des valeurs propres non triviales est donc
q

k=1

k
= Tr
_
1
p
D
1
B
_
1 =
1
p
p

i=1
m
i
1 =
q
p
La moyenne des q valeurs propres vaut 1/p.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 46
Selection de variables et axes
Selection des variables on decide souvent de ne garder quun nombre reduit de
variables actives et de garder les autres comme variables supplementaires.
Selection des axes
r`egle courante : garder les axes tels que
k
> 1/p (la moyenne des valeurs propres
est 1/p).
les axes interessants sont ceux que lon peut interpreter, en regardant les contri-
butions des variables actives et les valeurs-tests associees aux variables supple-
mentaires (denies plus tard).
En pratique on se contente souvent dinterpreter le premier plan principal.
Inertie expliquee elle est moins interessante quen ACP.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 47
Categories et axes factoriels
Si n
j
est leectif de la categorie j et a
jk
sa coordonnee sur laxe factoriel k, alors
V (a
k
) =
1
np

jcategories
n
j
(a
jk
)
2
=
k
Categorie La contribution de la categorie j `a laxe factoriel est
1

k
n
j
np
(a
jk
)
2
,
interessante si elle est superieure au poids n
j
/np (`a un facteur pr`es comme en ACP et
AFC).
Variable la contribution totale de la variable X
i
`a laxe factoriel est
1

k
1
np

j modalite de X
i
n
j
(a
jk
)
2
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 48
Individus et axes factoriels
La normalisation de c
k
est

n
i=1
(c
ik
)
2
= n
k
, o` u c
ik
est la coordonnee de lindividu
i sur laxe factoriel k associe `a la valeur propre
k
.
Contribution dun individu elle est egale pour lindividu i `a
1
n
k
(c
ik
)
2
Cette contribution est jugee en la comparant au poids 1/n comme en ACP et AFC.
Qualite de la representation pour le sous-espace forme par les premier axes, la
qualite de la representation de lindividu i est le cosinus carre habituel

k=1
(c
ik
)
2

q
k=1
(c
ik
)
2
On denit de meme sur les a
jk
la qualite de la representation dune categorie j.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 49
Contribution `a linertie totale
Soit x
j
= (x
j
i
) le vecteur colonne de X correspondant `a une categorie j. On
rappelle que linertie totale vaut

jcategories
n
j
np
d
2
(j, g) =
1
p
p

i=1
m
i
1
La distance du prol-colonne j au centre de gravite des prols-colonnes g = 1/n est
d
2
(j, g) =
n

i=1
np
p
_
x
j
i
n
j

1
n
_
2
= n
n

i=1
_
x
j
i
n
2
j
+
1
n
2

2x
j
i
nn
j
_
=
n
n
j
1
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 50
Contribution `a linertie totale (suite)
Contribution dune categorie La contribution absolue de la categorie `a linertie
est
n
j
np
d
2
(j, g) =
1
p
_
1
n
j
n
_
,
qui est une fonction decroissante de leectif. Il faut donc eviter les categories deectif
trop faible, qui dailleurs se retrouveront dans les premiers axes
Contribution dune variable La contribution de la variable X
i
est

j modalite de X
i
1
p
_
1
n
j
n
_
=
m
i
1
p
Elle est dautant plus grande que le nombre de modalites de X
i
est eleve. Il faut donc
eviter les disparites trop grandes entre les nombre de modalites (quand on a le choix du
decoupage...)
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 51
I Les donnees qualitatives
II Geometrie de nuages de prols
III LAFC : une ACP sur un nuage de prols
IV Aspects pratiques
V Analyse des correspondances multiples
VI LACM : une AFC sur tableau disjonctif
VII Aspects pratiques
VIII Interpretation externe
IX AFC vs. ACM
Les variables supplementaires
Leur usage est tr`es courant en analyse des correspondances multiples.
Variables qualitatives on les place directement sur la projection sur un plan factoriel
en utilisant la formule de barycentre des individus : si on veut placer une variable
supplementaire de tableau disjonctif X
sup
et deectifs marginaux D
sup
, on calcule les
coordonnees de ses modalites sur un axe principal par
a
sup
=
1

k
D
1
sup
X

sup
c
k
Variables quantitatives on calcule `a la main leur correlation avec les axes fac-
toriels et on les place sur un cercle de correlations. On peut aussi les decouper en classes
et les traiter comme des variables qualitatives.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 53
Valeurs-test pour les variables supplementaires
But on cherche `a savoir si une categorie deectif n et de coordonnee a
k
sur cet axe
est liee `a cet axe.
Idee du calcul si les n individus dune categorie etaient pris au hasard, la moyenne
de leurs coordonnees serait une variable aleatoire centree (les c sont de moyenne nulle)
et de variance

k
n
n n
n1
. De plus, la moyenne des coordonnees est egale `a

k
a
k
.
Valeur-test cest la version centree et reduite de la moyenne des coordonnees
a
k

n
_
n 1
n n
.
Quand n est assez grand, elle est signicative si elle est superieure `a 2 ou 3 . On ne
doit pas lutiliser sur les variables actives.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 54
I Les donnees qualitatives
II Geometrie de nuages de prols
III LAFC : une ACP sur un nuage de prols
IV Aspects pratiques
V Analyse des correspondances multiples
VI LACM : une AFC sur tableau disjonctif
VII Aspects pratiques
VIII Interpretation externe
IX AFC vs. ACM
Points communs entre AFC et ACM
But decrire les liaisons entre plusieurs variables qualitatives
Cas p = 2
les coordonnees des modalites sont les memes pour les
deux analyses
Representation
toutes les modalites peuvent etre representees sur le
meme diagramme
Contribution
dune modalite `a
un axe
poids
(coordonnee)
2
valeur propre
Qualite de la
representation
dune modalite
par un sous
espace
cos
2
=

axes du sous esp.


(coord sur laxe)
2

tous les axes


(coord sur laxe)
2
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 56
Dierences entre AFC et ACM
AFC ACM
Individus non oui
Donnees
tableau de contingence
prols lignes/colonnes
tableau disjonctif
tableau de Burt
Poids dune
modalite
n
i
n
(prol-ligne)
n
j
n
(prol-colonne)
n
j
np
Nb de val.
propres
min(m
1
1, m
2
1)

p
i=1
m
i
p
Axes `a
conserver
pas de r`egle Kaiser ;
peut-etre part dinertie.
>
1
p
Variables sup-
plementaires
pas vraiment de sens
qualitatives et
quantitatives
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2011-2012. 57