Vous êtes sur la page 1sur 33

ANALYSE DES CORRESPONDANCES

MULTIPLES

Pierre-Louis Gonzalez
1
LA.C.M. dcrit les relations deux deux entre p
variables qualitatives travers une reprsentation des
groupes dindividus correspondant aux diverses
modalits.
Cette mthode est particulirement bien adapte
lexploration denqutes.
Technique de description de donnes qualitatives
n individus dcrits par p variables qualitatives
1
_
p
_
2
_
m
1
m
2
.. m
p
modalits
2
I - PRSENTATION FORMELLE
1. Donnes et notations
Chaque individu est dcrit par les numros des catgories
o il est class pour les p variables. Les donnes brutes se
prsentent sous forme dun tableau n lignes et p colonnes.
Les lments de ce tableau sont des codes arbitraires sur
lesquels aucune opration arithmtique nest licite.
La forme mathmatique utile pour les calculs est alors le
tableau disjonctif des indicatrices des p variables obtenu
en juxtaposant les p tableaux dindicatrices de chaque
variable
i
_
3
n=5 p=3 m
1
=3 m
2
=2 m
3
=3





1 2 3
2 1 1
2 2 2
3 2 1
3 1 2

(
(
(
(
(
(
1
2
3
4
5
















1 0 0
0 1 0
0 1 0
0 0 1
0 0 1
0 1
1 0
0 1
0 1
1 0
0 0 1
1 0 0
0 1 0
1 0 0
0 1 0

(
(
(
(
(
(
codage
rduit
codage
disjonctif
( )
X = X X X
1 2 3
La somme des lments de chaque ligne de X est gale p :
nombre de variables
La somme des lments dune colonne X donne leffectif
marginal de la catgorie correspondante.
4
3 1
1 5
2 3
3 1

N
0 0 1
1 0 0
0 1 0
0 0 1
n
individus
2 variables
qualitatives
Tri crois
Tableau de contingence
Tableau disjonctif
AFC
ACM
5
Lorsquil ny a que deux variables qualitatives
1
et
2
_ _
m
1
et m
2
modalits, lAFC formelle du tableau disjonctif
X est quivalente lAFC du tableau de contingence N

X = ( X
1
| X
2
) N = X
1
X
2


Cette proprit est lorigine de la mthode tudie ici

LAFC formelle du tableau X revient chercher les valeurs
propres et les vecteurs propres du produit des deux tableaux de
profils associs X
2. Une proprit remarquable de l AFC si p = 2
6
Bien que fournissant des axes identiques lanalyse des
correspondances de N, les inerties associes et les parts
dinertie sont trs diffrentes et ne peuvent tre
interprtes sans prcaution.
Ainsi le passage (thorique) dune analyse des
correspondances sur le tableau disjonctif associ au tableau
tudi au chapitre prcdent conduit aux rsultats suivants:
ACM

1 = 0,6 8%


2
= 0,54 7%


3
= 0,52 7%

AFC

1
= 0,040 83,7

2
= 0,005 11,5

3
= 0,001 2,4


7
8
Les valeurs propres qui taient trs spares dans lAFC
de N, ne le sont plus dans lACM du tableau disjonctif X

En AFC linertie est gale au Khi-deux associ au tableau de
contingence divis par le nombre dindividus

En ACM linertie est gale au nombre moyen de modalits
diminu de 1
II PRINCIPE DE LA.C.M.
1. Principe de lA.C.M.
On ralise lA.C.P. des profils-lignes avec la mtrique du Khi-
deux (comme en A.F.C.).
Les points reprsentatifs des catgories dans les graphiques
factoriels doivent tre considrs comme des barycentres.
2. Inertie totale du nuage de points
=

m
1
1
1
p
i
i
p
= nombre moyen de catgories diminu dune unit.
En gnral, vu la nature des donnes, les inerties portes par
les premiers axes sont faibles.
Les valeurs propres seront notes
Inertie

9
3. Formules de transition
Coordonne dune modalit
z = vecteur n composantes des coordonnes des individus sur
un axe.
a = vecteur composantes des coordonnes des catgories
des variables sur un axe
m
i
i
p
=

1
a X D Z = '

1
1

prs, la coordonne dune catgorie i est gale la


moyenne arithmtique des coordonnes des n
i
individus de
cette catgorie.
1

10
Exemple Axe 1
Coord(TA2) = [coord(Box) + coord (Cock)+coord(Dalm)
+ coord(EpBr) + coord (Labra)]
1
1 1
5

11
prs, la cordonne dun individu est gale la moyenne
arithmtique des coordonnes des catgories auxquelles il
appartient.
1

Coordonne dun individu


p
j j
j 1
1 1 1 1
z X a X a
p p
=
= =

Exemple Axe 1
Coord(Beauceron) = [coord(TA3) + coord (PO2) +
+ + coord (AG2)]
1
1 1
6

12
Linterprtation des rsultats dune A.C.M. se fait grosso modo
comme en analyse des correspondances sur tableau de contingence
et comme en en A.C.P.
Nanmoins :
On prendra garde ici au fait que les pourcentages dinertie nont
quun intrt restreint
La slection et linterprtation des axes factoriels se feront
essentiellement laide :
des contributions des variables actives
des valeurs tests associes aux variables supplmentaires.
III PRATIQUE DE LANALYSE DES
CORRESPONDANCES MULTIPLES
13
Rappelons une fois encore la signification des proximits entre
points-colonnes sur un plan factoriel : il sagit dune proximit,
en projection, de points moyens de catgories reprsentant
plusieurs individus.

14
1. Les contributions
1.1 Contributions un axe factoriel
Une catgorie j deffectif n
j
qui a pour coordonne a
j
sur
un axe factoriel fournit une contribution gale :

( )
( )
2
j
j
n
a
np
CTR j =

En A.C.M. les modalits dune mme variable ont des


contributions qui peuvent tre cumules.

( )
i
m
i
j 1
CTR( ) CTR j
=
_ =

i
_
15
1.2 Contributions linertie totale
Une catgorie est dautant plus loigne du centre que son effectif
est faible.


Linertie totale apporte par cette modalit vaut :



Elle dcrot en fonction de leffectif.
Il convient donc dviter de travailler avec des catgories
deffectif trop faible qui risquent de perturber les rsultats de
lanalyse (absence de robustesse).
( )
d j g
n
n
j
2
1 , =
( )
I j
p
n
n
j
=
|
\

|
.
|
1
1
16
Linertie totale dune variable vaut :

i
i
m 1
Inertie( )
p

_ =
La contribution linertie totale est dautant plus importante que
son nombre de modalits est lev.
On recommande gnralement pour cette raison dviter des
disparits trop grandes entre les nombres de catgories des
variables.
17
2) Rgles dinterprtation

2.1 Nombre daxes
On peut remarquer que si toutes les variables taient
indpendantes, toutes les valeurs propres seraient identiques et
gales 1/p.
Nanmoins le critre consistant interprter les axes dinertie
> 1/p est en gnral peu utilisable en pratique.

Il est prfrable dutiliser la formule de Benzecri.

18
19
2.2 Formule de taux dinertie corrig (Benzecri 1979)
En ACM les taux dinertie sont des mesures pessimistes de la
qualit dune reprsentation. On peut y remdier en utilisant la
formule de Benzecri
2 2
p
1
1 p
p
) ( taux
|
|
.
|

\
|

|
|
.
|

\
|

=
pour
p
1
>
p reprsente le nombre de variables actives

reprsente la valeur propre issue de lACM.

20
2.3 Interprtation des axes
Interprtation sommaire : On peut rechercher les variables dont
la contribution cumule est suprieure 1/p (parfois exprim en
%). Cela ne permet pas de donner une signification des axes
Interprtation dtaille : On cherche les modalits dont la
contribution est suprieure au poids.
CTR(j) > poids
Do:


On en dduit
( )
2
j
j
j
n
a
n
np
np
>

a
j
>
Cette expression montre que lon interprte essentiellement les
modalits loignes de lorigine.
Exemple: Plan 1-2
21
3. LUSAGE DE VARIABLES SUPPLMENTAIRES

3.1 Les deux groupes de variables
Les variables actives sont celles qui dterminent les axes
Les variables supplmentaires ne participent pas au calcul des
valeurs propres et vecteurs propres.
Elles peuvent tre reprsentes sur les plans factoriels selon le
principe barycentrique pour les variables qualitatives : chaque
catgorie est le point moyen dun groupe dindividus.

22
Le choix des variables supplmentaires obit diverses
proccupations.
Rduire la taille du tableau diagonaliser
Conforter linterprtation des axes par des variables
nayant pas servi les dterminer
Enfin, il est possible de mettre en variables
supplmentaires des variables quantitatives qui ne
pourraient tre actives ( moins de les rendre qualitatives
par dcoupage en classes).
Dans ce dernier cas, la plupart des logiciels se bornent
indiquer leurs corrlations avec les composantes factorielles.
23
3.2 Les tests associs
Pour pouvoir interprter la liaison entre un axe factoriel et une
variable supplmentaire, il faut pouvoir juger de lintensit
de cette liaison.
Si la variable supplmentaire est numrique X, on vrifiera si
la corrlation r(Z,X) dpasse un seuil critique
par exemple:

Si la variable supplmentaire est qualitative m modalits,
on testera la valeur du rapport de corrlation par un test de
Fisher-Snedecor (analyse de la variance un facteur).
2
2 n +
24
Valeur-test
Lebart et Morineau ont introduit cette notion pour chaque
modalit dune variable qualitative, afin de juger si le point
reprsentatif dune modalit est significativement diffrent de la
moyenne gnrale.
Cest le cas si:

V . . T > 2
25
Principe de calcul de la valeur-test
Soit a
i
la coordonne dune modalit dune variable
supplmentaire, deffectif n
i
, sur un axe dinertie gale
Si les n
i
individus de cette catgorie taient pris au hasard
parmi les n individus de lchantillon (sans remise), la moyenne
des coordonnes des n
i
individus concerns serait une variable
alatoire centre, de variance gale :

Avec les conventions habituelles de la reprsentation
simultane :

n
n n
n
i
i

1
a
i
=
1

(moyenne des coordonnes)


26
( ) moyenne des coordonnes o
cart type

La quantit
= =

VT a n
i i
i
n
n n
1
mesure donc en nombre dcart-type lloignement du point
reprsentatif dune modalit par rapport lorigine.
Si n
i
assez grand, on comparera cette valeur celle dune
variable de Laplace Gauss LG (0,1) en raison du thorme
central-limite.
On considre donc comme significatives dun axe les
catgories qui ont une valeur-test suprieure en valeur
absolue 2 (au seuil 5 %).
27
Remarques :
Cette pratique permet un dpouillement rapide des rsultats :
En principe, le calcul des valeurs-tests nest lgitime que pour
des variables supplmentaires nayant pas servi la
dtermination des axes.
Leur utilisation pour des variables actives ne doit tre
considre qu titre indicatif.

28
4) propos du dcoupage en classes
La pratique qui consiste dcouper en classes des variables
numriques, donc les rendre qualitatives, pour ensuite effectuer
une analyse des correspondances multiples se justifie par le fait
quil sagit dune analyse non linaire des donnes.
Sous rserve davoir suffisamment dobservations par classe on
peut ainsi utiliser des liaisons non linaires entre variables qui
ne seraient pas apparues en A.C.P. ordinaire o lon travaille
avec la matrice R des corrlations linaires.

29
Les n individus classer sont dcrits par des variables
qualitatives
1. Donnes de prsence - absence
On utilise un des indices de dissimilarit dduit des indices de
similarit proposs qui combinent de diverses manires les quatre
nombres suivants associs un couple dindividus.
a = nombre de caractristiques communes
b = nombre de caractristiques possdes par i et pas par j
c = nombre de caractristiques possdes par j et pas par i
d = nombre de caractristiques que ne possdent ni i, ni j.
IV. LA CLASSIFICATION DE DONNES QUALITATIVES
30
Jaccard

Dice ou Czekanowski

Ochia

Russel et Rao

Rogers et Tanimoto

a
a b c + +
Les indices compris entre 0 et 1 sont aisment
transformables en dissimilarit par complmentation 1.

2
2
a
a b c + +
( ) ( )
a
a b a c + +
a
a b c d + + +
( )
a d
a d b c
+
+ + + 2
31
2. Individus dcrits par des variables qualitatives m
1
m
2
...
m
p
modalits
On utilise la reprsentation disjonctive complte et la distance du
Khi-deux entre lignes du tableau.



Elle traduit le fait que deux individus ayant en commun une
modalit rare sont plus proches que deux individus ayant en
commun une modalit frquente.
On utilise alors la mthode de Ward (puisque la distance du Khi-
deux est euclidienne) sur le tableau des distances.
( )
d i i
np
n
x x
p
j
ij i j
j
_
2
2
2
, ' =

|
\

|
.
|

'

32
Autre solution :
Classification hirarchique sur le tableau des coordonnes
factorielles des n individus aprs A.C.M. de X.
Les deux approches sont quivalentes si on utilise tous les
facteurs de lA.C.M. soit
en conservant la normalisation de chaque axe

Cette approche permet toutefois de ne slectionner que certains
facteurs et donc de ne pas prendre en compte une information
rsiduelle considre comme du bruit.
m p
i

33