Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Chapitre 6
Analyse des correspondances simples
L’analyse factorielle des correspondances s’intéresse aux variables qualitatives (correspondance au sens de
tableau croisé de deux variables ). Cette méthode a été développée dans les années 1960 1970 par le professeur
Benzecri et ses collaborateurs à l’université Jussieu. Elle consiste à représenter séparément sur deux graphiques
distinctes les modalités-ligne et les modlités-colonne du tableau croisé. Des propriétés mathématiques éton-
nantes (au sens de non intuitives) autorisent la superposition des deux graphiques. Aussi il n’est pas étonnant
que cette partie apparaisse un peu plus complexe que la précédente.
A la différence de l’analyse en composantes principales, on n’a pas ici un tableau individus-variables, mais
un tableau qui donne le croisement de deux variables, les individus sont cachés à l’intérieur du tableau, puisque
chaque case du tableau exprime un nombre de voitures.
Le but de l’analyse des correspondances est de produire une représentation graphique des départements et
des types de voiture. Idéalement, nous voudrions que
• deux départements sont proches sur le graphique si les différents types de voiture sont présents dans les
mêmes proportions
• deux types de voiture sont proches sur le graphique si dans chaque département, elles sont représentées
dans les mêmes proportions
Proportion, le mot est important, on ne peut comparer les effectifs bruts entre deux départements, on peut
comparer les proportions. Cela revient à diviser chaque case du département par son total comme dans le
tableau ci-dessous
%lignes Ber23Neuve Ber45Neuve BreakNeuf MonospNeuf Ber23occas Ber45Occas Breakoccas Monospoccas total proporton
Paris 57,67 221,91 43,63 114,07 143,93 312,40 31,76 74,63 1000 0,1205
Seine-et-Marne 36,35 127,98 18,71 73,41 170,98 434,07 38,87 99,63 1000 0,1274
Yvelines 52,99 203,43 43,58 119,50 134,24 331,23 30,95 84,08 1000 0,1619
Essonne 39,20 139,53 20,68 81,54 167,89 415,97 35,12 100,06 1000 0,1196
Hauts-de-Seine 51,86 225,67 47,92 157,62 129,62 285,50 26,84 74,99 1000 0,1445
Seine-Saint-Denis 21,52 100,61 13,72 57,26 187,60 493,23 34,07 91,98 1000 0,1165
Val-de-Marne 37,67 138,54 18,29 74,53 182,07 420,99 30,41 97,51 1000 0,0990
Val-d'Oise 35,00 127,35 19,09 67,49 180,00 441,00 34,04 96,01 1000 0,1106
Île-de-France 42,45 164,80 29,62 96,49 159,45 385,48 32,62 89,09 1000 1,0000
1
Pour pouvoir comparer les profils des départements, on a ramené chaque département à un total de 1000
voitures. On a rajouté une dernière colonne pour rappeler l’importance relative de chaque département en Ile
de France.
Nous pouvons comparer Paris et la Seine-et-Marne sur chacun des types de voitures. On constate bien
55, 67 − 36, 35 sur Ber23Neuve
221, 91 − 127, 98 sur Ber45neuve
entendu des différences qui sont de
...
74, 63 − 31, 76 sur Mosospocas
Pour convertir ces différences en écarts, il faut évidemment les élever au carré : on a donc des écarts de
(55.67 − 36.35)2 = 373, 26 sur Ber23Neuve
(221.91 − 127.98)2 = 8822, 8 sur Ber45neuve
...
(74.63 − 31.76)2 = 1837, 8 sur Mosospocas
On a une première évaluation de l’écart entre deux départements par la somme sur toutes les colonnes de
ces écarts. En fait, on n’est pas très satisfait de ce calcul, car, comme dans le cas de l’analyse en composantes
principales, on a un problème d’échelle. L’écart sur Ber45neuve est très important, parce que dans ces dé-
partements, comme dans tous les autres, cette modalité est trés représentée. Il s’en suit que les proportions
correspondantes sont grandes et ipso fato que les écarts sont grands.
Si on distinguait trois types de Ber45neuve : les Rouges, les Jaunes et les Vertes, il faudrait diviser les
effectifs correspondants par 3 et on aurait
Rouge Jaune Verte Total
Paris 73,97 73,97 73,97
Seine-et-Marne 42,66 42,66 42,66
Ecart au carré 980,32 980,32 980,32 2940,95
ce qui conduit à un écart par type de voiture de (73, 97 − 42, 66)2 = 980, 32 et un écart total de 2940, 95
pour la Ber45neuve qui est loin des 8822, 8 obtenu en ne considérant qu’un seul type de voitures.
En d’autre termes, l’écart total que nous venons de calculer est dépendant du découpage de la variable
"type de voitures" en ses différentes modalités. Ceci n’est pas acceptable, c’est pourquoi on propose un autre
calcul des écarts entre deux départements, qui rend le calcul de l’écart neutre vis à vis de ce problème que
l’on appelle techniquement l’équivalence distributionnelle
L’idée du professeur Benzecri est de relativiser l’écart en tenant compte des proportions de Ber45neuve
dans la population entière. Commençons par rappeler les diverses proportions:
On calcule alors un écart relatif pour Ber45neuve en divisant le carré de l’écart par la proportion en Ile de
France. les calculs sont donc
2
A la troisième décimale près les calculs coïncident. Donc si nous adoptons cette définition de la mesure
de l’écart entre deux départements, nos calculs deviennent insensibles au regroupement de deux modalités du
type de voiture présentes dans les mêmes proportions dans les deux départements.
Comme d’habitude, la moyenne des écarts entre individus est reliée à la moyenne des écarts entre chaque
individu et le point moyen. Il se trouve que cette notion est reliée à une autre notion familère aux statisticiens,
la distance dite du chi deux (écrire X 2 et prononcer ki deux ) qui sert à vérifier s’il y a un lien entre les
modalités prises par deux variables qualitatives (l’analogue de la corrélation pour les variables quantitatives).
En fait, la moyenne (pondérée) des écarts entre chaque individus et le point moyen est égale à la distance
du X 2 divisée par l’effectif total du tableau.
Nous reviendrons un peu plus loin dans l’exposé sur la distance du X 2 , et nous consacrerons une leçon
entière à la présentation de ce concept important.
Maintenant que nous savons calculer l’écart (au carré) entre deux départements, "il n’y a plus qu’à" faire
le dessin qui représente au mieux ces écarts.
Nous disposons d’un certain nombre de points, les départements d’Ile de France dont on connait les écarts.
On veut faire un dessin qui représente le plus fidélement possible les écarts entre ces points.
Le même problème se poserait dans la situation suivante: on dispose des distances (à vol d’oiseau) entre
les villes de France. Comment, à partir de ces distances, représenter les villes sur une carte ? Combien de
cartes peut on obtenir ?
Evidemment, on peut obtenir au moins deux cartes : la carte habituelle avec Brest à l’Ouest, Dunkerque
au Nord, Strasbourg à l’Est et Marseilles au Sud et la même carte vue dans un miroir. Y en a t’il d’autres ?
comment construire la carte ?
La méthode MDS du Multi Dimensional Scalling a été créée en réponse à ces questions: il n’y a que deux
cartes et on sait comment les obtenir: en annexe du polycopié, on trouvera une présentation de cette méthode.
Une première présentation de l’analyse factorielle des correspondances consiste à en exploiter les résultats.
Mais nous préférons nous appuyer sur les résultats de l’analyse en composanes principales, seconde façon
de présenter l’analyse des correspondances.
En analyse en composantes principales, on produit deux graphiques : le graphique des variables représente
les corrélations entre variables et le graphique des individus représente au mieux les écarts entre individus.
C’est ce dernier graphique qui nous intéresse. Pour le réaliser, il faut définir des variables, des valeurs prises
par les individus et définir l’écart entre deux individus comme la somme sur toutes les variables des carrés des
écarts de modalités.
Avant de nous encombrer de notations compliquées, donnons des noms "simples" comme A, B, C etc. aux
variables :
3
Ber23Neuve Ber45Neuve BreakNeuf MonospNeuf Ber23occas Ber45Occas Breakoccas Monospoccas proportion
Individu a b c d e f g h total P
Paris 1 57,67 221,91 43,63 114,07 143,93 312,40 31,76 74,63 1000 0,1205
Seine-et-Marne 2 36,35 127,98 18,71 73,41 170,98 434,07 38,87 99,63 1000 0,1274
Yvelines 3 52,99 203,43 43,58 119,50 134,24 331,23 30,95 84,08 1000 0,1619
Essonne 4 39,20 139,53 20,68 81,54 167,89 415,97 35,12 100,06 1000 0,1196
Hauts-de-Seine 5 51,86 225,67 47,92 157,62 129,62 285,50 26,84 74,99 1000 0,1445
Seine-Saint-Denis 6 21,52 100,61 13,72 57,26 187,60 493,23 34,07 91,98 1000 0,1165
Val-de-Marne 7 37,67 138,54 18,29 74,53 182,07 420,99 30,41 97,51 1000 0,0990
Val-d'Oise 8 35,00 127,35 19,09 67,49 180,00 441,00 34,04 96,01 1000 0,1106
Île-de-France t 42,45 164,80 29,62 96,49 159,45 385,48 32,62 89,09 1000 1,0000
Nous avons repéré les variables par des "minuscules" car, comme dans le cas de l’Analyse en Composantes
Principales, nous allons devoir procéder à un changement d’échelle sur les variables, nous avons numéroté les
individus de 1 à 8, en effet, l’Ile de France n’est pas un individu comme les autres, c’est un récapitulatif de
tous les autres individus, nous l’avons appelé individu t (comme total) et nous verrons qu’il s’agit en fait de
l’individu moyen.
Pour choisir les échelles sur les différents axes, servons nous du raisonnement fait sur la variable b (les
2
Ber45neuve). L’écart entre les individus 1 et 2 (Paris et Seine-et Marne) vaut (221,91−127,98)
164,80 soit, avec les
(b1 −b2 )2
notations évidentes, bt . Pour faire apparaître ce nombre comme le carré d’une différence de valeurs, il
faut écrire :
(b1 −b2 )2
bt = ( b1√−b
b
) = ( √b1b −
2 2 b2 2
√
bt
)
t t
√
En d’autre termes,√il faut remplacer la variable b par la variable B = b/ bt et calculer pour chaque individu
i la quantité Bi = bi / bt
Pour calculer la moyenne de la variable B par exemple, il faut faire la somme des modalités observées
en tenant compte du fait que les individus sont pesants. En effet, dans l’analyse en composantes principales
telle que nous l’avons vue dans la leçon précédente, tous les individus avaient le même poids, c’est à dire que
chaque individu est aussi important qu’un autre. Ici, ce n’est pas le cas et ce ne doit pas être le cas toujours
en raison de l’équivalence distributionnelle. Supposons que l’on remplace le département de l’Essonne par 42
cantons, qui adoptent chacun un 42ème des immatriculations de l’Essonne. Normalement, les analyses des
deux situations devraient donner le même résultat, sinon l’analyse des immatriculations en Ile de France serait
sensible à la façon dont on choisit les modalités du découpage de la région.
Pour tenir compte de cet effet, on pondére chaque département par son effectif, et c’est la raison de la
présence de la variable p (comme proportion dans le tableau.
maintenant,
4
et quand je fais la somme sur tous les départements :
8
total immatriculations ber45neuves
pi bi = total immatriculations = bt
i=1
8
√
On trouve donc B = √1 pi bi = √1 bt = Bt = bt
bt bt
i=1
Donc, la moyenne de la variable B est bien la valeur observée pour l’Ile de France. On dit que la marge du
tableau définit le point moyen
Les variances des variables ne reçoivent pas d’interprétation évidentes. Mais ce qui compte ici c’est que les
écarts entre individus sont bien égaux à la somme des écarts sur toutes les variables. Il n’est pas opportun de
réduire les variables, il faut faire une analyse en composantes principales non normée.
Ce qu’il faut garder à l’esprit, c’est que les variables que nous avons créées sont complètement artificielles.
Elles ne sont là que comme des béquilles pour pouvoir facilement dresser la carte des individus. Pour les
résultats, on s’intéressera donc uniquement aux valeurs propres et aux coordonnées des départements
vecteurs propres
Eigen % %
Axis
value explained cumulated
1 0,048142 96,18% 96,18%
2 0,001082 2,16% 98,34%
3 0,000451 0,90% 99,24%
4 0,000295 0,59% 99,83%
5 0,000078 0,16% 99,99%
6 0,000006 0,01% 100,00%
7 0 0,00% 100,00%
Tot. 0,050054 - -
Comme nous faisons une analyse non normée, la somme des valeurs propre est égale à la somme des
variances des variables artificielles, et aussi égale à (la moitié) de la moyenne des carrés des écarts √ entre
individus. Rappelons alors que les variables ont été calibrées (en divisant la colonne b par exemple par bt )
pour que la somme des variances des variables soit égale à la distance du χ2 divisée par l’effectif total. Comme
la somme des variances des variables est égale (dans une ACP) à la somme des valeurs propres, on en déduit
que la distance du χ2 du tableau analysé est égale à 0, 050054 ∗ 1092307. Ce qui fait que l’on peut ainsi avoir
une idée de la quantité d’informatio (au sens du χ2 ) contenue dans le tableau analysé.
D’autre part, comme les valeurs des variables sont des proportions, comprises entre 0 et 1, les carrés des
écarts sont des nombres très faibles (même si on les divise par les proportions moyennes de la ligne Ile de
France) Il en résulte que les valeurs propres sont petites. On montre plus généralement
propriété 1 toutes les valeurs propres sont inférieures à 1, et la somme des valeurs propres est égale à la
distance du χ2 entre les lignes et colonnes du tableau divisée par l’effectif total du tableau.
Ainsi, dans le cas de l’analyse des correspondances, pas question d’appliquer la règle de Kaiser pour choisir
le nombre d’axes significatifs. Il faut s’en remettre à des règles de bon sens comme la règle du coude. Dans le
cas qui nous occuppe, il est clair que deux axes suffisent.
Ensuite, on nous donne les coordonnées sur les différents axs, les CTR et les COS2 comme dans le cas
d’une analyse en composantes principales
5
Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2 cos 1 cos 2
0,92 0,06
Paris 0,12051 0,05282 0,00637 -0,22061 -0,0576 12,18 36,97
(0,92) (0,98)
0,96 0,00
Seine-et-Marne 0,1274 0,02805 0,00357 0,16433 -0,0061 7,15 0,44
(0,96) (0,96)
0,97 0,01
Yvelines 0,16191 0,03573 0,00578 -0,18658 -0,01345 11,71 2,71
(0,97) (0,98)
0,93 0,00
Essonne 0,11961 0,01354 0,00162 0,11241 -0,00395 3,14 0,17
(0,93) (0,93)
0,97 0,03
Hauts-de-Seine 0,14454 0,10936 0,01581 -0,32552 0,0572 31,81 43,73
(0,97) (1,00)
0,97 0,01
Seine-Saint-Denis 0,1165 0,09505 0,01107 0,30346 0,03609 22,28 14,03
(0,97) (0,98)
0,92 0,00
Val-de-Marne 0,09897 0,02148 0,00213 0,14075 -0,01035 4,07 0,98
(0,92) (0,93)
0,99 0,00
Val-d'Oise 0,11056 0,03351 0,00371 0,18254 -0,00977 7,65 0,98
(0,99) (1,00)
• Weight est le poids associé à l’individu-département dans l’analyse. Il correspond à la variable pi que
nous avons déjà rencontré
• Sq.Dist correspond à l’écart total entre l’individu et le point moyen (l’Ile de France). Il représente en
quelque sorte l’éxcentricité de l’individu. Plus cet indicateur est fort, plus l’individu en question est
différent des autres (modélisés par l’individu moyen). Cet indicateur sert à trouver d’éventuels points
aberrants. Si les Sq.dist sont comparables les unes aux autres, on ne peut en aucun cas en faire la somme
sur des individus dfférents
• Inertia tempère quelque peu la variable précédente. On sait que le calcul de la moyenne des écarts
individuels se ramène au calcul de variances, c’est à dire des écarts à la moyenne. Dans ce calcul chaque
individu est pondéré par son poids, et on appelle Inertie de l’individu le produit de son poids (Weight)
par sa distance au point moyen (Sq.dist). ainsi, pour Paris, on a
Weight = 0, 12051
Inertia=Weight*Sq.dist
Sq.dist = 0, 05282 et donc
0, 00637 = 0, 12051 ∗ 0, 05282
Inertia = 0, 00637
On rappelle simplement
I
la variance de X est égale à V ar(X) = pi Xi2
i=1
en effet, d’une part on doit tenir compte du fait que les individus sont pesants, d’autre part, nous savons
que les axes sont centrés : la moyenne de la variable X est nulle.
dans cette formule, la contribution de l’ndividu i est pi Xi2 et CT Ri la contribution relative de l’individu i
est
pi Xi2
CT Ri = V ar(X)
Ensuite, on doit se souvenir que la variance des coordonnées sur un axe est égale à la valeur propore asociée
à l’axe.
6
ainsi la CTR de Paris à l’axe 1 est calculée facilement
poids coord1 valeur propre CTR
Paris 0,12051 -0,22061 0,048142 12,18
2
en appliquant la formule, on obtient CTR= 0,12051∗(−0,22061)
0,048142 = 0, 12183
On trouve la même chose au coefficient 100 près (le totale des CTR calculée par le logiciel vaut 100)
Pour faire bref, on rappelle que l’axe ne fait qu’opposer les individus qui ont une CTR importante: pour
interpréter l’axe, on peut se restreindre aux individus qui ont une CTR importante.
L’écart total de l’individu à la moyenne (qui représente aussi l’écart total de l’individu aux autres individus)
s’exprime comme la somme sur toutes les variables des écarts entre la modalité de l’individu et la moyenne de
la variable. C’est ce que l’on appelle dans le logiciel la Sq-dist.
Si j’appelle Xi , Yi , Zi , ... les coordonnées des l’ndividu i sur les différents axes, alors
le COS de l’individu i sur l’axe X par exemple est égal à la part de la variable X dans cette somme soit
Xi2
COSi = Sq−disti
(−0,22061)2
le calcul donne COS1 = 0,05282 = 0, 92141
Pour faire bref, les COS mesure l’importance de l’axe dans l’explication de l’individu.
• Si un individu a un faible COS sur un axe, cet axe ne représente en rien en quoi l’individu se distingue
des autres. On ne doit pas commenter la position de cet individu sur l’axe.
• Si un individu a un gros COS sur un axe, alors les écarts entre cet individu et les autres sont bien
représentés par l’axe et on peut commenter la place de l’individu par rapport aux autres.
Les coordonnées des départements sur les deux premiers axes permettent de faire un graphique
Hauts-de-Seine
Seine-Saint-Denis
Essonne Seine-et-Marne
Yvelines Val-d'Oise
Val-de-Marne
Paris
7
Pour commenter le graphique, on commence par s’assurer que les différents départements sont bien
représentés, c’est à dire qu’ils ont un Cos important, ce qui est le cas.
Les quatre départements de l’Essonne, de Seine-et-Marne, du Val d’Oise et du Val-de-Marne sont situés
les uns à côté des autres, ils sont donc très proches en termes d’immatriculation, comme on peut le voir sur
l’extrait du tableau des profils suivant en comparaison avec un département éloigné comme par exemple celui
des Hauts-de-Seine
Hauts-de-Seine 5 51,86 225,67 47,92 157,62 129,62 285,50 26,84 74,99 1000 0,1445
Maintenant, on peut refaire la même présentation des écarts entre les colonnes du tableau, à savoir les
types de voiture
On commencera donc à calculer les profils associés à chacun des types de voiture. Pour retrouver la même
présentation que dans les sections précédentes, on est obligé de transposer tableau, c’est à dire d’intervertir
les variables en ligne et en colonne.
Seine-Saint-Denis Val-d'Oise Seine-et-Marne Val-de-Marne Essonne Yvelines Paris Hauts-de-Seine Île-de-France proportion
Ber45Neuve 71,12 85,44 98,94 83,20 101,27 199,85 162,27 197,92 1000 0,042
MonospNeuf 69,13 77,34 96,93 76,44 101,07 200,51 142,47 236,11 1000 0,165
BreakNeuf 53,97 71,28 80,49 61,11 83,52 238,24 177,53 233,85 1000 0,030
Ber23Neuve 59,05 91,17 109,09 87,82 110,45 202,11 163,74 176,57 1000 0,096
Breakoccas 121,71 115,39 151,86 92,29 128,81 153,65 117,36 118,93 1000 0,159
Monospoccas 120,28 119,15 142,48 108,32 134,34 152,81 100,95 121,66 1000 0,385
Ber23occas 137,06 124,81 136,61 113,01 125,94 136,31 108,78 117,49 1000 0,033
Ber45Occas 149,06 126,48 143,46 108,09 129,07 139,12 97,66 107,05 1000 0,089
Total 120,51 127,40 161,91 119,61 144,54 116,50 98,97 110,56 1000,00 1
Avec un peu d’habitude, on gardera toujours les variables à la même place, et on parlera de profils ligne
quand on étudie les écarts entre les modalités-lignes du tableau comme dans les sections précédentes et de profils
colonne quand on étudie les écarts entre modalités de la varible "colonne" du tableau et on se préoccupera du
tableau suivant qui donne exactement la même information que le précédent:
8
Ceci dit, on refait un travail analogue, en associant à chaque département une variable artificielle. les
résultats de l’analyse en composantes principales de ce tableau donnent
Eigen % %
Axis
value explained cumulated
1 0,048142 96,18% 96,18%
2 0,001082 2,16% 98,34%
3 0,000451 0,90% 99,24%
4 0,000295 0,59% 99,83%
5 0,000078 0,16% 99,99%
6 0,000006 0,01% 100,00%
7 0 0,00% 100,00%
Tot. 0,050054 - -
On vérifie bien que la somme des valeurs propres est la même que précédemment, puis qu’elle est égale,
nous l’avons vu, à la distance du χ2 entre les variables du tableau des effectifs, divisée par l’effectif total.
En fait le tableau analysé ici présente autant de lignes que de colonnes. Dans la pratique, on pourra
s’intéresser à des tableaux présentant des nombres de lignes et de colonnes distincts. Par exemple, si vous
analysez un tableau présentant la répartition de la population française suivant le département où habite
chaque personne et l’age de la personne (en dix tranches d’âge), vous obtenez un tableau de 10 colonnes sur
90 lignes. Quand vous analysez les écarts entre profils-lignes, chaque colonne est une variable et vous avez
donc 10 variables, 10 valeurs propres. Quand vous analysez les écarts entre les profils-colonnes, vous avez 90
variables et donc 90 valeurs propres. Dire que les valeurs propres sont les mêmes, c’est dire que que dans le
second cas il y a 10 valeurs propres indentiques à celles du premier cas et 80 valeurs propres nulles.
D’ailleurs, parmi les 10 valeurs propres, il y en a une "triviale". En effet quand on regarde par exemple les
profils lignes, avant de "normaliser les variables", on sait que la somme des éléments d’une même ligne vaut
toujours 1. Si on connaît la valeur des 9 premières variables, on connaît forcément la valeur de la dixième.
Dans le tableau, il y aurait donc non pas 10 variables qui peuvent prendre des valeurs "comme elles veulent",
mais 9 et l’analyse ne présenterait que 9 vleurs propres.
Dans le tableau des immatriculations en Ile de France, il y a 8 lignes et 8 colonnes, on calculer donc 7
valeurs propres comme indiqué dans le tableau des valeurs propres.
les coordonnées des individus types de voiture:
Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2 cos 1 cos 2
0,99 0,01
Ber45Neuve 0,1648 0,07815 0,01288 -0,27794 -0,02569 26,45 10,06
(0,99) (1,00)
0,99 0,00
Ber45Occas 0,38548 0,03227 0,01244 0,17897 0,00815 25,65 2,37
(0,99) (0,99)
0,94 0,05
MonospNeuf 0,09649 0,11575 0,01117 -0,33068 0,07788 21,92 54,11
(0,94) (1,00)
0,98 0,00
BreakNeuf 0,02962 0,2083 0,00617 -0,45179 -0,00773 12,56 0,16
(0,98) (0,98)
0,88 0,11
Ber23Neuve 0,04245 0,06891 0,00292 -0,24633 -0,08571 5,35 28,83
(0,88) (0,99)
0,77 0,00
Monospoccas 0,08909 0,01258 0,00112 0,09857 -0,00772 1,8 0,49
(0,77) (0,78)
0,95 0,00
Ber23occas 0,15945 0,01871 0,00298 0,13313 -0,00458 5,87 0,31
(0,95) (0,95)
0,54 0,11
Breakoccas 0,03262 0,01134 0,00037 0,07816 -0,0349 0,41 3,67
(0,54) (0,65)
9
On retrouve dans le second tableau les mêmes indicateurs Weight, Sq.dist et Inertia. Les individus sont
tous bien représentés et on peut faire un graphique sur les deux premiers axes:
MonospNeuf
Ber45Occas
BreakNeuf Ber23occas
Monospoccas
Ber45Neuve
Breakoccas
Ber23Neuve
Comme dans le graphique précédent, on peut commenter la proximité de deux types de voitures ou leur
éloignement. Mais l’intérêt de l’analyse factorielle des correspondances réside dans le fait que l’on peut associer
les deux analyses
Le problème dans ce type d’analyse, c’est l’importance des calculs mathématiques. En fait, les deux analyses
sont liées. Si les départements des Hauts de Seine et Paris sont éloignés, c’est que leurs profils sont vraiment
différents, ils n’accordent pas la même importance aux types de voiture, et de "manière duale" (comme on dit
dans la profession) les types de voitures ne sont pas distribués de la même façon entre les départements. Donc,
il doit y avoir une, voire plusieurs relations fortes entre les deux analyses. Laissons aux mathématiciens le soin
d’établir ces relations dont l’obtention n’est pas vraiment immédiate. On chuchotte même que le professeur
Benzecri, qui a établi ces relations avec une de ses étudiantes en thèse, ne s’est rendu compte de l’existence
même de ces relations que lors de l’implémentation des algorithmes de calcul des deux analyses en composantes
principales sur ordinateur. Ils ont obtenu les relations en simplifiant la programmation.
Ceci dit, le fait qu’il soit compliqué d’obtenir les relations ne doit pas nous empêcher de les utliser. En
fait, ils ont établi trois types de relations :
• une formule de reconstitution des données qui permet de retrouver le tableau des données à partir
des coordonnées sur les axes, un peu comme dans le cas de l’analyse en composantes principales quand
nous avions retrouvé les valeurs estimées des variables à partir des coordonnéees factorielles des individus
et de celle des variables
• des formules de transition qui permettent de calculer de façon simple les coordonnées des lignes à
partir des coordonnées des colonnes (et vice-versa) à condition de connaitre les profils des lignes et des
colonnes.
Pour comprendre cette formule, nous avons besoin de quelques notations : reprenons le tableau des données
en nous intéressant plus particulièrement à
10
la ligne Essonne que j’appellerai ligne i
et
à la colonne Ber45Neuve que j’appellerai colonne j
Ber45Neuve
dept Ber23Neuve BreakNeuf MonospNeuf Ber23occas Ber45Occas Breakoccas Monospoccas total
colonne j
Paris 7592 29211 5743 15016 18946 41123 4181 9824 131636
Seine-et-Marne 5058 17810 2604 10216 23794 60408 5410 13865 139165
Yvelines 9371 35977 7707 21133 23741 58578 5474 14870 176851
Essonne ligne i 5121 Nij = 18230 2702 10653 21935 54347 4589 13073 Ni = 130650
Hauts-de-Seine 8187 35629 7565 24885 20464 45076 4237 11839 157882
Seine-Saint-Denis 2738 12803 1746 7286 23872 62764 4336 11705 127250
Val-de-Marne 4072 14977 1977 8057 19683 45512 3288 10541 108107
Val-d'Oise 4227 15380 2306 8151 21738 53258 4111 11595 120766
Total 46366 Nj = 180017 32350 105397 174173 421066 35626 97312 N = 1092307
Quand on fait le profil de la ligne i, on divise tous les nombres de la ligne par le total Ni de la ligne i.
Nij 18230
Dans la case (i, j) on trouve donc Ni = 130650 = 0, 13953
Quand on fait le profil "moyen, on divise le total de la colonne j par le total général
Nj 180017
Dans la case (total,j) on trouve donc N = 1092307 = 0.1648
Ber45Neuve
dept Ber23Neuve BreakNeuf MonospNeuf Ber23occas Ber45Occas Breakoccas Monospoccas total
colonne j
Paris
Seine-et-Marne
Yvelines
Essonne ligne i 0,0392 Nij/Ni = 0,1395 0,0207 0,0815 0,1679 0,4160 0,0351 0,1001 1,0000
Hauts-de-Seine
Seine-Saint-Denis
Val-de-Marne
Val-d'Oise
Total 0,0424 Nj/N = 0,1648 0,0296 0,0965 0,1595 0,3855 0,0326 0,0891 1,0000
Bien entendu, dans la ligne Total, on a le profil moyen. Dire que l’on veut comparer le pofil de la ligne i
au profil moyen, c’est dire qu’on va comparer terme à terme ou plutôt "colonne à colonne" les nombres de la
ligne i à ceux de la ligne Total. En particulier, on va comparer les nombres NNiji et NNj
11
Nij Ni Nj
N > N ∗ N
Les mathématiciens simplifient toujours leurs notations, mais pour les utilisateurs, cela peut sembler em-
brouiller un peu le problème, car il semble que l’on ait plusieurs noms pour le même objet.
Ils ont décidé de prendre le tableau de données initiales et de diviser tous les nombres pr le "grand total"
N. et définissent ainsi les fréquences de chaque case du tableau, à savoir pour la case (i, j)
Nij
Fij = N
Dire qu’il y a excédent de la modalité colonne j daans la modlité ligne i c’est dire que Fij > Fi Fj . Autrement
dit comparer le profil de la ligne i au profil moyen revient à comparer la fréquence Fij de chaque case (i, j)
avec le produit des marges correspondant Fi Fj .
Nous verrons que ce genre de raisonnement est exactement celui que l’on fait quand on veut faire le test du
X 2 qui détermine si deux variables qualitatives sont liées ou non. Pour le moment, contentons nous de savoir
que Fij − Fi Fj nous renseigne sur la comparaison de ce qui se passe dans la case (i, j) par comparaison à ce
que donneraient les marges. Notons que
Fij
Fi > Fj
Si Fij > Fi Fj , alors Fij
Fj > Fi
On retrouve bien que les analyses des profils lignes et des profils colonne sont liées.
Pour s’en convaincre, calculons l’écart du profil i au profil moyen. Cet écat est la somme sur toutes les
colonnes j de la quantité ( FFiji − Fj )2 /Fj qui peut se réérire en "enlevant les divisions à l’intérieur du terme en
carré"
Cette quantité est donc la partie du carré de la distance entre la ligne i et la ligne moyenne, partie due à
la colonne j
Maintenant, savoir que la ligne i est à une distance de 18,45632 de la ligne moyenne, c’est intéressant, mais
quand on va faire la moyenne des distances entre chaque ligne et la ligne moyenne, il va falloir tenr compte des
poids relatifs des différentes lignes et donc des Inerties. Autrement dit, nous allons multiplier chaque distance
par le poids de la ligne correspondante. Deux notions donc,
. Ces deux quantités sont calculées par le logiciel Tanagra que nous utilisons : la première correspond à
l’indicateur Sq.Dist et le second à l’indicateur Inertia
Le premier est simplement la somme sur toutes les colonnes j de l’écart précédent
12
pour obtenir le second, il suffit de multiplier l’écart de la modalité i par son poids
Evidemment, d2 (i) ne sert qu’à décider si la modalité i se distingue par rapport aux autres modalités. En
aucun cas on ne peut sommer ces valeurs, car on ne tient lors pas compte des importances respectives des
modalités. Supposons par exemple que vous étudiez un tableau donnant la répartition des enseignants avec
en ligne les départements d’exercice de l’enseignant et en colonne les différentes disciplines enseignées. Vous
pouvez vous demander en quoi la Creuse et Paris sont différents du profil moyen. Dans ce cas, vous utilisez
l’écart d2 (i). Mais si vous voulez étudier le tableau entier, vous ne pouvez pas compter pour 1 la Creuse et
pour 1 Paris, car il y a un problème de taille. Dans ce cas, on utilisera évidemment ρ2 (i).
Il fallait bien trouver un nom pour désigner ρ2 (i). La profession utilise au moins deux noms selon le
contexte:
Ce qui est fortement intéressant ici, c’est que cette formule est complètement symétrique en
i et j, puisque l’on peut écrire
Ainsi donc la somme des inerties de toutes les lignes coïncide avec la somme des inerties des colonnes.
On comprend dans ces conditions qu’il y ait de fortes relations entre l’analyse des écarts entre les modalités-
lignes et celle ds écarts entre les modalités-colonne du tableau. Revenons alors à la comparaison des deux
analyses.
La première chose qu’il faut constater, comme nous l’avons déjà dit, c’est que les deux analyses con-
duisent aux mêmes valeurs propres. Donc, il y a "autant d’écart" expliqué par le premier axe, que ce
soit dans l’analyse des écarts entre les lignes que dans celle des écarts entre colonnes du tableau.
Vérifions le fait sur les données, pour la ligne i (i comme Essonne) et la colonne j (j comme Ber45Neuve)
Fij = NNij = 1092307
18230
= 0.016894
Ni 130650
Fi = N = 1092307 = 0.1196092
Fj = NNj = 1092307
180017
= 0.1648044 on a
λ1 = 0.048142
1 (i) = 0.11241
U
V1 (i) = −0.27794
13
(Fij − Fi Fj )/Fi Fj = −0, 14296 √1 U1 (i) ∗ V1 (j) = −0, 14239
λ1
Dans le cas qui nous occupe, la reconstitution coïncide à la deuxième décimale, car la première valeur
propre explique 96% du total des écarts. Mais dans la plupart des cas, il convient de prendre en compte plus
d’axes, par exemple deux
Oublions les valeurs propres, nous sommes exactement dans le cas de la reconstitution des données dans
le cas de l’analyse en composantes principales. Souvenez vous du dessin :
V
1
-1 O 1 U
la valeur Xi est reconstituée par a1 Ui + b1 Vi
-1
Dans le cas qui nous occupe, on a donc le droit de de représenter sur le même dessin les types de voiture
et les départements. Nous ne marquerons pas les flêches comme dans le cas de l’analyse en compsantes
principales, si nous représentions tous les vecteurs qui permettent de visualiser la reconstitution des données,
comme pour les MonospNeuf et les Hauts de Seine, le graphique deviendrait vite illisible
0,1
MonospNeuf
0,08
0,06
Hauts-de-Seine Seine-Saint-Denis
0,04
0,02 Ber45Occas
Ber23occas
0 Essonne
Seine-et-Marne
-0,6 -0,4 -0,2
Yvelines 0 Monospoccas 0,2 0,4
BreakNeuf Val-d'Oise
-0,02 Val-de-Marne
Ber45Neuve
Breakoccas
-0,04
-0,06
Paris
-0,08
Ber23Neuve -0,1
• Le graphique nous apprend que les Hauts de Seine se distinguent par le fait qu’on y a immatriculé
beaucoup de Monospace Neuf, de Break neuf et de Berlines 45 portes neuves que la moyenne, Par
contre les vecteurs liant l’origine à Paris et celui reliant l’origine à Break occas sont presque hortogonaux,
la proportion de Break occas à Paris est comparable à la proportion moyenne.
• On peut aussi analyser les facteurs comme dans le cas de l’analyse en composantes principales. L’axe des
absicsses oppose les immatriculations de voitures neuves (coordonnées négatives) aux voitures d’occasion
14
(coordonnées positives). Et les départements "riches" (Hauts de Seine, Paris, Yvelines coordonnées
négatives) aux départements "moins riches" (Essonne, Val de Marne, Val d’oise et Seine et Marne
légèrements négatifs) et surtout la Seine Saint Denis très négative.
• L’axe des ordonnées oppose les Monospaces Neufs à toutes les autres types de voiture.
Ainsi donc la formule de reconstitution des données permet de superposer les deux graphiques et d’analyser
les directions indiquées par les différentes modalités. Mais il y a d’autres formules qui permettent aussi la
superposition des deux graphiques.
Nous savons que sur le graphique, deux modalités de la même variable, disons deux département sont
proches si les profils correspondants sont proches, c’est à dire les immatriculations des différents types de
voiture sont présentes dans les mêmes proportions. Les formules de transition permettent d’analyser les
proximités entre départements et types de voiture. Je rappelle les différentes notations:
λ1 la première valeur propre
U (i) la coordonnée de la ligne i sur le premier axe
1
V (j) la coordonnée de la colonne j sur le premer axe
1 N
Fij = Nij la fréquence de la case (i, j)
Ni
F = N la fréquence de la modalité i
i
Fj = NNj la fréquence de la modalité j
On a :
Fij
U1 (i) = √1
λ1 Fi V1 (j)
j
Oublions le terme en √1 , la coordonnée du département i est égale à la moyenne des coordonnées des
λ1
types de voiture, chaque type de voitures j est pondérée par FFiji le poids de la colonne j dans le profil de la
ligne i. On dit que la position du département i est au barycentre des positions des différents types de voiture,
pondérées par le profil du département i.
Ainsi, si un type de voiture j a un grand poids dans le département i, alors la valeur U (i) de la coordonnée
du département i sera "proche" de la coordonnée V (j) de ce type de voiture j. Ce raisonnement vaut surtout
pour les profils très constratés sur les axes, c’est à dire pour les profils qui ont une valeur importante de la
CTR qui mesure, rappelons le, l’importance de l’individu-modalité dans la détermination de l’axe.
Ces deux formules que nous ne montrerons pas forment à elles seules tout l’intérêt de l’analyse des cor-
respondances, et tout l’art du statisticien réside dans leur exploitation astucieuse au travers de plusieurs
thèmes.
Les variables représentant les lignes et colonnes du tableau sont qualitatives. Dans bien des cas cela signifie
que l’ordre dans lequel on écrit les modaltés est purement arbitraire, par exemple on les rangera par ordre
alphabétique. L’analyse des correspondances du tableau permet un choix de l’ordre des modalités qui a une
signification. On peut en effet se servir des coordonnées des modalités sur le premier de l’analyse pour ordonner
les modalités lignes et colonnes du tableau. Cet arrangement a une interprétation vis à vis des associations de
modalités au sens de la reconstitution des données aussi bien que des formules de transition. Dans l’exemple
qui nous occuppe, on trouve la réécriture du tableau des données:
15
BreakNeuf MonospNeuf Ber45Neuve Ber23Neuve Breakoccas Monospoccas Ber23occas Ber45Occas total
Hauts-de-Seine 7565 24885 35629 8187 4237 11839 20464 45076 157882
Paris 5743 15016 29211 7592 4181 9824 18946 41123 131636
Yvelines 7707 21133 35977 9371 5474 14870 23741 58578 176851
Essonne 2702 10653 18230 5121 4589 13073 21935 54347 130650
Val-de-Marne 1977 8057 14977 4072 3288 10541 19683 45512 108107
Seine-et-Marne 2604 10216 17810 5058 5410 13865 23794 60408 139165
Val-d'Oise 2306 8151 15380 4227 4111 11595 21738 53258 120766
Seine-Saint-Denis 1746 7286 12803 2738 4336 11705 23872 62764 127250
Total 32350 105397 180017 46366 35626 97312 174173 421066 1092307
Le fait que lignes et colonnes n’aient pas le même poids cache réellement l’intérêt de la chose. On préfèrera
donner les profils lignes (mais on aurait pu donner les profils colonne), On a multiplié les nombres pr 10000
pour éviter les problèmes de décimales.
Il faut dire que les choses sont plus flagrantes si on calcule les différences au profil moyen:
ou encore comme ici, les "écarts au produit des marges": dans chaque case (i, j) , nous avons indiqué la
valeur Fij −Fi Fj que nous avon multipliée par 100 000 pour que le résultat ne soit pas occulté par les décimales
:
16
On voit bien sur ces différents tableaux les associations lignes-colonnes soulignées par le graphique.
Il s’agit de voir comment un nouveau département se situe par rapport à l’analyse de la région Ile de
France, ou un nouveau type de véhicules. Par exemple:
et d’appliquer la formule de transition, pour obtenir les coordonnées de la région des Bouches du Rhône.
Par exemple pour le premier axe, les différents types de voiture ont les coordonnées suivantes :
on calcule la somme :(−0, 17418 ∗ 0, 05540) + (−0, 19654 ∗ 0, 11803) + ... + (0, 08343 ∗ 0, 05527)
Axe 1 Axe 2
Plutôt que d’aller se jeter sur les graphiques, il convient de regarder les coordonnées des différents éléments
et en premier lieu les contributions (CTR).
Rappelons que la contribution d’un individu-modlité à l’explication de l’axe est la part que prend l’individu
dans le calcul de la variance de l’axe.
coordonnée U (i)
Si l’individu i a pour
poids Fi
En effet, la variable U étant centrée, on ne s’occupe pas de la moyenne, et les individus étant pesants, il
faut tenir compte de leurs poids.
Fi Ui2 Fi Ui2
La contribution de l’individu i à l’explication de l’ave est donc égal à variance de l’axe = valeur propre de l’axe
De part les formules de transition, les modalités colonnes par exemple qui ont de grands poids et (ou) de
grandes coordonnées (et donc de grandes CTR) prennent une part importante dans le calcul de la coordonnée
des modalités-ligne. L’axe révèle donc une opposition entre les modalités qui ont une CTR élevée. Prenons
par exemple les immatriculations de véhicules en 2005, nous avons rajouté des types de véhicules et les
départements des régions Picardie et Champagne-Ardennes.
17
TousterrainsNeuf
Tousterrainsoccas
Cabriolet occas
Cabriolet Neuf
Monospoccas
MonospNeuf
Ber23Neuve
Ber45Neuve
Ber23Occas
Ber45Occas
Coupeoccas
Breakoccas
CoupeNeuf
Miniboccas
BreakNeuf
MinibNeuf
dept
Paris 7592 29211 5743 2456 714 545 15016 3764 18946 41123 4181 3033 2685 488 9824 3075
Seine-et-Marne 5058 17810 2604 800 285 232 10216 2193 23794 60408 5410 1885 2282 504 13865 2776
Yvelines 9371 35977 7707 2127 1345 569 21133 3414 23741 58578 5474 2264 2364 440 14870 2886
Essonne 5121 18230 2702 694 308 240 10653 1841 21935 54347 4589 1675 2122 388 13073 2192
Hauts-de-Seine 8187 35629 7565 1706 571 397 24885 2743 20464 45076 4237 2421 2026 318 11839 2454
Seine-Saint-Denis 2738 12803 1746 486 154 205 7286 1183 23872 62764 4336 1491 1803 553 11705 1559
Val-de-Marne 4072 14977 1977 693 249 212 8057 1453 19683 45512 3288 1733 1735 377 10541 1768
Val-d'Oise 4227 15380 2306 764 232 201 8151 1940 21738 53258 4111 1580 1888 435 11595 2070
Ardennes 1264 4688 481 253 56 71 2497 473 5612 14357 1012 462 421 103 3013 920
Aube 876 3757 463 130 59 43 1890 562 5149 15022 1190 396 489 120 3272 915
Marne 2339 9263 1307 398 153 123 5170 1380 9778 26362 2227 790 916 199 6145 1688
Haute-Marne 586 2069 249 89 23 27 1085 324 3702 9973 791 249 341 52 2004 603
Aisne 2367 10568 1910 336 130 146 4341 1832 10110 27123 2162 751 830 148 5221 1378
Oise 11501 68450 8704 1497 240 1032 45362 2637 16332 44954 4098 1184 1331 295 9301 2131
Somme 1898 7459 863 291 107 73 3829 1404 10125 26703 2331 773 859 180 6133 1412
Picardie 15766 86477 11477 2124 477 1251 53532 5873 36567 98780 8591 2708 3020 623 20655 4921
Champagne-Ardenne 5065 19777 2500 870 291 264 10642 2739 24241 65714 5220 1897 2167 474 14434 4126
Île-de-France 46366 180017 32350 9726 3858 2601 105397 18531 174173 421066 35626 16082 16905 3503 97312 18780
les valeurs propres montrent qu’il n’y a que deux axes dans l’analyse.
%
Axis Eigen value % explained
cumulated
1 0,08558 88,85% 88,85%
2 0,006865 7,13% 95,98%
3 0,001533 1,59% 97,57%
4 0,000833 0,86% 98,44%
5 0,000654 0,68% 99,12%
…
Tot. 0,096316
Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2 cos 1 cos 2
Paris 0,08752 0,05633 0,00493 -0,135 0,18445 1,86 43,37 0,32 (0,32) 0,60 (0,93)
Seine-et-Marne 0,08854 0,0483 0,00428 0,21679 -0,017 4,86 0,37 0,97 (0,97) 0,01 (0,98)
Yvelines 0,11339 0,02639 0,00299 -0,1156 0,0885 1,77 12,94 0,51 (0,51) 0,30 (0,80)
Essonne 0,08263 0,03029 0,0025 0,16741 -0,0246 2,71 0,73 0,93 (0,93) 0,02 (0,95)
Hauts-de-Seine 0,10057 0,06803 0,00684 -0,2476 0,04394 7,21 2,83 0,90 (0,90) 0,03 (0,93)
Seine-Saint-Denis 0,07943 0,13331 0,01059 0,34297 -0,103 10,92 12,29 0,88 (0,88) 0,08 (0,96)
Val-de-Marne 0,06861 0,04074 0,0028 0,19254 -0,017 2,97 0,29 0,91 (0,91) 0,01 (0,92)
Val-d'Oise 0,0766 0,05487 0,0042 0,23211 -0,021 4,82 0,49 0,98 (0,98) 0,01 (0,99)
Ardennes 0,02105 0,04384 0,00092 0,18917 -0,0243 0,88 0,18 0,82 (0,82) 0,01 (0,83)
Aube 0,02025 0,09308 0,00188 0,28923 -0,0339 1,98 0,34 0,90 (0,90) 0,01 (0,91)
Marne 0,04025 0,02881 0,00116 0,15124 0,00469 1,08 0,01 0,79 (0,79) 0,00 (0,79)
Haute-Marne 0,01307 0,12562 0,00164 0,34258 -0,0396 1,79 0,3 0,93 (0,93) 0,01 (0,95)
Aisne 0,0409 0,03215 0,00131 0,1308 0,0225 0,82 0,3 0,53 (0,53) 0,02 (0,55)
Oise 0,12919 0,3682 0,04757 -0,5951 -0,1164 53,45 25,48 0,96 (0,96) 0,04 (1,00)
Somme 0,03801 0,07083 0,00269 0,25478 -0,0122 2,88 0,08 0,92 (0,92) 0,00 (0,92)
18
Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2 cos 1 cos 2
Ber23Neuve 0,03963 0,06452 0,00256 -0,2279 0,09999 2,41 5,77 0,81 (0,81) 0,15 (0,96)
Ber45Neuve 0,16884 0,15283 0,0258 -0,3885 -0,0256 29,77 1,62 0,99 (0,99) 0,00 (0,99)
BreakNeuf 0,02732 0,19441 0,00531 -0,3844 0,17968 4,72 12,85 0,76 (0,76) 0,17 (0,93)
Cabriolet Neuf 0,0075 0,23093 0,00173 -0,2229 0,40351 0,44 17,79 0,22 (0,22) 0,71 (0,92)
CoupeNeuf 0,00273 0,45302 0,00124 -0,122 0,54417 0,05 11,77 0,03 (0,03) 0,65 (0,69)
MinibNeuf 0,00243 0,21008 0,00051 -0,4253 0,02395 0,51 0,02 0,86 (0,86) 0,00 (0,86)
MonospNeuf 0,10001 0,24182 0,02418 -0,4832 -0,0806 27,28 9,45 0,97 (0,97) 0,03 (0,99)
TousterrainsNeuf 0,01601 0,08813 0,00141 -0,0079 0,23453 0 12,83 0,00 (0,00) 0,62 (0,62)
Ber23Occas 0,13859 0,04923 0,00682 0,21772 0,00477 7,68 0,05 0,96 (0,96) 0,00 (0,96)
Ber45Occas 0,34535 0,05507 0,01902 0,23017 -0,0422 21,38 8,95 0,96 (0,96) 0,03 (0,99)
Breakoccas 0,02916 0,03099 0,0009 0,16255 0,0258 0,9 0,28 0,85 (0,85) 0,02 (0,87)
Cabriolet occas 0,0122 0,08781 0,00107 0,10371 0,24249 0,15 10,45 0,12 (0,12) 0,67 (0,79)
Coupeoccas 0,01303 0,05943 0,00077 0,17255 0,14475 0,45 3,98 0,50 (0,50) 0,35 (0,85)
Miniboccas 0,00271 0,08622 0,00023 0,24802 0,02995 0,2 0,04 0,71 (0,71) 0,01 (0,72)
Monospoccas 0,07809 0,04488 0,0035 0,20129 0,01718 3,7 0,34 0,90 (0,90) 0,01 (0,91)
Tousterrainsoccas 0,01641 0,07558 0,00124 0,14011 0,12653 0,38 3,83 0,26 (0,26) 0,21 (0,47)
Comme nous l’avons dit, on ecommence par examner les modlités associés à de grandes contributions sur
le premier axe et par sécurité sur le second.
Pour ce qui est des départements, l’Oise se détache avec une CTR de 53%. C’est trop, le premier axe ne
fait que montrer en quoi l’Oise se distingue des autres départements.
Pour ce qui est des types de véhicules, les Ber45Neuves (30%), MonospNeuf(30%) et Ber45Occas (21%)
expliquent ls opositions sur le premier axe.
Oise -0,595 −0, 595
Ber45Neuf −0, 389
Du point de vue des coordonnées, on a ce qui montre un exédent très fort
MonospNeuf −0, 488
Ber45Occas +0, 230
des trois types de voitures neuves dans l’Oise et au contraire un manque de Ber45Occas. Vérifions le fait en
donnant les profils des départements
Tousterrainsoccas
TousterrainsNeuf
Cabriolet occas
Cabriolet Neuf
Monospoccas
MonospNeuf
Ber23Neuve
Ber45Neuve
Ber23Occas
Ber45Occas
Coupeoccas
CoupeNeuf
Breakoccas
Miniboccas
BreakNeuf
MinibNeuf
Total
dept
Effectivement, le profil de l’Oise se distingue très largement du restes des observations sur ces trois types de
voitures. L’analyse se contente donc de relever ce fait. Pour progresser, on commence par vérifier les données,
19
car il peut y avoir ici une erreur de saisie. Si ce n’est pas le cas, le réflexe est de retirer le département de
l’Oise de l’analyse et de recommencer.
Pour conclure cette leçon, il convient de pratiquer l’AFC en faisant beaucoup d’exercices. La plupart des
cours d’analyse des données citent les mêmes trois exemples. Nous n’allons pas déroger à la règle:
1) contact media
Source : Lebart L., Morineau A., Piron M. Statistique Exploratoire Multidimensionnelle, Dunod 2004.
Cet exercice nous montre comment calculer les coordonnées d’individus supplémentaires (qui
n’ont pas participé à l’analyse). Nous verrons que c’est quelque chose que nous serons amenés
à faire très fréquemment.
Nous commençons par reprendre ici l’intégralité du texte des auteurs
L’exemple concerne l’analyse d’un tableau de contingence qui croise 8 professions et catégories socio-
professionnelles (PCS) et 6 types de médias pour un échantillon de 12388 "contacts medias" relatifs à 4434
personnes interrogées. L’individu statistique sera pour nous le "contact média" et non la personne interrogée
dans l’enquête. Les données sont extraites de l’Enquête Budget-temps Multimédia 1991-1992 du CESP.
Afin d’interpréter plus efficacement les représentations obtenues, on projettera en éléments supplémentaires
certaines autres caractéristiques de la population enquêtée telles que le sexe, l’âge, le niveau d’instruction.
Nous disposons des tables de contingence suivantes (cf. tableau). Pour le premier blocs K de 8 lignes (lignes
actives) on trouve, à l’intersection de la ligne i et de la colonne j le nombre kij d’individus appartenant à la
catégorie i et ayant eu la veille (un jour de semaine) au moins un contact avec le type de média j. Les blocs
suivants (lignes supplémentaires) s’interprètent de façon analogue. Une personne interrogée pouvant avoir des
contacts avec plusieurs médias, les sommes en ligne représentent des "nombres de contacts".
20
On cherche à décrire les éventuelles affinités entre les groupes socioprofessionnels et les différents types de
médias.
L’analyse des correspondances de la table K conduit aux valeurs propres consignées dans le tableau:
%
Eigen %
Axis cumulate
value explained
d
1 0,013857 62,20% 62,20%
2 0,007211 32,37% 94,56%
3 0,000825 3,70% 98,27%
4 0,000304 1,36% 99,63%
5 0,000083 0,37% 100,00%
Tot. 0,022279 - -
Deux facteurs sont dominants et représentent près de 95% de l’inertie totale. Les coordonnées et les aides
à l’interprétation correspondants figurent dans le tableau suivant.
Rows analysis
Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2 cos 1 cos 2
0,98 0,02
Prof. Cad. S. 0,05618 0,189 0,01062 -0,42998 -0,06087 74,96 2,89
(0,98) (1,00)
0,21 0,74
Agriculteur 0,02858 0,12929 0,00369 0,16615 -0,30961 5,69 37,99
(0,21) (0,95)
0,03 0,93
Employe 0,14982 0,00981 0,00147 0,01573 0,09547 0,27 18,94
(0,03) (0,95)
0,14 0,74
Ouvrier qual 0,11156 0,01382 0,00154 0,04371 0,10138 1,54 15,9
(0,14) (0,88)
0,37 0,39
Inactif 0,4732 0,00285 0,00135 0,03258 -0,0334 3,63 7,32
(0,37) (0,76)
0,15 0,67
Petit patron 0,03511 0,03039 0,00107 0,06838 -0,14315 1,18 9,98
(0,15) (0,83)
0,80 0,08
Prof. interm 0,10155 0,01417 0,00144 -0,1066 0,0326 8,33 1,5
(0,80) (0,88)
0,56 0,36
Ouvrier n-q 0,04399 0,02497 0,0011 0,1178 0,09486 4,41 5,49
(0,56) (0,92)
Columns analysis
Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2 cos 1 cos 2
0,99 0,00
Quot.N. 0,03536 0,2944 0,01041 -0,54067 -0,00621 74,59 0,02
(0,99) (0,99)
0,00 0,96
P.TV 0,13836 0,02724 0,00377 0,00975 0,16161 0,09 50,11
(0,00) (0,96)
0,32 0,62
P.Mag. 0,10518 0,02838 0,00298 -0,09481 -0,1325 6,82 25,61
(0,32) (0,94)
0,49 0,49
Quot.R 0,13457 0,02434 0,00327 0,10883 -0,10965 11,5 22,44
(0,49) (0,98)
0,08 0,17
Radio 0,26614 0,0029 0,00077 -0,01494 0,02211 0,43 1,8
(0,08) (0,25)
0,85 0,00
Tel. 0,32039 0,00334 0,00107 0,05328 0,00208 6,56 0,02
(0,85) (0,85)
Ce calcul ne concerne effectivement que les individus "actifs", c’est à dire les lignes représentant les pro-
fessions. On peut calculer des coordonnées pour les profils-ligne supplémentaires associés aux tranches d’ge,
au niveau de diplôme, au sexe ... . La prise en compte d’élements supplémentaires, qui ne participent pas à
l’analyse, permettra de préciser les commentaires.
21
Radio Tel. Quot.N. Quot.R P.Mag. P.TV total
Homme 1630 1900 285 854 621 776 6066
Profil
Homme 0,269 0,313 0,047 0,141 0,102 0,128 1
Figure 1:
Figure 2:
Regardons comment calculer la coordonnée X de l’élément supplémentaire Homme sur le premier axe.
Pour calculer la coordonnée de l’individu Homme nous allons nous servir de la formule de transition qui
nous permet d’obtenir les coordonnées des lignes à partir de celle des colonnes :
On a donc calculé la moyenne des coordonnées des médias en nous servant des poids indiqués dans le profil
des Hommes. Pour obtenir la coordonnée des Hommes, il suffit de diviser ce résultat par la racine carrée de
la valeur propre :
−0.005831
coordonnée Homme = √0.013857
= −0, 049535
22
coord1 coord2
Homme -0,050 -0,024
Femme 0,049 0,022
Age
15-24 ans -0,016 0,100
25-34 ans -0,030 0,121
35-49 ans -0,031 0,013
50-64 ans 0,024 -0,100
65 ans ou + 0,068 -0,137
Education
Primaire 0,129 -0,080
Secondaire 0,001 0,041
Techn. prof. -0,031 0,184
Supérieur -0,291 -0,017
On note que l’élément "Quotidien national" dont la fréquence relative (colonne P.REL) est très faible
(3.54%) a une distance au point moyen (colonne DIS) très élevée : le profil correspondant est donc atypique.
Il contribue pour 74.6% à la construction du premier axe, qui en est très proche (cosinus carré : 0.99). Ce
même premier axe est caractérisé par la ligne active "Prof.Cadre" (profession libérale, cadres supérieurs) et
par la ligne supplémentaire "Supérieur" (niveau d’études supérieur).
Le second axe sépare la "Presse Magazine de Télévision" (associée aux catégories employés et ouvriers,
et aux classes d’âges plutôt jeunes) de la presse magazine (Presse TV exclue) et de la presse quotidienne
régionale, toutes deux associées aux agriculteurs et aux petits patrons, et à des catégories d’âge plus élevées.
Les figures suivantes résument ce réseau d’associations.(On a mis l’axe 1 en abscisse et l’axe 2 en ordonnées)
0,2
P.TV
Ouvrier qual
0,1
Employe Ouvrier n-q
Prof. interm
Quot.N. Radio
0 Tel.
-0,6 -0,5 -0,4 -0,3 -0,2 -0,1 0 Inactif0,1 0,2 0,3
Prof. Cad. S.
-0,1
Quot.R
P.Mag. Petit patron
-0,2
-0,3
Agriculteur
-0,4
23
0,3
0,2
Techn. prof.
25-34 ans
0,1
15-24 ans
Secondaire
Supérieur Femme
35-49 ans
0,0
-0,4 -0,3 -0,3 -0,2 -0,2 -0,1 -0,1 0,0 0,1 0,1 0,2 0,2
Homme
Primaire
-0,1 50-64 ans
65 ans ou +
-0,2
En revanche, les positions des points sur les deux figures donnent une interprétation plus nuancée du second
axe : les professions salariées, de niveau d’éducation moyen, composées surtout de jeunes (contact média :
Presse magazine TV), s’opposent aux petits patrons et agriculteurs, en moyenne sensiblement plus âgés et
moins instruits (contacts : presse magazine autre que TV, et presse quotidienne régionale).
Ceci étant, le graphique suggère une forte association entre Les cadre supérieurs et les Quotidiens Na-
tionaux. Qu’en est il en réalité ?
Reprenons les données. Nous pouvons calculer les profils-ligne (on divise chaque ligne par son total, par
exemple tous les termes de la ligne Prof. Cadr.S. sont divisés par son total, 696), et les profils-colonne (on
divise chaque colonne par son total, par exemple tous les termes de la colonne Quot N. sont divisés par son
total, 438)
profils ligne
Profils colonne
24
Le Quotidien National n’est pas le contact-media le plus fréquent pour les Cadres Supérieurs. En effet, ils
n’ont signalé ce media que dans 10% des contacts, beaucoup moins que la Télévision qui a un score de 0,264
ou la radio qui a un score de 0,277 chez les cadres supérieurs. De même, le Cadre supérieur n’est la source que
de 16,9% des contacts avec le Quotidien National, beaucoup moins que les inactifs qui représentent 41,3% de
ceux qui ont cité ce média.
L’association révélée par l’analyse n’est donc pas à chercher dans les importances des effectifs mais parmi
les écarts entre le tableau observé et le tableau théorique que l’on peut reconstituer à partir des produits des
marges.
Le tableau ci-dessous donne les écarts corrigés entre chaque profil-ligne et le profil-ligne moyen d’une part,
entre chaque profil-colonne et le profil-colonne moyen d’autre part.
On rappelle la formule :
Fij
Fi représente, pour le profil-ligne i la part de la colonne j
Fj représente, pour le profil-ligne moyen, la part de la colonne j
F
l’écart corrigé entre les deux profils-lignes est ( Fiji − Fj )/ Fj
profils ligne
Profils colonne
On constate alors que le plus gros écart corrigé du tableau nous est donné par l’association positive entre
Prof. Cadr S. et Quot.N. Les plus gros écarts négatifs nous sont donnés par l’association Agriculteurs et
Quot.N..
L’analyse n’a fait que nous révéler les associations positives et négatives importantes.
25
Il est donc prodent, pour éviter des contre sens, de toujours nuancer les commentaires en invoquant non
pas une "forte association entre Prof. Cadr.S et Quot. N. " mais plutôt un fort écart du profil Prof. Cadr.S
au profil moyen dû à la modalité Quot. N."
2 L’effet GUTMAN
Dans de nombreuses analyses, le nuage projeté sur les axes présente la forme d’une banane, ou encore
d’une parabole. On dit que le tableau présente un effet Gutman. Il s’agit donc d’une ituation typique qu’Il
faut savoir reconnaître et interpréter, comme dans le cas de l’Analyse en composantes principales, il fallait
savoir reconnaître et interpréter l’effet taille
Un nuage de points de forme parabolique indique une redondance entre les deux variables étudiées : la
connaissance de la ligne i donne pratiquement celle de la colonne j. Dans un tel cas, pratiquement toute
l’information est contenue dans le premier facteur. Cette configuration se rencontre notamment lorsque les
deux variables sont ordinales, et classent les sujets de la même façon. Dans ce cas, le premier axe oppose les
valeurs extrêmes et classe les valeurs, tandis que le deuxième axe oppose les intermédiaires aux extrêmes.
Exemple :
Var1
1
Ligne 5
Ligne 1
Var4
Var2
Ligne 4
L igne 2
0
Var3
Ligne 3
-1
Un des exemples du professeur Benzecri (publié dans son ouvage "Correspondances" paru chez Dunod en
1980) présente un effet Gutman. Comme précédemment, nous allons recopier son texte.
26
1.1 Les données. On effectue sur chacune des marques une enquête auprès de cent fumeurs; les enquêtes
sont menées indépendamment les unes des autres, mais toujours selon le même patron. Un fumeur est suc-
cessivement interrogé sur la qualité, l’agrément, le coût d’une marque donnée; puis on fait une épreuve de
cohérence. De façon précise, voici comment se passe l’entrevue.
On montre d’abord au fumeur un paquet de cigarettes : et on lui demande s’il s’agit de qualité ordinaire,
moyenne, supérieure ou luxueuse. Puis on lui offre de fumer une de ces cigarettes; et après avoir attendu
quelques instants, on s’enquiert du plaisir procuré par cette expérience : est-ce que la cigarette ne plait pas ?
plait-elle moyennement, assez ou beaucoup ? Alors, après avois défini au sujet quatre catégories de prix : peu
cher, moyennement cher, cher, très cher, on lui demande dans laquelle de ces catégories de prix il rangerait
la marque offerte.
En cumulant les réponses des cent fumeurs interrogés sur elle, on a pour chaque marque un vecteur à 12
composantes, correspondant aux réponses possibles : 4 niveaux de qualité; 4 niveaux d’agrément et 4 niveaux
de prix. Ce qui, puisqu’il y a trente marques, fait un tableau de 30 lignes par 15 colonnes. Par exemple,
à l’intersection de la ligne Gitanes et de la colonne Plaît moyennement, on écrit 52 : c’est le nombre de
sujets qui ont estimé que fumer une gitane leur avait plu moyennement. On notera que, sauf irrégalurité dans
l’expérience, la somme des éléments de toute ligne est égale à 300: 100 pour le groupe de réponses à chacune
des trois questions. D’autres tableaux eussent pu être contruits ; mais nous ne disposons pas des données
complètes de l’enquête
1.2 Les analyses. On a analysé (par le programme usuel d’analyse des cocrrespondances) le tableau 30 x
12 des réponses aux trois questions,
Eigen % %
Axis
value explained cumulated
1 0,169683 70,64% 70,64%
2 0,026516 11,04% 81,67%
3 0,011305 4,71% 86,38%
4 0,009302 3,87% 90,25%
5 0,007009 2,92% 93,17%
6 0,006204 2,58% 95,75%
7 0,004674 1,95% 97,70%
8 0,002825 1,18% 98,87%
9 0,002632 1,10% 99,97%
10 0,000072 0,03% 100,00%
11 0 0,00% 100,00%
Tot. 0,240223 - -
27
1.3 L’interprétation. Vu le pourcentage d’inertie totalisé par les deux premiers facteurs (77% ) et le
faible taux (5 %) du troisième facteur dont d’ailleurs aucune interprétation ne s’impose, nous nous bornerons
à examiner un diagramme plan. On se souviendra qu’à l’échelle adoptée (7,5 cm = 1) les fluctuations
d’échantillonnage sont vraisemblablement de l’ordre du centimètre
1,2
1 che0
gitanes maryland
qlt0
0,8
egee
0,6
boule d'or
air France
high life
0,2
flash agr1
ernte 23
hb anfa
0
-0,4 -0,3 -0,2 -0,1 0 0,1 0,2 0,3 0,4 0,5 0,6
agr2 week end
john silver camel
blue rillon
parliament
-0,2
astor
carlton hunter
newport
peer export
viceroy chesterfield
che2
-0,4 qlt2 hellas
agr3
minors
peter stuyvesand
che3
-0,6
qlt3
muratti
rothmans
-0,8
Il est clair qu’on a une situation fondamentalement unidimensionnelle, dont l’interprétation se fait au
mieux par référence au modèle classique de l’échelle de Guttman. Sur le premier axe, les quatre niveaux de
réponse aux trois questions (ainsi que les trois lots de l’épreuve de cohérence) se retrouvent ordonnés, et les
marques se succèdent de Gitane à Rothmans : ce premer axe est une échelle de valeur qui intègre qualité,
agrément et prix. Dans le plan 1x2, se dessine une parabole. On tente quelquefois de donner un nom au
deuxème facteur, qui réalise une conjonction des extrêmes : Guttman lui-même parle d’intensité. Mais nous
estimons que le plus utile est d’interprêter la place des points par rapport à la parabole. En effet, il résulte du
principe du centre de gravité qu’une marque est d’autant plus à l’intérieur de la parabole que les qualités qui lui
ont été attribuées sont plus dispersées sur l’échelle de valeurs ( et qu’en particulier elle est l’objet de verdicts
extrêmes et contradictoires). Par exemple les marques Week-End et John Silver ne diffèrent pas par le 1er
facteur ; mais celle-ci est au sommet de la parabole, celle-là à l’intérieur de la concavité. Or reportons-nous au
28
tableau des données : aux niveaux extrêmes des trois questions (ord. luxe, ne plaît pas beaucoup, peu cher, très
cher) la marque Week-End totalise 99 ; la marque John Silver, 56. Le public s’accorde donc beaucoup moins
dans ce qu’il pense de cette marque-là que de celle-ci. De même un attribut est d’autant plus à l’intérieur de
la parabole qu’il est conféré à des marques dont les niveaux sont plus dispersés. On observera donc que, tandis
que les attributs de qualité et de coût (ainsi que les lots de l’épreuve de cohérence) se placent sur une parabole
fort régulière qui enveloppe le nuage, les degrés d’agrément décrivent une courbe intérieure qui ne se raccorde
à l’enveloppe que du côté des hauts niveaux. Ceci signifie que tandis que toute cigarette est susceptible de ne
pas plaire (attribut dispersé), seulement les cigarettes de prix et de qualité élevés peuvent plaire beaucoup.
1.4 Critique. On se demandera toutefois de quel plaisir il s’agit. D’une part "plaît beaucoup" n’est pas
tout à l’extrémité de l’échelle (luxe, très cher) mais un peu plus bas (avec qualité sup. et cher), ce qui suggère
qu’au-delà d’un certain point on ne gagne rien à renchérir. D’autre part le plaisir qu’on trouve à griller une
cigarette qui sort d’un paquet insolite et flatteur peut n’être pas seulement dû au tabac... Comme épreuve de
cohérence, nous suggérerions d’offrir des Muratti dans un paquet de Gitanes : ou encore, de demander à qui
vient de fumer un tabac inconnu, de choisir dans un lot de paquets (réels ou imaginés pour quelque marque
nouvelle) celui qui habillerait le mieux l’échantillon qu’on lui a offert. Peut-être obtiendrait-on ainsi plus d’un
facteur Sans entreprendre d’autre enquête il eût été possble, d’après les donées complètes, de construire un
tableau de correspondance 12 x 12 qui révêlat mieux comment l’agrément dépend de ce qu’on présume du prix
et de la qualité. Soit a et a′ deux attributs (e.g. ne plaît pas et très cher) : on noterait k(a, a′ ) le nombre de fois
qu’un sujet quelconque aurait simultanément attribué ces deux attributs à une même cigarette. (Evidemment
si a et a′ sont deux modalités d’une même question (e.g. plaît assez et plaît beaucoup), k(a, a′ ) = 0).
L’effet Gutman nous dit qu’il y a une façon de réordonner les lignes et colonnes du tableau de façon à faire
apparaître une diagonale sur le tableau des données. Ici, on obtient :
ciga qlt3 che3 agr3 qlt2 che2 agr2 agr1 agr0 qlt1 che1 qlt0 che0
rothmans 45 21 35 43 69 41 20 4 11 10 1 0
muratti 44 22 35 45 65 37 23 5 10 12 1 1
peter stuyvesand 25 20 30 49 61 32 33 5 24 18 2 1
minors 33 21 19 45 56 30 40 11 19 20 3 3
hellas 44 29 19 27 46 32 37 12 27 22 2 3
chesterfield 26 22 30 34 59 28 32 10 36 17 4 2
viceroy 21 23 24 42 52 43 28 5 35 23 2 2
peer export 15 9 29 58 56 41 26 4 24 32 3 3
newport 28 12 22 33 67 33 29 16 33 21 6 0
hunter 25 12 24 34 62 39 32 5 34 21 7 5
astor 18 19 14 45 55 46 33 7 30 23 7 3
carlton 13 13 19 45 55 42 29 10 37 31 5 1
parliament 27 21 14 35 48 43 29 14 26 21 12 10
blue rillon 18 10 24 37 51 35 34 7 39 35 6 4
camel 14 24 20 28 46 32 37 11 46 27 12 3
week end 27 17 17 38 30 33 29 21 29 42 6 11
john silver 7 9 26 30 53 39 32 3 57 33 6 5
hb 13 11 24 15 54 28 34 14 49 31 13 4
anfa 15 21 20 25 32 27 26 27 48 40 12 7
ernte 23 4 12 12 25 47 40 39 9 60 33 11 8
flash 10 3 12 16 47 42 41 5 62 46 12 3
belga 10 3 9 10 37 43 41 7 67 53 16 7
roxy 7 4 12 21 33 37 37 14 55 42 17 21
balto 4 3 12 25 29 34 35 19 57 48 14 20
visa 8 1 6 27 17 38 46 10 63 69 12 13
high life 6 4 13 15 28 30 43 14 63 36 16 32
air France 7 1 2 13 22 28 50 20 65 55 15 22
boule d'or 3 1 8 15 22 27 52 13 49 62 33 15
egee 2 1 11 7 19 35 36 18 51 52 40 28
gitanes maryland 1 2 3 5 7 23 52 22 50 45 44 46
29
2. Douze marques en puissance
Ce second exemple, tiré également du livre du professeur Benzecri, illustre aussi la présene d’un effet
Gutman, mais cet effet ne donnera pas l’argument majeur de l’analyse
2.1 L’enquête et son objet. "On veut choisir un nom pour une nouvelle cigarette brune, qui doit paraître
de qualité supérieure, prestigieuse, luxueuse, convenant à un fumeur viril, connaisseur, raffiné, distingué, de
niveau socio-économique élevé". En d’autres termes : sachant que la plupart des Français, riches ou pauvres,
sont écoeurés par le tabac blond, trouver le mot magique qui permettra de vendre des gauloises aux prix des
américaines. Ce mot, la Régie française des Tabacs décida de le choisir entre douze marques, d’après onze
attributs, en interrogeant cent fumeurs.
Cent fumeurs, dont chacun devrait successivement pour chaque attribut désigner une ou plusieurs marques
à quoi il se rapportât le mieux.
Vous apprendrez à la Civette la victoire de Fontenoy ; et Bernard Roy (Algèbre moderne et théore des
graphes, pp 218-220-456) vous en dira le pourquoi. Mais sans doute conviendrez-vous que, même après la
bataille, le tableau de correspondance ci-joint (où k( racé, Pavois) = 5 signifie que cinq fumeurs ont répondu
à l’attribut racé par la marque Pavois, etc.) méritait une analyse.
attributs Orly Alezan Corsaire Directoire Ducat Fontenoy Icare Zodiac Pavois Cocker Escale Hotesse
vieillot-desuet 1 2 14 38 18 10 9 5 9 4 0 1
nouveau_riche 20 9 1 11 10 9 1 1 20 9 7 12
sobre,elegant 9 23 1 15 7 11 6 2 7 12 3 17
cocasse-ridicule 1 3 15 15 6 5 12 18 4 25 2 2
race 4 33 7 8 3 6 6 4 5 15 5 3
mievre 3 9 1 7 7 5 12 9 6 9 6 13
distingue 11 9 1 17 4 21 6 1 5 4 5 27
vulgaire-commun 4 4 32 2 6 0 9 7 3 10 12 7
pour_un_homme 9 12 23 4 7 13 5 5 10 5 13 9
pour_une_femme 9 3 9 8 4 2 6 8 1 6 23 33
pour_une_petite_nature 7 5 2 7 11 2 6 11 9 24 10 5
2.2 Interprétation des résultats. Dans certaines analyses, on gagne à parcourir un tableau de nombres
avant d’étaler des graphiques. C’est le cas ici : à chercher leurs valeurs extrêmes sur l’ensemble des attributs,
on voit rapidement apparaître des interprétations des facteurs.
30
%
Eigen %
Axis cumulate
value explained
d
1 0,169845 29,43% 29,43%
2 0,133962 23,22% 52,65%
3 0,10182 17,65% 70,29%
4 0,07586 13,15% 83,44%
5 0,057201 9,91% 93,35%
6 0,021035 3,65% 97,00%
7 0,009084 1,57% 98,57%
8 0,005282 0,92% 99,49%
9 0,002688 0,47% 99,95%
10 0,000263 0,05% 100,00%
Tot. 0,57704 - -
Values Weight Sq. Dist. Inertia coord 1 coord 2 coord 3 coord 4 coord 5
vieillot-desuet 0,096 0,930 0,089 -0,204 0,687 -0,592 -0,158 0,074
nouveau_riche 0,095 0,572 0,054 0,480 0,056 -0,064 0,010 -0,570
sobre,elegant 0,097 0,288 0,028 0,428 0,158 0,209 -0,058 0,142
cocasse-ridicule 0,093 0,635 0,059 -0,616 0,273 0,081 0,314 0,115
race 0,085 0,730 0,062 0,111 0,213 0,737 -0,280 0,172
mievre 0,075 0,217 0,016 0,044 0,000 0,087 0,291 0,168
distingue 0,096 0,581 0,056 0,610 -0,063 -0,283 -0,036 0,241
vulgaire-commun 0,083 0,913 0,075 -0,769 -0,431 -0,030 -0,337 -0,059
pour_un_homme 0,099 0,297 0,029 -0,117 -0,236 -0,009 -0,404 -0,161
pour_une_femme 0,096 0,746 0,072 0,101 -0,744 -0,224 0,234 0,175
pour_une_petite_nature 0,085 0,421 0,036 -0,187 0,082 0,206 0,485 -0,281
Columns analysis
Values Weight Sq. Dist. Inertia coord 1 coord 2 coord 3 coord 4 coord 5
Orly 0,067 0,491 0,033 0,478 -0,222 -0,024 -0,013 -0,438
Alezan 0,096 0,846 0,082 0,354 0,156 0,726 -0,345 0,184
Corsaire 0,091 1,109 0,101 -0,836 -0,268 -0,140 -0,556 -0,024
Directoire 0,114 0,549 0,062 0,069 0,551 -0,418 0,003 0,181
Ducat 0,071 0,274 0,020 -0,105 0,321 -0,247 0,053 -0,196
Fontenoy 0,072 0,499 0,036 0,459 0,196 -0,188 -0,231 0,118
Icare 0,067 0,237 0,016 -0,291 0,082 0,007 0,133 0,260
Zodiac 0,061 0,588 0,036 -0,565 0,010 0,111 0,463 0,099
Pavois 0,068 0,419 0,029 0,218 0,228 -0,023 -0,030 -0,547
Cocker 0,106 0,434 0,046 -0,284 0,154 0,396 0,370 -0,078
Escale 0,074 0,594 0,044 -0,085 -0,711 -0,016 0,068 -0,090
Hotesse 0,111 0,654 0,073 0,469 -0,546 -0,209 0,161 0,246
Premier axe : vulgaire s’oppose à distingué: ces deux mots sont à eux seuls une interprétation. Deuxième
axe : pour une femme s’oppose à vieillot-désuet, ridicule : il semble qu’il s’agisse là de la mode. Troisième axe
: racé s’oppose à désuet : et avec racé vont Alezan puis Cocker; et avec désuet, Directoire, Ducat, Fontenoy,
Hôtesse: il semble qu’ici désuet ne signifie pas démodé (comme sur le deuxième axe) mais usé, rebattu; car
à des noms de marque quelque peu insolites il oppose des ponsifs. Quatrième axe : pour un homme s’oppose
à pour une petite nature : il s’agit de la virilité. Cinquième axe, : nouveau riche associé à Pavois et à Orly
s’opposent à tout le reste : voilà qui est piquant.
On remarquera que l’analyse factorielle suggère des décompositions sémantiques. Ainsi femme signifie
élégance et s’oppose d’abord à vieillot qui n’en est pas un synonime exact, ce qui accroit l’ambiguité. Sur le
deuxième axe, désuet (ou peut être vieillot) s’oppose à mode : les verdicts de la mode ne sont pas sans appel, un
hiver voit renaitre ce qu’un autre a tranché. Mais désuet signifie encore usé délavé à force d’usage (troisième
axe), ce dont on revient rarement.
Vu le public vis par la Régie (select, masculin) il s’impose de baser d’abord un choix sur le plan des axes
1-4. Le plan 2-3 apportera ensuite quelques indices: nous grouperons donc en ces deux plans le dessin des
facteurs.
31
pour_une_petite_nature
Zodiac
Cocker
cocasse-ridicule
mievre
pour_une_femme
Hotesse
Icare
Escale nouveau_riche
Ducat
Directoire
Orly
Pavois distingue
sobre,elegant
vieillot-desuet
Fontenoy
race
vulgaire-commun Alezan
pour_un_homme
Corsaire
Figure 3:
32
vieillot-desuet
Directoire
Ducat cocasse-ridicule
Pavois race
Fontenoy Alezan
Cocker sobre,elegant Icare
nouveau_riche pour_une_petite_
mievre
nature Zodiac distingue
pour_un_homme
Orly
Corsaire
vulgaire-commun
Hotesse
Escale
pour_une_femme
Il ne fait pas de doute que le plan 1-’4 ne laisse le choix qu’entre Fontenoy et Alezan, seuls noms qui
apparaissent à la fois distingués et masculins. Inquiétons nous seulemet au passage de voir nouveau riche si
proche de sobre et de distingué : les voies de l’élégance sont donc peu sures. Dans le plan 2-3, l’idéal serai
une marque diamètralement opposée à désuet, mais il n’y en a pas : le quadrant supérieur gauche de notre
graphique est vide. Cela se conçoit si l’on se souvient des deux acceptations que nous aavons distinguées dans
l’attribut désuet (ou plutôt dans le binôme vieillot-désuet) : démodé et usé. Car ou bien un terme est à la
mode et il est alors, par le fait même quelque peu usé : ou bien il est insolite, inusité : mais alors c’est qu’il
n’est pas à la mode. Fontenoy et Alezan ne sont ni l’un ni l’autre à la mode: mais Alezan, marque assez
originale et racée l’emporte sur Fontenoy qui sent sa composition d’histoire.
Je vois à Alezan un autre avantage: par son sens son nom convient à une cigarette brune, voire brûlée. Et
Littré note même cette éthymologie : de l’arabe "al athan- la fumée- par comparaison avec la couleur qu’indique
alezan". Tandis que Fontenoy ...
Dans cet exercice, la réponse à la problèmatique n’apparaît pas dans l’analyse des premiers axes, mais il
faut aller jusqu’au 4 ème axe pour la trouver.
33