Vous êtes sur la page 1sur 33

Cours d’analyse des données EAR206 EAR207

Chapitre 6
Analyse des correspondances simples
L’analyse factorielle des correspondances s’intéresse aux variables qualitatives (correspondance au sens de
tableau croisé de deux variables ). Cette méthode a été développée dans les années 1960 1970 par le professeur
Benzecri et ses collaborateurs à l’université Jussieu. Elle consiste à représenter séparément sur deux graphiques
distinctes les modalités-ligne et les modlités-colonne du tableau croisé. Des propriétés mathématiques éton-
nantes (au sens de non intuitives) autorisent la superposition des deux graphiques. Aussi il n’est pas étonnant
que cette partie apparaisse un peu plus complexe que la précédente.

Pour expliquer la démarche, partons d’un exemple simple.

Ber23Neuve Ber45Neuve BreakNeuf MonospNeuf Ber23occas Ber45Occas Breakoccas Monospoccas total


Paris 7592 29211 5743 15016 18946 41123 4181 9824 131636
Seine-et-Marne 5058 17810 2604 10216 23794 60408 5410 13865 139165
Yvelines 9371 35977 7707 21133 23741 58578 5474 14870 176851
Essonne 5121 18230 2702 10653 21935 54347 4589 13073 130650
Hauts-de-Seine 8187 35629 7565 24885 20464 45076 4237 11839 157882
Seine-Saint-Denis 2738 12803 1746 7286 23872 62764 4336 11705 127250
Val-de-Marne 4072 14977 1977 8057 19683 45512 3288 10541 108107
Val-d'Oise 4227 15380 2306 8151 21738 53258 4111 11595 120766
Île-de-France 46366 180017 32350 105397 174173 421066 35626 97312 1092307

Il s’agit là des immatriculations


 de voitures dans la région Ile de France au cours de l’année 2010. On dis-

 Ber23 Berline 2-3 portes

Ber45 Berline 2-3 portes
tingue 4 types de voitures déclinées en voitures neuves et voitures d’occasion.

 Break Break

Monosp Monospace

A la différence de l’analyse en composantes principales, on n’a pas ici un tableau individus-variables, mais
un tableau qui donne le croisement de deux variables, les individus sont cachés à l’intérieur du tableau, puisque
chaque case du tableau exprime un nombre de voitures.

Quels écarts entre les départements : le problème de l’équivalence distributionnelle

Le but de l’analyse des correspondances est de produire une représentation graphique des départements et
des types de voiture. Idéalement, nous voudrions que
• deux départements sont proches sur le graphique si les différents types de voiture sont présents dans les
mêmes proportions
• deux types de voiture sont proches sur le graphique si dans chaque département, elles sont représentées
dans les mêmes proportions
Proportion, le mot est important, on ne peut comparer les effectifs bruts entre deux départements, on peut
comparer les proportions. Cela revient à diviser chaque case du département par son total comme dans le
tableau ci-dessous
%lignes Ber23Neuve Ber45Neuve BreakNeuf MonospNeuf Ber23occas Ber45Occas Breakoccas Monospoccas total proporton
Paris 57,67 221,91 43,63 114,07 143,93 312,40 31,76 74,63 1000 0,1205
Seine-et-Marne 36,35 127,98 18,71 73,41 170,98 434,07 38,87 99,63 1000 0,1274
Yvelines 52,99 203,43 43,58 119,50 134,24 331,23 30,95 84,08 1000 0,1619
Essonne 39,20 139,53 20,68 81,54 167,89 415,97 35,12 100,06 1000 0,1196
Hauts-de-Seine 51,86 225,67 47,92 157,62 129,62 285,50 26,84 74,99 1000 0,1445
Seine-Saint-Denis 21,52 100,61 13,72 57,26 187,60 493,23 34,07 91,98 1000 0,1165
Val-de-Marne 37,67 138,54 18,29 74,53 182,07 420,99 30,41 97,51 1000 0,0990
Val-d'Oise 35,00 127,35 19,09 67,49 180,00 441,00 34,04 96,01 1000 0,1106
Île-de-France 42,45 164,80 29,62 96,49 159,45 385,48 32,62 89,09 1000 1,0000

1
Pour pouvoir comparer les profils des départements, on a ramené chaque département à un total de 1000
voitures. On a rajouté une dernière colonne pour rappeler l’importance relative de chaque département en Ile
de France.

Nous pouvons comparer Paris et  la Seine-et-Marne sur chacun des types de voitures. On constate bien

 55, 67 − 36, 35 sur Ber23Neuve

221, 91 − 127, 98 sur Ber45neuve
entendu des différences qui sont de

 ...

74, 63 − 31, 76 sur Mosospocas

Pour convertir ces différences en écarts, il faut évidemment les élever au carré : on a donc des écarts de


 (55.67 − 36.35)2 = 373, 26 sur Ber23Neuve

(221.91 − 127.98)2 = 8822, 8 sur Ber45neuve

 ...

(74.63 − 31.76)2 = 1837, 8 sur Mosospocas

On a une première évaluation de l’écart entre deux départements par la somme sur toutes les colonnes de
ces écarts. En fait, on n’est pas très satisfait de ce calcul, car, comme dans le cas de l’analyse en composantes
principales, on a un problème d’échelle. L’écart sur Ber45neuve est très important, parce que dans ces dé-
partements, comme dans tous les autres, cette modalité est trés représentée. Il s’en suit que les proportions
correspondantes sont grandes et ipso fato que les écarts sont grands.

Si on distinguait trois types de Ber45neuve : les Rouges, les Jaunes et les Vertes, il faudrait diviser les
effectifs correspondants par 3 et on aurait


 Rouge Jaune Verte Total

Paris 73,97 73,97 73,97

 Seine-et-Marne 42,66 42,66 42,66

Ecart au carré 980,32 980,32 980,32 2940,95

ce qui conduit à un écart par type de voiture de (73, 97 − 42, 66)2 = 980, 32 et un écart total de 2940, 95
pour la Ber45neuve qui est loin des 8822, 8 obtenu en ne considérant qu’un seul type de voitures.

En d’autre termes, l’écart total que nous venons de calculer est dépendant du découpage de la variable
"type de voitures" en ses différentes modalités. Ceci n’est pas acceptable, c’est pourquoi on propose un autre
calcul des écarts entre deux départements, qui rend le calcul de l’écart neutre vis à vis de ce problème que
l’on appelle techniquement l’équivalence distributionnelle

L’idée du professeur Benzecri est de relativiser l’écart en tenant compte des proportions de Ber45neuve
dans la population entière. Commençons par rappeler les diverses proportions:

Ber45neuve Rouge Jaune Verte


Paris 221, 91 Paris 73, 97 73, 97 73, 97
Seine-et-Marne 127.98 Seine-et-Marne 42, 66 42, 66 42, 66
Ile de France 164,79 Ile de France 54,93 54,93 54,93

On calcule alors un écart relatif pour Ber45neuve en divisant le carré de l’écart par la proportion en Ile de
France. les calculs sont donc

Ber45neuve Rouge Jaune Verte


Paris 221, 91 Paris 73,97 73,97 73,97
Seine-et-Marne 127.98 Seine-et-Marne 42,66 42,66 42,66
Ile de France 164,79 Ile de France 54,93 54,93 54,93 Total
(221,91−127,98)2 (73,97−42,66)2 (73,97−42,66)2 (73,97−42,66)2
écart relatif 164,79 écart relatif 54,93 54,93 54,93 = 53, 541
= 53, 540 = 17, 847 = 17, 847 = 17, 847

2
A la troisième décimale près les calculs coïncident. Donc si nous adoptons cette définition de la mesure
de l’écart entre deux départements, nos calculs deviennent insensibles au regroupement de deux modalités du
type de voiture présentes dans les mêmes proportions dans les deux départements.

distance du chi deux (X 2 )

Comme d’habitude, la moyenne des écarts entre individus est reliée à la moyenne des écarts entre chaque
individu et le point moyen. Il se trouve que cette notion est reliée à une autre notion familère aux statisticiens,
la distance dite du chi deux (écrire X 2 et prononcer ki deux ) qui sert à vérifier s’il y a un lien entre les
modalités prises par deux variables qualitatives (l’analogue de la corrélation pour les variables quantitatives).

En fait, la moyenne (pondérée) des écarts entre chaque individus et le point moyen est égale à la distance
du X 2 divisée par l’effectif total du tableau.

Nous reviendrons un peu plus loin dans l’exposé sur la distance du X 2 , et nous consacrerons une leçon
entière à la présentation de ce concept important.

Maintenant que nous savons calculer l’écart (au carré) entre deux départements, "il n’y a plus qu’à" faire
le dessin qui représente au mieux ces écarts.

représenter les écarts entre modalités d’une même variable

Nous disposons d’un certain nombre de points, les départements d’Ile de France dont on connait les écarts.
On veut faire un dessin qui représente le plus fidélement possible les écarts entre ces points.

Le même problème se poserait dans la situation suivante: on dispose des distances (à vol d’oiseau) entre
les villes de France. Comment, à partir de ces distances, représenter les villes sur une carte ? Combien de
cartes peut on obtenir ?

Evidemment, on peut obtenir au moins deux cartes : la carte habituelle avec Brest à l’Ouest, Dunkerque
au Nord, Strasbourg à l’Est et Marseilles au Sud et la même carte vue dans un miroir. Y en a t’il d’autres ?
comment construire la carte ?

La méthode MDS du Multi Dimensional Scalling a été créée en réponse à ces questions: il n’y a que deux
cartes et on sait comment les obtenir: en annexe du polycopié, on trouvera une présentation de cette méthode.
Une première présentation de l’analyse factorielle des correspondances consiste à en exploiter les résultats.

Mais nous préférons nous appuyer sur les résultats de l’analyse en composanes principales, seconde façon
de présenter l’analyse des correspondances.

En analyse en composantes principales, on produit deux graphiques : le graphique des variables représente
les corrélations entre variables et le graphique des individus représente au mieux les écarts entre individus.
C’est ce dernier graphique qui nous intéresse. Pour le réaliser, il faut définir des variables, des valeurs prises
par les individus et définir l’écart entre deux individus comme la somme sur toutes les variables des carrés des
écarts de modalités.

les individus seront les différents départements


C’est ce que nous allons faire ici :
les variables seront les différents types de voiture

Avant de nous encombrer de notations compliquées, donnons des noms "simples" comme A, B, C etc. aux
variables :

3
Ber23Neuve Ber45Neuve BreakNeuf MonospNeuf Ber23occas Ber45Occas Breakoccas Monospoccas proportion
Individu a b c d e f g h total P
Paris 1 57,67 221,91 43,63 114,07 143,93 312,40 31,76 74,63 1000 0,1205
Seine-et-Marne 2 36,35 127,98 18,71 73,41 170,98 434,07 38,87 99,63 1000 0,1274
Yvelines 3 52,99 203,43 43,58 119,50 134,24 331,23 30,95 84,08 1000 0,1619
Essonne 4 39,20 139,53 20,68 81,54 167,89 415,97 35,12 100,06 1000 0,1196
Hauts-de-Seine 5 51,86 225,67 47,92 157,62 129,62 285,50 26,84 74,99 1000 0,1445
Seine-Saint-Denis 6 21,52 100,61 13,72 57,26 187,60 493,23 34,07 91,98 1000 0,1165
Val-de-Marne 7 37,67 138,54 18,29 74,53 182,07 420,99 30,41 97,51 1000 0,0990
Val-d'Oise 8 35,00 127,35 19,09 67,49 180,00 441,00 34,04 96,01 1000 0,1106
Île-de-France t 42,45 164,80 29,62 96,49 159,45 385,48 32,62 89,09 1000 1,0000

Nous avons repéré les variables par des "minuscules" car, comme dans le cas de l’Analyse en Composantes
Principales, nous allons devoir procéder à un changement d’échelle sur les variables, nous avons numéroté les
individus de 1 à 8, en effet, l’Ile de France n’est pas un individu comme les autres, c’est un récapitulatif de
tous les autres individus, nous l’avons appelé individu t (comme total) et nous verrons qu’il s’agit en fait de
l’individu moyen.

Choix de l’échelle sur chacune des variables

Pour choisir les échelles sur les différents axes, servons nous du raisonnement fait sur la variable b (les
2
Ber45neuve). L’écart entre les individus 1 et 2 (Paris et Seine-et Marne) vaut (221,91−127,98)
164,80 soit, avec les
(b1 −b2 )2
notations évidentes, bt . Pour faire apparaître ce nombre comme le carré d’une différence de valeurs, il
faut écrire :
(b1 −b2 )2
bt = ( b1√−b
b
) = ( √b1b −
2 2 b2 2

bt
)
t t


En d’autre termes,√il faut remplacer la variable b par la variable B = b/ bt et calculer pour chaque individu
i la quantité Bi = bi / bt

Moyennes des variables

Pour calculer la moyenne de la variable B par exemple, il faut faire la somme des modalités observées
en tenant compte du fait que les individus sont pesants. En effet, dans l’analyse en composantes principales
telle que nous l’avons vue dans la leçon précédente, tous les individus avaient le même poids, c’est à dire que
chaque individu est aussi important qu’un autre. Ici, ce n’est pas le cas et ce ne doit pas être le cas toujours
en raison de l’équivalence distributionnelle. Supposons que l’on remplace le département de l’Essonne par 42
cantons, qui adoptent chacun un 42ème des immatriculations de l’Essonne. Normalement, les analyses des
deux situations devraient donner le même résultat, sinon l’analyse des immatriculations en Ile de France serait
sensible à la façon dont on choisit les modalités du découpage de la région.

Pour tenir compte de cet effet, on pondére chaque département par son effectif, et c’est la raison de la
présence de la variable p (comme proportion dans le tableau.

calculons alors la moyenne de la variable B


8 8 8

B= pi Bi = pi bi / bt = √1 pi bi
bt
i=1 i=1 i=1

maintenant,

bi est la proportion des immatriculations de Ber45neuves parmi les immatriculations du département i


pi est la proportion des immatriculations du département i dans le total

ber45neuve dans departem ent i


bi = immatriculation du departement i ber45neuve dans departem ent i
immatriculation du departement i donc pi bi = total immatriculations
pi = total immatriculations

4
et quand je fais la somme sur tous les départements :

8
total immatriculations ber45neuves
pi bi = total immatriculations = bt
i=1

8

On trouve donc B = √1 pi bi = √1 bt = Bt = bt
bt bt
i=1

Donc, la moyenne de la variable B est bien la valeur observée pour l’Ile de France. On dit que la marge du
tableau définit le point moyen

Les variances des variables ne reçoivent pas d’interprétation évidentes. Mais ce qui compte ici c’est que les
écarts entre individus sont bien égaux à la somme des écarts sur toutes les variables. Il n’est pas opportun de
réduire les variables, il faut faire une analyse en composantes principales non normée.

L’analyse en composantes principales non normée

Ce qu’il faut garder à l’esprit, c’est que les variables que nous avons créées sont complètement artificielles.
Elles ne sont là que comme des béquilles pour pouvoir facilement dresser la carte des individus. Pour les
résultats, on s’intéressera donc uniquement aux valeurs propres et aux coordonnées des départements

vecteurs propres

Eigen % %
Axis
value explained cumulated
1 0,048142 96,18% 96,18%
2 0,001082 2,16% 98,34%
3 0,000451 0,90% 99,24%
4 0,000295 0,59% 99,83%
5 0,000078 0,16% 99,99%
6 0,000006 0,01% 100,00%
7 0 0,00% 100,00%
Tot. 0,050054 - -

Comme nous faisons une analyse non normée, la somme des valeurs propre est égale à la somme des
variances des variables artificielles, et aussi égale à (la moitié) de la moyenne des carrés des écarts √ entre
individus. Rappelons alors que les variables ont été calibrées (en divisant la colonne b par exemple par bt )
pour que la somme des variances des variables soit égale à la distance du χ2 divisée par l’effectif total. Comme
la somme des variances des variables est égale (dans une ACP) à la somme des valeurs propres, on en déduit
que la distance du χ2 du tableau analysé est égale à 0, 050054 ∗ 1092307. Ce qui fait que l’on peut ainsi avoir
une idée de la quantité d’informatio (au sens du χ2 ) contenue dans le tableau analysé.

D’autre part, comme les valeurs des variables sont des proportions, comprises entre 0 et 1, les carrés des
écarts sont des nombres très faibles (même si on les divise par les proportions moyennes de la ligne Ile de
France) Il en résulte que les valeurs propres sont petites. On montre plus généralement

propriété 1 toutes les valeurs propres sont inférieures à 1, et la somme des valeurs propres est égale à la
distance du χ2 entre les lignes et colonnes du tableau divisée par l’effectif total du tableau.

Ainsi, dans le cas de l’analyse des correspondances, pas question d’appliquer la règle de Kaiser pour choisir
le nombre d’axes significatifs. Il faut s’en remettre à des règles de bon sens comme la règle du coude. Dans le
cas qui nous occuppe, il est clair que deux axes suffisent.

Ensuite, on nous donne les coordonnées sur les différents axs, les CTR et les COS2 comme dans le cas
d’une analyse en composantes principales

5
Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2 cos 1 cos 2
0,92 0,06
Paris 0,12051 0,05282 0,00637 -0,22061 -0,0576 12,18 36,97
(0,92) (0,98)
0,96 0,00
Seine-et-Marne 0,1274 0,02805 0,00357 0,16433 -0,0061 7,15 0,44
(0,96) (0,96)
0,97 0,01
Yvelines 0,16191 0,03573 0,00578 -0,18658 -0,01345 11,71 2,71
(0,97) (0,98)
0,93 0,00
Essonne 0,11961 0,01354 0,00162 0,11241 -0,00395 3,14 0,17
(0,93) (0,93)
0,97 0,03
Hauts-de-Seine 0,14454 0,10936 0,01581 -0,32552 0,0572 31,81 43,73
(0,97) (1,00)
0,97 0,01
Seine-Saint-Denis 0,1165 0,09505 0,01107 0,30346 0,03609 22,28 14,03
(0,97) (0,98)
0,92 0,00
Val-de-Marne 0,09897 0,02148 0,00213 0,14075 -0,01035 4,07 0,98
(0,92) (0,93)
0,99 0,00
Val-d'Oise 0,11056 0,03351 0,00371 0,18254 -0,00977 7,65 0,98
(0,99) (1,00)

On a rajouté les trois premières colonnes : Weight, Sq.Dist et Inertia

• Weight est le poids associé à l’individu-département dans l’analyse. Il correspond à la variable pi que
nous avons déjà rencontré
• Sq.Dist correspond à l’écart total entre l’individu et le point moyen (l’Ile de France). Il représente en
quelque sorte l’éxcentricité de l’individu. Plus cet indicateur est fort, plus l’individu en question est
différent des autres (modélisés par l’individu moyen). Cet indicateur sert à trouver d’éventuels points
aberrants. Si les Sq.dist sont comparables les unes aux autres, on ne peut en aucun cas en faire la somme
sur des individus dfférents
• Inertia tempère quelque peu la variable précédente. On sait que le calcul de la moyenne des écarts
individuels se ramène au calcul de variances, c’est à dire des écarts à la moyenne. Dans ce calcul chaque
individu est pondéré par son poids, et on appelle Inertie de l’individu le produit de son poids (Weight)
par sa distance au point moyen (Sq.dist). ainsi, pour Paris, on a


 Weight = 0, 12051
Inertia=Weight*Sq.dist
Sq.dist = 0, 05282 et donc
 0, 00637 = 0, 12051 ∗ 0, 05282
Inertia = 0, 00637

On rappelle simplement

CTR la contribution de l’individu i à la définition de l’axe nous renvoie à la définition de la variance de


l’axe :
si on appelle Xi la coordonnée de l’individu i sur l’axe et pi son poids, alors

I
la variance de X est égale à V ar(X) = pi Xi2
i=1

en effet, d’une part on doit tenir compte du fait que les individus sont pesants, d’autre part, nous savons
que les axes sont centrés : la moyenne de la variable X est nulle.

dans cette formule, la contribution de l’ndividu i est pi Xi2 et CT Ri la contribution relative de l’individu i
est

pi Xi2
CT Ri = V ar(X)

Ensuite, on doit se souvenir que la variance des coordonnées sur un axe est égale à la valeur propore asociée
à l’axe.

6
ainsi la CTR de Paris à l’axe 1 est calculée facilement
poids coord1 valeur propre CTR
Paris 0,12051 -0,22061 0,048142 12,18
2
en appliquant la formule, on obtient CTR= 0,12051∗(−0,22061)
0,048142 = 0, 12183

On trouve la même chose au coefficient 100 près (le totale des CTR calculée par le logiciel vaut 100)

Pour faire bref, on rappelle que l’axe ne fait qu’opposer les individus qui ont une CTR importante: pour
interpréter l’axe, on peut se restreindre aux individus qui ont une CTR importante.

COS mesure la contribution de l’axe à la position de l’indvidu.

L’écart total de l’individu à la moyenne (qui représente aussi l’écart total de l’individu aux autres individus)
s’exprime comme la somme sur toutes les variables des écarts entre la modalité de l’individu et la moyenne de
la variable. C’est ce que l’on appelle dans le logiciel la Sq-dist.

Si j’appelle Xi , Yi , Zi , ... les coordonnées des l’ndividu i sur les différents axes, alors

Sq-dist i = Xi2 + Yi2 + Zi2 + .....

le COS de l’individu i sur l’axe X par exemple est égal à la part de la variable X dans cette somme soit
Xi2
COSi = Sq−disti

ainsi pour PARIS sur le premier axe, on obtient

Sq-dist coord1 Cos1


Paris 0,05282 -0,22061 0,92

(−0,22061)2
le calcul donne COS1 = 0,05282 = 0, 92141

Pour faire bref, les COS mesure l’importance de l’axe dans l’explication de l’individu.

• Si un individu a un faible COS sur un axe, cet axe ne représente en rien en quoi l’individu se distingue
des autres. On ne doit pas commenter la position de cet individu sur l’axe.
• Si un individu a un gros COS sur un axe, alors les écarts entre cet individu et les autres sont bien
représentés par l’axe et on peut commenter la place de l’individu par rapport aux autres.
Les coordonnées des départements sur les deux premiers axes permettent de faire un graphique

Hauts-de-Seine

Seine-Saint-Denis

Essonne Seine-et-Marne

Yvelines Val-d'Oise

Val-de-Marne

Paris

7
Pour commenter le graphique, on commence par s’assurer que les différents départements sont bien
représentés, c’est à dire qu’ils ont un Cos important, ce qui est le cas.

Ensuite, on peut commenter les proximités:

Les quatre départements de l’Essonne, de Seine-et-Marne, du Val d’Oise et du Val-de-Marne sont situés
les uns à côté des autres, ils sont donc très proches en termes d’immatriculation, comme on peut le voir sur
l’extrait du tableau des profils suivant en comparaison avec un département éloigné comme par exemple celui
des Hauts-de-Seine

Ber23Neuve Ber45Neuve BreakNeuf MonospNeuf Ber23occas Ber45Occas Breakoccas Monospoccas proportion


Individu a b c d e f g h total P
Seine-et-Marne 2 36,35 127,98 18,71 73,41 170,98 434,07 38,87 99,63 1000 0,1274
Essonne 4 39,20 139,53 20,68 81,54 167,89 415,97 35,12 100,06 1000 0,1196
Val-de-Marne 7 37,67 138,54 18,29 74,53 182,07 420,99 30,41 97,51 1000 0,0990
Val-d'Oise 8 35,00 127,35 19,09 67,49 180,00 441,00 34,04 96,01 1000 0,1106

Hauts-de-Seine 5 51,86 225,67 47,92 157,62 129,62 285,50 26,84 74,99 1000 0,1445

Maintenant, on peut refaire la même présentation des écarts entre les colonnes du tableau, à savoir les
types de voiture

Les colonnes du tableau

On commencera donc à calculer les profils associés à chacun des types de voiture. Pour retrouver la même
présentation que dans les sections précédentes, on est obligé de transposer tableau, c’est à dire d’intervertir
les variables en ligne et en colonne.

Seine-Saint-Denis Val-d'Oise Seine-et-Marne Val-de-Marne Essonne Yvelines Paris Hauts-de-Seine Île-de-France proportion
Ber45Neuve 71,12 85,44 98,94 83,20 101,27 199,85 162,27 197,92 1000 0,042
MonospNeuf 69,13 77,34 96,93 76,44 101,07 200,51 142,47 236,11 1000 0,165
BreakNeuf 53,97 71,28 80,49 61,11 83,52 238,24 177,53 233,85 1000 0,030
Ber23Neuve 59,05 91,17 109,09 87,82 110,45 202,11 163,74 176,57 1000 0,096
Breakoccas 121,71 115,39 151,86 92,29 128,81 153,65 117,36 118,93 1000 0,159
Monospoccas 120,28 119,15 142,48 108,32 134,34 152,81 100,95 121,66 1000 0,385
Ber23occas 137,06 124,81 136,61 113,01 125,94 136,31 108,78 117,49 1000 0,033
Ber45Occas 149,06 126,48 143,46 108,09 129,07 139,12 97,66 107,05 1000 0,089
Total 120,51 127,40 161,91 119,61 144,54 116,50 98,97 110,56 1000,00 1

Avec un peu d’habitude, on gardera toujours les variables à la même place, et on parlera de profils ligne
quand on étudie les écarts entre les modalités-lignes du tableau comme dans les sections précédentes et de profils
colonne quand on étudie les écarts entre modalités de la varible "colonne" du tableau et on se préoccupera du
tableau suivant qui donne exactement la même information que le précédent:

Ber45Neuve MonospNeuf BreakNeuf Ber23Neuve Breakoccas Monospoccas Ber23occas Ber45Occas Total


Seine-Saint-Denis 71,12 69,13 53,97 59,05 121,71 120,28 137,06 149,06 120,51
Val-d'Oise 85,44 77,34 71,28 91,17 115,39 119,15 124,81 126,48 127,40
Seine-et-Marne 98,94 96,93 80,49 109,09 151,86 142,48 136,61 143,46 161,91
Val-de-Marne 83,20 76,44 61,11 87,82 92,29 108,32 113,01 108,09 119,61
Essonne 101,27 101,07 83,52 110,45 128,81 134,34 125,94 129,07 144,54
Yvelines 199,85 200,51 238,24 202,11 153,65 152,81 136,31 139,12 116,50
Paris 162,27 142,47 177,53 163,74 117,36 100,95 108,78 97,66 98,97
Hauts-de-Seine 197,92 236,11 233,85 176,57 118,93 121,66 117,49 107,05 110,56
Île-de-France 1000 1000 1000 1000 1000 1000 1000 1000 1000,00
proportion 0,042 0,165 0,030 0,096 0,159 0,385 0,033 0,089 1

8
Ceci dit, on refait un travail analogue, en associant à chaque département une variable artificielle. les
résultats de l’analyse en composantes principales de ce tableau donnent

Les valeurs propres

Eigen % %
Axis
value explained cumulated
1 0,048142 96,18% 96,18%
2 0,001082 2,16% 98,34%
3 0,000451 0,90% 99,24%
4 0,000295 0,59% 99,83%
5 0,000078 0,16% 99,99%
6 0,000006 0,01% 100,00%
7 0 0,00% 100,00%
Tot. 0,050054 - -

On vérifie bien que la somme des valeurs propres est la même que précédemment, puis qu’elle est égale,
nous l’avons vu, à la distance du χ2 entre les variables du tableau des effectifs, divisée par l’effectif total.

En fait, on peut montrer

propriété 2 les valeurs propres des deux analyses sont identiques.

En fait le tableau analysé ici présente autant de lignes que de colonnes. Dans la pratique, on pourra
s’intéresser à des tableaux présentant des nombres de lignes et de colonnes distincts. Par exemple, si vous
analysez un tableau présentant la répartition de la population française suivant le département où habite
chaque personne et l’age de la personne (en dix tranches d’âge), vous obtenez un tableau de 10 colonnes sur
90 lignes. Quand vous analysez les écarts entre profils-lignes, chaque colonne est une variable et vous avez
donc 10 variables, 10 valeurs propres. Quand vous analysez les écarts entre les profils-colonnes, vous avez 90
variables et donc 90 valeurs propres. Dire que les valeurs propres sont les mêmes, c’est dire que que dans le
second cas il y a 10 valeurs propres indentiques à celles du premier cas et 80 valeurs propres nulles.

D’ailleurs, parmi les 10 valeurs propres, il y en a une "triviale". En effet quand on regarde par exemple les
profils lignes, avant de "normaliser les variables", on sait que la somme des éléments d’une même ligne vaut
toujours 1. Si on connaît la valeur des 9 premières variables, on connaît forcément la valeur de la dixième.
Dans le tableau, il y aurait donc non pas 10 variables qui peuvent prendre des valeurs "comme elles veulent",
mais 9 et l’analyse ne présenterait que 9 vleurs propres.

Dans le tableau des immatriculations en Ile de France, il y a 8 lignes et 8 colonnes, on calculer donc 7
valeurs propres comme indiqué dans le tableau des valeurs propres.
les coordonnées des individus types de voiture:

Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2 cos 1 cos 2
0,99 0,01
Ber45Neuve 0,1648 0,07815 0,01288 -0,27794 -0,02569 26,45 10,06
(0,99) (1,00)
0,99 0,00
Ber45Occas 0,38548 0,03227 0,01244 0,17897 0,00815 25,65 2,37
(0,99) (0,99)
0,94 0,05
MonospNeuf 0,09649 0,11575 0,01117 -0,33068 0,07788 21,92 54,11
(0,94) (1,00)
0,98 0,00
BreakNeuf 0,02962 0,2083 0,00617 -0,45179 -0,00773 12,56 0,16
(0,98) (0,98)
0,88 0,11
Ber23Neuve 0,04245 0,06891 0,00292 -0,24633 -0,08571 5,35 28,83
(0,88) (0,99)
0,77 0,00
Monospoccas 0,08909 0,01258 0,00112 0,09857 -0,00772 1,8 0,49
(0,77) (0,78)
0,95 0,00
Ber23occas 0,15945 0,01871 0,00298 0,13313 -0,00458 5,87 0,31
(0,95) (0,95)
0,54 0,11
Breakoccas 0,03262 0,01134 0,00037 0,07816 -0,0349 0,41 3,67
(0,54) (0,65)

9
On retrouve dans le second tableau les mêmes indicateurs Weight, Sq.dist et Inertia. Les individus sont
tous bien représentés et on peut faire un graphique sur les deux premiers axes:

MonospNeuf

Ber45Occas

BreakNeuf Ber23occas
Monospoccas
Ber45Neuve
Breakoccas

Ber23Neuve

Comme dans le graphique précédent, on peut commenter la proximité de deux types de voitures ou leur
éloignement. Mais l’intérêt de l’analyse factorielle des correspondances réside dans le fait que l’on peut associer
les deux analyses

associer les deux analyses

Le problème dans ce type d’analyse, c’est l’importance des calculs mathématiques. En fait, les deux analyses
sont liées. Si les départements des Hauts de Seine et Paris sont éloignés, c’est que leurs profils sont vraiment
différents, ils n’accordent pas la même importance aux types de voiture, et de "manière duale" (comme on dit
dans la profession) les types de voitures ne sont pas distribués de la même façon entre les départements. Donc,
il doit y avoir une, voire plusieurs relations fortes entre les deux analyses. Laissons aux mathématiciens le soin
d’établir ces relations dont l’obtention n’est pas vraiment immédiate. On chuchotte même que le professeur
Benzecri, qui a établi ces relations avec une de ses étudiantes en thèse, ne s’est rendu compte de l’existence
même de ces relations que lors de l’implémentation des algorithmes de calcul des deux analyses en composantes
principales sur ordinateur. Ils ont obtenu les relations en simplifiant la programmation.

Ceci dit, le fait qu’il soit compliqué d’obtenir les relations ne doit pas nous empêcher de les utliser. En
fait, ils ont établi trois types de relations :

• une formule de reconstitution des données qui permet de retrouver le tableau des données à partir
des coordonnées sur les axes, un peu comme dans le cas de l’analyse en composantes principales quand
nous avions retrouvé les valeurs estimées des variables à partir des coordonnéees factorielles des individus
et de celle des variables
• des formules de transition qui permettent de calculer de façon simple les coordonnées des lignes à
partir des coordonnées des colonnes (et vice-versa) à condition de connaitre les profils des lignes et des
colonnes.

prise en compte des deux analyses: quelques notations

Pour comprendre cette formule, nous avons besoin de quelques notations : reprenons le tableau des données
en nous intéressant plus particulièrement à

10

 la ligne Essonne que j’appellerai ligne i
et

à la colonne Ber45Neuve que j’appellerai colonne j

Ber45Neuve
dept Ber23Neuve BreakNeuf MonospNeuf Ber23occas Ber45Occas Breakoccas Monospoccas total
colonne j

Paris 7592 29211 5743 15016 18946 41123 4181 9824 131636

Seine-et-Marne 5058 17810 2604 10216 23794 60408 5410 13865 139165

Yvelines 9371 35977 7707 21133 23741 58578 5474 14870 176851

Essonne ligne i 5121 Nij = 18230 2702 10653 21935 54347 4589 13073 Ni = 130650

Hauts-de-Seine 8187 35629 7565 24885 20464 45076 4237 11839 157882

Seine-Saint-Denis 2738 12803 1746 7286 23872 62764 4336 11705 127250

Val-de-Marne 4072 14977 1977 8057 19683 45512 3288 10541 108107

Val-d'Oise 4227 15380 2306 8151 21738 53258 4111 11595 120766

Total 46366 Nj = 180017 32350 105397 174173 421066 35626 97312 N = 1092307

Nous avons souligné en gras les nombres intéressants, à savoir




 Nj = 180017 le nombre total de voitures de la colonne j (j comme Ber45Neuve)

Ni = 130650 le nombre de voitures de la ligne i (i comme Essonne)

 N = 1092307 le nombre total de voitures

Nij = 18230 le nombre de voitures de la case (ligne i colonne j)

Quand on fait le profil de la ligne i, on divise tous les nombres de la ligne par le total Ni de la ligne i.
Nij 18230
Dans la case (i, j) on trouve donc Ni = 130650 = 0, 13953

Quand on fait le profil "moyen, on divise le total de la colonne j par le total général
Nj 180017
Dans la case (total,j) on trouve donc N = 1092307 = 0.1648

autrement dit, on trouve le tableau suivant

Ber45Neuve
dept Ber23Neuve BreakNeuf MonospNeuf Ber23occas Ber45Occas Breakoccas Monospoccas total
colonne j

Paris

Seine-et-Marne

Yvelines

Essonne ligne i 0,0392 Nij/Ni = 0,1395 0,0207 0,0815 0,1679 0,4160 0,0351 0,1001 1,0000

Hauts-de-Seine

Seine-Saint-Denis

Val-de-Marne

Val-d'Oise

Total 0,0424 Nj/N = 0,1648 0,0296 0,0965 0,1595 0,3855 0,0326 0,0891 1,0000

Bien entendu, dans la ligne Total, on a le profil moyen. Dire que l’on veut comparer le pofil de la ligne i
au profil moyen, c’est dire qu’on va comparer terme à terme ou plutôt "colonne à colonne" les nombres de la
ligne i à ceux de la ligne Total. En particulier, on va comparer les nombres NNiji et NNj

Si on trouve que NNiji est supérieur à


Nj
N , on dira qu’il y a un excédent de la modalité j (j pour Ber45Neuve)
dans la ligne i (i pour Essonne).
Nij Nj Nj
Remarquons que Ni > N peut se réécrire Nij > Ni ∗ N ou encore en divisant tout par N,

11
Nij Ni Nj
N > N ∗ N

Les mathématiciens simplifient toujours leurs notations, mais pour les utilisateurs, cela peut sembler em-
brouiller un peu le problème, car il semble que l’on ait plusieurs noms pour le même objet.

Ils ont décidé de prendre le tableau de données initiales et de diviser tous les nombres pr le "grand total"
N. et définissent ainsi les fréquences de chaque case du tableau, à savoir pour la case (i, j)
Nij
Fij = N

Dire qu’il y a excédent de la modalité colonne j daans la modlité ligne i c’est dire que Fij > Fi Fj . Autrement
dit comparer le profil de la ligne i au profil moyen revient à comparer la fréquence Fij de chaque case (i, j)
avec le produit des marges correspondant Fi Fj .

Nous verrons que ce genre de raisonnement est exactement celui que l’on fait quand on veut faire le test du
X 2 qui détermine si deux variables qualitatives sont liées ou non. Pour le moment, contentons nous de savoir
que Fij − Fi Fj nous renseigne sur la comparaison de ce qui se passe dans la case (i, j) par comparaison à ce
que donneraient les marges. Notons que
Fij
Fi > Fj
Si Fij > Fi Fj , alors Fij
Fj > Fi

Fij profil de la ligne i il y a une proportion plus importante


• > Fj signifie que dans le
Fi de la colonne j que dans le profil ligne moyen

Fij profil de la colonne j il y a une proportion plus importante


• > Fj signifie que dans le
Fi de la ligne i que dans le profil ligne moyen

On retrouve bien que les analyses des profils lignes et des profils colonne sont liées.

Pour s’en convaincre, calculons l’écart du profil i au profil moyen. Cet écat est la somme sur toutes les
colonnes j de la quantité ( FFiji − Fj )2 /Fj qui peut se réérire en "enlevant les divisions à l’intérieur du terme en
carré"

( FFiji − Fj )2 /Fj = ( FFiji − Fi Fj 2


Fi ) /Fj = (Fij − Fi Fj )2 /(Fi2 Fj )

Cette quantité est donc la partie du carré de la distance entre la ligne i et la ligne moyenne, partie due à
la colonne j

Maintenant, savoir que la ligne i est à une distance de 18,45632 de la ligne moyenne, c’est intéressant, mais
quand on va faire la moyenne des distances entre chaque ligne et la ligne moyenne, il va falloir tenr compte des
poids relatifs des différentes lignes et donc des Inerties. Autrement dit, nous allons multiplier chaque distance
par le poids de la ligne correspondante. Deux notions donc,

d2 (i) l’écart entre le profil de la modalité i et le profil moyen,


ρ2 (i) l’écart pondéré entre le profil de la modalité i et le profil moyen

. Ces deux quantités sont calculées par le logiciel Tanagra que nous utilisons : la première correspond à
l’indicateur Sq.Dist et le second à l’indicateur Inertia

Le premier est simplement la somme sur toutes les colonnes j de l’écart précédent

d2 (i) = (Fij − Fi Fj )/(Fi2 Fj ) = ( FFiji − Fj )2 /Fj


j j

12
pour obtenir le second, il suffit de multiplier l’écart de la modalité i par son poids

ρ2 (i) = F (i)d2 (i)

Evidemment, d2 (i) ne sert qu’à décider si la modalité i se distingue par rapport aux autres modalités. En
aucun cas on ne peut sommer ces valeurs, car on ne tient lors pas compte des importances respectives des
modalités. Supposons par exemple que vous étudiez un tableau donnant la répartition des enseignants avec
en ligne les départements d’exercice de l’enseignant et en colonne les différentes disciplines enseignées. Vous
pouvez vous demander en quoi la Creuse et Paris sont différents du profil moyen. Dans ce cas, vous utilisez
l’écart d2 (i). Mais si vous voulez étudier le tableau entier, vous ne pouvez pas compter pour 1 la Creuse et
pour 1 Paris, car il y a un problème de taille. Dans ce cas, on utilisera évidemment ρ2 (i).

Il fallait bien trouver un nom pour désigner ρ2 (i). La profession utilise au moins deux noms selon le
contexte:

Inertie de la ligne i langage de physicien


distance du X 2 de la ligne i langage de statisticien

Quoiqu’il en soit, intéressons nous à la contribution de la colonne j à l’inertie de la modalité i. Cette


dernière vaut

Fi ∗ (Fij − Fi Fj )2 /(Fi2 Fj ) = (Fij − Fi Fj )2 /(Fi Fj )

Ce qui est fortement intéressant ici, c’est que cette formule est complètement symétrique en
i et j, puisque l’on peut écrire

contribution de la colonne j à l’inertie de la modalité i. (Fij − Fi Fj )2 /(Fi Fj )


contribution de la ligne i à l’inertie de la modalité j. (Fij − Fi Fj )2 /(Fi Fj )

Ainsi donc la somme des inerties de toutes les lignes coïncide avec la somme des inerties des colonnes.

On comprend dans ces conditions qu’il y ait de fortes relations entre l’analyse des écarts entre les modalités-
lignes et celle ds écarts entre les modalités-colonne du tableau. Revenons alors à la comparaison des deux
analyses.

La première chose qu’il faut constater, comme nous l’avons déjà dit, c’est que les deux analyses con-
duisent aux mêmes valeurs propres. Donc, il y a "autant d’écart" expliqué par le premier axe, que ce
soit dans l’analyse des écarts entre les lignes que dans celle des écarts entre colonnes du tableau.

Maintenant, intéressons nous au premier axe. On appelle



 λ1 la première valeur propre
U (i) la coordonnée de la ligne i sur le premier axe
 1
V1 (j) la coordonnée de la colonne j sur le premer axe

La formule de reconstitution des données nous dit que

Fij − Fi Fj ≈ Fi ∗ Fj ∗ √1 U1 (i)V1 (j)


λ1

Vérifions le fait sur les données, pour la ligne i (i comme Essonne) et la colonne j (j comme Ber45Neuve)


 Fij = NNij = 1092307
18230
= 0.016894

 Ni 130650

 Fi = N = 1092307 = 0.1196092

Fj = NNj = 1092307
180017
= 0.1648044 on a

 λ1 = 0.048142



 1 (i) = 0.11241
 U
V1 (i) = −0.27794

13
(Fij − Fi Fj )/Fi Fj = −0, 14296 √1 U1 (i) ∗ V1 (j) = −0, 14239
λ1

Dans le cas qui nous occupe, la reconstitution coïncide à la deuxième décimale, car la première valeur
propre explique 96% du total des écarts. Mais dans la plupart des cas, il convient de prendre en compte plus
d’axes, par exemple deux

Fij − Fi Fj ≈ Fi ∗ Fj ∗ √1 U 1 (i)V 1 (j) + √1 U 2 (i)V 2 (j)


λ1 λ2

Oublions les valeurs propres, nous sommes exactement dans le cas de la reconstitution des données dans
le cas de l’analyse en composantes principales. Souvenez vous du dessin :

V
1

-1 O 1 U
la valeur Xi est reconstituée par a1 Ui + b1 Vi

-1

Dans le cas qui nous occupe, on a donc le droit de de représenter sur le même dessin les types de voiture
et les départements. Nous ne marquerons pas les flêches comme dans le cas de l’analyse en compsantes
principales, si nous représentions tous les vecteurs qui permettent de visualiser la reconstitution des données,
comme pour les MonospNeuf et les Hauts de Seine, le graphique deviendrait vite illisible

0,1
MonospNeuf
0,08

0,06
Hauts-de-Seine Seine-Saint-Denis
0,04

0,02 Ber45Occas
Ber23occas
0 Essonne
Seine-et-Marne
-0,6 -0,4 -0,2
Yvelines 0 Monospoccas 0,2 0,4
BreakNeuf Val-d'Oise
-0,02 Val-de-Marne
Ber45Neuve
Breakoccas
-0,04

-0,06
Paris
-0,08

Ber23Neuve -0,1

• Le graphique nous apprend que les Hauts de Seine se distinguent par le fait qu’on y a immatriculé
beaucoup de Monospace Neuf, de Break neuf et de Berlines 45 portes neuves que la moyenne, Par
contre les vecteurs liant l’origine à Paris et celui reliant l’origine à Break occas sont presque hortogonaux,
la proportion de Break occas à Paris est comparable à la proportion moyenne.
• On peut aussi analyser les facteurs comme dans le cas de l’analyse en composantes principales. L’axe des
absicsses oppose les immatriculations de voitures neuves (coordonnées négatives) aux voitures d’occasion

14
(coordonnées positives). Et les départements "riches" (Hauts de Seine, Paris, Yvelines coordonnées
négatives) aux départements "moins riches" (Essonne, Val de Marne, Val d’oise et Seine et Marne
légèrements négatifs) et surtout la Seine Saint Denis très négative.
• L’axe des ordonnées oppose les Monospaces Neufs à toutes les autres types de voiture.

Ainsi donc la formule de reconstitution des données permet de superposer les deux graphiques et d’analyser
les directions indiquées par les différentes modalités. Mais il y a d’autres formules qui permettent aussi la
superposition des deux graphiques.

les formules de transition

Nous savons que sur le graphique, deux modalités de la même variable, disons deux département sont
proches si les profils correspondants sont proches, c’est à dire les immatriculations des différents types de
voiture sont présentes dans les mêmes proportions. Les formules de transition permettent d’analyser les
proximités entre départements et types de voiture. Je rappelle les différentes notations:

 λ1 la première valeur propre
U (i) la coordonnée de la ligne i sur le premier axe
 1
V (j) la coordonnée de la colonne j sur le premer axe
 1 N
 Fij = Nij la fréquence de la case (i, j)
Ni
F = N la fréquence de la modalité i
 i
Fj = NNj la fréquence de la modalité j

On a :
Fij
U1 (i) = √1
λ1 Fi V1 (j)
j

Oublions le terme en √1 , la coordonnée du département i est égale à la moyenne des coordonnées des
λ1
types de voiture, chaque type de voitures j est pondérée par FFiji le poids de la colonne j dans le profil de la
ligne i. On dit que la position du département i est au barycentre des positions des différents types de voiture,
pondérées par le profil du département i.

Ainsi, si un type de voiture j a un grand poids dans le département i, alors la valeur U (i) de la coordonnée
du département i sera "proche" de la coordonnée V (j) de ce type de voiture j. Ce raisonnement vaut surtout
pour les profils très constratés sur les axes, c’est à dire pour les profils qui ont une valeur importante de la
CTR qui mesure, rappelons le, l’importance de l’individu-modalité dans la détermination de l’axe.

Ces deux formules que nous ne montrerons pas forment à elles seules tout l’intérêt de l’analyse des cor-
respondances, et tout l’art du statisticien réside dans leur exploitation astucieuse au travers de plusieurs
thèmes.

le réarrangement des lignes et colonnes du tableau

Les variables représentant les lignes et colonnes du tableau sont qualitatives. Dans bien des cas cela signifie
que l’ordre dans lequel on écrit les modaltés est purement arbitraire, par exemple on les rangera par ordre
alphabétique. L’analyse des correspondances du tableau permet un choix de l’ordre des modalités qui a une
signification. On peut en effet se servir des coordonnées des modalités sur le premier de l’analyse pour ordonner
les modalités lignes et colonnes du tableau. Cet arrangement a une interprétation vis à vis des associations de
modalités au sens de la reconstitution des données aussi bien que des formules de transition. Dans l’exemple
qui nous occuppe, on trouve la réécriture du tableau des données:

15
BreakNeuf MonospNeuf Ber45Neuve Ber23Neuve Breakoccas Monospoccas Ber23occas Ber45Occas total
Hauts-de-Seine 7565 24885 35629 8187 4237 11839 20464 45076 157882
Paris 5743 15016 29211 7592 4181 9824 18946 41123 131636
Yvelines 7707 21133 35977 9371 5474 14870 23741 58578 176851

Essonne 2702 10653 18230 5121 4589 13073 21935 54347 130650
Val-de-Marne 1977 8057 14977 4072 3288 10541 19683 45512 108107
Seine-et-Marne 2604 10216 17810 5058 5410 13865 23794 60408 139165
Val-d'Oise 2306 8151 15380 4227 4111 11595 21738 53258 120766
Seine-Saint-Denis 1746 7286 12803 2738 4336 11705 23872 62764 127250
Total 32350 105397 180017 46366 35626 97312 174173 421066 1092307

Le fait que lignes et colonnes n’aient pas le même poids cache réellement l’intérêt de la chose. On préfèrera
donner les profils lignes (mais on aurait pu donner les profils colonne), On a multiplié les nombres pr 10000
pour éviter les problèmes de décimales.

BreakNeuf MonospNeuf Ber45Neuve Ber23Neuve Breakoccas Monospoccas Ber23occas Ber45Occas total


Hauts-de-Seine 479 1576 2257 519 268 750 1296 2855 10000
Paris 436 1141 2219 577 318 746 1439 3124 10000
Yvelines 436 1195 2034 530 310 841 1342 3312 10000
Essonne 207 815 1395 392 351 1001 1679 4160 10000
Val-de-Marne 183 745 1385 377 304 975 1821 4210 10000
Seine-et-Marne 187 734 1280 363 389 996 1710 4341 10000
Val-d'Oise 191 675 1274 350 340 960 1800 4410 10000
Seine-Saint-Denis 137 573 1006 215 341 920 1876 4932 10000
Total 296 965 1648 424 326 891 1595 3855 10000

Il faut dire que les choses sont plus flagrantes si on calcule les différences au profil moyen:

BreakNeuf MonospNeuf Ber45Neuve Ber23Neuve Breakoccas Monospoccas Ber23occas Ber45Occas total


Hauts-de-Seine 183 611 609 94 -58 -141 -298 -1000 0
Paris 140 176 571 152 -9 -145 -155 -731 0
Yvelines 140 230 386 105 -17 -50 -252 -543 0
Essonne -89 -150 -253 -33 25 110 84 305 0
Val-de-Marne -113 -220 -263 -48 -22 84 226 355 0
Seine-et-Marne -109 -231 -368 -61 63 105 115 486 0
Val-d'Oise -105 -290 -375 -74 14 69 205 555 0
Seine-Saint-Denis -159 -392 -642 -209 15 29 281 1078 0
Total 296 965 1648 424 326 891 1595 3855 10000

ou encore comme ici, les "écarts au produit des marges": dans chaque case (i, j) , nous avons indiqué la
valeur Fij −Fi Fj que nous avon multipliée par 100 000 pour que le résultat ne soit pas occulté par les décimales
:

BreakNeuf MonospNeuf Ber45Neuve Ber23Neuve Breakoccas Monospoccas Ber23occas Ber45Occas


Hauts-de-Seine 264 884 880 136 -84 -204 -431 -1445
Paris 169 212 688 183 -10 -174 -187 -881
Yvelines 226 372 625 171 -27 -81 -408 -878
Essonne -107 -179 -302 -39 30 131 101 365
Val-de-Marne -112 -217 -260 -47 -22 83 224 351
Seine-et-Marne -139 -294 -469 -78 80 134 147 619
Val-d'Oise -116 -321 -414 -82 16 77 227 614
Seine-Saint-Denis -185 -457 -748 -244 17 34 328 1255

16
On voit bien sur ces différents tableaux les associations lignes-colonnes soulignées par le graphique.

la prise en compte de lignes ou colonnes supplémentaires

Il s’agit de voir comment un nouveau département se situe par rapport à l’analyse de la région Ile de
France, ou un nouveau type de véhicules. Par exemple:

Ber23Neuve Ber45Neuve BreakNeuf MonospNeuf Ber23Occas Ber45Occas Breakoccas Monospoccas Total


Bouches-du-Rhône 11 643 24 804 3 090 12 108 45 942 88 206 6 827 17 532 210 152
profil 0,05540 0,11803 0,01470 0,05762 0,21861 0,41972 0,03249 0,08343 1,00000

et d’appliquer la formule de transition, pour obtenir les coordonnées de la région des Bouches du Rhône.
Par exemple pour le premier axe, les différents types de voiture ont les coordonnées suivantes :

Ber23Neuve Ber45Neuve BreakNeuf MonospNeuf Ber23occas Ber45Occas Breakoccas Monospoccas

Axe 1 -0,17418 -0,19654 -0,31947 -0,23382 0,09414 0,12655 0,05527 0,0697

on calcule la somme :(−0, 17418 ∗ 0, 05540) + (−0, 19654 ∗ 0, 11803) + ... + (0, 08343 ∗ 0, 05527)

et on la divise par la racine carrée de la première valeur propre et on obtient

Axe 1 Axe 2

Bouches-du-Rhône 0,1952 -0,0841

Le même calcul s’applique pour le positionnement d’un individu-colonne supplémentaire.

L’interprétation du graphique: on commente les CTR

Plutôt que d’aller se jeter sur les graphiques, il convient de regarder les coordonnées des différents éléments
et en premier lieu les contributions (CTR).

Rappelons que la contribution d’un individu-modlité à l’explication de l’axe est la part que prend l’individu
dans le calcul de la variance de l’axe.

coordonnée U (i)
Si l’individu i a pour
poids Fi

Alors la variance de l’axe a pour valeur Fi U (i)2 = valeur propre de l’axe


i

En effet, la variable U étant centrée, on ne s’occupe pas de la moyenne, et les individus étant pesants, il
faut tenir compte de leurs poids.

Fi Ui2 Fi Ui2
La contribution de l’individu i à l’explication de l’ave est donc égal à variance de l’axe = valeur propre de l’axe

De part les formules de transition, les modalités colonnes par exemple qui ont de grands poids et (ou) de
grandes coordonnées (et donc de grandes CTR) prennent une part importante dans le calcul de la coordonnée
des modalités-ligne. L’axe révèle donc une opposition entre les modalités qui ont une CTR élevée. Prenons
par exemple les immatriculations de véhicules en 2005, nous avons rajouté des types de véhicules et les
départements des régions Picardie et Champagne-Ardennes.

17
TousterrainsNeuf

Tousterrainsoccas
Cabriolet occas
Cabriolet Neuf

Monospoccas
MonospNeuf
Ber23Neuve

Ber45Neuve

Ber23Occas

Ber45Occas

Coupeoccas
Breakoccas
CoupeNeuf

Miniboccas
BreakNeuf

MinibNeuf
dept

Paris 7592 29211 5743 2456 714 545 15016 3764 18946 41123 4181 3033 2685 488 9824 3075
Seine-et-Marne 5058 17810 2604 800 285 232 10216 2193 23794 60408 5410 1885 2282 504 13865 2776
Yvelines 9371 35977 7707 2127 1345 569 21133 3414 23741 58578 5474 2264 2364 440 14870 2886
Essonne 5121 18230 2702 694 308 240 10653 1841 21935 54347 4589 1675 2122 388 13073 2192
Hauts-de-Seine 8187 35629 7565 1706 571 397 24885 2743 20464 45076 4237 2421 2026 318 11839 2454
Seine-Saint-Denis 2738 12803 1746 486 154 205 7286 1183 23872 62764 4336 1491 1803 553 11705 1559
Val-de-Marne 4072 14977 1977 693 249 212 8057 1453 19683 45512 3288 1733 1735 377 10541 1768
Val-d'Oise 4227 15380 2306 764 232 201 8151 1940 21738 53258 4111 1580 1888 435 11595 2070
Ardennes 1264 4688 481 253 56 71 2497 473 5612 14357 1012 462 421 103 3013 920
Aube 876 3757 463 130 59 43 1890 562 5149 15022 1190 396 489 120 3272 915
Marne 2339 9263 1307 398 153 123 5170 1380 9778 26362 2227 790 916 199 6145 1688
Haute-Marne 586 2069 249 89 23 27 1085 324 3702 9973 791 249 341 52 2004 603
Aisne 2367 10568 1910 336 130 146 4341 1832 10110 27123 2162 751 830 148 5221 1378
Oise 11501 68450 8704 1497 240 1032 45362 2637 16332 44954 4098 1184 1331 295 9301 2131
Somme 1898 7459 863 291 107 73 3829 1404 10125 26703 2331 773 859 180 6133 1412
Picardie 15766 86477 11477 2124 477 1251 53532 5873 36567 98780 8591 2708 3020 623 20655 4921
Champagne-Ardenne 5065 19777 2500 870 291 264 10642 2739 24241 65714 5220 1897 2167 474 14434 4126
Île-de-France 46366 180017 32350 9726 3858 2601 105397 18531 174173 421066 35626 16082 16905 3503 97312 18780

les valeurs propres montrent qu’il n’y a que deux axes dans l’analyse.

%
Axis Eigen value % explained
cumulated
1 0,08558 88,85% 88,85%
2 0,006865 7,13% 95,98%
3 0,001533 1,59% 97,57%
4 0,000833 0,86% 98,44%
5 0,000654 0,68% 99,12%

Tot. 0,096316

les coordonnées des lignes

Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2 cos 1 cos 2
Paris 0,08752 0,05633 0,00493 -0,135 0,18445 1,86 43,37 0,32 (0,32) 0,60 (0,93)
Seine-et-Marne 0,08854 0,0483 0,00428 0,21679 -0,017 4,86 0,37 0,97 (0,97) 0,01 (0,98)
Yvelines 0,11339 0,02639 0,00299 -0,1156 0,0885 1,77 12,94 0,51 (0,51) 0,30 (0,80)
Essonne 0,08263 0,03029 0,0025 0,16741 -0,0246 2,71 0,73 0,93 (0,93) 0,02 (0,95)
Hauts-de-Seine 0,10057 0,06803 0,00684 -0,2476 0,04394 7,21 2,83 0,90 (0,90) 0,03 (0,93)
Seine-Saint-Denis 0,07943 0,13331 0,01059 0,34297 -0,103 10,92 12,29 0,88 (0,88) 0,08 (0,96)
Val-de-Marne 0,06861 0,04074 0,0028 0,19254 -0,017 2,97 0,29 0,91 (0,91) 0,01 (0,92)
Val-d'Oise 0,0766 0,05487 0,0042 0,23211 -0,021 4,82 0,49 0,98 (0,98) 0,01 (0,99)
Ardennes 0,02105 0,04384 0,00092 0,18917 -0,0243 0,88 0,18 0,82 (0,82) 0,01 (0,83)
Aube 0,02025 0,09308 0,00188 0,28923 -0,0339 1,98 0,34 0,90 (0,90) 0,01 (0,91)
Marne 0,04025 0,02881 0,00116 0,15124 0,00469 1,08 0,01 0,79 (0,79) 0,00 (0,79)
Haute-Marne 0,01307 0,12562 0,00164 0,34258 -0,0396 1,79 0,3 0,93 (0,93) 0,01 (0,95)
Aisne 0,0409 0,03215 0,00131 0,1308 0,0225 0,82 0,3 0,53 (0,53) 0,02 (0,55)
Oise 0,12919 0,3682 0,04757 -0,5951 -0,1164 53,45 25,48 0,96 (0,96) 0,04 (1,00)
Somme 0,03801 0,07083 0,00269 0,25478 -0,0122 2,88 0,08 0,92 (0,92) 0,00 (0,92)

les coordonnées des colonnes

18
Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2 cos 1 cos 2
Ber23Neuve 0,03963 0,06452 0,00256 -0,2279 0,09999 2,41 5,77 0,81 (0,81) 0,15 (0,96)
Ber45Neuve 0,16884 0,15283 0,0258 -0,3885 -0,0256 29,77 1,62 0,99 (0,99) 0,00 (0,99)
BreakNeuf 0,02732 0,19441 0,00531 -0,3844 0,17968 4,72 12,85 0,76 (0,76) 0,17 (0,93)
Cabriolet Neuf 0,0075 0,23093 0,00173 -0,2229 0,40351 0,44 17,79 0,22 (0,22) 0,71 (0,92)
CoupeNeuf 0,00273 0,45302 0,00124 -0,122 0,54417 0,05 11,77 0,03 (0,03) 0,65 (0,69)
MinibNeuf 0,00243 0,21008 0,00051 -0,4253 0,02395 0,51 0,02 0,86 (0,86) 0,00 (0,86)
MonospNeuf 0,10001 0,24182 0,02418 -0,4832 -0,0806 27,28 9,45 0,97 (0,97) 0,03 (0,99)
TousterrainsNeuf 0,01601 0,08813 0,00141 -0,0079 0,23453 0 12,83 0,00 (0,00) 0,62 (0,62)
Ber23Occas 0,13859 0,04923 0,00682 0,21772 0,00477 7,68 0,05 0,96 (0,96) 0,00 (0,96)
Ber45Occas 0,34535 0,05507 0,01902 0,23017 -0,0422 21,38 8,95 0,96 (0,96) 0,03 (0,99)
Breakoccas 0,02916 0,03099 0,0009 0,16255 0,0258 0,9 0,28 0,85 (0,85) 0,02 (0,87)
Cabriolet occas 0,0122 0,08781 0,00107 0,10371 0,24249 0,15 10,45 0,12 (0,12) 0,67 (0,79)
Coupeoccas 0,01303 0,05943 0,00077 0,17255 0,14475 0,45 3,98 0,50 (0,50) 0,35 (0,85)
Miniboccas 0,00271 0,08622 0,00023 0,24802 0,02995 0,2 0,04 0,71 (0,71) 0,01 (0,72)
Monospoccas 0,07809 0,04488 0,0035 0,20129 0,01718 3,7 0,34 0,90 (0,90) 0,01 (0,91)
Tousterrainsoccas 0,01641 0,07558 0,00124 0,14011 0,12653 0,38 3,83 0,26 (0,26) 0,21 (0,47)

Comme nous l’avons dit, on ecommence par examner les modlités associés à de grandes contributions sur
le premier axe et par sécurité sur le second.

Pour ce qui est des départements, l’Oise se détache avec une CTR de 53%. C’est trop, le premier axe ne
fait que montrer en quoi l’Oise se distingue des autres départements.

Pour ce qui est des types de véhicules, les Ber45Neuves (30%), MonospNeuf(30%) et Ber45Occas (21%)
expliquent ls opositions sur le premier axe.


 Oise -0,595 −0, 595

Ber45Neuf −0, 389
Du point de vue des coordonnées, on a ce qui montre un exédent très fort

 MonospNeuf −0, 488

Ber45Occas +0, 230
des trois types de voitures neuves dans l’Oise et au contraire un manque de Ber45Occas. Vérifions le fait en
donnant les profils des départements
Tousterrainsoccas
TousterrainsNeuf

Cabriolet occas
Cabriolet Neuf

Monospoccas
MonospNeuf
Ber23Neuve

Ber45Neuve

Ber23Occas

Ber45Occas

Coupeoccas
CoupeNeuf

Breakoccas

Miniboccas
BreakNeuf

MinibNeuf

Total
dept

Paris 51 197 39 17 5 4 101 25 128 277 28 20 18 3 66 21 1000


Seine-et-Marne 34 119 17 5 2 2 68 15 158 402 36 13 15 3 92 18 1000
Yvelines 49 187 40 11 7 3 110 18 123 305 28 12 12 2 77 15 1000
Essonne 37 130 19 5 2 2 76 13 157 388 33 12 15 3 93 16 1000
Hauts-de-Seine 48 209 44 10 3 2 146 16 120 264 25 14 12 2 69 14 1000
Seine-Saint-Denis 20 95 13 4 1 2 54 9 177 466 32 11 13 4 87 12 1000
Val-de-Marne 35 129 17 6 2 2 69 12 169 391 28 15 15 3 91 15 1000
Val-d'Oise 33 118 18 6 2 2 63 15 167 410 32 12 15 3 89 16 1000
Ardennes 35 131 13 7 2 2 70 13 157 402 28 13 12 3 84 26 1000
Aube 26 109 13 4 2 1 55 16 150 438 35 12 14 3 95 27 1000
Marne 34 136 19 6 2 2 76 20 143 386 33 12 13 3 90 25 1000
Haute-Marne 26 93 11 4 1 1 49 15 167 450 36 11 15 2 90 27 1000
Aisne 34 152 28 5 2 2 63 26 146 391 31 11 12 2 75 20 1000
Oise 53 312 40 7 1 5 207 12 75 205 19 5 6 1 42 10 1000
Somme 29 116 13 5 2 1 59 22 157 414 36 12 13 3 95 22 1000
Picardie 45 245 33 6 1 4 152 17 104 280 24 8 9 2 59 14 1000
Champagne-Ardenne 32 123 16 5 2 2 66 17 151 410 33 12 14 3 90 26 1000
Île-de-France 39 152 27 8 3 2 89 16 147 356 30 14 14 3 82 16 1000

Effectivement, le profil de l’Oise se distingue très largement du restes des observations sur ces trois types de
voitures. L’analyse se contente donc de relever ce fait. Pour progresser, on commence par vérifier les données,

19
car il peut y avoir ici une erreur de saisie. Si ce n’est pas le cas, le réflexe est de retirer le département de
l’Oise de l’analyse et de recommencer.

Pour conclure cette leçon, il convient de pratiquer l’AFC en faisant beaucoup d’exercices. La plupart des
cours d’analyse des données citent les mêmes trois exemples. Nous n’allons pas déroger à la règle:

1) contact media

Source : Lebart L., Morineau A., Piron M. Statistique Exploratoire Multidimensionnelle, Dunod 2004.

Cet exercice nous montre comment calculer les coordonnées d’individus supplémentaires (qui
n’ont pas participé à l’analyse). Nous verrons que c’est quelque chose que nous serons amenés
à faire très fréquemment.
Nous commençons par reprendre ici l’intégralité du texte des auteurs

L’exemple concerne l’analyse d’un tableau de contingence qui croise 8 professions et catégories socio-
professionnelles (PCS) et 6 types de médias pour un échantillon de 12388 "contacts medias" relatifs à 4434
personnes interrogées. L’individu statistique sera pour nous le "contact média" et non la personne interrogée
dans l’enquête. Les données sont extraites de l’Enquête Budget-temps Multimédia 1991-1992 du CESP.

Afin d’interpréter plus efficacement les représentations obtenues, on projettera en éléments supplémentaires
certaines autres caractéristiques de la population enquêtée telles que le sexe, l’âge, le niveau d’instruction.

Professions Radio Tél. Quot.N. Quot.R P.Mag. P.TV


Agriculteur 96 118 2 71 50 17
Petit patron 122 136 11 76 49 41
Prof. Cad. S. 193 184 74 63 103 79
Prof. interm 360 365 63 145 141 184
Employé 511 593 57 217 172 306
Ouvrier qual 385 457 42 174 104 220
Ouvrier n-q 156 185 8 69 42 85
Inactif 1474 1931 181 852 642 782
Sexe
Homme 1630 1900 285 854 621 776
Femme 1667 2069 152 815 683 938
Age
15-24 ans 660 713 69 216 234 360
25-34 ans 640 719 84 230 212 380
35-49 ans 888 1000 130 429 345 466
50-64 ans 617 774 84 391 262 263
65 ans ou + 491 761 70 402 251 245
Education
Primaire 908 1307 73 642 360 435
Secondaire 869 1008 107 408 336 494
Techn. prof. 901 1035 80 140 311 504
Supérieur 619 612 177 209 298 281

Nous disposons des tables de contingence suivantes (cf. tableau). Pour le premier blocs K de 8 lignes (lignes
actives) on trouve, à l’intersection de la ligne i et de la colonne j le nombre kij d’individus appartenant à la
catégorie i et ayant eu la veille (un jour de semaine) au moins un contact avec le type de média j. Les blocs
suivants (lignes supplémentaires) s’interprètent de façon analogue. Une personne interrogée pouvant avoir des
contacts avec plusieurs médias, les sommes en ligne représentent des "nombres de contacts".

20
On cherche à décrire les éventuelles affinités entre les groupes socioprofessionnels et les différents types de
médias.

L’analyse des correspondances de la table K conduit aux valeurs propres consignées dans le tableau:

%
Eigen %
Axis cumulate
value explained
d
1 0,013857 62,20% 62,20%
2 0,007211 32,37% 94,56%
3 0,000825 3,70% 98,27%
4 0,000304 1,36% 99,63%
5 0,000083 0,37% 100,00%
Tot. 0,022279 - -

Deux facteurs sont dominants et représentent près de 95% de l’inertie totale. Les coordonnées et les aides
à l’interprétation correspondants figurent dans le tableau suivant.

Rows analysis

Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2 cos 1 cos 2
0,98   0,02  
Prof. Cad. S. 0,05618 0,189 0,01062 -0,42998 -0,06087 74,96 2,89
(0,98) (1,00)
0,21   0,74  
Agriculteur 0,02858 0,12929 0,00369 0,16615 -0,30961 5,69 37,99
(0,21) (0,95)
0,03   0,93  
Employe 0,14982 0,00981 0,00147 0,01573 0,09547 0,27 18,94
(0,03) (0,95)
0,14   0,74  
Ouvrier qual 0,11156 0,01382 0,00154 0,04371 0,10138 1,54 15,9
(0,14) (0,88)
0,37   0,39  
Inactif 0,4732 0,00285 0,00135 0,03258 -0,0334 3,63 7,32
(0,37) (0,76)
0,15   0,67  
Petit patron 0,03511 0,03039 0,00107 0,06838 -0,14315 1,18 9,98
(0,15) (0,83)
0,80   0,08  
Prof. interm 0,10155 0,01417 0,00144 -0,1066 0,0326 8,33 1,5
(0,80) (0,88)
0,56   0,36  
Ouvrier n-q 0,04399 0,02497 0,0011 0,1178 0,09486 4,41 5,49
(0,56) (0,92)

Columns analysis

Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2 cos 1 cos 2
0,99   0,00  
Quot.N. 0,03536 0,2944 0,01041 -0,54067 -0,00621 74,59 0,02
(0,99) (0,99)
0,00   0,96  
P.TV 0,13836 0,02724 0,00377 0,00975 0,16161 0,09 50,11
(0,00) (0,96)
0,32   0,62  
P.Mag. 0,10518 0,02838 0,00298 -0,09481 -0,1325 6,82 25,61
(0,32) (0,94)
0,49   0,49  
Quot.R 0,13457 0,02434 0,00327 0,10883 -0,10965 11,5 22,44
(0,49) (0,98)
0,08   0,17  
Radio 0,26614 0,0029 0,00077 -0,01494 0,02211 0,43 1,8
(0,08) (0,25)
0,85   0,00  
Tel. 0,32039 0,00334 0,00107 0,05328 0,00208 6,56 0,02
(0,85) (0,85)

Ce calcul ne concerne effectivement que les individus "actifs", c’est à dire les lignes représentant les pro-
fessions. On peut calculer des coordonnées pour les profils-ligne supplémentaires associés aux tranches d’ge,
au niveau de diplôme, au sexe ... . La prise en compte d’élements supplémentaires, qui ne participent pas à
l’analyse, permettra de préciser les commentaires.

21
Radio Tel. Quot.N. Quot.R P.Mag. P.TV total
Homme 1630 1900 285 854 621 776 6066
Profil
Homme 0,269 0,313 0,047 0,141 0,102 0,128 1

Figure 1:

Radio Tel. Quot.N. Quot.R P.Mag. P.TV total


Homme 1630 1900 285 854 621 776 6066
Profil
Homme 0,269 0,313 0,047 0,141 0,102 0,128 1
coordonnées -0,01494 0,05328 -0,54067 0,10883 -0,09481 0,00975
produit -0,004019 0,0166766 -0,025411 0,015345 -0,009671 0,001248 -0,005831

Figure 2:

Regardons comment calculer la coordonnée X de l’élément supplémentaire Homme sur le premier axe.

Nous connaissons les contacts medias associés à la modalité Homme:

Pour calculer la coordonnée de l’individu Homme nous allons nous servir de la formule de transition qui
nous permet d’obtenir les coordonnées des lignes à partir de celle des colonnes :

On a donc calculé la moyenne des coordonnées des médias en nous servant des poids indiqués dans le profil
des Hommes. Pour obtenir la coordonnée des Hommes, il suffit de diviser ce résultat par la racine carrée de
la valeur propre :
−0.005831
coordonnée Homme = √0.013857
= −0, 049535

On refait le calcul pour toutes les lignes supplémentaires et on obtient

22
coord1 coord2
Homme -0,050 -0,024
Femme 0,049 0,022
Age
15-24 ans -0,016 0,100
25-34 ans -0,030 0,121
35-49 ans -0,031 0,013
50-64 ans 0,024 -0,100
65 ans ou + 0,068 -0,137
Education
Primaire 0,129 -0,080
Secondaire 0,001 0,041
Techn. prof. -0,031 0,184
Supérieur -0,291 -0,017

On note que l’élément "Quotidien national" dont la fréquence relative (colonne P.REL) est très faible
(3.54%) a une distance au point moyen (colonne DIS) très élevée : le profil correspondant est donc atypique.
Il contribue pour 74.6% à la construction du premier axe, qui en est très proche (cosinus carré : 0.99). Ce
même premier axe est caractérisé par la ligne active "Prof.Cadre" (profession libérale, cadres supérieurs) et
par la ligne supplémentaire "Supérieur" (niveau d’études supérieur).

Le second axe sépare la "Presse Magazine de Télévision" (associée aux catégories employés et ouvriers,
et aux classes d’âges plutôt jeunes) de la presse magazine (Presse TV exclue) et de la presse quotidienne
régionale, toutes deux associées aux agriculteurs et aux petits patrons, et à des catégories d’âge plus élevées.
Les figures suivantes résument ce réseau d’associations.(On a mis l’axe 1 en abscisse et l’axe 2 en ordonnées)

0,2

P.TV
Ouvrier qual

0,1
Employe Ouvrier n-q
Prof. interm
Quot.N. Radio
0 Tel.
-0,6 -0,5 -0,4 -0,3 -0,2 -0,1 0 Inactif0,1 0,2 0,3
Prof. Cad. S.
-0,1
Quot.R
P.Mag. Petit patron

-0,2

-0,3
Agriculteur

-0,4

23
0,3

0,2
Techn. prof.

25-34 ans
0,1
15-24 ans
Secondaire

Supérieur Femme
35-49 ans
0,0
-0,4 -0,3 -0,3 -0,2 -0,2 -0,1 -0,1 0,0 0,1 0,1 0,2 0,2
Homme
Primaire
-0,1 50-64 ans

65 ans ou +

-0,2

En revanche, les positions des points sur les deux figures donnent une interprétation plus nuancée du second
axe : les professions salariées, de niveau d’éducation moyen, composées surtout de jeunes (contact média :
Presse magazine TV), s’opposent aux petits patrons et agriculteurs, en moyenne sensiblement plus âgés et
moins instruits (contacts : presse magazine autre que TV, et presse quotidienne régionale).

Ceci étant, le graphique suggère une forte association entre Les cadre supérieurs et les Quotidiens Na-
tionaux. Qu’en est il en réalité ?

Reprenons les données. Nous pouvons calculer les profils-ligne (on divise chaque ligne par son total, par
exemple tous les termes de la ligne Prof. Cadr.S. sont divisés par son total, 696), et les profils-colonne (on
divise chaque colonne par son total, par exemple tous les termes de la colonne Quot N. sont divisés par son
total, 438)

profils ligne

Professions Radio Tel. Quot.N. Quot.R P.Mag. P.TV Total Poids


Agriculteur 0,271 0,333 0,006 0,201 0,141 0,048 1 0,029
Petit patron 0,280 0,313 0,025 0,175 0,113 0,094 1 0,035
Prof. Cad. S. 0,277 0,264 0,106 0,091 0,148 0,114 1 0,056
Prof. interm 0,286 0,290 0,050 0,115 0,112 0,146 1 0,102
Employe 0,275 0,320 0,031 0,117 0,093 0,165 1 0,150
Ouvrier qual 0,279 0,331 0,030 0,126 0,075 0,159 1 0,112
Ouvrier n-q 0,286 0,339 0,015 0,127 0,077 0,156 1 0,044
Inactif 0,251 0,329 0,031 0,145 0,110 0,133 1 0,473
Total 0,266 0,320 0,035 0,135 0,105 0,138 1

Profils colonne

Professions Radio Tel. Quot.N. Quot.R P.Mag. P.TV Total


Agriculteur 0,029 0,030 0,005 0,043 0,038 0,010 0,02857604
Petit patron 0,037 0,034 0,025 0,046 0,038 0,024 0,03511463
Prof. Cad. S. 0,059 0,046 0,169 0,038 0,079 0,046 0,0561834
Prof. interm 0,109 0,092 0,144 0,087 0,108 0,107 0,10154989
Employe 0,155 0,149 0,130 0,130 0,132 0,179 0,14982241
Ouvrier qual 0,117 0,115 0,096 0,104 0,080 0,128 0,11155957
Ouvrier n-q 0,047 0,047 0,018 0,041 0,032 0,050 0,04399419
Inactif 0,447 0,487 0,413 0,511 0,493 0,456 0,47319987
Total 1,000 1,000 1,000 1,000 1,000 1,000 1,000
Poids 0,266 0,320 0,035 0,135 0,105 0,138

24
Le Quotidien National n’est pas le contact-media le plus fréquent pour les Cadres Supérieurs. En effet, ils
n’ont signalé ce media que dans 10% des contacts, beaucoup moins que la Télévision qui a un score de 0,264
ou la radio qui a un score de 0,277 chez les cadres supérieurs. De même, le Cadre supérieur n’est la source que
de 16,9% des contacts avec le Quotidien National, beaucoup moins que les inactifs qui représentent 41,3% de
ceux qui ont cité ce média.

L’association révélée par l’analyse n’est donc pas à chercher dans les importances des effectifs mais parmi
les écarts entre le tableau observé et le tableau théorique que l’on peut reconstituer à partir des produits des
marges.

Le tableau ci-dessous donne les écarts corrigés entre chaque profil-ligne et le profil-ligne moyen d’une part,
entre chaque profil-colonne et le profil-colonne moyen d’autre part.

On rappelle la formule :
Fij
Fi représente, pour le profil-ligne i la part de la colonne j
Fj représente, pour le profil-ligne moyen, la part de la colonne j

F
l’écart corrigé entre les deux profils-lignes est ( Fiji − Fj )/ Fj

profils ligne

Professions Radio Tel. Quot.N. Quot.R P.Mag. P.TV


Agriculteur 9,000 22,000 -158,000 179,000 111,000 -243,000
Petit patron 27,000 -14,000 -54,000 109,000 23,000 -119,000
Prof. Cad. S. 21,000 -99,000 377,000 -121,000 131,000 -67,000
Prof. interm 38,000 -54,000 78,000 -53,000 21,000 21,000
Employe 17,000 -2,000 -25,000 -49,000 -39,000 71,000
Ouvrier qual 24,000 18,000 -27,000 -24,000 -93,000 55,000
Ouvrier n-q 38,000 33,000 -110,000 -22,000 -87,000 47,000
Inactif -29,000 15,000 -24,000 29,000 13,000 -14,000

Profils colonne

Professions Radio Tel. Quot.N. Quot.R P.Mag. P.TV


Agriculteur 3,000 6,000 -143,000 82,000 57,000 -111,000
Petit patron 10,000 -5,000 -54,000 55,000 13,000 -60,000
Prof. Cad. S. 9,000 -42,000 475,000 -78,000 96,000 -43,000
Prof. interm 23,000 -31,000 132,000 -46,000 20,000 18,000
Employe 13,000 -2,000 -51,000 -51,000 -47,000 74,000
Ouvrier qual 15,000 10,000 -47,000 -22,000 -96,000 50,000
Ouvrier n-q 15,000 12,000 -123,000 -13,000 -57,000 26,000
Inactif -38,000 19,000 -88,000 55,000 28,000 -25,000

On constate alors que le plus gros écart corrigé du tableau nous est donné par l’association positive entre
Prof. Cadr S. et Quot.N. Les plus gros écarts négatifs nous sont donnés par l’association Agriculteurs et
Quot.N..

L’analyse n’a fait que nous révéler les associations positives et négatives importantes.

25
Il est donc prodent, pour éviter des contre sens, de toujours nuancer les commentaires en invoquant non
pas une "forte association entre Prof. Cadr.S et Quot. N. " mais plutôt un fort écart du profil Prof. Cadr.S
au profil moyen dû à la modalité Quot. N."

2 L’effet GUTMAN

Dans de nombreuses analyses, le nuage projeté sur les axes présente la forme d’une banane, ou encore
d’une parabole. On dit que le tableau présente un effet Gutman. Il s’agit donc d’une ituation typique qu’Il
faut savoir reconnaître et interpréter, comme dans le cas de l’Analyse en composantes principales, il fallait
savoir reconnaître et interpréter l’effet taille

Un nuage de points de forme parabolique indique une redondance entre les deux variables étudiées : la
connaissance de la ligne i donne pratiquement celle de la colonne j. Dans un tel cas, pratiquement toute
l’information est contenue dans le premier facteur. Cette configuration se rencontre notamment lorsque les
deux variables sont ordinales, et classent les sujets de la même façon. Dans ce cas, le premier axe oppose les
valeurs extrêmes et classe les valeurs, tandis que le deuxième axe oppose les intermédiaires aux extrêmes.

Exemple :

ligne Var1 Var2 Var3 Var4 Var5


Ligne 1 10 30 7 0 0
Ligne 2 3 100 70 4 0
Ligne 3 2 32 200 35 1
Ligne 4 1 6 80 100 2
Ligne 5 0 3 5 25 5

Ce tableau conduit au nuage de points suivant :

Cor r espondanc e Analy sis


Var5

Var1
1
Ligne 5

Ligne 1

Var4
Var2
Ligne 4
L igne 2
0

Var3
Ligne 3

-1

-1, 2 -1 -0,8 -0, 6 -0,4 -0,2 0 0,2 0,4 0, 6 0,8 1 1, 2 1,4

Un des exemples du professeur Benzecri (publié dans son ouvage "Correspondances" paru chez Dunod en
1980) présente un effet Gutman. Comme précédemment, nous allons recopier son texte.

Trente marques en usage

26
1.1 Les données. On effectue sur chacune des marques une enquête auprès de cent fumeurs; les enquêtes
sont menées indépendamment les unes des autres, mais toujours selon le même patron. Un fumeur est suc-
cessivement interrogé sur la qualité, l’agrément, le coût d’une marque donnée; puis on fait une épreuve de
cohérence. De façon précise, voici comment se passe l’entrevue.
On montre d’abord au fumeur un paquet de cigarettes : et on lui demande s’il s’agit de qualité ordinaire,
moyenne, supérieure ou luxueuse. Puis on lui offre de fumer une de ces cigarettes; et après avoir attendu
quelques instants, on s’enquiert du plaisir procuré par cette expérience : est-ce que la cigarette ne plait pas ?
plait-elle moyennement, assez ou beaucoup ? Alors, après avois défini au sujet quatre catégories de prix : peu
cher, moyennement cher, cher, très cher, on lui demande dans laquelle de ces catégories de prix il rangerait
la marque offerte.
En cumulant les réponses des cent fumeurs interrogés sur elle, on a pour chaque marque un vecteur à 12
composantes, correspondant aux réponses possibles : 4 niveaux de qualité; 4 niveaux d’agrément et 4 niveaux
de prix. Ce qui, puisqu’il y a trente marques, fait un tableau de 30 lignes par 15 colonnes. Par exemple,
à l’intersection de la ligne Gitanes et de la colonne Plaît moyennement, on écrit 52 : c’est le nombre de
sujets qui ont estimé que fumer une gitane leur avait plu moyennement. On notera que, sauf irrégalurité dans
l’expérience, la somme des éléments de toute ligne est égale à 300: 100 pour le groupe de réponses à chacune
des trois questions. D’autres tableaux eussent pu être contruits ; mais nous ne disposons pas des données
complètes de l’enquête

marque q_ord q_moy q_sup q_lux a_non a_moy a_assez


a_beaucoupc_peu c_moy c_assez c_tres
Air-France 15 65 13 7 20 50 28 2 22 55 22 1
Anfa 12 48 25 15 27 26 27 20 7 40 32 21
Astor 7 30 45 18 7 33 46 14 3 23 55 19
Balto 14 57 25 4 19 35 34 12 20 48 29 3
Belga 16 64 10 10 7 41 43 9 7 53 37 3
Blue-Rillon 6 39 37 18 7 34 35 24 4 35 51 10
Boule-d-or 33 49 15 3 13 52 27 8 15 62 22 1
Camel 12 46 28 14 11 37 32 20 3 27 46 24
Carlton 5 37 45 13 10 29 42 19 1 31 55 13
Chesterfield 4 36 34 26 10 32 28 30 2 17 59 22
Egee 40 51 7 2 18 36 35 11 28 52 19 1
Ernte-23 11 60 25 4 9 39 40 12 8 33 47 12
Flash 12 62 16 10 5 41 42 12 3 46 47 3
Gitanes-Maryland 44 50 5 1 22 52 23 3 46 45 7 2
H.B. 13 49 15 13 14 34 28 24 4 31 54 11
Hellas 2 27 27 44 12 37 32 19 3 22 46 29
High-Life 16 63 15 6 14 43 30 13 32 36 28 4
Hunter 7 34 34 25 5 32 39 24 5 21 62 12
John-Silver 6 57 30 7 3 32 39 26 5 33 53 9
Minors 3 19 45 33 11 40 30 19 3 20 56 21
Muratti 1 10 45 44 5 23 37 35 1 12 65 22
Newport 6 33 33 28 16 29 33 22 0 21 67 12
Parliament 12 26 35 27 14 29 43 14 10 21 48 21
Peer-Export 3 24 58 15 4 26 41 29 3 32 56 9
Peter-Stuyvesand 2 24 49 25 5 33 32 30 1 18 61 20
Rothmans 1 11 43 45 4 20 41 35 0 10 69 21
Roxy 17 55 21 7 14 37 37 12 21 42 33 4
Viceroy 2 35 42 21 5 28 43 24 2 23 52 23
Visa 12 63 27 8 10 46 38 6 13 69 17 1
Week-End 6 29 38 27 21 29 33 17 11 42 30 17

1.2 Les analyses. On a analysé (par le programme usuel d’analyse des cocrrespondances) le tableau 30 x
12 des réponses aux trois questions,

les valeurs propres

Eigen % %
Axis
value explained cumulated
1 0,169683 70,64% 70,64%
2 0,026516 11,04% 81,67%
3 0,011305 4,71% 86,38%
4 0,009302 3,87% 90,25%
5 0,007009 2,92% 93,17%
6 0,006204 2,58% 95,75%
7 0,004674 1,95% 97,70%
8 0,002825 1,18% 98,87%
9 0,002632 1,10% 99,97%
10 0,000072 0,03% 100,00%
11 0 0,00% 100,00%
Tot. 0,240223 - -

27
1.3 L’interprétation. Vu le pourcentage d’inertie totalisé par les deux premiers facteurs (77% ) et le
faible taux (5 %) du troisième facteur dont d’ailleurs aucune interprétation ne s’impose, nous nous bornerons
à examiner un diagramme plan. On se souviendra qu’à l’échelle adoptée (7,5 cm = 1) les fluctuations
d’échantillonnage sont vraisemblablement de l’ordre du centimètre

Sur ce diagramme l’axe 1 est en ordonnées ("vertical") et l’axe 2 en abscisses ("horizontal")

1,2

1 che0

gitanes maryland

qlt0
0,8

egee

0,6
boule d'or
air France

high life

visa 0,4 balto


che1 roxy
belga qlt1 agr0

0,2
flash agr1
ernte 23

hb anfa

0
-0,4 -0,3 -0,2 -0,1 0 0,1 0,2 0,3 0,4 0,5 0,6
agr2 week end
john silver camel
blue rillon
parliament
-0,2
astor
carlton hunter
newport
peer export
viceroy chesterfield
che2
-0,4 qlt2 hellas
agr3
minors

peter stuyvesand
che3
-0,6
qlt3
muratti

rothmans

-0,8

Il est clair qu’on a une situation fondamentalement unidimensionnelle, dont l’interprétation se fait au
mieux par référence au modèle classique de l’échelle de Guttman. Sur le premier axe, les quatre niveaux de
réponse aux trois questions (ainsi que les trois lots de l’épreuve de cohérence) se retrouvent ordonnés, et les
marques se succèdent de Gitane à Rothmans : ce premer axe est une échelle de valeur qui intègre qualité,
agrément et prix. Dans le plan 1x2, se dessine une parabole. On tente quelquefois de donner un nom au
deuxème facteur, qui réalise une conjonction des extrêmes : Guttman lui-même parle d’intensité. Mais nous
estimons que le plus utile est d’interprêter la place des points par rapport à la parabole. En effet, il résulte du
principe du centre de gravité qu’une marque est d’autant plus à l’intérieur de la parabole que les qualités qui lui
ont été attribuées sont plus dispersées sur l’échelle de valeurs ( et qu’en particulier elle est l’objet de verdicts
extrêmes et contradictoires). Par exemple les marques Week-End et John Silver ne diffèrent pas par le 1er
facteur ; mais celle-ci est au sommet de la parabole, celle-là à l’intérieur de la concavité. Or reportons-nous au

28
tableau des données : aux niveaux extrêmes des trois questions (ord. luxe, ne plaît pas beaucoup, peu cher, très
cher) la marque Week-End totalise 99 ; la marque John Silver, 56. Le public s’accorde donc beaucoup moins
dans ce qu’il pense de cette marque-là que de celle-ci. De même un attribut est d’autant plus à l’intérieur de
la parabole qu’il est conféré à des marques dont les niveaux sont plus dispersés. On observera donc que, tandis
que les attributs de qualité et de coût (ainsi que les lots de l’épreuve de cohérence) se placent sur une parabole
fort régulière qui enveloppe le nuage, les degrés d’agrément décrivent une courbe intérieure qui ne se raccorde
à l’enveloppe que du côté des hauts niveaux. Ceci signifie que tandis que toute cigarette est susceptible de ne
pas plaire (attribut dispersé), seulement les cigarettes de prix et de qualité élevés peuvent plaire beaucoup.

1.4 Critique. On se demandera toutefois de quel plaisir il s’agit. D’une part "plaît beaucoup" n’est pas
tout à l’extrémité de l’échelle (luxe, très cher) mais un peu plus bas (avec qualité sup. et cher), ce qui suggère
qu’au-delà d’un certain point on ne gagne rien à renchérir. D’autre part le plaisir qu’on trouve à griller une
cigarette qui sort d’un paquet insolite et flatteur peut n’être pas seulement dû au tabac... Comme épreuve de
cohérence, nous suggérerions d’offrir des Muratti dans un paquet de Gitanes : ou encore, de demander à qui
vient de fumer un tabac inconnu, de choisir dans un lot de paquets (réels ou imaginés pour quelque marque
nouvelle) celui qui habillerait le mieux l’échantillon qu’on lui a offert. Peut-être obtiendrait-on ainsi plus d’un
facteur Sans entreprendre d’autre enquête il eût été possble, d’après les donées complètes, de construire un
tableau de correspondance 12 x 12 qui révêlat mieux comment l’agrément dépend de ce qu’on présume du prix
et de la qualité. Soit a et a′ deux attributs (e.g. ne plaît pas et très cher) : on noterait k(a, a′ ) le nombre de fois
qu’un sujet quelconque aurait simultanément attribué ces deux attributs à une même cigarette. (Evidemment
si a et a′ sont deux modalités d’une même question (e.g. plaît assez et plaît beaucoup), k(a, a′ ) = 0).

L’effet Gutman nous dit qu’il y a une façon de réordonner les lignes et colonnes du tableau de façon à faire
apparaître une diagonale sur le tableau des données. Ici, on obtient :

ciga qlt3 che3 agr3 qlt2 che2 agr2 agr1 agr0 qlt1 che1 qlt0 che0
rothmans 45 21 35 43 69 41 20 4 11 10 1 0
muratti 44 22 35 45 65 37 23 5 10 12 1 1
peter stuyvesand 25 20 30 49 61 32 33 5 24 18 2 1
minors 33 21 19 45 56 30 40 11 19 20 3 3
hellas 44 29 19 27 46 32 37 12 27 22 2 3
chesterfield 26 22 30 34 59 28 32 10 36 17 4 2
viceroy 21 23 24 42 52 43 28 5 35 23 2 2
peer export 15 9 29 58 56 41 26 4 24 32 3 3
newport 28 12 22 33 67 33 29 16 33 21 6 0
hunter 25 12 24 34 62 39 32 5 34 21 7 5
astor 18 19 14 45 55 46 33 7 30 23 7 3
carlton 13 13 19 45 55 42 29 10 37 31 5 1
parliament 27 21 14 35 48 43 29 14 26 21 12 10
blue rillon 18 10 24 37 51 35 34 7 39 35 6 4
camel 14 24 20 28 46 32 37 11 46 27 12 3
week end 27 17 17 38 30 33 29 21 29 42 6 11
john silver 7 9 26 30 53 39 32 3 57 33 6 5
hb 13 11 24 15 54 28 34 14 49 31 13 4
anfa 15 21 20 25 32 27 26 27 48 40 12 7
ernte 23 4 12 12 25 47 40 39 9 60 33 11 8
flash 10 3 12 16 47 42 41 5 62 46 12 3
belga 10 3 9 10 37 43 41 7 67 53 16 7
roxy 7 4 12 21 33 37 37 14 55 42 17 21
balto 4 3 12 25 29 34 35 19 57 48 14 20
visa 8 1 6 27 17 38 46 10 63 69 12 13
high life 6 4 13 15 28 30 43 14 63 36 16 32
air France 7 1 2 13 22 28 50 20 65 55 15 22
boule d'or 3 1 8 15 22 27 52 13 49 62 33 15
egee 2 1 11 7 19 35 36 18 51 52 40 28
gitanes maryland 1 2 3 5 7 23 52 22 50 45 44 46

On obtient un tableau avec une diagonale dominante.

29
2. Douze marques en puissance

Ce second exemple, tiré également du livre du professeur Benzecri, illustre aussi la présene d’un effet
Gutman, mais cet effet ne donnera pas l’argument majeur de l’analyse

2.1 L’enquête et son objet. "On veut choisir un nom pour une nouvelle cigarette brune, qui doit paraître
de qualité supérieure, prestigieuse, luxueuse, convenant à un fumeur viril, connaisseur, raffiné, distingué, de
niveau socio-économique élevé". En d’autres termes : sachant que la plupart des Français, riches ou pauvres,
sont écoeurés par le tabac blond, trouver le mot magique qui permettra de vendre des gauloises aux prix des
américaines. Ce mot, la Régie française des Tabacs décida de le choisir entre douze marques, d’après onze
attributs, en interrogeant cent fumeurs.

• Douze marques : Orly, Alezan, Corsaire, Directoire, Ducat, Fontenoy, Icare,Zodiaque,Pavois,Cocker,Escale,Hôtesse.


• Onze attributs : vieillot-désuet, nouveau-riche, sobre-élégant, cocasse-ridicule, racé, mièvre, distingué,
vulgaire-commun, pour un homme, pour une femme, pour une petite nature.

Cent fumeurs, dont chacun devrait successivement pour chaque attribut désigner une ou plusieurs marques
à quoi il se rapportât le mieux.

Vous apprendrez à la Civette la victoire de Fontenoy ; et Bernard Roy (Algèbre moderne et théore des
graphes, pp 218-220-456) vous en dira le pourquoi. Mais sans doute conviendrez-vous que, même après la
bataille, le tableau de correspondance ci-joint (où k( racé, Pavois) = 5 signifie que cinq fumeurs ont répondu
à l’attribut racé par la marque Pavois, etc.) méritait une analyse.

attributs Orly Alezan Corsaire Directoire Ducat Fontenoy Icare Zodiac Pavois Cocker Escale Hotesse

vieillot-desuet 1 2 14 38 18 10 9 5 9 4 0 1

nouveau_riche 20 9 1 11 10 9 1 1 20 9 7 12

sobre,elegant 9 23 1 15 7 11 6 2 7 12 3 17

cocasse-ridicule 1 3 15 15 6 5 12 18 4 25 2 2

race 4 33 7 8 3 6 6 4 5 15 5 3

mievre 3 9 1 7 7 5 12 9 6 9 6 13
distingue 11 9 1 17 4 21 6 1 5 4 5 27

vulgaire-commun 4 4 32 2 6 0 9 7 3 10 12 7

pour_un_homme 9 12 23 4 7 13 5 5 10 5 13 9

pour_une_femme 9 3 9 8 4 2 6 8 1 6 23 33

pour_une_petite_nature 7 5 2 7 11 2 6 11 9 24 10 5

2.2 Interprétation des résultats. Dans certaines analyses, on gagne à parcourir un tableau de nombres
avant d’étaler des graphiques. C’est le cas ici : à chercher leurs valeurs extrêmes sur l’ensemble des attributs,
on voit rapidement apparaître des interprétations des facteurs.

30
%
Eigen %
Axis cumulate
value explained
d
1 0,169845 29,43% 29,43%
2 0,133962 23,22% 52,65%
3 0,10182 17,65% 70,29%
4 0,07586 13,15% 83,44%
5 0,057201 9,91% 93,35%
6 0,021035 3,65% 97,00%
7 0,009084 1,57% 98,57%
8 0,005282 0,92% 99,49%
9 0,002688 0,47% 99,95%
10 0,000263 0,05% 100,00%
Tot. 0,57704 - -
Values Weight Sq. Dist. Inertia coord 1 coord 2 coord 3 coord 4 coord 5
vieillot-desuet 0,096 0,930 0,089 -0,204 0,687 -0,592 -0,158 0,074
nouveau_riche 0,095 0,572 0,054 0,480 0,056 -0,064 0,010 -0,570
sobre,elegant 0,097 0,288 0,028 0,428 0,158 0,209 -0,058 0,142
cocasse-ridicule 0,093 0,635 0,059 -0,616 0,273 0,081 0,314 0,115
race 0,085 0,730 0,062 0,111 0,213 0,737 -0,280 0,172
mievre 0,075 0,217 0,016 0,044 0,000 0,087 0,291 0,168
distingue 0,096 0,581 0,056 0,610 -0,063 -0,283 -0,036 0,241
vulgaire-commun 0,083 0,913 0,075 -0,769 -0,431 -0,030 -0,337 -0,059
pour_un_homme 0,099 0,297 0,029 -0,117 -0,236 -0,009 -0,404 -0,161
pour_une_femme 0,096 0,746 0,072 0,101 -0,744 -0,224 0,234 0,175
pour_une_petite_nature 0,085 0,421 0,036 -0,187 0,082 0,206 0,485 -0,281

Columns analysis

Values Weight Sq. Dist. Inertia coord 1 coord 2 coord 3 coord 4 coord 5
Orly 0,067 0,491 0,033 0,478 -0,222 -0,024 -0,013 -0,438
Alezan 0,096 0,846 0,082 0,354 0,156 0,726 -0,345 0,184
Corsaire 0,091 1,109 0,101 -0,836 -0,268 -0,140 -0,556 -0,024
Directoire 0,114 0,549 0,062 0,069 0,551 -0,418 0,003 0,181
Ducat 0,071 0,274 0,020 -0,105 0,321 -0,247 0,053 -0,196
Fontenoy 0,072 0,499 0,036 0,459 0,196 -0,188 -0,231 0,118
Icare 0,067 0,237 0,016 -0,291 0,082 0,007 0,133 0,260
Zodiac 0,061 0,588 0,036 -0,565 0,010 0,111 0,463 0,099
Pavois 0,068 0,419 0,029 0,218 0,228 -0,023 -0,030 -0,547
Cocker 0,106 0,434 0,046 -0,284 0,154 0,396 0,370 -0,078
Escale 0,074 0,594 0,044 -0,085 -0,711 -0,016 0,068 -0,090
Hotesse 0,111 0,654 0,073 0,469 -0,546 -0,209 0,161 0,246

Premier axe : vulgaire s’oppose à distingué: ces deux mots sont à eux seuls une interprétation. Deuxième
axe : pour une femme s’oppose à vieillot-désuet, ridicule : il semble qu’il s’agisse là de la mode. Troisième axe
: racé s’oppose à désuet : et avec racé vont Alezan puis Cocker; et avec désuet, Directoire, Ducat, Fontenoy,
Hôtesse: il semble qu’ici désuet ne signifie pas démodé (comme sur le deuxième axe) mais usé, rebattu; car
à des noms de marque quelque peu insolites il oppose des ponsifs. Quatrième axe : pour un homme s’oppose
à pour une petite nature : il s’agit de la virilité. Cinquième axe, : nouveau riche associé à Pavois et à Orly
s’opposent à tout le reste : voilà qui est piquant.
On remarquera que l’analyse factorielle suggère des décompositions sémantiques. Ainsi femme signifie
élégance et s’oppose d’abord à vieillot qui n’en est pas un synonime exact, ce qui accroit l’ambiguité. Sur le
deuxième axe, désuet (ou peut être vieillot) s’oppose à mode : les verdicts de la mode ne sont pas sans appel, un
hiver voit renaitre ce qu’un autre a tranché. Mais désuet signifie encore usé délavé à force d’usage (troisième
axe), ce dont on revient rarement.
Vu le public vis par la Régie (select, masculin) il s’impose de baser d’abord un choix sur le plan des axes
1-4. Le plan 2-3 apportera ensuite quelques indices: nous grouperons donc en ces deux plans le dessin des
facteurs.

tout d’abord le plaon 1-4 (axe 1 en abscisses, axe 4 en ordonnées)

ensuite le plan 2-3 (axe 2 en abscisses, axe 3 en ordonées)

31
pour_une_petite_nature
Zodiac

Cocker
cocasse-ridicule
mievre
pour_une_femme

Hotesse
Icare

Escale nouveau_riche
Ducat
Directoire
Orly
Pavois distingue

sobre,elegant
vieillot-desuet

Fontenoy
race
vulgaire-commun Alezan
pour_un_homme

Corsaire

Figure 3:

32
vieillot-desuet

Directoire

Ducat cocasse-ridicule
Pavois race
Fontenoy Alezan
Cocker sobre,elegant Icare
nouveau_riche pour_une_petite_
mievre
nature Zodiac distingue
pour_un_homme
Orly
Corsaire

vulgaire-commun
Hotesse

Escale
pour_une_femme

Il ne fait pas de doute que le plan 1-’4 ne laisse le choix qu’entre Fontenoy et Alezan, seuls noms qui
apparaissent à la fois distingués et masculins. Inquiétons nous seulemet au passage de voir nouveau riche si
proche de sobre et de distingué : les voies de l’élégance sont donc peu sures. Dans le plan 2-3, l’idéal serai
une marque diamètralement opposée à désuet, mais il n’y en a pas : le quadrant supérieur gauche de notre
graphique est vide. Cela se conçoit si l’on se souvient des deux acceptations que nous aavons distinguées dans
l’attribut désuet (ou plutôt dans le binôme vieillot-désuet) : démodé et usé. Car ou bien un terme est à la
mode et il est alors, par le fait même quelque peu usé : ou bien il est insolite, inusité : mais alors c’est qu’il
n’est pas à la mode. Fontenoy et Alezan ne sont ni l’un ni l’autre à la mode: mais Alezan, marque assez
originale et racée l’emporte sur Fontenoy qui sent sa composition d’histoire.

Je vois à Alezan un autre avantage: par son sens son nom convient à une cigarette brune, voire brûlée. Et
Littré note même cette éthymologie : de l’arabe "al athan- la fumée- par comparaison avec la couleur qu’indique
alezan". Tandis que Fontenoy ...

Dans cet exercice, la réponse à la problèmatique n’apparaît pas dans l’analyse des premiers axes, mais il
faut aller jusqu’au 4 ème axe pour la trouver.

33

Vous aimerez peut-être aussi