Vous êtes sur la page 1sur 20

61

UNE INTRODUCTION A L'ANALYSE


FACTORIELLE DES CORRESPONDANCES AVEC
SPSS pour Windows

Dominique Desbois

INRA-ESR Nancy et SCEES
4 avenue de Saint-Mand, 75570 Paris Cedex 12.
Fax : +33 1 49 55 85 00 E-mail :desbois@jouy.inra.fr


Rsum. Cette note initie l'utilisateur dbutant la mise en oeuvre de l'Analyse Factorielle des
Correspondances au moyen de la procdure ANACOR du logiciel SPSS pour Windows. Cette mise en
oeuvre concerne l'analyse des tableaux de contingence partir d'un exemple bas sur des donnes
individuelles et d'un exemple bas sur des donnes agrges. Le listage des rsultats obtenus est comment
par la prsentation du formulaire de l'analyse des correspondances associ chacun des rsultats obtenus.

MOTS-CLS : Analyse Factorielle des Correspondances, logiciel statistique, mise en oeuvre.

Abstract. This note introduces the beginner to the use of Correspondence Analysis by means of the
ANACOR procedure from the SPSS for Windows software. This practical use concerns the analysis of
contingency tables, stated from examples based upon either individual casewise data or aggregated data.
The listing of results for each output is annotated with the main mathematical formulae of Correspondence
Analysis.

KEY WORDS : Correspondence Analysis, Statistical Software, Introductory Use.



1. Introduction

Cette note a pour but d'aider les utilisateurs dbutants de SPSS pour Windows
dans la mise en oeuvre de l'Analyse Factorielle des Correspondances, mthode
d'analyse multidimensionnelle des donnes statistiques. La procdure ANACOR
d'Analyse Factorielle des Correspondances (AFC) de SPSS permet essentiellement
d'analyser des tableaux de contingence. Un tableau de contingence est un tableaux
deux dimensions constitu par le croisement de deux variables qualitatives catgories
nominales (e.g. le sexe, statut matrimonial, ...) ou ordinales (e.g. le niveau d'tudes, la
tranche de salaire, ...) dont les cases contiennent le comptage d'occurrences conjointes
des caractres prsents dans une population d'individus.

62
1. Un exemple d'analyse sur donnes individuelles

1.1 Les donnes

Les donnes sont constitues par un fichier du personnel fictif de salaris d'une
socit commerciale tout aussi imaginaire livr avec le logiciel pour servir de jeu d'essai
(fichier SPSS banque. sav) . Ce fichier comporte des renseignements sur la fonction
de ces salaris et leur statut. La fonction des salaris (variable cat emp) est classe selon
7 catgories ou modalits : employ de bureau, employ stagiaire, agent de scurit,
rdacteur stagiaire, personnel vacataire, cadre stagiaire, personnel technique. On
distingue galement 4 statuts diffrents de salari (variable sexst at ) selon leur sexe
(homme ou femme) et leur appartenance ethnique (majoritaire ou minoritaire).



1.2 La spcification des paramtres de l'analyse

Dfinition des variables ligne et colonne du tableau de contingence
1.2.1 Afin d'afficher la bote de dialogue principale de la procdure ANACOR,
slectionnez partir du menu principal les options suivantes :
Statistiques
Factorisation
Analyse des Correspondances ...

63

1.2.2 Slectionnez la variable-ligne catemp dont les catgories constitueront les
lignes du tableau de contingence ainsi que la plage de valeurs dfinissant les catgories
soumises l'analyse. Pour ce faire, il faut :
i. slectionner la variable catemp dans la liste de variable et la transfrer
dans la slection Ligne l'aide du bouton de slection;



Dfinition de la plage des catgories
ii. spcifier la plage de valeurs dfinissant les catgories soumises
l'analyse en appelant la bote de dialogue secondaire par l'intermdiaire du bouton
Dfinir intervalle ... puis en donnant la valeur 1 pour le Minimum et la valeur 7 pour
le Maximum.

64


1.2.3 Slectionnez la variable-colonne sexstat dont les catgories constitueront
les colonnes du tableau de contingence ainsi que la plage de valeurs dfinissant les
catgories soumises l'analyse en oprant de manire similaire pour la slection
Colonne.



Dimension de la solution
Vous pouvez spcifier le nombre de facteurs que vous voulez extraire. En AFC, la
dimension de l'espace des facteurs est gale {min(CardI,CardJ)-1}, plus petite
dimension du tableau (nombre minimum de catgories en ligne ou colonne) moins une
unit
1
. Dans l'exemple ci-dessus, la variable-ligne sexstat comportant 4 catgories
donne la plus petite dimension de tableau, la dimension de l'espace des facteurs est donc
gale 3. Dans cet exemple, vous ne pouvez donc extraire au maximum que 3 facteurs.
Si vous spcifiez un nombre de facteurs extraire suprieur la dimension de l'espace
des facteurs, c'est ce maximum qui sera retenu par la procdure. La valeur par dfaut du
paramtre est de 2 (on se limite l'examen du plan factoriel F F
1 2
).

Options

1
En raison de l'existence d'une valeur propre triviale correspondant au facteur reliant le
barycentre du nuage l'origine du repre orthonorm canonique de l'espace affine euclidien.
65
Le bouton Options affiche la bote de dialogue secondaire permettant de lister le
tableau de contingence soumis l'analyse, de choisir la norme utilise pour calculer les
projections, d'imprimer les coordonnes factorielles des lignes et des colonnes, de
slectionner les graphiques factoriels que vous voulez visualiser et de consulter les
indicateurs statistiques associs.

Voici la valeur des options dfinies par dfaut dans la procdure ANACOR :



Standardisation
Vous pouvez spcifier la norme utilise pour calculer les projections des lignes et
des colonnes du tableau. Il faut choisir l'une des mthodes suivantes :
Canonique. Pour chaque facteur, les lignes sont au pseudo-barycentre
des colonnes (moyenne pondre des colonnes standardise par la valeur propre associe
au facteur). On utilise cette norme pour tudier la relation entre les deux variables (cart
au modle d'indpendance). Il s'agit de l'option par dfaut.
Principale. Les distances entre points-lignes et entre point-colonnes
approxime la distance du
2
. Ce type de normalisation doit tre utilis si l'on souhaite
tudier les diffrences entre modalits de l'une et/ou l'autre des variables au lieu
d'examiner les diffrences entre les deux variables. Il s'agit de la normalisation standard
utilise par l'ensemble des prsentations classiques de l'AFC.
Principale en ligne. La distance entre points-lignes approxime la
distance du
2
. Cette norme maximise les distances entre points-lignes. On utilise cette
norme si l'on souhaite tudier les diffrences ou les ressemblances entre les modalits de
la variable-ligne.
Principale en colonne. La distance entre points-colonnes approxime la
distance du
2
. Cette norme maximise les distances entre points-colonnes. On utilise
cette norme si l'on souhaite tudier les diffrences ou les ressemblances entre les
modalits de la variable-colonne.

66
Afficher
Vous pouvez spcifier une ou plusieurs options d'affichage :
Tableau des frquences. Affichage du tableau de contingence croisant
les modalits-lignes et les modalits-colonnes. Cette prsentation comporte le nombre
d'occurrences dans chaque case ainsi que les marges en ligne et en colonne.
Coordonnes principales. Coordonnes factorielles et proportions
marginales pour chaque modalit-ligne et chaque modalit-colonne.
Contributions. Contribution de chaque ligne et de chaque colonne
chacun des facteurs de l'analyse, ainsi que distance relative l'origine somme sur
chacun des axes.
Protocoles
2
. Profils lignes et colonnes.
Permutations. Tableau de contingence avec permutation des lignes et
des colonnes en fonction des projections des modalits-lignes et des modalits colonnes
selon chacun des facteurs.

Variance et corrlation
Vous pouvez afficher l'une ou plusieurs des statistiques de variance et de
corrlation proposes :
Coordonnes principales des lignes. Variance et corrlation des
coordonnes factorielles des points-lignes.
Coordonnes principales des colonnes. Variance et corrlation des
coordonnes factorielles des points colonnes.
Valeurs singulires. Variance et corrlations des valeurs propres.

Graphique
Vous pouvez slectionner un ou plusieurs des graphiques proposs :
Ligne. graphique-plan des projections des points-lignes.
Colonne. Graphique-plan des projections factorielles des points-
colonnes.
Simultan. Graphique-plan simultan des projections factorielles des
points lignes et des points-colonnes.
Ligne transforme. dition pour chaque facteur des projections des
points-colonnes.
Colonne transforme. dition pour chaque facteur des projections des
points-colonnes.

Spcifications optionnelles du langage de commande
Vous pouvez adapter la procdure ANACOR votre usage personnel en collant
les paramtres de votre slection effectue par lintermdiaire des botes de dialogue
dans la fentre de syntaxe. Vous pourrez alors modifiez le langage de commande
rsultant de ces choix pour :
choisir les plans factoriels reprsenter graphiquement (utiliser le mot-cl
NDIM de la sous-commande PLOT);
spcifier le nombre de caractres des labels de valeur utiliss pour tiqueter les
points dans les graphiques (avec la sous-commande PLOT).

2
Il s'agit bien videmment d'une coquille de traduction du mot "profiles" en anglais, qui a t pris
dans un de ses sens premiers et non dans sa signification mathmatique.
67
sauvegarder la matrice de variance-covariance ou le tableau des coordonnes
factorielles lignes et colonnes dans un fichier SPSS au format matriciel (avec la sous-
commande MATRIX);
spcifier une mthode de standardisation particulire (avec la sous-commande
NORMALIZATION).
Pour une description complte de la commande ANACOR et des rgles de syntaxe,
consultez la section correspondante du manuel (Syntax Reference, SPSS 6.1 Categories).

2. Un exemple d'analyse sur donnes agrges

Bien souvent le charg d'tudes qui souhaite analyser un tableau de contingence
publi dans un annuaire statistique ne dispose pas des questionnaires individuels qui ont
permis d'laborer ce tableau. mais simplement du comptage des occurrences gnr par
un tri crois entre deux variables d'une enqute. L'utilisation du langage de commandes
SPSS permet de lire directement les donnes agrges du tableau de contingence puis de
spcifier les paramtres de l'analyse grce aux sous-commandes de la procdure
ANACOR. Les exemples suivants permettent de s'initier aux diffrentes mises en oeuvre
de l'AFC sur tableaux de donnes agrges, dans SPSS pour Windows.

2.1 Les donnes

Les donnes agrges sont constitues par des statistiques sur l'volution du
cheptel dans le Loiret de 1970 1990 (source : DDAF-Loiret 1991 d'aprs Tomassone,
Dervin & Masson 1993 ). Au dbut de chaque dcennie (1970, 1980, 1990), on a
dnombr le btail prsent dans le Loiret selon les 5 catgories suivantes : Bovins non
laitiers (BOV), Vaches (VAC), Ovins (OVI), Brebis mres (BRE), Porcins (POR). Les
effectifs sont exprims en milliers de ttes.

PRODUIT
ANIMAL
SIGLE ANNEE
1970
ANNEE
1980
ANNEE
1990
Bovins non laitiers BOV 82 61 42
Vaches VAC 48 41 27
Ovins OVI 39 19 13
Brebis mres BRE 47 36 20
Porcins POR 39 26 25

68
2.2 La syntaxe des commandes

2.2.1 La spcification TABLE=ALL

La syntaxe la plus simple pour effectuer une AFC sur donnes agrges consiste
lire le tableau de contingence en utilisant l'instruction DATA LIST puis analyser ce
tableau en tant que donnes agrges en utilisant le mot-cl ALL dans la sous-commande
TABLE (cf. l'exemple suivant).
Voici quelques rgles qui vous permettront
d'crire correctement votre propre programme de
commandes :
Le mot-cl ALL de la sous-commande
TABLE permet de lire et d'analyser directement le
contenu des cases du tableau.
Les colonnes du tableau en entre doivent
tre spcifies en tant que variable dans l'instruction
DATA LIST. Par contre, il n'y pas spcification des
lignes.
DATA LIST / AN1 TO AN3 1-9.
BEGIN DATA
82 61 42
48 41 27
39 19 13
47 36 20
39 26 25
END DATA.
ANACOR TABLE=ALL(5,3).
Aprs le mot-cl ALL figurent, entre parenthses, le nombre de lignes du
tableau suivi par le nombre de colonnes et spars par une virgule.
Le nombre de lignes et colonnes spcifi peut tre infrieur au nombre rel de
lignes et de colonnes si l'on souhaite analyser seulement un sous-ensemble du tableau.
Le mot-cl ALL de la sous-commande TABLE permet de lire et d'analyser
directement le contenu des cases du tableau.
Les variables (colonnes du tableau) sont traites en tant que modalits-colonnes,
et les enregistrements (lignes du tableau) en tant que modalits-lignes.
Avec la spcification TABLE=ALL, les lignes ne peuvent tre tiquetes. Si
l'affichage des tiquettes dans les rsultats est ncessaire, vous pouvez pour entrer vos
donnes utiliser la mthode base sur l'instruction WEIGHT (cf. infra).

2.2.2 La commande WEIGTH
Si l'on veut pouvoir dsigner explicitement les lignes et les colonnes du tableau,
l'instruction WEIGHT fournit une alternative commode pour lire le tableau des donnes
agrges. Ce mode de spcification convient tout particulirement aux tableaux de petite
dimension (cf. l'exemple suivant).
69
Voici les principales rgles
gouvernant la spcification de
ce type de syntaxe :
La commande
WEIGHT pondre chaque
enregistrement par la valeur de
la variable NOMBRE
considrant que l'on a recens
82 milliers de ttes de btail
ayant les caractristiques
CHEPTEL=1 lors de l'anne
ANNEE=1, puis 61 milliers de
ttes de btail du type
CHEPTEL=1 lors de l'anne
ANNEE=2, et ainsi de suite
jusqu'au type CHEPTEL=5 qui
compte 25 milliers de ttes de
btail en l'anne ANNEE=3.
Si l'une des cases du
tableau s'avre nulle, alors
l'excution de la commande
WEIGHT produira un message d'avertissement mais les rsultats fournis par la procdure
ANACOR seront corrects.
Les cases du tableau ne peuvent pas contenir de valeurs ngatives. Les valeurs
ngatives ou les valeurs manquantes du systme sont mises zro lors de l'excution de
la commande WEIGHT.
Pour de grands tableaux de donnes agrges, il vaut mieux utiliser le mode de
spcification TABLE=ALL ou bien le langage de commande pour lire le tableau.

2.2.3 L'tiquetage des modalits lignes et colonnes
Les instructions suivantes montrent comment on peut complter progressivement
la spcification de la procdure ANACOR :

DATA LIST FREE / CHEPTEL ANNEE NOMBRE.
BEGIN DATA
1 1 82
1 2 61
1 3 42
2 1 48
2 2 41
2 3 27
3 1 39
3 2 19
3 3 13
4 1 47
4 2 36
4 3 20
5 1 39
5 2 26
5 3 25
END DATA.
WEIGHT BY NOMBRE.
ANACOR TABLE=CHEPTEL(1,5) BY ANNEE(1,3).
DATA LIST FREE / CHEPTEL ANNEE NOMBRE.
WEIGHT BY NOMBRE.
VALUE LABELS
CHEPTEL 1 'bov' 2 'vac' 3 'ovi' 4 'bre' 5 'por'/
ANNEE 1 'AN70' 2 'AN80' 3 'AN90'.
BEGIN DATA
1 1 82 1 2 61 1 3 42
2 1 48 2 2 41 2 3 27
3 1 39 3 2 19 3 3 13
4 1 47 4 2 36 4 3 20
5 1 39 5 2 26 5 3 25
END DATA.
ANACOR TABLE=CHEPTEL(1,5) BY ANNEE(1,3)
/ DIMENSION=2
/ NORMALIZATION=PRINCIPAL.
Le format libre (mot-
cl FREE de la commande
DATA LIST) permet galement
d'entrer les donnes sous forme
de matrice (chaque
enregistrement correspond
une ligne du tableau).
La commande VALUE
LABELS permet d'affecter une
tiquette caractre descriptif
chaque valeur associe une
modalit ligne ou colonne.
Cette tiquette de valeur tant
reproduite dans les graphiques,
il est prfrable de prvoir des
70
tiquettes ne dpassant pas 3 ou 4 caractres. Une pratique courante est de distinguer les
projections des modalits lignes et colonnes pour les graphiques conjoints en rservant,
par exemple, les minuscules pour les tiquettes des modalits-lignes et les majuscules
pour celles des modalits-colonnes.
La spcification (=2) de la sous-commande DIMENSION permet de limiter
l'extraction des facteurs aux deux premiers axes factoriels et l'impression des graphiques
au plan factoriel F F
1 2
.
La spcification (=PRINCIPAL) de la sous-commande NORMALIZATION
indique que les normes choisies pour les distances entre modalits-lignes et entre
modalits colonnes approxime la mtrique du
2
.

2.3 L'excution du programme

Pour excuter la procdure ANACOR selon les options spcifies en mode
commande, il suffit de saisir le texte du programme de commandes correspondant dans la
fentre de syntaxe, de le slectionner et d'en lancer l'excution au moyen du bouton prvu
cet effet :



2.4 Listage des rsultats et formulaire d'AFC

2.4.1 La procdure ANACOR
La bannire du programme nous informe qu'il s'agit de la version 0.4 de la
procdure SPSS ANACOR conue et ralise par le Dpartement d'Analyse des Donnes
de l'Universit de Leiden, aux Pays-Bas. Pour l'essentiel, la prsentation des rsultats ci-
aprs est inspire du formalisme utilis par J ean-Paul Benzcri.


A N A C O R - VERSI ON 0. 4
BY
DEPARTMENT OF DATA THEORY
UNI VERSI TY OF LEI DEN, THE NETHERLANDS
71
2.4.2 Le tableau de contingence
Le premier rsultat concerne le tableau de contingence lui-mme, imprim par
dfaut. Par la suite, on notera I l'ensemble des lignes et J l'ensemble des colonnes de ce
tableau. L'impression du tableau de contingence permet de valider le rsultat de la lecture
des donnes en vrifiant le contenu des cases. On peut galement consulter les marges de
ce tableau pour prendre connaissance des distributions marginales ligne k
I
et colonne
. k
J

La marge-ligne
k
I
est dfinie
par le poids k
i.

de la ligne i :

k
i
i
k
ij
I
.
=

, soit
pour la premire
ligne du tableau
(bov) k .
1
185
.
=
La marge-
colonne k est dfinie par le poids k
.j
de la colonne j :
J
k
j
j J
.
The t abl e t o be anal yzed:

1 2 3
AN70 AN80 AN90 Mar gi n

1 bov 82 61 42 185
2 vac 48 41 27 116
3 ovi 39 19 13 71
4 br e 47 36 20 103
5 por 39 26 25 90
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Mar gi n 255 183 127 565
k
ij
=

, soit pour la
premire colonne du tableau (anne 1970) k
.1
255 = . La marge-colonne reprsente
l'effectif global du cheptel dans le Loiret : celui-ci atteignait 255 000 ttes de btail en
1970.

Le poids total du tableau de contingence k
..
est dfini par la sommation selon les
lignes ou les colonnes des marges du tableau : k k k
i
i I
j
j J
ij
i j IxJ
.. . .
( , )
k = = =




Ces lments permettent de dfinir la distribution de frquences
f
IJ
={ f
ij
, ( , ) i j I J }, avec f
k
k
ij
ij
=
..
, comme une loi de probabilit sur le couple I J .

2.4.3 Les tableaux de profils
Les tableaux de profils lignes et colonnes sont des statistiques optionnelles de la
procdure qui peuvent tre obtenues soit en cochant la slection PROTOCOLES dans la
liste AFFICHER de la bote de dialogue secondaire OPTIONS de la procdure, soit en
spcifiant le mot-cl PROFILES dans la sous-commande PRINT.
Le profil-ligne ={ , f
J
i
f
j
i
j J }, profil de l'lment i sur l'ensemble J, est la loi
conditionnelle de l'ensemble J connaissant l'vnement i de l'ensemble I. Le profil-ligne
des bovins non laitiers (i ) est {0, 443;0, 330;0, 227}. =1

72
Son j
e
lment est
dfini par le
rapport :
f
k
k
j
i ij
i
=
.

Ce rapport est gal
au pourcentage que
reprsente le poids
de la case (i,j) du
tableau de
contingence par
rapport au poids de la ligne i; il donne une estimation de la frquence conditionnelle de
l'vnement i j sachant l'vnement i.

Le profil-ligne moyen f
J
={ f
j .
, j J } (marge du tableau des profils-lignes) est la
loi marginale sur J de la distribution de frquences f
IJ
, dfini par sa j
e
coordonne :
f
k
k
j
j
.
.
..
= , frquence marginale de la colonne j. Le profil-ligne moyen f
J
donne la
pondration dfinie par la frquence marginale de la colonne j, f
j .
masse affecte
chaque profil-colonne.
La dfinition du nuage N I
J
( )={i I ; ( , f
j
i
f
i.
), j J } R
J
, des lments i
affects des masses f
i.
, permet d'associer chaque profil-ligne une reprsentation
euclidienne en termes de point-ligne.
Le profil-ligne moyen f
J
, utilis comme vecteur de pondration, permet de
dfinir la mtrique du
2
de centre f
J
comme distance distributionnelle entre les
points-lignes i et i' :
d i i f f
f
J
f f f
J
i
J
i
j
i
j
i
j
j J
( , )
.
'
' '
= =

2

Le profil-colonne f
I
j
={ , i f
i
j
I }, profil de l'lment j sur l'ensemble I, est la loi
conditionnelle de l'ensemble I connaissant l'vnement j de l'ensemble J. Le profil-
colonne de l'anne 1970 ( j =1) est {0, 322;0, 188;0, 153;0, 184;0, 153}.

Son i
e
lment est
dfini par le
rapport :
f
k
k
i
j ij
j
=
.

Ce rapport est gal
au pourcentage
que reprsente le
poids de la case
(i,j) du tableau de
contingence par
rapport au poids de la colonne j. Il donne une estimation de la frquence conditionnelle
de l'vnement sachant l'vnement j. Ainsi, la comparaison des trois profils- i
The Rowpr of i l es:

1 2 3
AN70 AN80 AN90 Mar gi n

1 bov . 443 . 330 . 227 1. 000
2 vac . 414 . 353 . 233 1. 000
3 ovi . 549 . 268 . 183 1. 000
4 br e . 456 . 350 . 194 1. 000
5 por . 433 . 289 . 278 1. 000
- - - - - - - - - - - - - - - - - - - - - - - -
Mar gi n . 451 . 324 . 225
The Col umnpr of i l es:

1 2 3
AN70 AN80 AN90 Mar gi n

1 bov . 322 . 333 . 331 . 327
2 vac . 188 . 224 . 213 . 205
3 ovi . 153 . 104 . 102 . 126
4 br e . 184 . 197 . 157 . 182
5 por . 153 . 142 . 197 . 159
- - - - - - - - - - - - - - - - - - - - - - - -
Mar gi n 1. 000 1. 000 1. 000
j
73
colonnes correspondant aux annes nous informe que les vaches (vac, i = 2)
reprsentaient successivement dans le Loiret 18,8% du cheptel en 1970 ( ),
22,4% du cheptel en 1980 ( ), puis 21,3% (
f
2
1
0188 = ,
f
2
2
0224 = , f
2
3
0213 = , ) du cheptel en 1990.

Le profil-colonne moyen f
I
={ f
i.
, i I } (marge du tableau des profils-colonnes)
est la loi marginale sur I de la distribution de frquences f
IJ
, dfini par sa i
e

coordonne : f
k
k
i
i
.
.
..
= , frquence marginale de la ligne i. Le profil-colonne moyen f
I

donne la pondration dfinie par la frquence marginale de la ligne i, f
i.
masse affecte
chaque profil-ligne.

La dfinition du nuage N J
I
( )={ j J ; ( , f
i
j
f
j .
), i I } R
I
, des lments j
affects des masses f
j .
, permet d'associer chaque profil-colonne une reprsentation
euclidienne en termes de point-colonne.
Le profil-colonne moyen f
I
, comme vecteur de pondration, permet de dfinir la
mtrique du
2
de centre f
I
comme distance distributionnelle entre les points-colonnes
j et j' :
d j j f f
f
I
f f f
I
j
I
j
i
j
i
j
i
i I
( , )
.
'
' '
= =

2


2.4.4 Les valeurs propres et leur pourcentage d'inertie

Le tableau des valeurs propres

, o indique le rang du facteur est le second


rsultat imprim par dfaut dans la procdure ANACOR.
Dans cet exemple, la plus petite dimension du tableau de contingence tant 3
(nombre d'annes), le nombre maximum de facteurs non triviaux pouvant tre extraits en
AFC est de 2. Ce tableau de rsultats donne pour chaque facteur de rang la valeur
propre correspondante

(colonne "Si ngul ar Val ue", ainsi on a la premire valeur


propre
1
008061 = , ), l'inertie relative ce facteur (colonne "I ner t i a"), le
pourcentages d'inertie explique par chaque facteur (colonne "Pr opor t i on
expl ai ned") ainsi que le pourcentage d'inertie cumule au rang (colonne
"Cumul at i ve Pr opor t i on").
Di mensi on Si ngul ar I ner t i a Pr opor t i on Cumul at i ve
Val ue Expl ai ned Pr opor t i on
1 . 08061 . 00650 . 646 . 646
2 . 05969 . 00356 . 354 1. 000
- - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Tot al . 01006 1. 000 1. 000

L'interprtation des axes
Puis sont imprims galement par dfaut pour chaque ensemble de modalits
(lignes et colonnes), le tableau des facteurs ("Row Scor es", respectivement "Col umn
Scor es"), celui des contributions aux facteurs ("Cont r i but i on of Row poi nt s
t o t he i ner t i a of each di mensi on", respectivement "Cont r i but i on of
col umn poi nt s t o t he i ner t i a of each di mensi on") et celui des cosinus
74
carrs ("Cont r i but i on of di mensi ons t o t he i ner t i a of each r ow
poi nt ", respectivement "Cont r i but i on of di mensi ons t o t he i ner t i a of
each col umn poi nt ").

2.4.5 Les facteurs

Pour les lignes, nous pouvons consulter le tableau des facteurs sur I,
={F , i F

( ) I }.

F i

( ) est la valeur du facteur de


rang au point i de l'ensemble
I, muni du systme de masses
f
I
. Calculons la projection sur
le premier facteur du barycentre
des points-lignes :




f F f F f F f F f F
1 1 2 1 3 1 4 1 5 1
1 2 3 4
. . . . .
( ) ( ) ( ) ( ) ( ) + + + 5 + =
0 327 0 015 0 205 0 069 0126 0193 0182 0 027 0159 0 063 0 , ( , ) , ( , ) , , , , , ( , ) + + + +

On peut vrifier les proprits suivantes des facteurs : F

f F i
i
i I
.
( )

0 Les axes factoriels sont centrs relativement f


I
la loi
marginale sur I.
f F i
i
i I
.
( )

L'inertie du nuage de points N I


J
( ), muni du systme de
masses f
I
, relative chacun des axes est gale la valeur propre associe

.
f F i F i
i
i I
.
( ) ( )

=

0 pour . Les axes factoriels sont othogonaux deux
deux.
Une normalisation des facteurs par la constante F

1
2
permet de dfinir des
fonctions de moyenne nulle, de variance unit, non corrles deux deux sur I muni
du systme de masses

I
f
I
.

Un tableau similaire G

={G j

( ), j J } est imprim pour l'ensemble J des points-


colonnes.

Row Scor es:

CHEPTEL Mar gi nal Di m
Pr of i l e 1 2

1 bov . 327 - . 015 . 006
2 vac . 205 - . 069 . 037
3 ovi . 126 . 193 - . 040
4 br e . 182 . 027 . 074
5 por . 159 - . 063 - . 114
Col umn Scor es:

ANNEE Mar gi nal Di m
Pr of i l e 1 2

1 AN70 . 451 . 087 - . 015
2 AN80 . 324 - . 051 . 078
3 AN90 . 225 - . 100 - . 082
G j

( ) est la valeur du facteur de


rang au point j de l'ensemble I,
muni du systme de masses f
J
.
Calculons la projection sur le
premier facteur du barycentre des
points-colonnes :
f G f G f G
. . .
( ) ( ) ( ) , ,
1 1 2 1 3 1
1 2 3 0 457 0 087 + + =

75
On peut vrifier sur ce tableau les proprits suivantes des facteurs G :

f G j
j
j J
.
( )

0 Les axes factoriels sont centrs relativement f


J
la loi
marginale sur J.

L'inertie du nuage de points f G j


j
j J
.
( )


2
N J
I
( ), muni du systme de
masses f
J
, relative chacun des axes est gale la valeur propre associe

.
f G j G j
j
j J
.
( ) ( )

=

0 pour . Les axes factoriels sont othogonaux deux
deux.
Une normalisation des facteurs G par la constante

1
2
permet de dfinir des
fonctions de moyenne nulle, de variance unit, non corrles deux deux sur J muni
du systme de masses

J
f
J
.

2.4.6 Les contributions aux facteurs

L'interprtation des axes de l'AFC ne peut tre effectue sur la base des seules
coordonnes factorielles. Les contributions des points l'inertie des facteurs constitue
l'indice statistique permettant d'apprcier la part que les modalits correspondantes ont
prise dans la constitution d'un axe.

Imprim par la procdure ANACOR, le tableau suivant rassemble les
contributions relatives des points-lignes i l'inertie des facteurs de rang ,
={CTR , i CTR
I

( ) I } muni du systme de masses f


I
, profil-moyen de ces modalits-
lignes toutes annes confondues. Cette contribution est dfinie par le rapport
CTR i
f F i
i

( )
( )
.
=

2

Rappelons que chaque valeur propre reprsente l'inertie du facteur associ :


=

f F i
i
i I
.
( )
2

Cont r i but i on of r ow poi nt s t o t he i ner t i a of each di mensi on:

CHEPTEL Mar gi nal Di m
Pr of i l e 1 2

1 bov . 327 . 012 . 004
2 vac . 205 . 150 . 077
3 ovi . 126 . 719 . 056
4 br e . 182 . 021 . 282
5 por . 159 . 098 . 581
- - - - - - - - - - - - - - - -
1. 000 1. 000

De faon symtrique, le tableau CTR ={CTR
J

( ), j J } rassemble les
contributions relatives des points-colonnes j l'inertie des facteurs de rang , muni
76
du systme de masses f
J
, profil-moyen de ces modalits-lignes toutes annes
confondues. Cette contribution est dfinie par le rapport CTR j
f F j
j

( )
( )
.
=

2

Rappelons que chaque valeur propre reprsente l'inertie du facteur associ :


=

f G j
j
j J
.
( )
2


2.4.7 Les corrlations profils-facteurs

L'interprtation des reprsentations graphiques fournies par l'AFC dpend
galement de la qualit des projections des profils lignes ou colonnes sur les facteurs.
L'indice permettant de s'assurer de la qualit de ces projections est le cosinus carr de
l'angle que fait le vecteur reprsentant le profil avec les vecteurs unitaires des axes
factoriels. Ce cosinus carr est assimilable une corrlation entre le profil et le facteur.

Dans le listage fourni par la procdure ANACOR, le tableau des contributions
des facteurs l'inertie des points-lignes rassemble les corrlations
COR
I

={COR , i i

( ) I } muni du systme de masses f


I
, profil-moyen de ces modalits-
lignes toutes annes confondues. Cette corrlation est dfinie comme le cosinus carr de
l'angle de projection du profil-ligne , reprsent par le point-ligne i, sur l'axe factoriel
de rang par le rapport
f
J
i
COR i
F i
i

( )
( )
( )
=
2
2
o
2
( ) i est le carr de la distance d'un point
ligne i au centre de gravit du nuage N I
J
( ).

2
2
2
( ) ( )
. .
i f f
f
J
f f f F i
J
i
J j
i
j j
j J A
= = =




Cont r i but i on of col umn poi nt s t o t he i ner t i a of each di mensi on:

ANNEE Mar gi nal Di m
Pr of i l e 1 2

1 AN70 . 451 . 521 . 027
2 AN80 . 324 . 130 . 546
3 AN90 . 225 . 349 . 426
- - - - - - - - - - - - - - - -
1. 000 1. 000
Cont r i but i on of di mensi ons t o t he i ner t i a of each r ow poi nt :

CHEPTEL Mar gi nal Di m Tot al
Pr of i l e 1 2

1 bov . 327 . 846 . 154 1. 000
2 vac . 205 . 780 . 220 1. 000
3 ovi . 126 . 959 . 041 1. 000
4 br e . 182 . 119 . 881 1. 000
5 por . 159 . 235 . 765 1. 000
De faon symtrique, le tableau des contributions des facteurs l'inertie des
points-colonnes rassemble les corrlations COR ={COR
J

( ), j J } muni du systme
77
de masses f
I
, profil-moyen de ces modalits-lignes toutes annes confondues. Cette
corrlation est dfinie comme le cosinus carr de l'angle de projection du profil-colonne
f
I
j
, reprsent par le point-colonne j, sur l'axe factoriel de rang par le rapport
COR j
F j
j

( )
( )
( )
=
2
2
o
2
( ) j est le carr de la distance du point-colonne j au centre de
gravit du nuage N J
I
( ).

2
2
2
( ) ( )
. .
j f f
f
I
f f f G
I
j
I i
j
i i
i I A
= = =

j



Cont r i but i on of di mensi ons t o t he i ner t i a of each col umn poi nt :

ANNEE Mar gi nal Di m Tot al
Pr of i l e 1 2

1 AN70 . 451 . 972 . 028 1. 000
2 AN80 . 324 . 302 . 698 1. 000
3 AN90 . 225 . 599 . 401 1. 000
2.4.8 Les vecteurs propres

Si l'on souhaite obtenir les coordonnes des vecteurs propres dans la base
canonique de R
J
(espace des profils-lignes), il convient alors de choisir la mthode de
standardisation "Principale en ligne" (NORMALISATION=RPRINCIPAL), comme
suit :





puis de consulter le tableau des facteurs des points-colonnes dont les colonnes DIM1 et
DIM2 nous donnent directement dans la base canonique de R
J
les coordonnes des deux
vecteurs propres V, respectivement V :
1 2









ANACOR TABLE=CHEPTEL(1,5) BY ANNEE(1,3)
/ DIMENSION=2
/ NORMALIZATION=RPRINCIPAL.
Col umn Scor es:

ANNEE Mar gi nal Di m
Pr of i l e 1 2

1 AN70 . 451 1. 075 - . 246
2 AN80 . 324 - . 633 1. 299
3 AN90 . 225 - 1. 246 - 1. 377

On peut de faon symtrique dans l'espace des profils-colonnes obtenir les coordonnes
des vecteurs propres dans la base canonique de R
I
en utilisant la mthode de
standardisation "Principale en colonne" (NORMALISATION= CPRINCIPAL) et en
consultant le tableau des facteurs pour les points-lignes.

2.4.9 Les reprsentations graphiques
78
Les facteurs sur l'ensemble I ou l'ensemble J, utiliss comme coordonnes
factorielles permettent de dresser des reprsentations graphiques des modalits lignes,
respectivement colonnes afin de visualiser la distribution des profils lignes,
respectivement colonnes. La procdure ANACOR produit des graphiques factoriels par
dfaut pour chaque ensemble de profils lignes et colonnes dans le plan factoriel . F F
1 2

Le graphique ci-dessous visualise les projections dans le plan factoriel F des profils-
lignes associs aux modalits de la variable CHEPTEL.
F
1

2

Coordonnes des lignes pour CHE
Principal normalization
Dimension 1
.2 .1 0.0 -.1
D
i
m
e
n
s
i
o
n

2
.1
0.0
-.1
-.2
por
bre
ov
vac
bov


Le graphique ci-dessous visualise les projections dans le plan factoriel F des profils-
colonnes associs aux modalits de la variable ANNEE.
F
1

2


Coordonnes des colonnes pour ANNE
Principal normalization
Dimension 1
.1 0.0 -.1 -.2
D
i
m
e
n
s
i
o
n

2
.1
0.0
-.1
AN90
AN80
AN70
















Soulignons que pour la mthode de normalisation utilise (PRINCIPAL), il n'est
pas possible de demander la procdure ANACOR le trac conjoint de l'ensemble des
points-lignes et de l'ensemble des points-colonnes sur un mme graphique factoriel.
79
3. En guise de conclusion

En tant que mthodologie pour l'analyse de donnes statistiques
multidimensionnelles, l'AFC est susceptible de bien d'autres applications que l'analyse
d'un tableau de contingence. Parmi celles-ci, citons le dpouillement multidimensionnel
des rponses un questionnaire d'enqute, l'analyse lexico-statistique de rponses des
questions ouvertes, l'analyse conomique de tableaux d'entres-sorties trois indices,
l'analyse des tableaux de distance, la discrimination de sous-populations sur tableau de
descripteurs cliniques, etc. Chacune de ces applications fait rfrence, explicitement ou
implicitement, un modle thorique : AFC d'un codage disjonctif complet, AFC du
tableau de Burt ou Analyse des Correspondances multiples (ACM), Analyse factorielle
multiple (AFM), Analyse intra ou ACM conditionnelle, Analyse factorielle de tableaux
de distance, etc. l'instar de la pratique courante de projection d'lments
supplmentaires, ces modles thoriques ne sont pas incorpors explicitement
l'interface d'utilisation de SPSS pour Windows; il sera donc ncessaire de diffuser
ultrieurement d'autres notices d'utilisation proposant une introduction simple et un accs
facilit ces techniques statistiques dans le contexte de ce logiciel. Nous esprons bien
entendu pouvoir rpondre prochainement de tels besoins.

4. Rfrences

Tomassone R., Dervin C., Masson J .-P. 1993. BIOMTRIE, Modlisation des
phnomnes biologiques, Masson, Paris, 553 p.

SPSS Inc. 1994. SPSS 6.1 Categories, SPSS Inc., Chicago, 209 p.

Vous aimerez peut-être aussi