Vous êtes sur la page 1sur 25

SIAGH Ahmed Ramzi

2013
Historique et Théorie:
 Méthode développée notamment par Jean-Paul
Benzécri (1970)
Historique AFC

 Pourquoi « des correspondances » ?


 variables numériques → Corrélation
 variables nominales → Correspondance
 Pourquoi « factorielle » ?
 Il s’agit de décomposer le tableau original en une somme
de tableaux/matrices qui sont chacun le produit de
facteurs simples. Autrement dit, on les « met en
facteurs »
AFC
 Spécificités
 Correspondance entre 2 ensembles de variables (et non plus individus x variables)
 l'analyse est donc symétrique (les axes factoriels sont les mêmes)
 On peut donc interpréter graphiquement toutes les proximités (var-var, ind-var, ind-
ind)

 Types de données et d’analyses


 Les données sont des tableaux d’effectifs (d’où la distance du khi2)
 Tableaux de données où les valeurs sont positives et homogènes comme les
tableaux de contingence (tableau d’effectifs qui contient à l’intersection
de la ligne i et de la colonne j des zij individus. Il s’agit de la
ventilation d’une population totale M selon deux caractères (qualitatifs)
quelconques X en ligne et Y en colonne)
 Tableau de fréquences (tableau croisé)
 Tableau de contingence (données binaires individus-variables catégorielles)
 Tableau disjonctif complet (x et (1-x))
Analyse des correspondances: Objectif
Le but principal de l’AFC est de lire l’information contenue
dans un espace multidimensionnel par une réduction de
la dimension de cet espace tout en conservant un
maximum de l’information contenu dans l’espace de départ.
L’AFC est une ACP particulière où les composantes principales
sont toujours obtenues à partir de la distance entre les
différents points des nuages multi-dimmensionnels,
Les points ont des coordonnées qui ont subis une
transformation préalable permettant de conserver une
métrique identique à celle de l’ACP pour calculer ces
distances.
Analyse des correspondances: Principe…
 Analyse d’un tableau de fréquences
 On se concentre sur la dépendance ou l’indépendance entre les deux
caractères en utilisant le test du χ² (analyse de la variance: rapport de
corrélation).
 L'écart entre deux colonnes est d'autant plus valorisé que la fréquence
de la colonne est faible
 Distance du Chi-2 entre m et h
2
1  Pmj Phj 
d 2 (m,h) =  −
j P. j Pm. Ph. 

 Distance euclidienne dans un espace à p dimensions entre 2 points de


coordonnées
Pmj
Pm. P. j
Analyse des correspondances: Principe…
 Le tableau de contingence, les modalités des caractères sont exclusives
les unes par rapport aux autres et exhaustives. Il en résulte que les
sommes en ligne et en colonne du tableau ont un sens.
 -le tableau des données Z(N,n) se présente alors de la façon suivante :

Modalités de Y

Modalités
de
X
Exemple …
 Enquête sur un échantillon de 100 vacanciers qui ont
indiqués leur Catégorie Socio Professionnelle CSP
(caractère X) et le mode d’hébergement utilisé durant
leurs vacances (caractère Y).
 Le tableau de contingence croisant les caractères X et Y est:

Matrice Z (7,4)
Exemple …
 L’AFC s’intéresse aux effectifs marginaux des tableaux que l’on appelle
profils.
 Le tableau Z peut être alors transformé selon deux autres tableaux
appelés tableaux de profils.
 Ainsi, de Z(N,n) on peut déduire deux matrices X(N,n) et Y(N,n)
Exemple …
 La transformation du tableau Z(N,n) en un tableau P(N,n) est la première
étape de l’AFC. On peut alors disposer de deux autres tableaux de sens
différents :
 le tableau des profils lignes : ………Pij/Pi.
 le tableau des profils colonnes: …..Pij/P.j
 ce que l’on représente schématiquement par :

A partir de la matrice Z ou de ses transformées en matrices de profils, on peut considérer que


l’information contenue dans le tableau peut être analysée à partir de deux espaces :
►L’espace Rn des «variables» (modalités colonnes) dans lequel on peut représenter le nuage
des N points «individus» (modalité ligne).
►L’espace RN des « individus » dans lequel on peut représenter les n points variables.
Exemple …
 Matrice X : profils Lignes

 Matrice Y : profils Colonnes


Exemple …
 l’information est donnée par la distance Euclidienne entre les points des
nuages des deux espaces Rn et RN.
 Dans Rn: La distance euclidienne entre deux points quelconques : x(i) et x(i’) de
cet espace.

Transformation

 Dans RN

On peut vérifier que l’application de la distance euclidienne sur les


données transformée est équivalente à l’application de la métrique du
χ2 sur les données non transformées.
Exemple …
 Codification disjonctive du tableau de données

 Z(7,4)=X’(7,100)Y(100,4) où X’ est la matrice transposée de X(100,7) (Transposé


de la Variable CSP du tableau précédent) et Y(100,4) la matrice Mode
d’hébergement
Exemple Illustratif sur SPSS….

 Tableau de contingence croisant les caractères X et Y :


Dans ce tableau on a :
X : CSP à 7 modalités;
Y : mode d’hébergement à 4
modalités;
N=100=nombre total
d’individus
Exemple Illustratif sur SPSS….
 Reconstitution du tableau d’analyse sur SPSS

Création des variables Fréquence, CSP et


Type de Vacances. Il est nécessaire
d'étiqueter chaque variable selon le nombre
de catégories à l'intérieur de la variable:
Freq: var numérique;
CSP: var Nominale à 7 modalités;
VACANCE: var Nominale à 4
modalités.

Les données peuvent être saisies de cette façon sur la base des fréquence de chaque
variable sur le tableau de contingences.
Exemple Illustratif sur SPSS….
 Pondération des cas:

La variable Fréquence représentera la fréquence d'occurrence dans les données


d'échantillons de chaque CSP avec chaque type de VACANCE choisi.

Pondération des cas par fréquence. Pour informer SPSS que les fréquences ne
doivent pas être compilé comme des variables.
Exemple Illustratif sur SPSS….

Il est nécessaire de définir la plage des variables. En entrant la valeur minimale et la


valeur maximale choisi pour chaque variable et mettre à jour.

 Sélection des modalité de X (min=1; max=7) et Y (min=1; max=4)


Exemple Illustratif sur SPSS….
 L’Analyse>Modèle: préciser comment produire les résultats de l'analyse.

En AFC, la Dimension de l'espace des facteurs est


={ min(CardI ,Card J)-1}, plus petite dimension du
tableau (nombre minimum de catégories en ligne
ou colonne)

La mesure de distance doit être réglé sur Chi2,


CA utilise la statistique du chi-carré pour tester la variance totale expliquée,
ainsi que la probabilité associée. La statistique du chi-carré est élevé quand il ya
une correspondance forte entre les lignes et les colonnes d'une table
(Fellenberg,
Hauser, Brors, Neutzner, Hoheisel, Vingron, 2001).
La méthode de normalisation "moyens de lignes et
colonnes sont supprimées", selon souhait
d’interprétation des résultats.

Méthode de standardisation: pour calculer les


projections des lignes et des colonnes du tableau.
Canonique Symétrique: Norme utilisée pour étudier la
relation entre les deux variables (écart au modèle
d'indépendance). Cette normalisation est utilisée par
l'ensemble des présentations classiques de l'AFC.
Principale: Les distances entre points-lignes et entre point-colonnes approxime la distance du χ2,
est utilisé si l'on souhaite étudier les différences entre modalités de l'une et/ou l'autre des variables
au lieu d'examiner les différences entre les deux variables.
Exemple Illustratif sur SPSS….
 Analyse>Statistiques:

Spécifier les options des tableaux


produits de l’Analyse en plus du tableau
de contingence et statistiques des
variables.
C'est toujours, à l'appréciation du
chercheur de ne pas inclure certains
tableaux.

On peux choisir d'inclure également


les tableaux des profils ligne et
colonne, ainsi que la statistique de
confiance « Confidence Statistics »
pour les points de lignes et de
colonnes.
Exemple Illustratif sur SPSS….
 Analyse>Diagrammes

Choix de manière dont l'analyse doit être


affiché graphiquement.
On peut choisir d'afficher le diagramme
double de projection graphique, ainsi que
des points de lignes ou de colonnes dans
un graphique séparé.
Tracés linéaires peuvent être utilisés pour
afficher des catégories ligne ou de
colonne après standardisation et
normalisation.
Exemple Illustratif sur SPSS….
 Résultats : Tableau des correspondances
VACANCE
CSP CAMPING HOTEL FAMILLE LOCATION Marge active
AGRICULTEUR 2 0 8 2 12
CADRE MOY 4 2 1 5 12
CHEF ENTREPRISE 1 5 1 3 10
EMPLOYE 8 1 3 3 15
OUVRIER 9 0 3 2 14
PROF. LIBERAL 3 1 2 13 19
RETRAITE 5 2 9 2 18
Marge active 32 11 27 30 100

Profils lignes Profils colonnes


VACANCE VACANCE
Marge CAMPIN
CSP CAMPING HOTEL FAMILLE LOCATION active CSP G HOTEL FAMILLE LOCATION Masse
AGRICULTEUR ,167 0,000 ,667 ,167 1,000 AGRICULTEUR ,063 0,000 ,296 ,067 ,120
CADRE MOY ,333 ,167 ,083 ,417 1,000 CADRE MOY ,125 ,182 ,037 ,167 ,120
CHEF ,100 ,500 ,100 ,300 1,000 CHEF ,031 ,455 ,037 ,100 ,100
ENTREPRISE ENTREPRISE
EMPLOYE ,533 ,067 ,200 ,200 1,000 EMPLOYE ,250 ,091 ,111 ,100 ,150
OUVRIER ,643 0,000 ,214 ,143 1,000 OUVRIER ,281 0,000 ,111 ,067 ,140
PROF. LIBERAL ,158 ,053 ,105 ,684 1,000 PROF. LIBERAL ,094 ,091 ,074 ,433 ,190
RETRAITE ,278 ,111 ,500 ,111 1,000 RETRAITE ,156 ,182 ,333 ,067 ,180
Masse ,320 ,110 ,270 ,300 Marge active 1,000 1,000 1,000 1,000
Exemple Illustratif sur SPSS….
 Interprétations: Récapitulatif
Valeur singulière de
Proportion d'inertie confiance
Corrélation
Valeur
Dimension singulière Inertie Khi-deux Sig. Expliqué Cumulé Ecart-type 2
1 ,533 ,284 ,486 ,486 ,084 ,252
2 ,413 ,171 ,292 ,777 ,102
3 ,361 ,130 ,223 1,000
a
Total ,585 58,497 .000 1,000 1,000
a. 18 degrés de liberté

Valeur Singulière affiche Cette association est bonne, mais


la corrélation canonique très significatif, comme l’indiqué
entre les deux variables par notre statistique de Chi-2 La corrélation de
pour chaque dimension. (sig. ou p-valeur est < à 0,05 25,2% entre les
valeur seuil), ce qui indique la dimensions.
valeur de notre inertie totale est  Dimension 1 explique environ 48,6% du
significativement différent de total 58,5% de la variance expliquée par le
zéro. modèle. En outre, la dimension 2 explique
plus de 29% des 58,5% de la variance
Inertie pour chaque dimension et la valeur d'inertie
expliquée par le modèle, en somme 77,7%
totale. Qui représente la somme de la variance
de la variance expliquée par le modèle à
expliquée dans la table de correspondance d'origine par
deux dimensions. Dimension 3 explique
le modèle global. Dans notre modèle, l'inertie totale
trop peu de la variance totale expliquée
(variance totale expliquée) est de 58,5%. Cela indique
pour être conservés pour analyse.
que pour notre modèle, à savoir la CSP explique
environ 58,5% du mode de Vacances et vice-versa.
Exemple Illustratif sur SPSS….
Remarques
 La colonne inertie donne la variance totale expliquée par chaque dimension
dans le modèle.
 Gardez à l'esprit, ce chi-carré n'est pas une statistique d'ajustement du modèle,
il ne se prête pas à la comparaison des modèles avec des variables différentes
comme Chi.2 est souvent utilisé. Il est seulement de tester la valeur d'inertie
contre zéro.
 La colonne Valeur Singulière donne les racines carrées des valeurs propres, qui
décrit «le maximum de corrélation canonique entre les catégories des variables
dans l'analyse de toute dimension donnée » (Garson, 2008). Les valeurs
propres et l'inertie sont synonymes en ce que, "chaque axe a une valeur propre
dont la somme est égale à l'inertie du nuage de points" (Benzecri, 1992).
 Le test du khi-deux est un test d’indépendance:
 Test :
H0 : Les variables X et Y sont indépendantes
H1 : Les variables X et Y sont liées entre elles
Décision : On rejette H0 au risque  de se tromper si 2  1-2[(n-1)(p-1)]
Dans le cas de l’ind´ ependance statistique entre la modalité i de X et la modalité j
deY, on a: P(X=i,Y=j) =P(X=i)P(Y=j)
Exemple Illustratif sur SPSS….
 Interprétation Graphique:
 Dimension 2: Préférence de prise en charge

 Dimension 1: Groupe sociale


 Plus le revenue est grand plus l’individu opte plus à une
meilleure prise en charge et plus le revenu est faible
plus il s’engage plus à sa prise en charge
 Doey, L. and Kurta, J. (2011). Correspondence Analysis applied to psychological research. Tutorials in
Quantitative Methods for Psychology, 2011, Vol. 7(1), p. 5-14.
 Fellenberg, K., Hauser, N. C., Brors, B., Neutzner, A., Hoheisel, J. D., & Vingron, M. (2001).
Correspondence analysis applied to microarray data. Preceedings of the National Academy of
Sciences, 98, 10781-10786.
 Garson, D. (2008). Correspondence Analysis, from Statnotes: Topics in Multivariate Analysis.
Retrieved 04/01/2010 from http://faculty.chass.ncsu.edu/garson/pa765/statnote.htm.

Vous aimerez peut-être aussi