Vous êtes sur la page 1sur 30

Cours Analyse de Données

Chap3
Analyse Factorielle
des Correspondances (AFC)

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Objectif
 L’AFC a pour objet le traitement de l’information
contenue dans un tableau appelé Tableau de
contingence (ou de dépendance) relatif à deux
ensembles de nature quelconque, en relation par
moyen d’un processus naturel ou expérimental
plus ou moins bien connu.

 Les données sont ici pondérées. Les fréquences


de répétition s’interprètent facilement comme des
probabilités.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Le tableau de dépendance peut être représenté par
un nuage de points affecté de probabilité.
IRq L
i

p points

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
 Soit un tableau de contingence ayant p lignes (modalités
de la premère question fermée) et q colonnes (modalités
de la deuxième question fermée).

1 … j … q
1 x11 … x1j … x1q
i xi1 … xij … xiq
p xp1 … xpj … xpq

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Procédure de l’AFC

 Du tableau de contingence on tire un tableau des


fréquences relatives F de dimension (n,p) avec

1 … j … q Total
1 f11 … f1j … f1q f1.
i fi1 … fij … fiq fi.
p fp1 … fpj … fpq fp.
Total f.1 … f.j … f.q 1

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
 Où les fréquences (probabilités) marginales sont:

 Qui vérifient les propriétés:

et

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
C’est quoi les “Correspondances” ?

 Lorsque les variables sont quantitatives, on fait une étude des


corrélations,

 Lorsque les variables sont qualitatives, on fait une étude des


correspondances.

Indépendance ?

 Probabilité conditionnelle dans ce cas:

 Formule d’indépendance:

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
 On définit un tableau de profils lignes et un tableau de
profils colonnes. Le ième profil ligne et le jème profil
colonne sont respectivement:

◦ ième profil ligne : L(i) =

◦ jème profil colonne : L(j) =

 Dans un espace de dimension p, chaque point est pondéré


par la masse (fi.)

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
* Analyse des points profils lignes (espace R)

IRq Li

fi
p points

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
* Un indice de similitude: le (2) du tableau de
contingence

Deux individus i et i’ de l’ensemble I sont proches si le pas de i à i’


(ou de i’ à i) a peu d’influence sur la structure de l’ensemble des
paramètres J. Cette proximité se traduit par une distance, notée
d2(i , i’).
La distance retenue pour définir la proximité ou la similitude entre i
et i’ est appelée distance de associé à (f.j)

 Posons et

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
* Un indice de similitude: le (2) du tableau de
contingence

Cette distance s’écrit sous forme matricielle :

 Cette distance apparaît ainsi comme la distance


engendrée par la forme quadratique définie positive de
la matrice D dans un espace vectoriel euclidien.
Chokri OUERFELLI, Cours d'analyse de
données, IHEC de Sousse
(I)
IRp
Mi

fi.
n points

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
* Analyse des points profils lignes (espace R)

et

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
 Projection du nuage (I) sur un axe (espace vectoriel de
dim 1) de vecteur unitaire u, de telle façon que
l’information perdue soit minime.
 Comme en ACP ceci revient à chercher les valeurs propres
maximale i de W. Puis, chercher les vecteurs propres
associés à ces valeurs propres.

- Variabilité totale du nuage(I) noté VL

VL = tr (W) =

- On parle aussi de variabilité totale du nuage projeté:


VC = max

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
- Variabilité expliquée du nuage L(I)

 = VC / VL soit encore  = max / tr(W)

Recherche des facteurs:


Les points du nuage C(I) possèdent un nombre réduit de
coordonnées dans le référentiel formé par les axes
factoriels.
Ces coordonnées sont les valeurs de nouvelles variables qui
s’appelles : facteurs
Le premier facteur correspond aux coordonnées sur le
premier axe factoriel.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
On peut démontrer que les facteurs sont non corrélés entre
eux et s’expriment comme combinaison linéaire des
données.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
* Analyse des points profils colonne (espace R)

IRn
Lj

fj
p points

L(J) = {Lj , fj }

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
* Analyse des points profils lignes (espace R)

 Les coordonnées du ième point du nuage analysé sont


fournies par la ième ligne du tableau L des profils
lignes « transformés » et centrés: Lj =

 Le poids du ième point profil est :


 Les axes factoriels sont déterminés en recherchant les
vecteurs propres de la matrice X*’X* = W avec:

W la matrice de variances-covariances du nuage.


Chokri OUERFELLI, Cours d'analyse de
données, IHEC de Sousse
Etude d’un exemple

Pour connaitre le positionnement distinctif des plats cuisinés


consommés dans les foyers, une étude a été conduite auprès d’un
échantillon de 8267 individus. Les personnes enquêtées devaient
indiquer dans quelle mesure chacun des 11 attributs utilisés
correspondaient ou non à chacun des six types de conserve soumis
à leur jugement. Les résultats sont présentés dans le tableau ci-
dessus :

I : Conserve « maison ; II : Conserve appertisée ; III : Plat traiteur ;


IV : Plat surgelé ; V : Plat déshydraté ; VI : Plat frais sous vide

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Etude d’un exemple
« Convient bien avec » : I II III IV V VI
1 Qui permet de se faire plaisir 223 91 211 159 47 83
2 Qui offre un bon rapport qualité/prix 201 145 54 137 59 71
3 Qui permet de déguster des plats 201 93 186 176 39 76
originaux
4 Qui offre des plats légers de bonne 149 39 69 181 22 76
qualité
5 Plats de qualité, savoureux 225 74 181 145 27 83
6 Qui se conserve longtemps, qu’on 37 218 12 189 162 44
stock
7 Pratique si pas le temps de préparer 20 221 154 216 162 142
un repas
8 Plats qui sont rapidement prêts 27 228 179 186 189 169
9 Qui offre garantie de la fraicheur, de 221 59 120 167 22 86
naturel
10 Qui offre un grand choix de recettes 203 108 132 169 39 66
11 Qui permet de satisfaire tous les 221 127 145 172 49 83
goûts
Chokri OUERFELLI, Cours d'analyse de
données, IHEC de Sousse
Etude d’un exemple
Avec cette étude, l’industriel commanditaire souhaitait connaitre le
système de représentation que les consommateurs avaient des six
modes de conservation pour bien situer différentes offres de plats
surgelés et orienter en conséquence les stratégies de
positionnement de sa marque.
On a donc effectué une analyse factorielle des correspondances
(AFC) avec SPSS ce qui a donné les résultats suivants :
2 = 1 577,09
Tableau des valeurs propres
N° des axes Valeur propre % par axe % cumulé
1 0.1495 78,35 78,35
2 0.0280 14,67 93,02
3 0.0088 4,61 97,63
4 0.0038 1,99 99,62
5 0.0007 0,37 100
Total 0.1908

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Etude d’un exemple
Pour construire un modèle opérationnel, les axes sélectionnés
doivent rendre compte de plus de la moitié de l’inertie. Sinon la
variance expliquée par le modèle serait inférieure à la variance
résiduelle due aux aléas: le modèle ne serait donc pas opératoire.

Interprétation des axes avec les informations pertinentes


Trois types d’information permettent d’interpréter le modèle
statistique construit: les contribution absolues (CTR), les
coordonnées (COOR) et les contributions relatives (COS2).

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Interprétation des axes avec les informations pertinentes
a) Les contribution absolues (CTR)
C’est la contribution de la modalité à l’inertie de l’axe.
Pour chaque axe, la somme des contribution des modalités vaut 1.

Question: à partir de quelle valeur la contribution de la modalité


peut être considérée comme déterminante de l’émergence d’un axe?
Dans la pratique, cette valeur doit être supérieure au ratio 100/q
(avec q le nombre de modalités)

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
a) Les contribution absolues (CTR) « Les attributs »

Modalité Poids Distance Axe 1 Axe 2 Axe 3 Axe 4 Axe 5

Plaisir 9.84 0.1056 5.19 6.15 6.95 5.59 12.9


Qualité/prix 8.06 0.1092 0.14 23.3 6.55 38.2 1.34
Originalité 9.34 0.0789 4.01 2.5 0.89 14.7 4.06
Bonne 6.49 0.1799 3.23 3.5 66.4 0.34 0.21
qualité
saveur 8.89 0.1478 8.05 3.02 2.78 0.01 3.98
Stockage 8.00 0.6546 28.8 30.2 1.20 20.3 9.22
Praticité 11.1 0.2725 18.2 8.84 3.75 0.02 28.7
Rapidité 11.8 0.3032 19.9 19.4 0.08 14.3 10.9
Naturel 8.15 0.1531 7.68 0.77 6.73 3.35 8.32
Recettes 8.69 0.055 2.74 1.37 1.33 2.54 11.5
Diversité 9.64 0.0395 2.13 0.84 3.37 0.63 8.97
Total 100 100 100 100 100 100

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
a) Les contribution absolues (CTR) « Les produits »

Modalité Poids Distance Axe 1 Axe 2 Axe 3 Axe 4 Axe 5

Maison 20.9 0.3254 41.5 18.7 6.24 4.37 8.30


Conserve 17.0 0.1893 18.8 6.48 22.5 1.88 33.4
Traiteur 17.5 0.1446 5.39 57.3 8.3 11.3 0.28
Surgelé 22.9 0.0285 0.02 6.52 41.1 26.0 3.33
Déshydraté 9.88 0.5172 33.9 0.03 1.14 0.58 54.5
Frais/vide 11.8 0.0627 0.44 11.0 20.7 55.8 0.23
Total 100 100 100 100 100 100

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
b) Les coordonnées (COOR) des modalités « Les attributs »
Si les CTR ont permis d’identifier les modalités significatives de
l’existence d’un axe, elle ne contribuent que partiellement à en
définir le sens. Les coordonnées permettent de donner toute sa
signification à un axe. Parmi les modalités significatives celles qui
sont voisines et celles qui sont opposées.
 Sur l’axe 1, modalités voisines (praticité et rapidité)
 Sur l’axe 2, qualité/prix et stockage sont voisines et s’opposent à
rapidité;
 Sur l’axe 4, saveur et praticité se superposent et sont voisines à
qualité prix, mais s’opposent à originalité.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Synthèse des modalités significatives pour l’interprétation des axes

Variables « Attributs » « Objets »


Axe Inertie Valence + CTR Valence - CTR Valence+ CTR Valence- CTR

1 78.31 stockage 28.8 déshydraté 33.9 maison 41.5


rapidité 19.9 appertisé 19.8
praticité 18.2
2 14.67 rapidité 19.4 stockage 30.2 traiteur 57.3 maison 18.7
qual/prix 23.3
3 4.65 qualité 66.4 surgelé 41.1 appertisé 22.5
frais/vide 20.7
4 2.02 stockage 20.3 qual/prix 38.2 surgelé 26.1 frais/vide 55.8
originalité 14.7 rapidité 14.3
5 0.35 praticité 28.7 plaisir 12.8 conserve 33.4 déshydrat 54.5
recettes 11.5 rapidité 10.9 é

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
c) Les contributions relatives (COS2)
Mesure la part de variance d’une modalité qui est prise en charge -
ou « expliquée » - par un axe. Cette information permet donc de
savoir si, pour rendre compte de la plus grande partie de la variance
d’une modalité, un seul axe suffit.
Comme le modèle final ne contient que les axes significatifs, il faut
vérifier que l’ensemble des seuls axes retenus représentent :
 La plus grande partie de la variance de chaque modalité (+ de
50%);
 Le plus grand nombre de modalités (sinon toutes idéalement).
Dans l’exemple, l’axe 1 représente 11 attributs mais seulement 3 des
6 produits.
Les cosinus-carrés permettent en effet de contrôler la qualité des
représentations des modalités et limitent ainsi les risques
d’interprétation erronée ou abusive.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
La projection des modalités sur les deux axes factoriels donne le schéma suivant :
Facteur 2
14.67% TRAITEUR

RAPIDITE FRAI/VIDE

PRATICITE

FRAI/VIDE

DESHYDRATE 0 naturel
Facteur 1
76.31%
diversité
CONSERVE SURGELE
Bonne qualité
MAISON

qualité/prix

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Interprétation des axes
On ne retient que les axes interprétables: deux axes 90% de l’inertie
globale.
 Axe 1: (stockage, rapidité, praticité) et (maison, déshydraté) lié au
mode de transformation du produit. Il oppose l’offre industriel à
l’offre domestique. Il associe significativement les conserves
«déshydratées» et «appertisées» avec une certaine commodité
d’usage (durée de stockage, rapidité et facilité d’emploi)
 Axe 2: (bonne qualité) et (surgelé/conserve) il intègre le rôle de
modalités mal prises. Il précise les caractéristiques de la
dimension artisanale.
 Axe 3: (qualité/prix, stockage, originalité, rapidité et facilité
d’emploi)

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse

Vous aimerez peut-être aussi