Académique Documents
Professionnel Documents
Culture Documents
Factorielle de Correspondance
AFC
Said EL KHATRI : elkhatri@gmail.com 1
Analyse Factorielle de Correspondance
On distingue :
On distingue :
∙ L'Analyse Factorielle des Correspondances (AFC) :
appliquée pour 2 variables qualitatives
∙ L'Analyse Factorielle des Correspondances Multiples (AFCM) :
L'A l F t i ll d C d M lti l (AFCM)
appliquée pour plus de 2 variables qualitatives
Said EL KHATRI : elkhatri@gmail.com 2
Rappel de statistiques de base
Said EL KHATRI : elkhatri@gmail.com 3
Variable qualitative
Variable qualitative
• nominale
exemple:
l
couleur [jaune, vert, ..],
type de brouillard [dense, de convection, néant]
• ordinale
exemple:
exemple:
type de voiture [aucune, petite, moyenne, grande]
age [16‐24, 25‐34, 35‐44, 45‐54, 55‐64, 65‐74, 75+]
Said EL KHATRI : elkhatri@gmail.com 4
Exemple
A la sortie des salles de Cinéma, on demande au public de donner
une appréciation (mauvais, moyen, bon, très bon)
leur âge (16‐24, 25‐34, 35‐44, 45‐54, 55‐64, 65‐74, 75+)
Appréciation âge
1 Bon 25‐34
2 Moyen 35‐44
3 Bon 75+
:
K=1357 Mauvais 16‐24
Said EL KHATRI : elkhatri@gmail.com 5
1 variable qualitative
1 variable qualitative
Soit I la variable (caractère) qualitative à n
( )q modalités 1,,n : I Є {A1, ,An}
I : décrit un ensemble de k individus.
Individu variable I
1 A3
2 An
Individu Age
g
3 A1
1 35‐44
: :
2 16‐24
k A2 3 +75
: :
k 16‐24
Said EL KHATRI : elkhatri@gmail.com 6
1 variable qualitative
1 variable qualitative
Analyse :
Analyse :
Etudier les effectifs et fréquences des modalités de la variable
Représentation graphique
Diagramme en bâton Camembert ou secteur (pie char)
300 276
256 75+
250 229 65‐74 62 16‐24
207 155 5% 207
55‐64 11% 15% 25‐34
200 172 172
155 229
13% 17%
150
45‐54 35‐44
100 256 276
62 19% 20%
50
0
16‐24 25‐34 35‐44 45‐54 55‐64 65‐74 75+
Said EL KHATRI : elkhatri@gmail.com 7
2 Variables qualitatives
2 Variables qualitatives
Exemple de 2 modalités
Mauvais Bon
16‐24 69 48
55‐64 122 6
140
100%
120
90%
100 80%
70%
80 60%
16‐24 50%
60 55‐64
55‐64 40%
16‐24
40 30%
20%
20 10%
0%
0
Mauvais Bon
Mauvais Bon
Said EL KHATRI : elkhatri@gmail.com 8
2 Variables qualitatives
2 Variables qualitatives
Exemple de 2 modalités
Mauvais Bon
16‐24 69 48
55‐64 122 6
100%
140
90%
120 80%
100 70%
60%
80
50% Bon
Mauvais
60 40% Mauvais
Bon
30%
40
20%
0%
20 10%
0%
0
16‐24 55‐64
16‐24 55‐64
Said EL KHATRI : elkhatri@gmail.com 9
2 Variables qualitatives
2 Variables qualitatives
Une variable à 7 modalités
180
160
Une variable à 4 modalités
Une variable à 4 modalités
140
120
Mauvais
100
Moyen
80
Bon
60
Très Bon
40
20
180
0
160
16‐24 25‐34 35‐44 45‐54 55‐64 65‐74 75+
140 16‐24
120 25‐34
100 35‐44
80 45‐54
60 55‐64
40 65‐74
20 75+
0
Mauvais Moyen
y Bon Très Bon
Said EL KHATRI : elkhatri@gmail.com 10
2 Variables qualitatives
2 Variables qualitatives
Une variable à 7 modalités
100% Une variable à 4 modalités
Une variable à 4 modalités
90%
80%
70%
60% Très Bon
50% Bon
40% Moyen
30% Mauvais
20%
10% 100%
0% 90%
16‐24 25‐34 35‐44 45‐54 55‐64 65‐74 75+ 80%
75
75+
70%
65‐74
60%
55‐64
50%
45‐54
40%
35‐44
30%
20% 25‐34
10% 16‐24
0%
Mauvais Moyen Bon Très Bon
Said EL KHATRI : elkhatri@gmail.com 11
Analyse de 2 variables qualitatives
À l’aide
À l aide de l
de l’AFC
AFC
Said EL KHATRI : elkhatri@gmail.com 12
Tableaux de contingence
Tableaux de contingence
Soient I et J deux variables qualitatives décrivant un
ensemble de k individus.
I →n modalités I=1,,I=n
,,
J →p modalités J=1,,J=p
kij : l
: l'effectif
effectif de la classe (I=i,J=j)
de la classe (I=i J=j)
1 … j … p
1 : k1.
Ki. : total marginal de I=i
l i ld i : :
i … … kij … … ki.
K.j : total marginal de J=j
: total marginal de J=j : : :
n : kn.
k.1 k.j j k.pp k
Said EL KHATRI : elkhatri@gmail.com 13
Tableau de fréquences
Tableau de fréquences
fij : fréquence de la classe (I=i,J=j) :
fé d l l (I i J j)
fi. : fréquence marginale de I=i
f.j : fréquence marginale de J=j
1
1 … jj … p
1 : f1.
: : : :
i … … fij … … fi.
: :
n : fn.
f.11 f.j j f.pp 1
Said EL KHATRI : elkhatri@gmail.com 14
Exemple
A la sortie des salles de Cinéma, on demande au public de donner
une appréciation (mauvais, moyen, bon, très bon) : p=4
leur âge (16‐24, 25‐34, 35‐44, 45‐54, 55‐64, 65‐74, 75+) : n=7
Appréciation âge
1 Bon 25‐34
2 Moyen 35‐44
3 Bon 75+
:
K=1357 Mauvais 16‐24
Said EL KHATRI : elkhatri@gmail.com 15
Exemple
Tableau de contingence
effectif réel
Mauvais Moyen Bon Très Bon Total
16‐24 69 49 48 41 207
25‐34 148 45 14 22 229
35‐44 170 65 12 29 276
45‐54 159 57 12 28 256
55‐64 122 26 6 18 172
65‐74 106 21 5 23 155
75+ 40 7 1 14 62
Total 814 270 98 175 1357
Analyser la liaison entre l’âge et l’appréciation ?
Analyser la liaison entre les différents âges ?
y g
Analyser la liaison entre les différentes appréciations
Said EL KHATRI : elkhatri@gmail.com 16
Dépendance entre I et J
Dépendance entre I et J
Rappel :
Il y a indépendance entre deux variables qualitatives I et J si
Il y a indépendance entre deux variables qualitatives I et J si
pour tout i et tout j:
Said EL KHATRI : elkhatri@gmail.com 17
Dépendance entre I et J
Dépendance entre I et J
L'écart à l'indépendance se mesure par :
Said EL KHATRI : elkhatri@gmail.com 18
Dépendance entre I et J
Dépendance entre I et J
Lorsque I et J sont indépendantes, on montre que:
à (n‐1)*(p‐1) degrés de liberté
avec :
Said EL KHATRI : elkhatri@gmail.com 19
Dépendance entre I et J
Dépendance entre I et J
Soit T0.95 tel que P(χ2< T0.95 )=0.95
T0.95 est donnée par les logiciels et les tables statistiques
Si D2 > T0.95
alors D2 est vraisemblablement non nulle à 95%
de confiance
=> la liaison entre I et J
=> la liaison entre I et J est significative
est significative
0.95
(95%) 0 05
0.05
Said EL KHATRI : elkhatri@gmail.com T0.95 20
Dépendance entre I et J
Dépendance entre I et J
Soit α tel que : P(D²<χ²1‐α)=α
α : est appelé degré de signification
seuil de risque
donnée par les logiciels statistiques
Si α tend vers 0 (inférieur à 0.05),
Alors, on peut accepter que D² est grande
(i.e. la liaison entre I et J est significative
g au risque α)
q )
1‐α
α
Said EL KHATRI : elkhatri@gmail.com D² 21
But de l’AFC
But de l AFC
L’AFC est une méthode descriptive
qui permet de décrire la liaison (ou correspondance)
entre deux variables qualitatives.
i.e. : * étudier les tableaux de contingences.
* étudier la répartition de chaque classe
p q
de la variable I suivant les modalités de J
((et inversement).
)
Said EL KHATRI : elkhatri@gmail.com 22
Exemple
Tableau des nombres théoriques :
bl d b hé
Effectif théorique
Mauvais Moyen Bon Très Bon Total
16‐24 124 41 15 27 207
25‐34 137 46 17 30 229
35‐44 166 55 20 36 276
45‐54 154 51 18 33 256
55‐64 103 34 12 22 172 effectif réel
65‐74 93 31 11 20 155 Mauvais Moyen Bon Très Bon Total
16‐24
16 24 69 49 48 41 207
75+ 37 12 4 8 62 25‐34 148 45 14 22 229
35‐44 170 65 12 29 276
Total 814 270 98 175 1357 45‐54 159 57 12 28 256
55‐64 122 26 6 18 172
65 74
65‐74 106 21 5 23 155
75+ 40 7 1 14 62
Total 814 270 98 175 1357
Said EL KHATRI : elkhatri@gmail.com 23
Exemple
Les différences :
effectif réel
effectif réel Eff tif thé i
Effectif théorique
Mauvais Moyen Bon Très Bon Total Mauvais Moyen Bon Très Bon Total
16‐24 69 49 48 41 207 16‐24 124 41 15 27 207
25‐34 148 45 14 22 229 25‐34 137 46 17 30 229
35 44
35‐44 170 65 12 29 276 35‐44 166 55 20 36 276
45‐54 159 57 12 28 256 45‐54 154 51 18 33 256
55‐64 122 26 6 18 172 55‐64 103 34 12 22 172
65‐74 106 21 5 23 155 65‐74 93 31 11 20 155
75
75+ 40 7 1 14 62 75+ 3
37 12
2 4 8 62
Total 814 270 98 175 1357 Total 814 270 98 175 1357
obs. ‐ théo.
Mauvais Moyen Bon Très Bon Total
Très Bon
16‐24 ‐55 8 33 14 0
25‐34 11 ‐1 ‐3 ‐8 0
35‐44 4 10 ‐88 ‐7
7 0
45‐54 5 6 ‐6 ‐5 0
55‐64 19 ‐8 ‐6 ‐4 0
65‐74
65 74 13 ‐10
10 ‐66 3 0
75+ 3 ‐5 ‐3 6 0
Total 0 0 0
Said EL KHATRI : elkhatri@gmail.com 0 0 24
Exemple
L’âge et l’appréciation sont ils liés ?
’â l’ é l lé ?
test du Khi2 d'indépendance:
Khi2 observée 148,268
,
Khi2 critique 28,869
degré de liberté
g 18 = (4‐1)X(7‐1)
degré de signification < 0,001
alpha
p 0,05
,
Said EL KHATRI : elkhatri@gmail.com 25
Profils lignes
Profils‐lignes
On fait correspondre à chaque modalité i
p q de I le
profil‐ligne qui est le vecteur :
À diviser
chaque terme
par :
Said EL KHATRI : elkhatri@gmail.com 26
Profils lignes
Profils‐lignes
Said EL KHATRI : elkhatri@gmail.com 27
Exemple
Fréquence réelle
Fréquence réelle
Mauvais Moyen Bon Très Bon Total
16‐24 5.08% 3.61% 3.54% 3.02% 15.25%
25‐34
35‐44
10.91%
12.53%
3.32%
4.79%
1.03%
0.88%
1.62%
2.14%
16.88%
20.34%
Profils‐lignes
45‐54 11.72% 4.20% 0.88% 2.06% 18.87%
55‐64 8.99% 1.92% 0.44% 1.33% 12.68% Très
65‐74 7.81% 1.55% 0.37% 1.69% 11.42%
Mauvais Moyen Bon Bon Total
75+ 2.95% 0.52% 0.07% 1.03% 4.57% 16‐24 0.33 0.24 0.23 0.20 1.00
Total 59.99% 19.90% 7.22% 12.90% 100.00% 25‐34 0.65 0.20 0.06 0.10 1.00
35‐44 0.62 0.24 0.04 0.11 1.00
45‐54 0.62 0.22 0.05 0.11 1.00
55‐64 0.71 0.15 0.03 0.10 1.00
65‐74 0.68 0.14 0.03 0.15 1.00
75+ 0.65 0.11 0.02 0.23 1.00
Moyenne 0.60 0.20 0.07 0.13 1.00
Said EL KHATRI : elkhatri@gmail.com 28
Nuage de profils lignes
Nuage de profils lignes
n points
points 1 … j j …
… p
p
1 X11 X1j X1p 1
Dans : : :
i Xi1 … Xij … Xip 1
: : :
n Xnj 1
f.1 f.j f.p 1
L'objectif de l'AFC est
de projeter ce nuage
de projeter ce nuage
sur un espace de
dimension 2 ou 3
dimension 2 ou 3
Said EL KHATRI : elkhatri@gmail.com 29
Said EL KHATRI : elkhatri@gmail.com 30
Profil ligne moyen
Profil ligne‐moyen
Remarque :
ni les colonnes ni les lignes ne sont centrées mais on
ni les colonnes ni les lignes ne sont centrées, mais on
analysera le nuage des points à partir de son centre
de gravité
de gravité
Said EL KHATRI : elkhatri@gmail.com 31
=> Changement d’origine
centre de gravité = Profil ligne moyen
Très
Mauvais Moyen Bon Bon Total
16‐24 0.33 0.24 0.23 0.20 1.00
25 34
25‐34 0 65
0.65 0 20
0.20 0 06
0.06 0 10
0.10 1 00
1.00
35‐44 0.62 0.24 0.04 0.11 1.00
45‐54 0.62 0.22 0.05 0.11 1.00
55‐64 0.71 0.15 0.03 0.10 1.00
65‐74 0.68 0.14 0.03 0.15 1.00
75+ 0.65 0.11 0.02 0.23 1.00
Moyenne 0.60 0.20 0.07 0.13 1.00
Said EL KHATRI : elkhatri@gmail.com 32
Inertie total du nuage de profils
Inertie total du nuage de profils
lignes
Said EL KHATRI : elkhatri@gmail.com 33
Profils colonne
Profils colonne
Même raisonnement pour les profils colonnes
Said EL KHATRI : elkhatri@gmail.com 34
Profil colonne moyen
Profil colonne‐moyen
=> Changement d’origine
=> On analysera le nuage de point à partir de son
l l d à d
centre de gravité = Profil colonne moyen
Mauvais Moyen Bon Très Bon Total
16‐24 0.08 0.18 0.49 0.23 0.99
25‐34 0.18 0.17 0.14 0.13 0.62
35‐44 0.21 0.24 0.12 0.17 0.74
45‐54 0.20 0.21 0.12 0.16 0.69
55 64
55‐64 0 15
0.15 0 10
0.10 0 06
0.06 0 10
0.10 0 41
0.41
65‐74 0.13 0.08 0.05 0.13 0.39
75+ 0.05 0.03 0.01 0.08 0.17
Moyenne 1.00 1.00 1.00 1.00 4.00
Said EL KHATRI : elkhatri@gmail.com 35
Inertie total du nuage de profils
Inertie total du nuage de profils
colonnes
Said EL KHATRI : elkhatri@gmail.com 36
Remarque :
Remarque :
L’inertie totale est une mesure de la liaison
qui est indépendante de l’effectif total du tableau
Said EL KHATRI : elkhatri@gmail.com 37
Diagonalisation
On obtient :
• r‐1 axes factoriels : r=min(p,n)
• L’axe 1 a le maximum d’inertie
• L’axe r‐1 a le minimum d’inertie
Said EL KHATRI : elkhatri@gmail.com 38
Inertie du nuage de profils
Inertie du nuage de profils
Said EL KHATRI : elkhatri@gmail.com 39
Qualité
La qualité de représentation d
La qualité de représentation d’un un axe =?
axe =?
= le pourcentage d’inertie expliqué par l’axe
= inertie de l’axe / inertie totale
inertie de l’axe / inertie totale
L
La qualité de représentation d’un plan =?
li é d é i d’ l ?
= le pourcentage d’inertie expliqué par le plan
e pou ce age d e e e p qué pa e p a
= (la somme des inerties des 2 axes)/ inertie totale
NB: En général, les 2 premiers axes suffisent pour expliquer plus de 70% de l'inertie
initiale. Lorsque ce n'est pas le cas, on utilise les 3 premiers axes en les étudiant
deux par deux.
Said EL KHATRI : elkhatri@gmail.com 40
Exemple
Said EL KHATRI : elkhatri@gmail.com 41
Qualité
La qualité de représentation d
La qualité de représentation d’une
une modalité =?
modalité =?
Sur un axe =?
= cosinus de l’angle
= cosinus de l angle fait par la modalité et l
fait par la modalité et l’axe
axe
Sur un plan =?
= cosinus de l’angle
= cosinus de l angle fait par la modalité et le plan
fait par la modalité et le plan
Said EL KHATRI : elkhatri@gmail.com 42
Contribution
La contribution d’une
La contribution d une modalité à l
modalité à l’inertie
inertie totale :
totale :
Indique quelles modalités sont les plus différentes de
la moyenne dans l’ensemble du nuage
La contribution d’une modalité à l’inertie d’un axe
Permet de donner un sens à l’axe
Said EL KHATRI : elkhatri@gmail.com 43
‐ des profils‐lignes
‐ et des profils‐colonnes
p
sont projetés successivement sur des plans factoriels
p j p
et interprétés.
On peut projeter simultanément les 2 nuages sur un
O j i l é l 2
même plan
Said EL KHATRI : elkhatri@gmail.com 44
Exemple
p
Said EL KHATRI : elkhatri@gmail.com 45
L'interprétation de l'AFC consistera à :
* Donner un sens aux axes en étudiant les
contributions de chaque profil
q p
* Interpréter la position des profils par rapport au sens
donné aux axes
donné aux axes
* Interpréter la proximité des profils‐lignes
* Interpréter la proximité des profils‐colonnes
Said EL KHATRI : elkhatri@gmail.com 46
Interprétation des résultats
Interprétation des résultats
Au sein d’une même variable, la proximité de deux
modalités est significative
g
Entre variables différentes, on jauge l
Entre variables différentes on jauge l’angle
angle formé
formé
entre les deux modalités et l’origine
Said EL KHATRI : elkhatri@gmail.com 47
Exemple
Said EL KHATRI : elkhatri@gmail.com 48
Interprétation des axes
Interprétation des axes
• Chaque axe est interprété par les contributions
des profils‐lignes puis celles des profils‐colonnes
des profils‐lignes puis celles des profils‐colonnes
• Les profils ayant les plus fortes contributions sur un
Les profils ayant les plus fortes contributions sur un
axe, permettront de donner un sens à cet axe
• L'étude des signes des coordonnées des profils
permettront de mettre en valeur des oppositions
permettront de mettre en valeur des oppositions.
Said EL KHATRI : elkhatri@gmail.com 49
Exemple
p
Said EL KHATRI : elkhatri@gmail.com 50
Exemple
p
Said EL KHATRI : elkhatri@gmail.com 51
Said EL KHATRI : elkhatri@gmail.com 53
Se produit fréquemment lorsqu'une des deux
variables est ordinale : classe d'âge, revenus,
périodes
périodes …
Il est alors intéressant de relier, dans l'ordre, les
points correspondants aux modalités de la
p p
variable.
Said EL KHATRI : elkhatri@gmail.com 54
Formes classiques des nuages
Formes classiques des nuages
L'axe 1 oppose les modalités faibles aux modalités fortes
pp
L'axe 2 oppose les classes moyennes aux classes extrêmes.
Said EL KHATRI : elkhatri@gmail.com 55
Said EL KHATRI : elkhatri@gmail.com 56
Formes classiques des nuages
Formes classiques des nuages
Deux paquets de points
d
Said EL KHATRI : elkhatri@gmail.com 57
Si on ré
Si on ré‐ordonne
ordonne les modalités des variables selon l
les modalités des variables selon l'ordre
ordre défini par les axes,
défini par les axes
alors le tableau de contingence associé sera de la forme :
Said EL KHATRI : elkhatri@gmail.com 58
Analyse Factorielle des
Correspondances Multiples (AFCM)
Correspondances Multiples (AFCM)
Said EL KHATRI : elkhatri@gmail.com 59
AFCM
L‘AFCM
L‘AFCM est une « généralisation » de l’AFC
é é li i d l’AFC
Elle permet d'étudier les liaisons qui existent entre
Ell d'é di l li i i i
plusieurs variables qualitatives sur une même
population.
l i
Said EL KHATRI : elkhatri@gmail.com 60
AFCM
Tableau des données :
bl d d é p variables qualitatives : V
bl l 1, ,Vp
observées sur n individus.
V 1 … Vj … Vp
Exemple :
V1 : age (<16,16‐24,25‐34,..,>75) 1 :
: : : :
V2 : niveau éducation (<bac, bac,
bac+2, .., étude sup) i … … Vij … …
: : : :
V3 : genre (homme, femme)
n :
Etc.
Said EL KHATRI : elkhatri@gmail.com 61
Soit :
AFCM
mj le nombre de modalités de la variable Vj : 1,,mj
1 0 1 0 0 0 0 0 1 0
2 0 0 0 0 0 0 1 0 1
: : : : : : : :
n 1 0 0 0 0 0 0 0 1
Said EL KHATRI : elkhatri@gmail.com 62
AFCM
m = nbre de modalité total
V 1 … Vp
1 … m1 … … … 1 … mp
1 0 … 1 1 … 0 p
2
2 1
1 … 0
0 0 … 0
0 p
3 0 … 0 0 … 1 p
: …
n 1 … 0 0 … 0 p
n1 … … nm pn
p
Said EL KHATRI : elkhatri@gmail.com 63
LL'inertie
inertie des nuages est :
des nuages est :
m = nbre total des modalités
p = nbre de variables qualitatives
Said EL KHATRI : elkhatri@gmail.com 64
AFCM: Interprétation
AFCM: Interprétation
L'interprétation d'une AFCM
' é d'
est assez semblable à celle d’une AFC:
• interprétation des axes
interprétation des axes
• puis interprétation des proximités entre les différentes
modalités des variables
modalités des variables
Said EL KHATRI : elkhatri@gmail.com 65
AFCM: Interprétation des variables
quantitatives
L'AFCM est utilisée en général pour interpréter un ensemble
L'AFCM ili é é é l i é bl
de variables quantitatives dont les valeurs ont été regroupées
en classes
en classes.
Exemple :
Age : 16‐24 (1), 25‐34(2), 35‐44(3), 45‐54(4), 55‐64(5), 65‐74(6), 75+(7)
R
Revenue : <3000,00 (1),3000‐5000(2),5000‐10000(3), >10000(4)
3000 00 (1) 3000 5000(2) 5000 10000(3) 10000(4)
Variables
anti corrélées
anti‐corrélées Variables
Variables
décorrélées
Said EL KHATRI : elkhatri@gmail.com 66
AFCM: Remarques
AFCM: Remarques
Effectif des modalités
d l é :
pp g p
L'inertie apportée au nuage par une modalité k est:
nk faibe => In(k) fort
V1 … Vp
1 … m1 … … … 1 … mp
Il est préférable de limiter le 1 0 … 1 1 … 0 p
2 1 … 0 0 … 0 p
nombre de modalités à faible 3 0 … 0 0 … 1 p
effectif. : …
Ou redéfinir les modalités. n 1 … 0 0 … 0 p
n1 … … nm pn
Said EL KHATRI : elkhatri@gmail.com 67
AFCM: Remarques
AFCM: Remarques
Nombre de modalités :
b d d l é
L'inertie apportée au nuage par une variable est:
pp g p
mj grande => In(Vj) fort
V1 … Vp
1 … m1 … … … 1 … mp
Il est donc conseillé de travailler 1 0 … 1 1 … 0 p
2 1 … 0 0 … 0 p
avec des variables ayant des 3 0 … 0 0 … 1 p
modalités en nombre comparable
modalités en nombre comparable : …
n 1 … 0 0 … 0 p
n1 … … nm pn
Said EL KHATRI : elkhatri@gmail.com 68
Fin du chapitre :
Fin du chapitre :
Analyse Factorielle de Correspondance
AFC
Said EL KHATRI : elkhatri@gmail.com 69