Vous êtes sur la page 1sur 15

Année Universitaire 2019-2020

Data Science
Chapitre
p 2 : Analyse
y Factorielle
des Correspondances (AFC)

Zouaoui Slim
zou slim@yahoo fr
zou_slim@yahoo.fr
AFC
Deux variables qualitatives :
L'analyse
L' l factorielle
f t i ll desd correspondances
d (AFC) estt une méthode
éth d exploratoire
l t i
d'analyse des tableaux de contingences, c'est-à-dire aux tableaux de comptages
obtenus par le croisement de deux variables qualitatives.

Le tableau de contingence suivant indique la répartition, en fonction de la


Catégorie et les classes d'âge de 1000 employés dans une entreprise

Variable en ligne : Age


- < 30 ans
- [ 30 ; 45[
- [ 45 ; 60 [
Variable en colonne : Catégorie
- Ouvriers
- Techniciens
- Cadres
Analyse
y Statistique
q : Tableau de Contingence
g

Tableau de contingence en Effectif


Tableau de contingence en Effectif
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 300 50 100 450
[ 30 ; 45 [ 250 80 20 350
[45 ; 60 [ 50 120 30 200
Total 600 250 150 1000

Tableau de contingence en pourcentages
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 30,0% 5,0% 10,0% 45,0%
[ 30 ; 45 [ 25,0% 8,0% 2,0% 35,0%
[45 ; 60 [ 5,0% 12,0% 3,0% 20,0%
Total 60,0% 25,0% 15,0% 100,0%
Analyse
y Statistique
q : Tableau de Contingence
g

Tableau de contingence en fréquence


Tableau de contingence en fréquence
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 0,30 0,05 0,10 0,45
[ 30 ; 45 [ 0,25 0,08 0,02 0,35
[45 ; 60 [ 0,05 0,12 0,03 0,20
Total 0,60 0,25 0,15 1,00

Tableau de contingence en pourcentages
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 30,0% 5,0% 10,0% 45,0%
[ 30 ; 45 [ 25,0% 8,0% 2,0% 35,0%
[45 ; 60 [ 5,0% 12,0% 3,0% 20,0%
Total 60,0% 25,0% 15,0% 100,0%
Á l’intersection d’une ligne et d’une colonne, nous avons le nombre kij
d’
d’employés
l é ayantt simultanément
i lt é t la
l classe
l d'âge
d'â i ett la
l catégorie
té i j. j Le
L total
t t l
marginal ki. est le nombre des employés ayant la classe d'âge i, alors que le total
marginal k.j est le nombre des ordinateurs ayant la finition de fabrication j.

Qui, en termes de fréquences relatives, donnent lieu aux relations :

On se propose d’étudier les éventuelles relations existant entre ces deux


variables nominales.
nominales Donc on pose la question :

Y-a-t-il indépendance entre la classe d'âge et la catégorie de des


emplo és ? Sinon,
employés Sinon qquels
els ttypes
pes d’associations existent
e istent entres ces deux
de variables
ariables
qualitatives.
Analyse
y Statistique
q : Profils lignes
g et colonnes

Tableau de Profils lignes


Tableau de Profils lignes
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 66,7 11,1 22,2 100
[ 30 ; 45 [ 71,4 22,9 5,7 100
[45 ; 60 [ 25,0 60,0 15,0 100
Total 60,0
, 25,0
, 15,0
, 100

Tableau de Profils colonnes
Catégories
g
Age
Ouvriers techniciens Cadre Total
< 30 ans 50,0 20,0 66,7 45,0
[ 30 ; 45 [ 41,7 32,0 13,3 35,0
[45 ; 60 [ 8,3 48,0 20,0 20,0
Total 100 100 100 100
Analyse Bidimensionnelle entre deux variables
qualitatives
Hypothèse d
d’indépendance
indépendance :

Tableau de fréquences théoriques Tableau de fréquences empiriques

Ouvriers techniciens Cadre Total Ouvriers techniciens Cadre Total

< 30 ans 0,27 0,11 0,07 0,45 < 30 ans 0,30 0,05 0,10 0,45
[ 30 ; 45 [ 0,21 0,09 0,05 0,35 [ 30 ; 45 [ 0,25 0,08 0,02 0,35

[45 ; 60 [ 0,12 0,05 0,03 0,2 [45 ; 60 [ 0,05 0,12 0,03 0,2

Total 0,60 0,25 0,15 1 Total 0,60 0,25 0,15 1

Naturellement, même sous l’hypothèse


Naturellement l hypothèse d’indépendance
d indépendance, une telle relation nn’est
est
qu’approximativement vraie. Le classique test deux χ2 pour les tables de
contingence permet précisément d’apprécier l’écart entre les lois empiriques fij et
fi. * f.j
Analyse Bidimensionnelle entre deux variables
qualitatives
Tableau de contingence en fréquence
Tableau de contingence en fréquence
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 0 30
0,30 0 05
0,05 0 10
0,10 0 45
0,45
[ 30 ; 45 [ 0,25 0,08 0,02 0,35
[45 ; 60 [ 0,05 0,12 0,03 0,2
Total 0 60
0,60 0 25
0,25 0 15
0,15 1

Tableau de fréquences théoriques
Catégories
C é i
Age
Ouvriers techniciens Cadre Total
< 30 ans 0,27 0,11 0,07 0,45
[ 30 ; 45
4 [ 0 21
0,21 0 09
0,09 00
0,05 03
0,35
[45 ; 60 [ 0,12 0,05 0,03 0,2
Total 0,6 0,25 0,15 1
Hypothèse d’indépendance :
Le test de χ2 est définit par :

H0 : Les
L deux
d variables
i bl sont indépendantes
i dé d

H1 : Les deux variables sont dépendantes

La statistique
q du test est définie ppar :

d2=
n
N .
p f ij  f i. f. j 
2

d 2   2  
i 1 j 1 f i. f. j
En outre, le d2 suit une loi du khi-2 de paramètre 
 ss’appelle
appelle le nombre de degrés de liberté avec :

 = ((nombre de modalités de la ppremière variable -1)) x


(nombre de modalités de la deuxième variable -1).
Hypothèse d’indépendance :
On rejettera donc l’hypothèse d’indépendance à un risque
d’erreur α si d2 est supérieur à la valeur critique dans la table de
χ2 à (n-1)*(p-1)
( 1)*( 1) ddegréé de
d liberté
lib é .
= KHIDEUX.INVERSE(0,05;4)
AN : d2 = 214.5
214 5 χ2 (n-1)(p-1)
( 1)( 1) = χ2 (3-1)*(3-1)
(3 1)*(3 1) = χ 2 = 9.49
4 9 49
d2 >> χ2 4  on accepte H1  Les deux variables sont
dépendantes
AFC : Association entre les modalités
Distances entre profils. Métrique du χ2:

Chaque ligne du tableau des fréquences lignes peut être vue comme la liste des coordonnées
d'un point dans un espace à q dimensions. On obtient ainsi le nuage des individus-lignes. On
défi i dde même
définit ê lle nuage des
d individus-colonnes
i di id l à partir
i du
d tableau
bl des
d fréquences
fé colonnes.
l

On s'intéresse alors aux directions de "plus grande dispersion" de chacun de ces nuages de
points.
i t Mais,
M i pour mesurer la l "distance"
"di t " entre
t deux
d individus.
i di id La L distance
di t euclidienne
lidi usuelle
ll
entre deux profils-lignes traduit bien la ressemblance ou la différence entre les deux marques
des ordinateurs sans tenir compte des effectifs totaux de ces modalités :
AFC : Association entre les modalités
Distances entre profils. Métrique du χ2:

Cependant, cette distance favorise les colonnes qui ont une masse f.j importante c'est-à-dire la
finition TB (Très Bien).
Pour remédier
édi à cela,
l on pondère
dè chaque
h écart
é par l’inverse
l’i de
d la
l masse de
d la
l colonne
l et l’on
l’
calcule une nouvelle distance appelée la distance du χ2 :

On définit de la même manière la distance entre les profils-colonnes par :


AFC : Association entre les modalités
Construction
Co st uct o des nuages
uages

Pour l’analyse d’un tableau de contingence, nous raisonnerons en termes de profils, ce


qui permet de rendre comparables les modalités dd’une
une même variable.

Nuage des n lignes


L’ensemble des pprofils-lignes
g forme un nuage
g de n ppoints dans l’espace
p des p colonnes et
représente ici le nuage des 4 modalités de couleurs des yeux. Chaque point i a pour
coordonnées dans IRp {fij /fi. ; j = 1…..p}

Nuage des p colonnes


De la même façon, l’ensemble des p profils colonnes constitue un nuage de p points dans
l’espace de n lignes et représente ici le nuage de 4 modalités de couleur des cheveux. Les
coordonnées dans IRn du point j sont données par : {fij /f.j; j = 1…..n}
AFC : Association entre les modalités
Construction
Co st uct o des nuages
uages

Contrairement à l’analyse en composantes principales, le tableau de données (tableau de


contingence) subit deux transformations, ll’une
une en profils-lignes,
profils lignes, ll’autre
autre en profils
profils-colonnes,
colonnes, à
partir desquelles vont être construits les nuages de points dans IRn et IRp.
AFC : Association entre les modalités
Construction
Co st uct o des nuages
uages

Les deux nuages de points (dans l’espace des colonnes et dans l’espace des lignes) sont
construits de manière analogue.
La représentation simultanée des différentes modalités de deux variables qualitatives est
la suivante :

- Les deux modalités HP et TB


s’approchent,
- La finition de fabrication la plus proche
de la modalité ACER est B (Bien),
- La finition de fabrication la plus proche
de la modalité ASS est M (Moyenne)….