Vous êtes sur la page 1sur 30

Analyse Factorielle des

correspondances
AFC

Pr. A. Ouaarab 1
 Données d’entrées et questions

 Comprendre les concepts de l'AFC

 Connaître les principes de calcul

 Savoir interpréter les résultats

 Placer l'AFC par rapport à l'ACP et aux méthodes de


classification

Pr. A. Ouaarab 2
o Pourquoi « des correspondances » ?
variables numériques  Corrélation
variables nominales  Correspondance

o Pourquoi « factorielle » ?

o Il s’agit de décomposer le tableau original en une somme


de tableaux/matrices qui sont chacun le produit de facteurs
simples.

3
Pr. A. Ouaarab 4
Dans une entreprise, la répartition par sexe et catégorie
socio-professionnelle (CSP) est la suivante :

Tableau de contingence

Ouvriers Techniciens Cadres Total


Hommes 20 40 40 100
Femmes 30 60 10 100
Total 50 100 50 200

Y-a-t-il un lien entre le sexe à deux modalités et la CSP à trois


modalités ?

5
destination
université classes prépa autres total
A 13 2 5 20
BDD' 20 2 8 30
CE 10 5 5 20
FGH 7 1 22 30
total 50 10 40 100
100

20 A
30 BDD'
20 CE
30 FGH
Université Classes Prépa Autres

Pr. A. Ouaarab 6
Aménagement,
Entrepreneuriat

Gestion - Audit

Conception de

Commerciale et
Environnement
Construction,

Recherche
Production

Logistique
Industrielle

Industrielle
Produits et
Systèmes
Innovants
Premiers vœux 2003
de Génie / filière.

Mécanique Avancée 0 0 2 7 5 1 6
Génie Civil 1 2 24 0 0 1 0
Matière,Energie et
Vivant 0 1 2 0 5 1 1

Ondes, Nano-
Electronique, Télécoms 2 1 0 1 0 1 6
Systèmes Electriques
et Electroniques 0 0 3 2 0 1 1

Systèmes Automatisés 0 0 1 1 0 2 10
Génie des systèmes
de production 0 5 0 0 4 4 0
Génie Informatique 0 0 0 3 1 5 2
Informatique de
Gestion 2 11 0 0 0 2 1
Services et Systèmes
Socio-Economiques 1 6 3 0 0 2 1

Systèmes de Transport
et Logistiques 0 2 0 0 1 8 0

Pr. A. Ouaarab 7
21 Méc anique Avancée
28 Génie Civ il
10 Matière,Energie et Vivant
11 Ondes, Nano-Electronique, Télécoms
7 Sys tèmes Electr iques et Elec troniques
14 Sys tèmes Automatisés
10 Génie des systèmes de production
11 Génie Informatique
14 Informatique de Gestion
11 Ser vices et Sys tèmes Socio-Economiques
10 Sys tèmes de Tr ansport et Logistiques
Entr epreneuriat Ges tion - Audit
Aménagement, Constr uction, Environnement Conception de Produits et Sy stèmes Innovants
Production Indus trielle Logistique Commerciale et Industrielle
Rec herche

Pr. A. Ouaarab 8
• Problème : La lecture du tableau devient plus difficile quand il y a
beaucoup de modalités
• Outil AFC : visualisation en 2 dimensions des tableaux de contingence
• Transformation de variables qualitatives en variables quantitatives

•Intérêts :
•Etude des liens entre les modalités de chaque variable
•Etude des corrélations entre les modalités des 2 variables

•AFC = ACP avec une métrique particulière (celle du 2 pondéré)

Pr. A. Ouaarab 9
1. Matrice T des données d’entrée
2. Matrice R des écarts à l’indépendance
3. Mise en facteur de R

Pr. A. Ouaarab 10
destination
université classes prépa autres total
A 13 2 5 20
BDD' 20 2 8 30
CE 10 5 5 20
FGH 7 1 22 30
total 50 10 40 100
100

Ce tableau est aussi une matrice, appelons-la « T »


Quelle matrice aurait-on si la répartition dans les filières post-Bac ne
dépendait pas du type de Bac ?
Pr. A. Ouaarab 11
10 = 50 * 20% 10 2 8 20
(produit matriciel en %)
15 3 12 30
10 2 8 20
15 3 12 30
50 10 40 On reconstitue la
matrice à partir de
Appelons cette matrice « T0 » ses marges
Pr. A. Ouaarab 12
13 2 5 10 2 8 3 0 -3

20 2 8 15 3 12 5 -1 -4

- =
10 5 5 10 2 8 0 3 -3

7 1 22 15 3 12 -8 -2 10

13
 Décomposition en une somme de matrice de
la matrice des écarts à l’indépendance

R = T 1 + T2

 Mise en facteur de T1 et T2
◦ Produit d’un vecteur ligne et d’un vecteur colonne.
T1 = C1L1

Pr. A. Ouaarab 14
3 0 -3 1 1 -2 1 2 -1 -1 1

5 -1 -4 1 1 -2 1 4 -2 -2 2
= +
0 3 -3 2 2 -4 2 -2 1 1 -1

-8 -2 10 -4 -4 8 -4 -4 2 2 -2

1 1 -2 2 -1 -1

15
Production et interprétation du graphique
◦ Vecteurs colonne et vecteurs ligne
◦ Produit scalaire

Pr. A. Ouaarab 16
Comment représenter
graphiquement la décomposition ?

3 0 -3 1 1 -2 1 2 -1 -1 1

5 -1 -4 1 1 -2 1 4 -2 -2 2
= +
0 3 -3 2 2 -4 2 -2 1 1 -1

-8 -2 10 -4 -4 8 -4 -4 2 2 -2

1 1 -2 2 -1 -1

17
3
A 1 1

CE 2
BDD’ 2 1 Univ.

CPGE 1
BDD’
CE -1 2 A
0
-3 -2 -1 0 1 2 3
FGH -2 -4
-1

Univ 2 1 -2
Aut.

CPGE -1 1 -3

-4
Autres -1 -2 FGH

-5

Pr. A. Ouaarab 18
1. Produit scalaire positif : 3

Les Bac CE ont une affinité pour la CE 2

prépa A
Prépa 1
2. Produit scalaire négatif :
Les Bacs A ne vont pas vers les -3 -2 -1
0
0 1 2 3

« autres » -1

3. Produit scalaire nul : -2

Autre
Les bacs A ne vont ni plus ni moins s -3

vers les prépas que la moyenne


-4
des bacheliers
-5

19
Pr. A. Ouaarab 20
 R peut être écrite

R = T’1 + T’2 = T’’1 + T’’2 …

Quel est le critère qui permet de définir les


meilleurs T1 et T2?
 Chercher la meilleure T1, puis la meilleure T2
de telle manière à ce que le premier axe soit
celui qui conserve le plus d’informations
possibles
Pr. A. Ouaarab 21
 Le 2 représente l’écart à l’indépendance
◦ Cette indépendance, est exprimée par T0
◦ L’écart à l’indépendance est donc l’écart à T0
 2 (R) = 2 (T1) + 2 (T2)
2491 = 1998 + 493
Le 2 en proportion de la richesse en information le la matrice =
de son nombre de ddl.

Pr. A. Ouaarab 22
Principes :
 Le degré de liberté du khi-deux de la matrice est le produit
ddll x ddlc = ddl. (ddll : ddl par ligne)
 Pour une matrice donnée, le 2 à prendre en compte est en
fait 2 / ddl

2 (R) = 2 (T1) + 2 (T2)


2491 = 1998 + 493
100% = 80.2% + 19.8%

Pr. A. Ouaarab 23
Axe 2 (19.8%)

CE
la taille des points est
Classes Prépa proportionnelle à l’effectif
qu’ils représentent

FGH

Axe 1 (80.2%)

A
Université
Autres

Pour relativiser leur


BDD' importance, les axes
sont dilatés
proportionnellement au
2 qu’ils expriment …

Pr. A. Ouaarab 24
Aménagement,
Entrepreneuriat

Gestion - Audit

Conception de

Commerciale et
Environnement
Construction,

Recherche
Production

Logistique
Industrielle

Industrielle
Produits et
Systèmes
Innovants
Premiers vœux 2003
de Génie / filière.

Mécanique Avancée 0 0 2 7 5 1 6
Génie Civil 1 2 24 0 0 1 0
Matière,Energie et
Vivant 0 1 2 0 5 1 1

Ondes, Nano-
Electronique, Télécoms 2 1 0 1 0 1 6
Systèmes Electriques
et Electroniques 0 0 3 2 0 1 1

Systèmes Automatisés 0 0 1 1 0 2 10
Génie des systèmes
de production 0 5 0 0 4 4 0
Génie Informatique 0 0 0 3 1 5 2
Informatique de
Gestion 2 11 0 0 0 2 1
Services et Systèmes
Socio-Economiques 1 6 3 0 0 2 1

Systèmes de Transport
et Logistiques 0 2 0 0 1 8 0

Pr. A. Ouaarab 25
Axe 2 ( 26.9%)
Gest ion - Audit

Informatiq ue de Gestion

Ser vices et Systèmes Socio- Economiques

Systèmes de T ranspor t et Logistiques

En trep renariat Génie des systèmes de pr oduction

Lo gistiqu e Com merciale et In dust rielle


Matière,Energ ie et Vivant

Axe 1 ( 34.4%)

Génie Civil
Produ ct ion Ind ustrielle

Ondes, Nano- Electr oniq ue, T élécoms Génie Informatiq ue

Rech erche

Systèmes Eléctr iques et Electroniques

Systèmes Automatisés

Am én agement, Con st ru ct ion, En viro nnement


Mécanique Avancée

Concept ion de Prod uits et Systèmes Innov ants

Pr. A. Ouaarab 26
Tableaux individus x variables
Masse Eau Instant Débit Percement Temps
corium en arrivée eau cuve percement
cuve eau cuve
1 11 oui 1000 1 oui 1500
2 15 non NA NA oui 1000
3 15 oui 1000 5 non NA

tableau de contingence Percement Non Cuve Cuve +


Eau Radier
On regroupe les individus
Sans 0 2 100
Lignes = modalités 1ère variable En cuve 4 13 79
Colonnes = modalités 2ème variable Hors cuve 3 31 64
En cuve + 8 39 56
Hors cuve

Pr. A. Ouaarab 27
0.8 Chi-2 de
l’indépendance
entre les deux
0.6

variables est
Non 62.1863
0.4

La p-value
Dim 2 (3.843%)

0.2

En Cuve
Associée à ce
ECHC
Sans Cuve+Radier Chi-2 est 1.6167e-11.
0.0

Cuve
Hors Cuve
-0.2

Conclusion : on rejette
l'hyp. que les variables
-0.4

sont indépendantes avec


-0.5 0.0 un risque négligeable
0.5
Dim 1 (96.16%)

• Analyse statistique quantitative du tableau de contingence


• Test statistique associé pour mesurer l'indépendance entre les 2 variables

Pr. A. Ouaarab 28
Percement Non Cuve Cuve +
Radier
Eau
Sans 0 0 100
En cuve petit débit 0 0 100
En cuve gros débit 18 11 71
Hors cuve petit débit 1 26 73
Hors cuve gros débit 7 34 59
En cuve + Hors cuve 0 25 75
petits débits
En cuve + Hors cuve 27 27 36
gros débits

Pr. A. Ouaarab 29
CA factor map
1.0

Chi-2 de
indépendance
Non
entre les deux
variables est
0.5

ECdeb+
203.4634
Dim 2 (26.46%)

ESCadnesb- ECHCdeb+
Cuve+Radier La p-value
0.0

associée à ce chi-2
ECHC deb- HCdeb+ est 6.284089e-37
Cuve
-0.5

Conclusion : on rejette
l'hyp. que les variables
-0.5 0.0 0.5 1.0 1.5 sont indépendantes avec
Dim 1 (73.54%)
un risque négligeable

Pr. A. Ouaarab 30

Vous aimerez peut-être aussi