Vous êtes sur la page 1sur 46

L'AFC pour les nuls

Mise jour du 8 aot 2010

Rmi Bachelet
La version jour de ce cours danalyse factorielle des composantes est disponible http://rb.ec-lille.fr

Cette formation est galement enregistre en vido

Source des images indiques au-dessous

Cours distribu sous licence Creative Commons,


selon les conditions suivantes :

Comment utiliser ce cours :


1. Mettre les diapos en format plein cran en cliquant sur 2. Faire dfiler lanimation en cliquant sur les diapositives
(attention : cliquer sur une image ou un lien ouvre la page web correspondante)

Rmi BACHELET Ecole Centrale de Lille

aot 10

Utilisation ou copie interdites sans citation

Objectifs du cours dAnalyse Factorielle des Correspondances


Mthode dveloppe notamment par Jean-Paul Benzcri (1970+)

1. Comprendre les fondements de lAnalyse Factorielle des Correspondances 2. Savoir quel est le processus de calcul et ses logiques 3. Pouvoir expliquer le mapping produit par une AFC 4. galement :
Connatre quelques logiciels dadministration denqutes et de traitement de donnes Avoir des lments de comparaison AFC ACP (ACP = Analyse en Composantes
Principales).

aot 10

Utilisation ou copie interdites sans citation

Chapitre 1/4

Principes de lAFC et donnes dentres


1. Principe gnral de lAFC 2. Exemples :
Les limites des reprsentations graphiques intuitives Comment donner du sens aux informations

aot 10

Utilisation ou copie interdites sans citation

Principe gnral de lanalyse factorielle des correspondances (AFC)


Lanalyse factorielle traite des tableaux de nombres. Elle remplace un tableau de nombres difficile analyser par une srie de tableaux plus simples qui sont une bonne approximation de celui-ci Ces tableaux sont simples , car ils sont exprimables sous forme de graphiques Pourquoi des correspondances ? variables numriques variables nominales Corrlation Correspondance

Pourquoi factorielle ? Il sagit de dcomposer le tableau original en une somme de tableaux/matrices qui sont chacun le produit de facteurs simples. Autrement dit, on les met en facteurs
aot 10

Principale source dinformations, et de lexemple utilis pour ce cours : Que sais-je ? L' analyse factorielle - N2095, Philippe CIBOIS, ed. PUF, puis, Utilisation ou copie interdites sans citation extrait disponible en ligne

Exemple : que deviennent les bacheliers ?


destination classes prpa 2 2 5 1 10

A BDD' CE FGH total

universit 13 20 10 7 50

autres total 5 20 8 30 5 20 22 30 40 100 100

Stats MEN 1975 - 1975 204 489 lycens


aot 10
Utilisation ou copie interdites sans citation

Une reprsentation graphique intuitive

20 A 30 BDD' 20 CE 30 FGH Univ ersit Clas ses Prpa Autr es

aot 10

Utilisation ou copie interdites sans citation

Exemple : quels souhaits dorientation ?


Entrepreneuriat Amnagement, Construction, Environnement Gestion - Audit Conception de Produits et Systmes Innovants Logistique Commerciale et Industrielle
Premiers vux 2003 de Gnie / filire. Mcanique Avance Gnie Civil Matire,Energie et Vivant Ondes, NanoElectronique, Tlcoms Systmes Electriques et Electroniques Systmes Automatiss Gnie des systmes de production Gnie Informatique Informatique de Gestion Services et Systmes Socio-Economiques Systmes de Transport et Logistiques

0 1 0

0 2 1

2 24 2

7 0 0

Production Industrielle

5 0 5

1 1 1

2 0 0 0 0 2 1

1 0 0 5 0 11 6

0 3 1 0 0 0 3

1 2 1 0 3 0 0

0 0 0 4 1 0 0

1 1 2 4 5 2 2

10 0 2 1 1

aot 10

Utilisation ou copie interdites sans citation

Recherche
6 0 1 6 1 0

.. Pas toujours suffisante :

21 Mc anique A vance 28 Gnie Civil 10 Matire,Energie et V ivant 11 Ondes, Nano-Electr onique, Tlcoms 7 Sys tmes Electriques et Electroniques 14 Sys tmes A utomatiss 10 Gnie des s ystmes de production 11 Gnie Informatique 14 Infor matique de Ges tion 11 Serv ices et Systmes Socio-Economiques 10 Sys tmes de Trans port et Logistiques Entr epreneuriat Amnagement, Construction, Envir onnement Production Industrielle Rec herche Ges tion - Audit Conception de Produits et Systmes Innov ants Logistique Commerc iale et Industrielle

aot 10

Utilisation ou copie interdites sans citation

Comment donner du sens ces donnes


Ide : ce qui est intressant, cest de mettre en vidence ce qui est inattendu dans ces rpartitions Inattendu = en quoi on dvie dune rpartition uniforme
On va donc : 1. valuer ce que serait une situation duniformit, dindpendance 2. Calculer en quoi la situation constate en diffre 3. Exprimer cette diffrence graphiquement pour pouvoir lanalyser 4. Interprter le mapping obtenu 5. et en optimiser la lisibilit
aot 10
Utilisation ou copie interdites sans citation

Chapitre 2/4

Premire oprations sur les matrices


1. Matrice T des donnes dentre
Matrice R des carts lindpendance

2. Mise en facteur dune matrice


Exprimer simplement R

aot 10

Utilisation ou copie interdites sans citation

Matrice T des donnes dentre


universit 13 20 10 7 50 destination classes prpa 2 2 5 1 10 autres total 5 20 8 30 5 20 22 30 40 100 100

A BDD' CE FGH total

Ce tableau est aussi une matrice, appellons-la T Quelle matrice aurait-on si la rpartition dans les filires post-Bac ne dpendait pas du type de Bac ?
aot 10
Utilisation ou copie interdites sans citation

1/ Sil y avait situation dindpendance


10 15 10 15 2 3 2 3 8 12 8 12

10 = 50 * 20%
(produit matriciel /100 puisquon raisonne en %)

20 30 20 30
On reconstitue la matrice partir de ses marges
Utilisation ou copie interdites sans citation

50 10 40
Appellons cette matrice T0
aot 10

2/ La matrice des carts lindpendance est

T T0 = R
13 2 5 10 2 8 3 0 -3

20

15

12

-1

-4

10 5 5 10 2 8

=
0 3 -3

22

15

12

-8

-2

10

Quelle est la particularit de R ?


aot 10
Utilisation ou copie interdites sans citation

3/ Comment exprimer simplement R ?


On dcompose la matrice des carts lindpendance en une somme de matrices..

R = T1 + T2
.. Chacune de ces matrices tant mise en facteur (le produit dun vecteur ligne et dun vecteur colonne).

T1 = C1L1
(une matrice dont la plus petite dimension est N rang N est dcomposable au maximum en N matrices pouvant se mettre en facteurs ici T = T0 + T1 + T2). T est de rang 3, mais R est de rang 2.
aot 10
Utilisation ou copie interdites sans citation

Produit matriciel : exemple

aot 10

Utilisation ou copie interdites sans citation

Mise en facteur dune matrice: exemple


1 3 1 3 1 2 6 2

T = CL

On met en facteur T comme le produit dune matrice colonne C par une matrice ligne L
T (2X2) C (1X2) L (2X1)
aot 10 Attention les rgles de prsentation du produit matriciel ne sont pas bien respectes dans nos diapos De plus, la multiplication des matrices n'est pas commutative (LC CL)

Utilisation ou copie interdites sans citation

R = T1 + T2 = C1L1 + C2L2
3 0 -3 1 1 -2 1 2 -1 -1 1

-1

-4

-2

-2

-2

=
0 3 -3 2 2 -4 2

+
-2 1 1 -1

-8

-2

10

-4

-4

-4

-4

-2

1
Attention le sens de multiplication crit ici est LC au lieu de CL

-2

-1

-1

aot 10

Utilisation ou copie interdites sans citation

Chapitre 3/4

Dune matrice une prsentation graphique


Production et interprtation du mapping
Vecteurs colonne et vecteurs ligne Produit scalaire

aot 10

Utilisation ou copie interdites sans citation

3/ bis Comment reprsenter graphiquement la dcomposition ?

Un vecteur colonne (resp. ligne) correspond une modalit des donnes en colonnes (resp. lignes)

Un axe unidimensionnel + un axe unidimensionnel = un repre


aot 10
Utilisation ou copie interdites sans citation

Un vecteur colonne correspond une modalit des donnes en colonnes


3 0 -3 1 1 -2 1 2 -1 -1 1

-1

-4

-2

-2

-2

=
0 3 -3 2 2 -4 2

+
-2 1 1 -1

-8

-2

10

-4

-4

-4

-4

-2

-2

-1

-1

aot 10

Utilisation ou copie interdites sans citation

Un vecteur colonne correspond une modalit des donnes en colonnes


A

BDD

CE

-1

FGH

-2

Univ

CPGE

Autres

-1

-1

aot 10

Utilisation ou copie interdites sans citation

Un axe unidimensionnel + un axe unidimensionnel = un repre


A

1 CE

BDD

2
-1

1
CPGE

Univ. BDD

CE

FGH

-2
2

-4
1
Aut.

Univ

CPGE

-1
-1

1
-2

Autres

FGH

aot 10

Utilisation ou copie interdites sans citation

4/ Que veut dire ce mapping ?


1. Conjonction :
Produit scalaire positif
Les Bac CE ont une affinit pour la prpa CE

A
Prpa

2. Opposition
Produit scalaire ngatif
Les Bacs A ne vont pas vers les autres (IUT, BTS)

3. Quadrature
Produit scalaire nul
Les bacs A ne vont ni plus ni moins vers les prpas que la moyenne des bacheliers Autres

aot 10

Utilisation ou copie interdites sans citation

Chapitre 4/4

Optimisation de la factorisation
1. Le Chi-2 ( 2) comme mtrique
Degrs de libert

2. Retour aux applications


Analyse de mappings

aot 10

Utilisation ou copie interdites sans citation

5/ Mais .. Quelle est la meilleure dcomposition possible pour R ?


En effet R = T1 + T2 mais il existe aussi R = T1 + T2 = T1 + T2 Quel est le critre (la mtrique) qui permet de dfinir les meilleurs T1 et T2? Pour une matrice de rang n, on cherche dabord trouver la meilleure T1,, puis la meilleure T2 de telle manire ce que le premier axe soit celui qui exprime le plus de sens..
aot 10
Utilisation ou copie interdites sans citation

La mtrique que nous cherchons, cest le Chi-2 ( 2)


Le
2

reprsente lcart lindpendance


or cette indpendance, est exprime par T0 lcart lindpendance peut donc se mesurer comme lcart T0

partir de la matrice des donnes pour chaque cellule de T1 et T2, on calcule


1. Lcart avec la cellule correspondante de T0 au carr (do le 2 du 2 ) 2. On divise par leffectif thorique de cette cellule (on parle de 2 pondr) 3. Le 2 de la matrice est la somme de toutes les contributions au 2 de ses cellules 4. Le pourcentage des contributions de T1 et T2 par rapport au 2 de R donne les contributions relatives de T1 et T2 au 2 de T

aot 10

Utilisation ou copie interdites sans citation

Note sur le
2

: ses degrs de libert

(R) =

(T1) +

(T2)

2491 = 1998 + 493 Attention considrer le 2 en proportion de la richesse en information le la matrice = de son nombre de ddl. partir des distributions marginales on peut obtenir plusieurs matrices Tn, mais pour chaque ligne et chaque colonne, la dernire case est impose par la contrainte du total marginal Dfinition :
On appelle degr de libert par ligne (ddll) le nombre de colonnes (de modalits) diminu de 1. On appelle degr de libert par colonne (ddlc) le nombre de lignes (de modalits) diminu de 1. Le degr de libert du khi-deux de la matrice est le produit ddll x ddlc = ddl. Pour une matrice donne, le
2

prendre en compte est en fait

/ ddl

http://brassens.upmf-grenoble.fr/IMSS/MathSHS/SHS1/Stat1/Diapo/COURS9_fichiers/frame.htm

aot 10

Utilisation ou copie interdites sans citation

Matrice T1 maximisant le 2 dans notre cas


2

(R) =

(T1) +

(T2)

2491 = 1998 + 493 100% = 80.2% + 19.8%

Cette concentration de ce que lon appelle le pourcentage de la variance explique par un axe est particulirement intressante lorsque la taille du tableau de donnes augmente
2 (R)

2 (T ) 1

2 (T ) 2

2 (T

3)

2 (T ) 4

..

Pourquoi ? On ne peut que reprsenter que deux axes la fois sur un mapping autant reprsenter les plus significatifs.
aot 10
Utilisation ou copie interdites sans citation

On obtient alors ce nouveau mapping


Axe 2 (19.8%) CE Clas ses Prpa

.. De plus, la taille des points est proportionnelle leffectif quils reprsentent


FGH

Axe 1 (80.2%) A Autr es

Univ ersit

BDD'

Pour relativiser leur importance, les axes sont dilats proportionnellement au 2 quils expriment

aot 10

Utilisation ou copie interdites sans citation

Application : quels souhaits doptions?


Entrepreneuriat Amnagement, Construction, Environnement Gestion - Audit Conception de Produits et Systmes Innovants Logistique Commerciale et Industrielle
Premiers vux 2003 de Gnie / filire. Mcanique Avance Gnie Civil Matire,Energie et Vivant Ondes, NanoElectronique, Tlcoms Systmes Electriques et Electroniques Systmes Automatiss Gnie des systmes de production Gnie Informatique Informatique de Gestion Services et Systmes Socio-Economiques Systmes de Transport et Logistiques

0 1 0

0 2 1

2 24 2

7 0 0

Production Industrielle

5 0 5

1 1 1

2 0 0 0 0 2 1

1 0 0 5 0 11 6

0 3 1 0 0 0 3

1 2 1 0 3 0 0

0 0 0 4 1 0 0

1 1 2 4 5 2 2

10 0 2 1 1

aot 10

Utilisation ou copie interdites sans citation

Recherche
6 0 1 6 1 0

Mapping des choix de filire / gnie


Axe 2 (26.9%) Gest ion - Audit Infor matique de Gestion Services et Systmes Socio-Economiques Systmes de Tr ansport et Logistiques

En treprenariat

Gnie des systmes de production

Lo gistique Commerciale et Indust rielle Matire,Energie et Vivant Axe 1 (34.4%) Gnie Civil Product ion Indu st rielle

Ondes, Nano-Electronique, Tlcoms

Gnie Infor matique Rech erche

Systmes Elctriq ues et Electr oniques

Systmes Automatiss Amn ag em en t, Construction, Enviro nnement Mcaniq ue Avance

Concept io n de Pro duit s et Systmes Innov an ts

Premiers choix de gnie / filire des 147 G2 en 2003 aot 10 Utilisation ou copie interdites sans citation

Ctait les deux premiers axes = 62% de la variance explique On peut aussi regarder laxe 3.. = 18%
Ax 3 (18.0%) e Entrepreneuriat Ondes, Nano-Electronique, Tlcoms Sy stmes Automatiss

Informatique de Gestion

Recherche

Gestion - Audit Gnie Civil Amnagement, Construction, Environnement

Services et Systmes Socio-Economiques Ax 2 (28.6%) e Sy stmes Elctriques et Electroniques

Conception de Produits et Systmes Innovants

Logistique Commerciale et Industrielle

Gnie Informatique

Sy stmes de Transport et Logistiques Gnie des systmes de production Matire,Energie et Vivant

Mcanique Avance

Production Industrielle

aot 10

Utilisation ou copie interdites sans citation

Conclusion
1. Mise en uvre logicielle
Sphinx, SPSS, SAS

2. Gnralisation de lAFC
Comparaison avec lAnalyse en Composantes Principales (ACP) Gnralisation de lAFC Pour approfondir

aot 10

Utilisation ou copie interdites sans citation

Mise en uvre logicielle de lAFC : Sphinx

aot 10

Utilisation ou copie interdites sans citation

Mise en uvre logicielle : SPSS

aot 10

Utilisation ou copie interdites sans citation

Mise en uvre logicielle : SAS

aot 10

Utilisation ou copie interdites sans citation

Gnralisations de lAFC
Les catgories des questionnaires sont souvent mutuellement exclusives :
Sexe : H ou F Politique : gauche, centre, droite Tableau disjonctif

Aux croisements de plus de deux caractristiques : Analyse des Composantes Multiples (ACM)
Bac X Orientation X sexe Tableau de Burt

aot 10

Utilisation ou copie interdites sans citation

Autre mthode danalyse de donnes proche : lAnalyse en Composantes Principales

AFC
Donnes Catgorielles

ACP
Mtriques

Dcomposition T - T0 = T1 + T2 T = T1 + T2 + T3

Mtrique

pondr

Attention, le poids des cellules faible effectif10 renforc aot est Utilisation ou copie interdites sans citation

Rapports entre ACP et AFC


Si on a des donnes permettant de faire une AFC, peut-on y appliquer une ACP ?
Non

Si on a des donnes permettant de faire une ACP, peut-on y appliquer un AFC ?


Oui !

.. Mais alors ?
.. Alors on traite les donnes numriques, les nombres comme des catgories Si par exemple on travaille sur des notes, 18/20 nest plus suprieur 10/20, il nest pas non plus plus proche de 16/20 que de 10/20.

aot 10

Utilisation ou copie interdites sans citation

Effet particulier lorsque lon traite des Likert


Que voit-on sur une AFC sil existe une relation linaire entre deux Likert corrles, comme par exemple
Q1 Aimez-vous les mathmatiques (beaucoup/assez/un peu/pas du tout) Q2 Avez-vous de bonnes notes en mathmatiques (trs
bonnes/bonnes/moyennes/mauvaises)

Les points du mapping suivent une parabole (cest l'effet Guttman)

aot 10

Utilisation ou copie interdites sans citation

Pour en savoir plus


Approches simples : rares
Site web de Philippe Cibois, professeur mrite de sociologie
texte do est tir lexemple dvelopp dans ce cours Trideux : logiciel libre de dpouillement d'enqute

Analyse factorielle des correspondances dans Wikipdia Leon Analyse factorielle des correspondances du CNAM

Plus complexe : de nombreuses rfrences


"Statistique textuelle" de Lebart et Salem, Chapitre 3

aot 10

Utilisation ou copie interdites sans citation

Autres cours de mthodologie:


1. 2. 3. 4. 5. 6. Explorer ou vrifier ? Deux catgories dapproches ventails des dmarches de recueil de donnes Conception de questionnaires Techniques dentretien et reformulation Validit et Fiabilit des donnes Mesurer, tester des hypothses

aot 10

Utilisation ou copie interdites sans citation

Merci de votre attention !

aot 10

Utilisation ou copie interdites sans citation

Rmi BACHELET

Enseignant-chercheur, Ecole Centrale de Lille


Mon CV est disponible http://rb.ec-lille.fr

Mes principaux cours Centrale Gestion de projet, sociologie des organisations, recueil, analyse et traitement de donnes, prvention du plagiat, module de marchs financiers, cours de qualit et mthodes de rsolution de problmes, tablir des cartes conceptuelles, utiliser Wikipdia et CentraleWiki, formation au coaching pdagogique et l'encadrement aot 10
Utilisation ou copie interdites sans citation

aot 10

Utilisation ou copie interdites sans citation

Vous aimerez peut-être aussi