Vous êtes sur la page 1sur 46

L'AFC pour les nuls

Mise jour du 3 dcembre 2010

Rmi Bachelet
La version jour de ce cours danalyse factorielle des composantes est disponible http://rb.ec-lille.fr

Cette formation est galement enregistre en vido

Source des images indiques au-dessous

Cours distribu sous licence Creative Commons,


selon les conditions suivantes :

Comment utiliser ce cours :


1. Mettre les diapos en format plein cran en cliquant sur 2. Faire dfiler lanimation en cliquant sur les diapositives
(attention : cliquer sur une image ou un lien ouvre la page web correspondante)

Rmi BACHELET Ecole Centrale de Lille

dcembre 10

Utilisation ou copie interdites sans citation

Objectifs du cours dAnalyse Factorielle des Correspondances


Mthode dveloppe notamment par Jean-Paul Benzcri (1970+)

1. Comprendre les fondements de lAnalyse Factorielle des Correspondances 2. Savoir quel est le processus de calcul et ses logiques 3. Pouvoir expliquer le mapping produit par une AFC 4. galement :
Connatre quelques logiciels dadministration denqutes et de traitement de donnes Avoir des lments de comparaison AFC ACP (ACP = Analyse en Composantes
Principales).

dcembre 10

Utilisation ou copie interdites sans citation

Chapitre 1/4

Principes de lAFC et donnes dentres


1. Principe gnral de lAFC 2. Exemples :
Les limites des reprsentations graphiques intuitives Comment donner du sens aux informations

dcembre 10

Utilisation ou copie interdites sans citation

Principe gnral de lanalyse factorielle des correspondances (AFC)


Lanalyse factorielle traite des tableaux de nombres. Elle remplace un tableau de nombres difficile analyser par une srie de tableaux plus simples qui sont une bonne approximation de celui-ci Ces tableaux sont simples , car ils sont exprimables sous forme de graphiques Pourquoi des correspondances ? variables numriques variables nominales Corrlation Correspondance

Pourquoi factorielle ? Il sagit de dcomposer le tableau original en une somme de tableaux/matrices qui sont chacun le produit de facteurs simples. Autrement dit, on les met en facteurs

Principale source dinformations, et de lexemple utilis pour ce cours : Que sais-je ? L' analyse factorielle - N2095, Philippe dcembre CIBOIS, ed. PUF, puis, Utilisation ou copie interdites sans citation 10 extrait disponible en ligne

Exemple : que deviennent les bacheliers ?


destination classes prpa 2 2 5 1 10

A BDD' CE FGH total

universit 13 20 10 7 50

autres total 5 20 8 30 5 20 22 30 40 100 100

Stats MEN 1975 - 1975 204 489 lycens


dcembre 10
Utilisation ou copie interdites sans citation

Une reprsentation graphique intuitive

20 A 30 BDD' 20 CE 30 FGH Universit Classes Prpa Autres

dcembre 10

Utilisation ou copie interdites sans citation

Exemple : quels souhaits dorientation ?


Entrepreneuriat Amnagement, Construction, Environnement Gestion - Audit Conception de Produits et Systmes Innovants Logistique Commerciale et Industrielle
Premiers vux 2003 de Gnie / filire. Mcanique Avance Gnie Civil Matire,Energie et Vivant Ondes, NanoElectronique, Tlcoms Systmes Electriques et Electroniques Systmes Automatiss Gnie des systmes de production Gnie Informatique Informatique de Gestion Services et Systmes Socio-Economiques Systmes de Transport et Logistiques

0 1 0

0 2 1

2 24 2

7 0 0

Production Industrielle

5 0 5

1 1 1

2 0 0 0 0 2 1

1 0 0 5 0 11 6

0 3 1 0 0 0 3

1 2 1 0 3 0 0

0 0 0 4 1 0 0

1 1 2 4 5 2 2

10 0 2 1 1

dcembre 10

Utilisation ou copie interdites sans citation

Recherche
6 0 1 6 1 0

.. Pas toujours suffisante :

21 Mcanique Avance 28 Gnie Civil 10 Matire,Energie et Vivant 11 Ondes, Nano-Electronique, Tlcoms 7 Sy stmes Electriques et Electroniques 14 Sy stmes Automatiss 10 Gnie des systmes de production 11 Gnie Informatique 14 Inform atique de Gestion 11 Services et Systmes Socio-Economiques 10 Sy stmes de Transport et Logistiques Entrepreneuriat Am nagement, Construction, Environnement Production Industrielle Recherche Gestion - Audit Conception de Produits et Systmes Innov ants Logistique Com merciale et Industrielle

dcembre 10

Utilisation ou copie interdites sans citation

Comment donner du sens ces donnes


Ide : ce qui est intressant, cest de mettre en vidence ce qui est inattendu dans ces rpartitions Inattendu = en quoi on dvie dune rpartition uniforme
On va donc : 1. valuer ce que serait une situation duniformit, dindpendance 2. Calculer en quoi la situation constate en diffre 3. Exprimer cette diffrence graphiquement pour pouvoir lanalyser 4. Interprter le mapping obtenu 5. et en optimiser la lisibilit
dcembre 10
Utilisation ou copie interdites sans citation

Chapitre 2/4

Premire oprations sur les matrices


1. Matrice T des donnes dentre
Matrice R des carts lindpendance

2. Mise en facteur dune matrice


Exprimer simplement R

dcembre 10

Utilisation ou copie interdites sans citation

Matrice T des donnes dentre


universit 13 20 10 7 50 destination classes prpa 2 2 5 1 10 autres total 5 20 8 30 5 20 22 30 40 100 100

A BDD' CE FGH total

Ce tableau est aussi une matrice, appellons-la T Quelle matrice aurait-on si la rpartition dans les filires post-Bac ne dpendait pas du type de Bac ?
dcembre 10
Utilisation ou copie interdites sans citation

1/ Sil y avait situation dindpendance


10 15 10 2 3 2 8 12 8

10 = 50 * 20%
(produit matriciel /100 puisquon raisonne en %)

15

12

20 30 20 30
On reconstitue la matrice partir de ses marges
Utilisation ou copie interdites sans citation

50 10 40
Appellons cette matrice T0
dcembre 10

2/ La matrice des carts lindpendance est

T T0 = R
13 2 5 10 2 8 3 0 -3

20

15

12

-1

-4

10 5 5 10 2 8

=
0 3 -3

22

15

12

-8

-2

10

Quelle est la particularit de R ?


dcembre 10
Utilisation ou copie interdites sans citation

3/ Comment exprimer simplement R ?


On dcompose la matrice des carts lindpendance en une somme de matrices..

R = T1 + T2
.. Chacune de ces matrices tant mise en facteur (le produit dun vecteur ligne et dun vecteur colonne).

T1 = C1L1
(une matrice dont la plus petite dimension est N rang N est dcomposable au maximum en N matrices pouvant se mettre en facteurs ici T = T0 + T1 + T2). T est de rang 3, mais R est de rang 2.
dcembre 10
Utilisation ou copie interdites sans citation

Produit matriciel : exemple

dcembre 10

Utilisation ou copie interdites sans citation

Mise en facteur dune matrice: exemple


1 3 1 3 1 2 6 2

T = CL

On met en facteur T comme le produit dune matrice colonne C par une matrice ligne L
T (2X2) C (1X2) L (2X1)
Attention les rgles de prsentation du produit matriciel ne sont pas bien respectes dans nos diapos De plus, la multiplication des matrices n'est pas commutative (LC CL)

dcembre 10

Utilisation ou copie interdites sans citation

R = T1 + T2 = C1L1 + C2L2
3 0 -3 1 1 -2 1 2 -1 -1 1

-1

-4

-2

-2

-2

=
0 3 -3 2 2 -4 2

+
-2 1 1 -1

-8

-2

10

-4

-4

-4

-4

-2

1
Attention le sens de multiplication crit ici est LC au lieu de CL

-2

-1

-1

dcembre 10

Utilisation ou copie interdites sans citation

Chapitre 3/4

Dune matrice une prsentation graphique


Production et interprtation du mapping
Vecteurs colonne et vecteurs ligne Produit scalaire

dcembre 10

Utilisation ou copie interdites sans citation

3/ bis Comment reprsenter graphiquement la dcomposition ?

Un vecteur colonne (resp. ligne) correspond une modalit des donnes en colonnes (resp. lignes)

Un axe unidimensionnel + un axe unidimensionnel = un repre


dcembre 10
Utilisation ou copie interdites sans citation

Un vecteur colonne correspond une modalit des donnes en colonnes


3 0 -3 1 1 -2 1 2 -1 -1 1

-1

-4

-2

-2

-2

=
0 3 -3 2 2 -4 2

+
-2 1 1 -1

-8

-2

10

-4

-4

-4

-4

-2

-2

-1

-1

dcembre 10

Utilisation ou copie interdites sans citation

Un vecteur colonne correspond une modalit des donnes en colonnes


A

BDD

CE

-1

FGH

-2

Univ

CPGE

Autres

-1

-1

dcembre 10

Utilisation ou copie interdites sans citation

Un axe unidimensionnel + un axe unidimensionnel = un repre


A

1 CE

2
Univ.

BDD

2
-1 -2 2 -1 -1

1
CPGE

CE

2
0 -3 -2 -1 -1 0 1

A
2

BDD

FGH

-4 1
Aut.

Univ

-2

CPGE

1 -2

-3

Autres

-4
FGH

-5

dcembre 10

Utilisation ou copie interdites sans citation

4/ Que veut dire ce mapping ?


3

1. Conjonction :
Produit scalaire positif
Les Bac CE ont une affinit pour la prpa CE
2

A
Prpa
1

2. Opposition
Produit scalaire ngatif
Les Bacs A ne vont pas vers les autres (IUT, BTS)
-3

0 -2 -1 0 1 2 3

-1

3. Quadrature
Produit scalaire nul
Les bacs A ne vont ni plus ni moins vers les prpas que la moyenne des bacheliers Autres

-2

-3

-4

-5

dcembre 10

Utilisation ou copie interdites sans citation

Chapitre 4/4

Optimisation de la factorisation
1. Le Chi-2 ( 2) comme mtrique
Degrs de libert

2. Retour aux applications


Analyse de mappings

dcembre 10

Utilisation ou copie interdites sans citation

5/ Mais .. Quelle est la meilleure dcomposition possible pour R ?


En effet R = T1 + T2 mais il existe aussi R = T1 + T2 = T1 + T2 Quel est le critre (la mtrique) qui permet de dfinir les meilleurs T1 et T2? Pour une matrice de rang n, on cherche dabord trouver la meilleure T1,, puis la meilleure T2 de telle manire ce que le premier axe soit celui qui exprime le plus de sens..
dcembre 10
Utilisation ou copie interdites sans citation

La mtrique que nous cherchons, cest le Chi-2 ( 2)


Le
2

reprsente lcart lindpendance


or cette indpendance, est exprime par T0 lcart lindpendance peut donc se mesurer comme lcart T0

partir de la matrice des donnes pour chaque cellule de T1 et T2, on calcule


1. Lcart avec la cellule correspondante de T0 au carr (do le 2 du 2 ) 2. On divise par leffectif thorique de cette cellule (on parle de 2 pondr) 3. Le 2 de la matrice est la somme de toutes les contributions au 2 de ses cellules 4. Le pourcentage des contributions de T1 et T2 par rapport au 2 de R donne les contributions relatives de T1 et T2 au 2 de T

dcembre 10

Utilisation ou copie interdites sans citation

Note sur le
2

: ses degrs de libert

(R) =

(T1) +

(T2)

2491 = 1998 + 493


Attention considrer le 2 en proportion de la richesse en information le la matrice = de son nombre de ddl. partir des distributions marginales on peut obtenir plusieurs matrices Tn, mais pour chaque ligne et chaque colonne, la dernire case est impose par la contrainte du total marginal Dfinition :
On appelle degr de libert par ligne (ddll) le nombre de colonnes (de modalits) diminu de 1. On appelle degr de libert par colonne (ddlc) le nombre de lignes (de modalits) diminu de 1. Le degr de libert du khi-deux de la matrice est le produit ddll x ddlc = ddl. Pour une matrice donne, le
2

prendre en compte est en fait

/ ddl

http://brassens.upmf-grenoble.fr/IMSS/MathSHS/SHS1/Stat1/Diapo/COURS9_fichiers/frame.htm

dcembre 10

Utilisation ou copie interdites sans citation

Matrice T1 maximisant le 2 dans notre cas


2

(R) =

(T1) +

(T2)

2491 = 1998 + 493 100% = 80.2% + 19.8%

Cette concentration de ce que lon appelle le pourcentage de la variance explique par un axe est particulirement intressante lorsque la taille du tableau de donnes augmente
2 (R)

2 (T ) 1

2 (T ) 2

2 (T ) 3

2 (T ) 4

..

Pourquoi ? On ne peut que reprsenter que deux axes la fois sur un mapping autant reprsenter les plus significatifs.
dcembre 10
Utilisation ou copie interdites sans citation

On obtient alors ce nouveau mapping


Ax 2 (19.8%) e CE Classes Prpa

.. Autre option configurable : ici, la taille des points est proportionnelle leffectif quils reprsentent

FGH

Ax 1 (80.2%) e A Autres

Universit

BDD'

Attention aux consquences de ce choix, notamment la perte de la visibilit dune quadrature

Pour relativiser leur importance, les axes sont dilats proportionnellement au 2 quils expriment

dcembre 10

Utilisation ou copie interdites sans citation

Application : quels souhaits doptions?


Entrepreneuriat Amnagement, Construction, Environnement Gestion - Audit Conception de Produits et Systmes Innovants Logistique Commerciale et Industrielle
Premiers vux 2003 de Gnie / filire. Mcanique Avance Gnie Civil Matire,Energie et Vivant Ondes, NanoElectronique, Tlcoms Systmes Electriques et Electroniques Systmes Automatiss Gnie des systmes de production Gnie Informatique Informatique de Gestion Services et Systmes Socio-Economiques Systmes de Transport et Logistiques

0 1 0

0 2 1

2 24 2

7 0 0

Production Industrielle

5 0 5

1 1 1

2 0 0 0 0 2 1

1 0 0 5 0 11 6

0 3 1 0 0 0 3

1 2 1 0 3 0 0

0 0 0 4 1 0 0

1 1 2 4 5 2 2

10 0 2 1 1

dcembre 10

Utilisation ou copie interdites sans citation

Recherche
6 0 1 6 1 0

Mapping des choix de filire / gnie


Axe 2 (26.9%) Gestion - Aud it Informatique de G estion Services et Systmes Socio-Economiques Systmes de T ransport et Logis tiques

En trepren ariat

Gnie des systmes de production

Lo gistique Commerciale et In dustrielle Matire,Energie et Vivant Axe 1 (34.4%) Gnie Civil Prod uction In dustrielle

Ondes, Nano-Electronique, Tlcoms

Gnie Informatique Rech erche

Systmes Elctriques et Electroniques

Systmes Automatiss Amnagement, Co nstru ctio n, Enviro nnement Mcanique Avance

Co ncep tion d e Prod uits et Systmes Inn ovan ts

Premiers choix de gnie / filire des 147 G2 en 2003 dcembre 10 Utilisation ou copie interdites sans citation

Ctait les deux premiers axes = 62% de la variance explique On peut aussi regarder laxe 3.. = 18%
Axe 3 (18.0%) Entrepreneuriat Ondes , Nano-Elec troni que, T lc oms Sys tmes Automatis s

Informatique de Gestion

Recherche

Gestion - Audit Gni e Civi l Amnagement, Construction, E nv ironnement

Servic es et Sys tmes Soc io-Ec onomi ques Axe 2 (28.6%) Sys tmes El c triques et El ec troniques

Conception de Produits et Systmes Innov ants

Logistique Commerciale et Industrielle

Gni e Informatique

Sys tmes de T ransport et Logi stiques Gni e des sys tmes de production Matire,E nergie et Vi vant

Mcanique Avance

Production Industrielle

dcembre 10

Utilisation ou copie interdites sans citation

Conclusion
1. Mise en uvre logicielle
Sphinx, SPSS, SAS

2. Gnralisation de lAFC
Comparaison avec lAnalyse en Composantes Principales (ACP) Gnralisation de lAFC Pour approfondir

dcembre 10

Utilisation ou copie interdites sans citation

Mise en uvre logicielle de lAFC : Sphinx

dcembre 10

Utilisation ou copie interdites sans citation

Mise en uvre logicielle : SPSS

dcembre 10

Utilisation ou copie interdites sans citation

Mise en uvre logicielle : SAS

dcembre 10

Utilisation ou copie interdites sans citation

Gnralisations de lAFC
Les catgories des questionnaires sont souvent mutuellement exclusives :
Sexe : H ou F Politique : gauche, centre, droite Tableau disjonctif

Aux croisements de plus de deux caractristiques : Analyse des Composantes Multiples (ACM)
Bac X Orientation X sexe Tableau de Burt

dcembre 10

Utilisation ou copie interdites sans citation

Autre mthode danalyse de donnes proche : lAnalyse en Composantes Principales

AFC
Donnes Catgorielles

ACP
Mtriques

Dcomposition T - T0 = T1 + T2 T = T1 + T2 + T3 Mtrique
2

pondr

Attention, le poids des cellules faible effectif est 10 dcembre renforc Utilisation ou copie interdites sans citation

Rapports entre ACP et AFC


Si on a des donnes permettant de faire une AFC, peut-on y appliquer une ACP ?
Non

Si on a des donnes permettant de faire une ACP, peut-on y appliquer une AFC ?
Oui !

.. Mais alors ?
.. Alors on traite les donnes numriques, les nombres comme des catgories Si par exemple on travaille sur des notes, 18/20 nest plus suprieur 10/20, il nest pas non plus plus proche de 16/20 que de 10/20.

dcembre 10

Utilisation ou copie interdites sans citation

Effet particulier lorsque lon traite des Likert


Que voit-on sur une AFC sil existe une relation linaire entre deux Likert corrles, comme par exemple
Q1 Aimez-vous les mathmatiques (beaucoup/assez/un peu/pas du tout) Q2 Avez-vous de bonnes notes en mathmatiques (trs
bonnes/bonnes/moyennes/mauvaises)

Les points du mapping suivent une parabole (cest l'effet Guttman)

dcembre 10

Utilisation ou copie interdites sans citation

Pour en savoir plus


Approches simples : rares
Site web de Philippe Cibois, professeur mrite de sociologie
texte do est tir lexemple dvelopp dans ce cours Trideux : logiciel libre de dpouillement d'enqute

Analyse factorielle des correspondances dans Wikipdia Leon Analyse factorielle des correspondances du CNAM

Plus complexe : de nombreuses rfrences


"Statistique textuelle" de Lebart et Salem, Chapitre 3

dcembre 10

Utilisation ou copie interdites sans citation

Autres cours de mthodologie:


1. 2. 3. 4. 5. 6. Explorer ou vrifier ? Deux catgories dapproches ventails des dmarches de recueil de donnes Conception de questionnaires Techniques dentretien et reformulation Validit et Fiabilit des donnes Mesurer, tester des hypothses

dcembre 10

Utilisation ou copie interdites sans citation

Merci de votre attention !

dcembre 10

Utilisation ou copie interdites sans citation

Rmi BACHELET

Enseignant-chercheur, Ecole Centrale de Lille


Mon CV est disponible http://rb.ec-lille.fr

Mes principaux cours Centrale Gestion de projet, sociologie des organisations, recueil, analyse et traitement de donnes, prvention du plagiat, module de marchs financiers, cours de qualit et mthodes de rsolution de problmes, tablir des cartes conceptuelles, utiliser Wikipdia et CentraleWiki, formation au coaching pdagogique et l'encadrement

dcembre 10

Utilisation ou copie interdites sans citation

dcembre 10

Utilisation ou copie interdites sans citation