Vous êtes sur la page 1sur 42

Module C106

Analyse et fouille de donnes

Analyse Factorielle des Correspondances (AFC)

Introduction Prsentation de l'AFC Exemple trait

Exercices

Grard-Michel Cochard cochard@u-picardie.fr

Module C106 : Analyse et fouille des donnes

Analyse factorielle des correspondances (AFC)

Introduction
Objet de l'AFC Profils lignes et profils colonnes

Objet de l'AFC
L'Analyse en Composantes Principales (ACP) concerne les variables quantitatives. L'Analyse Factorielle des Correspondances (AFC) concerne des variables qualitatives. La philosophie est toutefois la mme : rsumer l'information importante partir d'un tableau volumineux de donnes. Typiquement l'AFC traite les tableaux de contingence dans lesquels les lignes et les colonnes reprsentent des modalits de deux variables X et Y. Contrairement aux tableaux traits par l'ACP, de nature individus x variables, il y a ici une certaine symtrie entre les lignes et les colonnes qui concernent toutes deux des modalits de variables. Nous nous limitons dans ce chapitre au cas de deux variables. Toutefois, l'analyse factorielle des correspondances multiples permet de traiter le cas de plus de deux variables. Dans l'AFC, on recherche ce qui est "remarquable", ce que l'on traduit par "cart l'indpendance". C'est un peu l'analogue de la recherche des corrlations de l'ACP. On recherche les "dpendances" entre les modalits des deux variables.

Profils lignes et profils colonnes

Notre matriau de dpart est un tableau de contingence de n lignes et p colonnes qui permet de comparer deux variables X n modalits et Y p modalits :

Ce tableau se rsume une matrice T (matrice nxp):

On est amen calculer les effectifs marginaux k , k et l'effectif total k tels que : j i

. .

Les effectifs marginaux peuvent tre rassembls dans des matrices diagonales D1 (matrice nxn) et D2 (matrice pxp) dont on verra l'emploi plus loin.

exemple : Afin de mieux cibler ses actions promotionnelles, une banque rgionale a ralis une tude sur les produits d'pargne qui auraient actuellement la prfrence de sa clientle. Les donnes brutes recueillies font l'objet d'une analyse factorielle en composantes principales. Les clients ont eu rpondre la question suivante : "Sur lequel de ces 5 produits envisagezvous de porter actuellement votre pargne disponible ?" Les rponses ont t les suivantes en fonction des catgories socioprofessionnelles des personnes interroges. (d'aprs un sujet de DECF) Le tableau de contingence tudier est donc :

Plus prcisment :

En gnral, on travaille sur les tableaux de frquences. On peut en dfinir trois :


q

le tableau des frquences relatives : on divise chaque valeur par l'effectif total

Comme T, F possde n lignes et p colonnes.


q

le tableau des profils lignes : on divise chaque lment d'une ligne par la somme des valeurs de la ligne

Pl possde n lignes et p colonnes


q

le tableau des profils colonnes : on divise chaque lment d'une colonne par la somme des lments de la colonne

o est la matrice transpose de T. Ici les colonnes sont reprsentes... en lignes. Ceci est naturel dans la mesure o l'on souhaite par la suite appliquer une analyse en composantes principales (les individus sont traditionnellement en lignes). Pc possde p lignes et n colonnes.

exemple : reprenons l'exemple prcdent.

Les profils lignes et colonnes sont :

Chaque ligne de Pl peut tre considre comme un point Mi dans l'espace Rp. Le tableau Pl correspond donc un nuage de n points dans Rp.

On affecte chacun de ces points d'une "masse" de valeur k /k. i Comme on a la relation

l'ensemble des points Mi appartient un sous-espace de Rp de dimension p - 1. Le centre de

gravit de ces points Mi est le point Gl de coordonnes (k /k 1

Chaque ligne de Pc peut tre considre comme un point Pj dans l'espace Rn. Le tableau Pc correspond donc aussi un nuage de p points dans Rn. On affecte chacun de ces points d'une "masse" k /k. De mme, la relation j

.2/k ... k.j/k

... k

.p/k).

implique que l'ensemble des points Pj appartient un sous-espace de Rn de dimension n-1. Le centre de gravit de ces points Pj est le point Gc de coordonnes (k1 /k k /k ... ki /k ... kn / 2 k). exemple : reprenons l'exemple prcdent Les centres de gravit du nuage des profils lignes et du nuage des profils colonnes sont :

En probabilits, on dit que deux variables alatoires sont indpendantes si p(X=i, Y=j) = p(X=i)p (Y=j). Par extension, on dira que les modalits i de la variable X et j de la variable Y sont indpendantes si

Dans ce cas les lignes de Pl ou de Pc seraient identiques. Par exemple kij/k indpendant de i.
exemple : toujours l'exemple prcdent

. = k.j/k donc

Si les modalits des deux variables taient indpendantes, on aurait du avoir, la place de T :

ce qui montre donc une certaine dpendance ou un "cart l'indpendance".

Module C106 : Analyse et fouille des donnes

Analyse factorielle des correspondances (AFC)

Pratique de l'AFC
Distance et inertie Ecart l'indpendance ACP sur les profils lignes ACP sur les profils colonnes Aides l'interprtation Pratique de l'AFC avec Tanagra

Distance et inertie
On dfinit la distance entre deux profils lignes i et i' (c'est dire entre les deux points Mi et Mi' de Rp) par la relation suivante qui donne son carr :

Cette mtrique est appele mtrique du 2 ou du 2. Chaque carr de la diffrence entre les frquences relatives est divis par la masse k /k ce qui revient donner la mme importance chaque modalit. j

exemple : reprenons l'exemple du chapitre prcdent o le tableau de contingence tait

Avec la dfinition prcdente de la distance d, on obtient le tableau des distances suivant :

La distance dfinie ci-dessus possde deux proprits intressantes :

q q

le poids des lignes n'intervient pas. on peut regrouper plusieurs lignes de mme profil sans changer les distances entre lignes (et entre colonnes). C'est la proprit d'quivalence distributionnelle.

En particulier, la distance entre le point Mi et le centre de gravit du nuage de p points est :

en utilisant la notation On dfinit de la mme faon le carr de la distance entre deux profils colonnes par :

exemple : comme dans le cas prcdent, on peut calculer les distances entre colonnes :

Comme en mcanique, on dfinira l'inertie IGl(i) d'un point ligne par rapport au centre de gravit Gl par

et l'inertie du nuage de points lignes sera

La quantit prcdente est souvent note 2. Au facteur k prs, cette valeur est gale au 2 (CHI-2) de la distribution, dfini par :

soit 2 = k2

On a videmment des dfinitions analogues pour les profils colonnes. Cependant, on notera que l'expression de l'inertie est symtrique en i et j si bien que l'inertie du nuage de points lignes est gale l'inertie du nuage de points colonnes. Le but de l'analyse factorielle tant de ramener chaque nuage ses axes principaux en minimisant l'inertie totale, on peut de manire quivalente, pratiquer l'analyse factorielle sur le nuage de points lignes ou sur le nuage de points colonnes.

Ecart l'indpendance
On dfinit le taux de liaison tij par

Il mesure l'cart par rapport au taux moyen (qui correspond l'indpendance). exemple : dterminons le taux de liaison pour l'exemple prcdent.

Ainsi, on peut observer que pour l'assurance vie (AV : deuxime ligne), les agriculteurs s'cartent de 59% de la moyenne tandis que les ouvriers sont en dea de 60%. La quantit 2 mesure l'cart l'indpendance. Si les modalits taient indpendantes, on aurait Notons que l'on a et donc 2 = 0.

exemple : reprenons l'exemple du chapitre prcdent et calculons l'cart l'indpendance

On a donc 2 = 0,2407 et 2 = 1843x0,2407 = 443,65

ACP sur les profils lignes


Effectuons une ACP sur les profils lignes. Nous partons avec le tableau Pl des frquences correspondantes kij/k = (kij/k)(k/k ) = i. i. fij/f i.

Nous effectuons une transformation sur ce tableau en divisant chaque terme ij par

ce qui permet d'utiliser la proprit

suivante : la distance euclidienne dE(i, i') est gale la distance du CHI-2, d (i, i'). En effet, 2

Le centre de gravit du nuage des points ainsi transforms a pour coordonnes :

On peut donc ensuite centrer le nuage de points sur le centre de gravit et passer aux donnes centres :

Nous avons minimiser l'inertie totale

On voit donc qu'il faut multiplier les donnes centres par le poids relatif de chaque ligne

. On est alors conduit diagonaliser

la matrice X'X o X est la matrice des xij, prcdemment dfinis, et X' sa transpose. Nous poserons V = X'X qui est une matrice carre nxn. Toutefois, on peut simplifier le calcul des valeurs et vecteurs propres de V en s'appuyant sur les rsultats qui suivent. Posons

lment d'une matrice X*. On notera que

On pose de mme V*=X*'X* et on a

On posera galement dans la suite Gj = g'j =

qui est la composante du vecteur G

Proprit 1 : VG = 0 ce qui signifie que G est vecteur propre de V avec la valeur propre 0

Proprit 2 : V*G = G ce qui signifie que G est vecteur propre de V* avec la valeur propre 1

Proprit 3 : Si U est orthogonal G, alors VU = V*U ce qui signifie que V et V* possde les mmes vecteurs propres (orthogonaux G) et les mmes valeurs propres. Soit U un vecteur orthogonal G. On adonc U'G = 0 soit

Il ressort des trois proprits prcdentes que

V* possde
q

V possde
q

1 vecteur propre G de valeur propre 1 p-1 vecteurs propres U orthogonaux G et de valeurs propres

1 vecteur propre G de valeur propre 0 p-1 vecteurs propres U orthogonaux G et de valeurs propres

Autrement dit, au lieu de diagonaliser la matrice V, il suffit de diagonaliser la matrice V* (et ne pas tenir compte de la valeur propre triviale 1).

exemple : appliquons les rsultats prcdents notre exemple. Le tableau des frquences relatives est

On en dduit la matrice X* :

Calculons alors la matrice V* = X*'X* (qui n'est pas ici la matrice des corrlations) :

dont la trace est trace(V*) = 1,241 = 1 + 0,241. La trace reprsente la somme des valeurs propres de V*. Utilisons le logiciel Scilab pour calculer les valeurs et vecteurs propres. Extrait de Scilab :

Les valeurs propres, par ordre dcroissant, sont 0,999 = 1 0,197

0,029 0,010 0,002 0,001

On ne tient pas compte de la valeur propre 1 et on peut constater que les deux valeurs propres les plus importantes (surtout la premire) sont 0,197 et 0,029. On peut donc envisager une reprsentation plane avec deux axes factoriels.

On pourra vrifier que le vcteur propre associ la valeur propre 1 correspond bien aux valeurs

(vecteur G)

Les points reprsentatifs des lignes sont les points Xi de coordonnes les vecteurs propres sont :

.Les coordonnes dans le systmes d'axes dfini par

exemple : dans l'exemple considr, les points lignes sont, dans le systme initial

Calculons leurs coordonnes dans le plan (U1, U2)

ce qui permet d'obtenir une reprsentation graphique :

ACP sur les profils colonnes


On peut utiliser la symtrie entre les profils lignes et les profils colonnes pour obtenir rapidement les rsultats attendus. En permutant i et j, on peut obtenir la matrice qu'il faut diagonaliser pour analyser factoriellement le nuage des points colonnes.

Comme on avait V* =X*'X* (matrice carre pxp), on a maintenant W* = X*X*' (matrice carre nxn) On dmontre que
q q

V* et W* ont les mmes valeurs propres non nulles ( =1, min(n, p)-1) Soit U vecteur propre de V* et Z vecteur propre de W* pour la mme valeur propre (diffrente de 0). Alors

En particulier, la ime composante de Z est

En permutant les rles de i et j, on obtient aussi

i est la composante du point ligne i sur l'axe factoriel dfini par U ; j est la composante du point colonne j sur l'axe factoriel dfini par Z. On voit donc que l'on peut passer, avec ces relations de transitions de l'espace des profils lignes l'espace des profils colonnes.

Par ailleurs, on a

soit

qui sont les relations de transition usuelles. exemple : En utilisant les relations de transition, on peut donner les rsultats de notre exemple usuel pour les profils colonnes. On se limitera aux deux premires valeurs propres. Nous avons besoin du tableau F des frquences relatives et du tableau transpos F' :

Aides l'interprtation
la forme du nuage de points La forme du nuage de points peut donner quelques indications sur la distribution. Une forme classique est ce qui est appel l'effet Guttman et qui correspond un aspect parabolique.

Cette forme indique des oppositions entre modalits. Elle correspond un tableau de contingence o la diagonale est plus charge que le reste du tableau. On peut aussi avoir des accumulations de points ou paquets de points :

Cette situation corespond un tableau de contingence qui peut tre dcoup en blocs diagonaux. les contributions l'inertie Les contributions d'un point l'inertie d'un axe factoriel traduit la part que ce point prend dans la construction de l'axe . La somme des variances des points projets sur un axe factoriel de numo est gale . Les contributions respectives du point ligne i et du point colonne j s'crivent :

La somme des contributions pour un axe donn est gale 1 aussi bien pour les lignes que pour les colonnes; On a un rsultat identique pour les colonnes .

les cosinus carrs les cosinus carrs reprsentent la qualit de reprsentation des points sur les axes :

o G et H sont les centres de gravit des nuages lignes et colonnes respectivement. exemple : sur l'exemple prcdent, on peut remarquer une forme relativement parabolique des nuages de points :

On peut voir l'opposition entre PEL et PT, entre PT et AV d'une part et l'opposition entre CSUP et OU et entre CSUP, EMP, OU et PI, ARCOM, AG. Calcul des contributions l'inertie :

Ces tableaux montrent par exemple que PEL contribue fortement l'inertie pour l'axe 1 tandis que c'est AV qui contribue le plus fortement l'inertie pour l'axe 2.

Pratique de l'AFC avec Tanagra

Tanagra n'est pas iunitialement conu pour l'AFC. Cependant, il est tout fait possible d'utiliser Tanagra pour effectuer une AFC dans la mesure o certaines fonctionnalits le permettent. On partira du tableau Excel donnant l'exemple qui a servi de fil rouge dans ce chapitre (on suppose qu'Excel incorpore l'xcution de Tanagra comme expliqu au chapitre prcdent).

A l'excution de Tanagra, on a la situation de dpart suivante :

Avec le composant Define status et l'option Parameters, on dfinit les colonnes en Input

et les lignes (avec le nom gnrique CSP) en Target :

On peut alors utiliser la fonctionnalit Factorial analysis et le composant Correspondence Analysis.

Avec l'option Parameters de ce composant, on slectionne les 3 premiers axes et on choisit de calculer les contributions au CHI-2 :

Les rsultats de l'analyse sont alors obtenus immdiatement (option View) :

La reprsentation graphique dans les deux premiers axes est

Module C106 : Analyse et fouille des donnes

Analyse factorielle des correspondances (AFC)

Exemple trait

Cet exemple a t propos par Annie Morin ( MIAGE Rennes) lors d'une premire version de ce module. Il est repris ici avec le logiciel Tanagra dans modifier les commentaires de l'auteur initial Date de la dernire modification : 29 juillet 2008

Un sociologue a dpouill une moiti alatoire du fichier d'inscription d'une anne du Conservatoire National Suprieur de Musique et de Danse de Paris. Profession des Parents et Instrument jou. Le fichier Excel, musique.xls, peut tre consult. Le tableau de contingence croise les catgories socio professionnelles des parents et les instruments jous. On constate que 19 enfants n'ont pas donn la profession de leurs parents (dernire colonne : sans rponse pour la profession des parents). Les sorties qui apparaissent sont des sorties du logiciel TANAGRA

Le problme On va essayer de mettre en vidence les carts l'indpendance pour le tableau prcdent. Etude avec un tableur Analyse exploratoire du tableau Dans un premier temps, il est utile de construire quelques tableaux ou graphes permettant dj de se faire une ide de cet cart l'indpendance. On va donc examiner les profils lignes et les profils colonnes du tableau de contingence. On pourra faire cette tude avec un tableur.

Les nombres indiqus reprsentent pour une ligne les pourcentages des lves dont les parents appartiennent la CSP considre. Par exemple, 1% des lves qui apprennent le violon ont des parents agriculteurs ou exploitants agricoles, tandis 47% d'entre eux ont des parents cadres ou exerant une profession dite intellectuelle. Par ligne, la somme de ces nombres est gale 100.

Le graphe prcdent permet de comparer les profils de distribution des instruments par CSP. En gnral un seul des deux graphes est utile. Il y a redondance examiner les deux. Si les deux variables CSP et Instruments taient indpendantes, les profils de distribution seraient sensiblement les mmes. On peut faire les remarques suivantes : si on considre les enfants de cadres, ils ont tendance pratiquer de prfrence des instruments comme le violon, le violoncelle, le violon alto et la flte au dtriment d'instruments comme le tuba, trombone ou trompette. Analyse factorielle des correspondances du tableau (Tanagra) Les CSP sont entres en Input, les instruments en Target. L'inertie totale est ici gale 0.1876. C'est la somme des valeurs propres. Dans la copie listing que vous avez ci-dessous, on voit que la premire valeur propre est gale 0.1153 et que par consquent l'inertie explique par le premier axe est gal 0.1153/0.1876, soit donc 61.45%. Ceci est illustr par le diagramme des valeurs propres.

La variable CSP : nous commenons la lecture par les contributions des modalits la construction des axes. On voit immdiatement que le premier axe est dtermin par la contribution des cadres et dans une moindre mesure des ouvriers ; sur le premier demi-axe ngatif, la modalit la plus loigne du centre est "agriculteurs" suivie de "ouvrier". Cadres et ouvriers ont une trs bonne qualit de reprsentation sur le premier axe (cosinus carrs gaux respectivement 0.97 et 0.75) tandis que la qualit de reprsentation des agriculteurs est lgrement moindre. Sur le second axe, il faut noter les contributions des professions intermdiaires et des non-rponses. Le point le plus loign sur le demi-axe ngatif concerne les agriculteurs et la qualit de reprsentation n'est pas trs bonne.

Variables instruments : Le premier axe est caractris par les contributions du violon et du tuba trombone. On peut cependant noter qu' l'extrmit du demi-axe positif, on trouve bien sr le violon (coordonne 0.40) mais aussi la flte (0.48) tandis qu' l'extrmit du demi-axe ngatif,outre le tuba trombone, la trompette est aussi excentre. Ces quatre instruments sont trs bien reprsents sur le premier axe. En effet, leur qualit de reprsentation, ie le cosinus carr est de respectivement 0.93 pour le violon , 0.61 pour la flte, 0.87 pour le tuba trombone et 0.84 pour la trompette. On peut donc dire que cet axe oppose le violon et la flte la trompette et au tuba trombone. En ce qui concerne le second axe, il est caractris par les contributions de la corde basse et du hautbois. Nous reviendrons sur ces tableaux ainsi que sur le tableau original lors de l'examen des projections dans les plans factoriels.

Le graphique suivant reprsente le premier plan principal et explique 78% de l'inertie totale. premier axe est caractris par les contributions du violon et du tuba trombone, chacun des instruments tant situ une extrmit du premier axe, le second par la corde basse et le hautbois et le troisime par la flte et un moindre degr le cor. Nous reviendrons sur ces tableaux ainsi que sur le tableau original lors de l'examen des projections dans les plans factoriels.

Sur ce plan factoriel, il est prfrable d'oublier quelques points mal reprsents savoir artisan pour la CSP, violon alto et cor pour les instruments. Le premier axe ordonne les professions de cadre agriculteur exploitant en passant par profession intermdiaire,employs et ouvriers et regroupe les instruments en deux classes :l'une avec le violon , la flte et le violoncelle plus associe aux CSP Cadre et l'autre trombone, tuba, trompette plus associe la CSP ouvrier et agriculteur.(harmonie?). Ceci se confirme si nous reconsidrons les deux tableaux des profils . Tanagra donne aussi les contributions pricipales au CHI-2 :

Module C106 : Analyse et fouille des donnes

Analyse factorielle des correspondances (AFC)

Exercices
Exercice 1 : qualit des eaux Exercice 2 : les boissons

auteurs : Annie Morin, Miage Rennes . Date de la dernire modification : 10 dcembre 2002

Exercice 1
Le tableau suivant donne la rpartition en 1995 en Bretagne du nombre de points de surveillance suivant la classe de qualit des eaux de baignade selon la situation eau douce, eau de mer. La qualit est bonne ou assez bonne.(tableaux de l'conomie bretonne 1998/1999 page 25) On a 4 catgories : baignade en eaux douces de bonne qualit not qualitOdouc , baignade en eaux douces de qualit moyenne ou pouvant tre momentanment pollues qualOdouab , baignade en eaux de mer de bonne qualit qualOmertb , baignade en eaux de mer de qualit moyenne ou pouvant tre momentanment pollues qualOmerab. Nous considrons les 4 dpartements bretons. dpartement cotesdarmor finistere illeetvilaine morbihan qualiteOdouce 5 4 9 6 qualOmertb 58 115 21 75 qualOmerab 2 118 25 40 qualOdouab 1 2 17 3

Premire question : que signifie la premire ligne du tableau de donnes prcdent? On va procder une AFC sur ce tableau de donnes . Voici les rsultats :

Deuxime question :

1. Combien d'axes factoriels va-t-on conserver dans cette analyse? 2. Quel est le dpartement le plus loign du profil moyen? 3. premier axe :
r r

quels sont les dpartements qui contribuent le plus l'inertie du premier axe? quels sont les sites qui contribuent le plus l'inertie du premier axe? 4. deuxime axe : r quels sont les dpartements qui contribuent le plus l'inertie du deuxime axe? r quels sont les sites qui contribuent le plus l'inertie du deuxime axe? 5. Que pensez vous de la qualit des points projets sur le premier plan factoriel? 6. En considrant le graphique suivant donnant la projection de spoints sur le premier plan factoriel, interprtez les rsultats.

Exercice 2
Le tableau suivant croise 8 boissons et les contextes ou caractristiques (il y en a 20) auxquelles elles sont associes. Vous avez une copie du fichier de donnes sous

format Excel.

Nous commenons par une reprsentation graphique des profils de lignes en utilisant la fonction AMADO de Spad.

On va procder une AFC sur ce tableau de donnes . Voici les rsultats :

Question :

1. Combien d'axes factoriels va-t-on conserver dans cette analyse? 2. Quel est le dpartement le plus loign du profil moyen? 3. premier axe :
r r

quels sont les dpartements qui contribuent le plus l'inertie du premier axe? quels sont les sites qui contribuent le plus l'inertie du premier axe? 4. deuxime axe :

5.
r r

quels sont les dpartements qui contribuent le plus l'inertie du deuxime axe? quels sont les sites qui contribuent le plus l'inertie du deuxime axe?

6. Que pensez vous de la qualit des points projets sur le premier plan factoriel? 7. En considrant le graphique suivant donnant la projection des points sur le premier plan factoriel, interprtez les rsultats.