Vous êtes sur la page 1sur 22

Analyse Factorielle des correspondance (simple) Ouassima el maaroufi avec Basma harfouf

Mr Hamou Siham aloui Sarah tayaa

Plan

Introduction
Lanalyse factorielle traite des tableaux de nombres. Elle remplace un tableau de nombres difficile analyser par une srie de tableaux plus simples qui sont une bonne approximation de celui-ci Ces tableaux sont simples , car ils sont exprimables sous forme de graphiques Pourquoi des correspondances ? Pourquoi factorielle ? Il sagit de dcomposer le tableau original en une somme de tableaux/matrices qui sont chacun le produit de facteurs simples. Autrement dit, on les met en facteurs

But. On cherche a dcrire la liaison entre deux variables

Lanalyse factorielle des correspondances simple

qualitatives. Exemple on peut regarder la rpartition de la couleur des yeux en fonction de la couleur des cheveux. Diffrence avec lACP: lACP se fait dans un cadre diffrent ; les variables sont quantitatives et donc: il est possible de faire des oprations mathmatiques sur les valeurs des variables ; par contre, il nest en gnral pas possible de compter les individus qui ont une caractristique donne (taille=1, 83m) Pourquoi deux variables ? le cas de plus de deux variables est lanalyse de correspondance multiples.

Variables qualitatives
Soit X une variable qualitative. On dispose dun chantillon de n individus sur lesquels la variable est mesure. Modalits (ou catgories) les valeurs que peut prendre une variable qualitative ; si la variable a m modalits (valeurs possibles), on note ces modalits, ou plus simplement i

Tableau de contingence
Soient X1 et X2 deux variables qualitatives a m1 et m2 modalits respectivement dcrivant un ensemble de n individus Dfinition: le tableau de contingence est une matrice a m1 lignes et m2 colonnes renfermant les effectifs nij dindividus tels que X1 = i et X2 = j .

La constitution de ce tableau est ce que les praticiens des enqutes appellent un tri croise .

Proprits des profils


Moyenne la moyenne des profils-lignes (avec poids correspondant aux profils marginaux des lignes) est le profil marginal des colonnes : et de mme pour les colonnes
Indpendance empirique lorsque tous les profils lignes sont identiques, il y a indpendance entre X1 et X2, puisque la connaissance de X1 ne change pas la rpartition de X2. On a pour tout j :

Marges et profils
Marge en ligne cest la somme cest-`a-dire leffectif total de la modalit i de X1 On dfinit aussi le profil marginal des lignes ni/n. Marge en colonne cest la somme cest-`a-dire leffectif total del modalit j de X2. On dfinit aussi le profil marginal des colonnes nj/n
Deux lectures possibles selon la variable que lon privilgie, on peut dfinir

le tableau des profils-lignes nij/ni, qui reprsente la frquence de la modalit j conditionnellement a X1 = i ; la somme de chaque ligne est ramene a 100%. le tableau des profils-colonnes nij/nj, qui reprsente la frquence de la modalit i conditionnellement a X = j ; la somme de chaque colonne est ramene a 100%.

Dpendance fonctionnelle alors pour chaque i soit nij = ni, soit nij = 0 : il existe une unique case non nulle par ligne. X2 est donc fonctionnellement lie a X1. Dpendance inverse cette relation ne signifie pas que X1 est fonctionnellement lie a X2, sauf si m1 = m2. On peut alors reprsenter le tableau comme une matrice diagonale. Contribution au cest le terme

qui permet de mettre en vidence les association significatives entre modalits de deux variables.

Gomtrie de nuages de profils

Analyse des correspondances de deux variables : les donnes Effectifs on a un tableau de contingence N a m1 lignes et m2
colonnes rsultant du croisement de deux variables qualitatives X1 et X2 `a m1 et m2 modalits respectivement. On note D1 et D2 les matrices diagonales des effectifs marginaux

Profils le tableau des profils des lignes nij/ni est donn par et celui des profils des colonnes nij/nj par

Reprsentation gomtrique des profils


Nuage de points les profils-lignes forment un nuage de m1 points de . Chaque point est affecte dun poids gal a sa frquence marginale ni/n, et la matrice des poids est donc Centre de gravit cest le profil marginal car :

LAFC : une ACP sur un nuage de profils ACP des deux nuages de profils

Application dans le logiciel R


Les donnes
L'exemple porte sur la couleur des yeux et la couleur des cheveux de 592 tudiants. Les donnes ont t collectes dans le cadre d'un projet de classe par des tudiants d'un cours de statistique lmentaire a l'Universite de Delaware.

La couleur des cheveux est dnie par 4 modalits : blond, marron, noir et roux.

La couleur des yeux est dnie par 4 modalits : bleu, marron, noisette et vert.

Le lien entre les deux couleurs s'obtient a l'aide d'un tableau croise qui ventile la population entre les modalits de ces deux variables qualitatives. C'est une table de contingence.

Par commodit, on transforme cet objet en un data.frame

Definition d'un score a priori On va affecter a priori un score a chacune des colonnes (couleur des cheveux), par exemple (1,-1,-1,1), qui opre une opposition entre cheveux fonces (Marron, Noir) et clairs (Blond, Roux).

Pour chaque ligne de la table de contingence (couleur des yeux), une frquence observe correspond a chaque couleur de cheveux. Ainsi, pour la modalit yeux Bleu on obtient :

Ce score moyen positif montre que les individus aux yeux Bleu ont des cheveux plutt clairs. Ce score moyen peut tre calcule pour toutes les couleurs de yeux.

Pour les yeux marrons, on obtient un score moyen gal a 0.7 qui est ngatif et indique donc que les cheveux fonces dominent dans cette sous-population. On pourrait assez bien sparer les 4 couleurs des yeux sur la base du score propose pour la couleur des cheveux.

Vous aimerez peut-être aussi