Vous êtes sur la page 1sur 23

Thème de l’exposé:

Analyse des correspondances multiples


Enquête Algérienne sur la santé de la famille
«EASF» réalisée en 2002

Réalisée par: Mr Hathat Mohamed Rédha


Plan du travail

Introduction
Analyse des correspondance multiple

Domaine d’application
-Transformation apportés sur les données
2
-Critère d’ajustement et distance du 
-Axes factoriels,facteurs et relations
Rappel de la théorie quasi-barycentrique
-Propriété des valeurs propres
-Inertie total
-Règle d’interprétation

Enquête algérienne sur la santé de la famille


Exemple d’application (2002)
(les déterminants de la fécondité)

Conclusion

Analyse des correspondances multiples


Introduction

La multiplicité et la complexité des données ne permettent pas toujours à


l’esprit humain de se les représenter aisément. Plusieurs méthodes d’analyse
de données se sont développées selon l’objet de l’étude, Analyse des
correspondances principales et analyse factorielle des correspondances.
Cette dernière peut se généraliser de plusieurs façons au cas où plus de deux
ensembles sont mis en correspondance. Une des généralisations la plus
simple et la plus utilisée est l'analyse des correspondances multiples (On peut
faire remonter le principe de cette méthode à Guttman (1941)) qui permet de
décrire de vastes tableaux binaires , dont les fichiers d'enquêtes socio-
économiques constituent un exemple privilégié : les lignes de ces tableaux
sont en général des individus ou observations (il peut en exister plusieurs
milliers) ; les colonnes sont des modalités de variables nominales, le plus
souvent des modalités de réponses à des questions. Il s'agit en fait d'une
simple extension du domaine d'application de l'analyse des correspondances

Analyse des correspondances multiples


Domaine d’application

L'analyse factorielle des correspondances multiples (AFCM) est une


extension de l'analyse factorielle des correspondances (AFC) appliquée
non plus à un tableau de contingence, mais à un tableau disjonctif
complet.
L'AFCM est une technique statistique utilisée pour traiter l’ensemble
des
variables observées sur une population d’individus, que ces variables
soient qualitatives ou quantitatives, dans ce dernier cas, il suffit de
transformer la variable quantitative en variable qualitative ordinale,
l’intérêt de cette transformation est de Rendre homogènes des données
de nature disparate.
Il est possible de ne prendre en compte dans l’analyse que quelques
variables
considérées actives, les autres étant mis en élément supplémentaire.

Cette méthode est particulièrement adaptée à l'analyse d'enquêtes

Analyse des correspondances multiples


Rappel de la théorie

Transformation apportés sur les données

Tableau Brut

Tableau Disjonctif Complet Tableau Burt Matrice Diagonale

Analyse des correspondances multiples


Rappel de la théorie
Chaque individu est décrit par les numéros des modalités
Tableau Brut des (S) variables auxquelles il appartient. Ces données brutes
se présentent donc sous forme d’un tableau (R ) à (n) lignes
Transformation apportés sur les données

et (S) colonnes. Les éléments de ce tableau sont des codes


arbitraires sur lesquels aucune opération arithmétique n’est licite
( les sommes en ligne et en colonne n’ont pas de sens statistique).
Disjonctif Complet

On construit, à partir du tableau de données (R), le tableau (Z) à (n) lignes


et (p) colonnes décrivant les (S) réponses des (n) individus par un codage
binaire. Le tableau (Z) est la juxtaposition (S) sous-tableaux:
Z = [Z1,Z2 ,….Zq,…,ZS]
Le tableau Z est appelé tableau disjonctif complet dont le terme général
s’écrit :Zij = 1 ou Zij = 0 , Selon que l’enquêté ( i )a choisi la modalité ( j )
de la question (q ) ou non.

. On construit ;à partir du tableau disjonctif complet Z , le tableau


Tableau Burt

symétriqueB d’ordre(p,p)qui rassemble les croisements deux à deux


de toutes les variables B  Z Z Best appelé Tableau de contingence de
Burt associé au tableau disjonctif complet Z Le terme général de p
B s’écrit :b   z z . Les marges sont pour tout j : p b j   b jj  Sz. j
n

jj  ij ij 
i 1

Et l’effectif total b vaut : b  S 2 n j

Analyse des correspondances multiples


Rappel de la théorie
les codes des différentes modalités
Les t r ans f or ma t i on s ur l es donn ées

Variables Modalités Codes


Exemple
oui 1
Disposition d’un organigramme
non 2
1 échelon 1
Nombre d’échelons hiérarchiques 2 échelons 2
On a :
4 entreprises
+de 3échelons 3
et 3 variables à savoir:
1 *Disposition d’un organigramme
En hausse *Nombre d’échelons hiérarchiques
*Évolution des prestations
Évolution des prestations Stable 2

En baisse 3

Analyse des correspondances multiples


Rappel de la théorie
2
Critère d’ajustement et distance du  :

DansR n,la distance entre deux modalités DansR p,la distance entre deux individus

n 2 p
d ( j, j)   n Z ij / Z. j  Z ij / Z.J  
2 2
 
d (i, i )  1 S  n Z. j Z ij  Zi j
  2

i 1 j 1
Propriété des valeurs

Le nombre de valeurs propres non trivialement égales à (0) ou (1) est égal :
S
p  S   p  S
propres

q 1
On retient les valeurs propres qui vérifient la relation suivante1 : 1 S
telle que 1 : la valeur propre et S le nombre de variables actives. Car La moyenne
Des q valeurs propres vaut 1 S .Cette quantité peut jouer dans une certaine mesure
le rôle d’un seuil d’élimination pour les valeurs propres inférieures.

Analyse des correspondances multiples


Rappel de la théorie
Sous-nuage des modalités d’une même variable

Le nuage des modalités dans R npeut être décomposé en S sous-nuages , le q ème


correspondant àl’ensemble des p q modalités de la variable q .ces sous-nuages ont même
centre de gravité G qui est celui du nuage global.
Puisque  z j p q
ij 1
alors la i ème composante du centre de gravité du sous-nuage
vaut :   G ou apparaît que G qine dépend pas de q
d z 1 jj ij
G  
qi i
j p q n d jj n
I ner t i e t o t a l e

pq
p
I   I (Q )   I ( j )  1
Q Q j 1 S
L’inertie totale dépend uniquement du nombre de variables et des modalités et
non des liaisons entre les variables .comme dans l’ACP l’inertie totale dans
le cadre de l’analyse des correspondances multiples n’a pas
$de signification statistique.

Analyse des correspondances multiples


Axes factoriels,facteurs et relations quasi-barycentrique
 1
 F  nS Z
Matrice à diagonaliser S  F Dn1 FD 1

1
Z ZD 1
avec


D p 
1
D
p
S  nS
D  1I
n n

 n

L’équation du  ièmeaxe factoriel est : 1


Z ZD 1u   u
S
DansR p
L’équation du  ième
axe factoriel    D 1u est : 1 1
D Z Z   
S

Dans R n L’équation du  ième axe factoriel   est : 1


ZD 1Z     
S
Re l a t i on s de
t r ans i t i on

  1  D 1Z  

   1 Z
  S  
Les relations de transition entre deux facteurs sont  

Analyse des correspondances multiples


Rappel de la théorie

Relations quasi-barycentrique

La coordonnée factorielle de la modalité i La coordonnée factorielle del’individu i


sur l’axe est donnée par : sur l’axe est donnée par :
1 p zij
n
1 n z ij 1 1 p

 j  z  i c.à.d j 
z. j 
  i  i   j C-à-d  i    j
 i 1 .j
iI ( j )
 j 1 zi. S  j p (i )

Projection d’une modalité au point moyen des Projection d’un individu au point moyen des
individus concernés Modalités choisies

Analyse des correspondances multiples


Rappel de la théorie
Règles d’interprétation

Proximité entre deux modalités Proximité entre deux modalités Proximité entre deux individus
D’une même variable De variable différentes

Par construction, les modalités


d’une même variable s’excluent. Ces modalités correspondent
Si elles sont proches, cette aux points moyens des individus Deux individus se
proximité s’interprète en terme qui les ont choisi et sont proches
parce qu’elles concernent
ressemblent s’ils ont
de ressemblance entre
les groupes d’individus globalement les mêmes choisi globalement
qui les ont choisi individus ou des les mêmes modalités
(vis-à-vis d’autres variables individus semblables
actives de l’analyse).

Analyse des correspondances multiples


Rappel de la théorie
les contributions::la contribution d’une variable au facteur en sommant les
contributions de ses modalités sur ce facteur

2
f i.  n
Cr (i )  i ;
- La contribution de individu i à l’axe 
 Cr (i )  1
i 1

- La contribution de la modalité j à l’axe f . j 2j p


Cr  ( j )  ;  Cr  ( j )  1
 j 1

les cosinus carrés :(par fois appelée relatives au qualité de représentation)

- La qualité de la représentation du point i sur l’axe peut être évalué par les
cosinus 2
2
2 (i )  d (i, G )   i
cos  ;  cos 2 (i )  1
d 2 (i , G ) d 2 (i, G ) 

- La qualité de représentation du point j sur l’axe est donnée par


2 (i , G ) 2
2 d
cos  (i ) 
2

2
i ;  cos 2 (i )  1
d (i , G ) d (i, G ) 

Analyse des correspondances multiples


Application

L’objet de l’analyse

Présentation des données


Les déterminants de la fécondité

Tableau du transformation

Présentation des résultats de l’ACM

L’analyse des valeurs propres

Analyse des axes factoriels

Analyse des graphiques

Interprétation des résultats

Analyse des correspondances multiples


Application
L’objet de l’analyse

l’objet principal de cette analyse est de faire figurer l’ensemble


des principaux déterminants de la fécondité en fonction des
modalités adaptées, dans un espace euclidien de faibles
dimensions.

Présentation des données

. Pour pouvoir observer les variables et les modalités de manière plus claire
on a procédé à la réduction du nombre de variables totales qui était évalué,
selon les données de l’enquête 2002, à 37 variables déterminantes de la
fécondité. On a gardé seulement les variables qui influent le plus sur la
fécondité.
Le tableau des données initiales est constitué de 3911 femmes sur 12
variables dont 8 sont qualitatives et 4 sont quantitatives, après traitement,
33 modalités ont été retenues.

Analyse des correspondances multiples


Application

Tableau du transformation

Analyse des correspondances multiples


Application

Valeur propre et pourcentage d’inertie Valeur proportion cumule


propre
= 0.2743 9.41 9.41

= 0.1511 5.18 14.59

= 0.1329 4.08 19.14


Présentation des résultats de l’ACM

Les trois premiers axes factoriels expliquent


19.4 % de l’inertie totale du nuage de points. Il
s’agit là d’une propriété propre à l’AFCM : les
taux d’inertie sont toujours des mesures très
pessimistes de l’information extraite, car le
codage disjonctif induit une orthogonale
artificielle des colonnes du tableau (La
transformation d’une variable quantitative en
variable qualitative conduit à une certaine perte
d’information, puisqu’on considère comme
équivalents tous les individus situés dans la
même classe).

Analyse des correspondances multiples


Application
Analyse des axes factoriels

λ1= 0.2743 l’axe 1


Coordonnées Coordonnées
positives négatives λ3 = 0.1329 l’axe 3
Coordonnées Coordonnées
SCO.ana (10.38) NBE.1 (6.24)
positives négatives
JOU.ncon(10.25 DUM.1 (5.64)
Présentation des résultats de l’ACM

AGM.1 (5.50) SCO.sec (5.31) DUM.3 (4.54) DUM.1 (9.83)


NBE.3 (4.38) NBE.2 (4.32) SCO.sup (7.14)
DUM.4 (4.99) TEL.4 (4.37) EMP.tra (10.93)
JOU.1 (7.95)
STE.oui (7.92)
NBE.1 (6.10)
λ2=0.1511 L’axe 2 STR.URB(4.51)
Coordonnées Coordonnées
positives négatives
EMP.tra (8.21) NBE.2 (11.16)
NBE.4 (4.70) SCO.pri (5.44)
PIL.non (5.63) DUM.3 (4.58)
SCO.sup (8.81)
DUM.1 (4.92)

Analyse des correspondances multiples


Application
Présentation des résultats de l’ACM

Analyse des correspondances multiples


Application
Facteurs

Analyse des correspondances multiples


Application
P l an ( 1, 2 )

Analyse des correspondances multiples


Application
P l an ( 1, 3 )

Analyse des correspondances multiples


Conclusion

L’analyse factorielle des correspondances multiples est considérée


comme étant la méthode la plus féconde de l’analyse des données,
elle permet la représentation de l’information contenue dans un grand
tableau sur un plan factoriel de faible dimension.
Cependant, on lui reproche deux points :
-Rechercher des correspondances selon deux axes pour des variables
à plusieurs modalités peut apporter un biais.
-Elle est pessimiste par rapport aux pourcentages expliqués par les
axes principaux.
L’AFCM est une méthode essentiellement descriptive, il faut la
considérer comme une étape de l’analyse qui peut être complétée par
une classification.

Analyse des correspondances multiples

Vous aimerez peut-être aussi