Vous êtes sur la page 1sur 50

Analyse des données

L’analyse factorielle en composantes (AFC)

Pr : RAZZOUK REDOUANE
Informatique et Gestion d’entreprise
Semestre 4
Année universitaire 2011-2012
Plan
Introduction à la Méthode de l’AFC
Objectifs AFC
Principe de la méthode
Exemples de l’AFC
Conclusion
Introduction à la Méthode de l’AFC
 L’analyse factorielle exploratoire: Analyse factorielle
conduite dans le but de découvrir quelles sont les
variables latentes (facteurs) sous-jacentes à un
ensemble de variables ou de mesures.

 Cette technique est généralement mise en contraste


avec l’analyse factorielle confirmatoire qui permet de
tester formellement des théories et de mettre à
l’épreuve des hypothèses concernant les facteurs
anticipés. (Vogt, 1993, page 87).
Objectifs:
• L’analyse factorielle en composantes principales a
surtout trois objectifs:
• 1. étudier les interrelations entre un assez grand
nombre de variables;
• 2. à partir de cette étude, regrouper ces variables dans
des groupes limités appelés facteurs ou composantes ;
• 3. établir entre ces groupes de variables une hiérarchie
basée essentiellement sur la valeur explicative de
chacun d’eux (il est à noter que la méthode permet
aussi d’établir une hiérarchie des variables dans
chacune des composantes).
Grosso modo, l’analyse factorielle considère
quatre types de relations :

1. les relations des variables entre elles ;


2. les relations des variables aux facteurs ;
3. les relations entre les variables d’un même
facteur ;
4. les relations entre les différents facteurs.
Principe de la méthode
• Le postulat fondamental à la base de l’analyse
factorielle est le suivant: si des variables sont
corrélées les unes avec les autres dans nos
données, c’est parce qu’elles subissent l’influence
de certains facteurs qui leur sont communs.

• L’analyse a pour objectif de mettre en évidence ces


facteurs communs , qui ne sont malheureusement
pas directement observables, mais qui pourront être
estimés.
X i k = valeur de la variable k pour
Concepts de base l’observation i

Tableau quantitatif I = nombre d’observations


1 k K
K= nombre de variables
1 !

! OBJECTIF DE L’AFC

!
lignes : ressemblances
i - - - - - -Xik - - - - -
similarité et typologie
!

!
colonnes : liens
corrélation et typologie
I !
Calcul des distances dans l’AFC
Pour les observations
mesurer la ressemblance entre deux observations
d 2 (i , l )   ( xik  xlk ) 2
kK

Pour les variables


mesurer les liens entre les variables

1 xik  xk xih  xh
r (k , h)  ( )( )
I iI sk sh
variables Analyse des lignes (observations)
1 k K
NI
1 !

! i
x x
x
observations

x Variable k
xik  xk x G
i ( )
sk x

! xik  xk
( )
sk
I !

dans RK la corrélation = distance euclidienne


Le test du khi-deux d’indépendance
H0 : Les variables X et Y sont indépendantes
H1 : Les variables X et Y sont liées entre elles
k ij  Effectif observé
k i.k . j
 Effectif attendu sous l'hypothèse d'indépendance
k
k i.k . j
k ij 
k  Résidu standardisé (moyenne 0, écart-type 1)
k i.k . j
k
k i.k . j
n p (k ij  )2
2  
i 1 j1
k
k i.k . j
k
On rejette H0 au risque  de se tromper si
2  1-2[(n-1)(p-1)]
y= ch i2 (x;1 2 )
0 ,1 0

0 ,0 8

0 ,0 6

5%
95% 0 ,0 4

0 ,0 2

0 ,0 0
0 5 10 15 20 25 30

H0 retenue H0 rejetée ; H1 retenue


18,307
Décision :
On rejette H0 au risque  de se tromper si
2  1-2[(n-1)(p-1)]

 Obs
2
  Crit
2

: on conclut donc sur H1

Les deux variables étudiées dépendent l’une de l’autre


Analyse factorielle en Composantes
Principales
tableau des profils-lignes
Y F1 F2
1  j  p
1
  fJi
X i  kij/ki.  F1(i) F2(i) 
 
n

 k.j/k  fJ
Les composantes
fJ est le centre de gravité du nuage de principales
points pondérés {fJi, fi.}.
tableau des profils-lignes

Chaque ligne i a un poids fi.


Distance du 2 entre les lignes i :

1 k ij k i ' j 2
p
d (f , f )   ( 
2 i
J
i'
J )
j1 f. j k i. k i '.
Inertie totale : mesure la dispersion des profils-lignes
par rapport au centre de gravité
n
 2


i 1
f i.d (f J , f J ) 
2 i

k
Tableau de contingence : répartition
d’étudiants en 1975-1976
Droit Sciences Médecine IUT
Exp. agri. 80 99 65 58

Patron 168 137 208 62

Cadre sup. 470 400 876 79

Employé 145 133 135 54

Ouvrier 166 193 127 129

Cité par Saporta (1990)


Test du khi-2
Hypothèses du test :
H0 : Les variables X et Y sont indépendantes
H1 : Les variables X et Y sont dépendantes

Droit Sciences Médecine IUT

Exp. agri. 80 99 65 58

Patron 168 137 208 62


Effectifs observés O
Cadre sup. 470 400 876 79

Employé 145 133 135 54

Ouvrier 166 193 127 129


Droit Scienc Médecin IUT Total
es e

Exp. agri. 80 99 65 58 302


Patron 168 137 208 62 575
Cadre 470 400 876 79 1825 Effectifs observés O
sup.
Employé 145 133 135 54 467
Ouvrier 166 193 127 129 615
Total 1029 962 1411 382 3784

Droit Sciences Médecine IUT


Effectifs théoriques Tij
Exp. agri. 82,12 76,78 112,61 30,49
Total ligne i  Total colonne j
Patron 156,36 146,18 214,41 58,05 Tij 
Cadre sup. 496,28 463,97 680,52 184,24
Total Général
Employé 126,99 118,72 174,14 47,14 302  1029
Ouvrier 167,24 156,35 229,32 62,09
Exemple : 82,12 
3784
Contributions au khi-2

Droit Sciences Médecine IUT

Contributions au khi-2 :
Exp. agri. 0,05 6,43 20,13 24,83
(O - T)2/T
Patron 0,87 0,58 0,19 0,27

Cadre sup. 1,39 8,82 56,15 60,11

Employé 2,55 1,72 8,80 1,00 (Oij  Tij ) 2


Ouvrier 0,01 8,59 45,66 72,12 Ctrij  ;
Tij
Calcul du khi-2

 Obs
2
  Ctrij  0,05  ...  72,12  320,2
i, j
Nombre de degrés de liberté :
ddl  Nb Modalités lignes - 1Nb Modalités colonnes - 1  12
Droit Science Médecin IUT
s e

Exp. agri. 82,12 76,78 112,61 30,49


Patron 156,3 146,18 214,41 58,05 Effectifs théoriques T
6
Cadre 496,2 463,97 680,52 184,2
sup. 8 4
Employé 126,9 118,72 174,14 47,14
9
Ouvrier 167,2Droit 156,35
Science 229,32
Médecin62,09
IUT
4 s e

Exp. agri. -2,12 22,22 -47,61 27,51


Ecarts à l'indépendance : E = O - T
Patron 11,64 -9,18 -6,41 3,95
Cadre sup. - -63,97 195,48 -
26,28 105,24
Employé 18,01 14,28 -39,14 6,86
Ouvrier -1,24 36,65 -102,32 66,91
Droit Science Médecin IUT
s e

Exp. agri. -2,12 22,22 -47,61 27,51


Patron 11,64 -9,18 -6,41 3,95 Ecarts à l'indépendance : E = O - T
Cadre - -63,97 195,48 -
sup. 26,28 105,24
Employé 18,01 14,28 -39,14 6,86
Ouvrier -1,24 36,65 -102,32 66,91

Droit Sciences Médecine IUT Taux de liaison : (O - T)/T : valeurs


dans l’intervalle [-1, +
Exp. agri. -0,03 0,29 -0,42 0,90
-0,42 : l’effectif observé est inférieur
Patron 0,07 -0,06 -0,03 0,07 de 42% à l’effectif théorique
Cadre -0,05 -0,14 0,29 -0,57
sup. 1,08 : l’effectif observé est supérieur
Employé 0,14 0,12 -0,22 0,15 de 108% à l’effectif théorique
Ouvrier -0,01 0,23 -0,45 1,08
Tableau de contingence : répartition
d’étudiants en 1975-1976
Droit Sciences Médecine IUT
Exp. agri. 80 99 65 58

Patron 168 137 208 62

Cadre sup. 470 400 876 79

Employé 145 133 135 54

Ouvrier 166 193 127 129

Cité par Saporta (1990)


Droit Sciences Médecine IUT Total

Exp. agri. 80 99 65 58 302

Patron 168 137 208 62 575

Cadre sup. 470 400 876 79 1825

Employé 145 133 135 54 467

Ouvrier 166 193 127 129 615

Total 1029 962 1411 382 3784

 nous remarquons que les étudiants issue des familles des cadres
supérieurs sont inscrits en différents options de façons significative
et en particulier en option Médecine.
 L’option IUT se caractérise par nombre faible des étudiants inscrits
Statistiques descriptives

Moyenne Ecart type

DROIT 205,8000 151,9349

SCIENCES 192,4000 120,8503

MEDECINE 282,2000 335,7956

IUT 76,4000 30,9079


Matrice de corrélation
DROIT SCIENCE MEDECIN IUT
Corrélation
DROIT 1,000 ,984 ,990 ,150
SCIENCES ,984 1,000 ,963 ,296
MEDECINE ,990 ,963 1,000 ,042
IUT ,150 ,296 ,042 1,000
a Déterminant = 4,576E-05

 La matrice de corrélation montre que toutes les variables sont


corrélés positivement.
 La matrice de corrélation confirme que l’option droit est
fortement corrélée avec l’option des Sciences et de la Médecine
et il est faiblement corrélée par rapport à l’option IUT.
Indice de proximité

On peut mesurer la proximité entre chaque variable et l’ensemble


de toutes les autres variables , en utilisant la corrélation carrées .

Par exemple :
L’importance de la variable Droit est calculé en faisant la moyenne de
toutes les corrélations de l’ensemble des variables .

12  0,9842  0,992  0,152  0,74


4
La proximité de la variable Droit à l’ensemble de toutes les variables est
égale à 0,74.
Résultat de test de KMO et test de Bartlett
 Mesure de précision de l'échantillonnage de Kaiser-Meyer-
Olkin.
,581

 Test de sphéricité de Bartlett

Khi-deux approché 18,319


ddl 6
Signification ,005

Le résultat du test de Kaiser-Meyer-Olkin montre que la solution de


l’analyse factorielle ce caractérise par la faiblesse de taux de validité,
cependant le test de sphéricité de Bartlett nous permet de rejeter
l’hypothèse nulle.
Variance expliquée totale

Valeurs propres initiales

Facteur Total % de % cumulés Chi²


la variance
1 2,998 74,957 74,957 311,78
2 ,994 24,845 99,801 6,45
3 4,620E-0 ,116 99,917 2,04
4 3,324E 8,310 100,000
Méthode d'extraction : Factorisation en axes principaux.

Dans le tableau ci-dessus, le facteur 1 contribué pour 74,957 % de la


variance totale, ce qui semble nous permettre d’extraire seulement un
seul facteur.
On y constate que la
pente change
radicalement avec la
composante C3.

Selon le critère de Cattell


on devrait donc se limiter
à l’extraction des deux
premières facteurs.
Matrice factorielle
Facteurs

1 2
DROIT ,994 -8,721E-02
SCIENCES ,997 7,029E-02
MEDECINE ,979 -,201
IUT ,232 ,920

Méthode d'extraction : Factorisation en axes principaux.


a 2 facteurs extraits. 3 itérations requises.
Corrélations reproduites

DROIT SCIENCES MEDECINE IUT


DROIT ,995 ,984 ,991 ,150
SCIENCES ,984 ,999 ,962 ,296
MEDECINE ,991 ,962 1,000 4,218E-02
IUT ,150 ,296 4,218E-02 ,900

Méthode d'extraction : Factorisation en axes principaux.

a Les résidus sont calculés entre la corrélation observée et la corrélation


reproduite. Il existe 0 (,0%) résidus non redondants ayant des valeurs
absolues > 0,05.
Qualité de représentation

Initial Extraction
DROIT ,994 ,995
SCIENCES ,994 ,999
MEDECINE ,995 1,000
IUT ,900 ,900

Méthode d'extraction : Factorisation en axes principaux.


Consommations annuelles de 8 types de denrées
alimentaires pour 8 catégories socio-professionnelles
PAO PAA VIO VIA POT LEC RAI PLP

AGRI 167 1 163 3 41 8 6 6

SAAG 162 2 141 12 40 12 4 15

PRIN 119 6 69 56 39 5 13 41

CSUP 87 11 63 111 27 3 18 39

CMOY 103 5 68 77 32 4 11 30

EMPL 111 4 72 66 34 6 10 28

OUVR 130 3 76 52 43 7 7 16

INAC 138 7 117 74 53 8 12 20


Variables : Observations :

PAO Pain ordinaire AGRI Exploitants agricoles


PAA Autre pain SAAG Salariés agricoles
VIO Vin ordinaire PRIN Professions indépendantes
VIA Autre vin CSUP Cadres supérieurs
POT Pommes de terre CMOY Cadres moyens
LEC Légumes secs EMPL Employés
RAI Raisin de table OUVR Ouvriers
PLP Plats préparés INAC Inactifs
Statistiques descriptives

Moyenne Ecart-type n analyse

AGRI 49,3750 72,4883 8


SAAG 48,5000 64,8515 8
PRINT 43,5000 38,4559 8
CSUP 44,8750 38,6428 8
Cmoyen 41,2500 37,1012 8
EMP 28,8750 26,9467 8
OUV 41,7500 44,1548 8
INAC 53,6250 51,6442 8
Matrice de corrélation

AGRI SAAG PRINT CSUP CMOYEN EMP OUV INAC

AGRI 1,000 ,996 ,824 ,453 ,734 ,295 ,880 ,900


SAAG ,996 1,000 ,865 ,496 ,773 ,280 ,912 ,918
PRINT ,824 ,865 1,000 ,795 ,959 ,356 ,974 ,942
CSUP ,453 ,496 ,795 1,000 ,925 ,645 ,741 ,778
CMOYEN ,734 ,773 ,959 ,925 1,000 ,524 ,938 ,944
EMP ,295 ,280 ,356 ,645 ,524 1,00 ,327 ,513
OUV ,880 ,912 ,974 ,741 ,938 ,327 1,00 ,973
INAC ,900 ,918 ,942 ,778 ,944 ,513 ,973 1,000
Déterminant = ,000
b Cette matrice n'est pas définie positive.
Qualité de représentation

Initial Extraction

AGRI 1,000 ,916


SAAG 1,000 ,954
PRINT 1,000 ,942
CSUP 1,000 ,907
CMOYEN 1,000 ,961
EMP 1,000 ,801
OUV 1,000 ,976
INAC 1,000 ,989
Méthode d'extraction : Analyse des principaux composants.
Variance expliquée totale

Composante Total % de la variance % cumulés

1 6,321 79,014 79,014

2 1,123 14,043 93,057

3 ,497 6,219 99,275

4 3,223E-02 ,403 99,678

5 2,460E-02 ,307 99,986

6 1,072E-03 1,340E-02 99,999

7 6,444E-05 8,055E-04 100,000

8 4,907E-17 6,133E-16 100,000

Méthode d'extraction : Analyse des principaux composants.


Matrice des composantes
Composante
1 2
AGRI ,879 -,377
SAAG ,903 -,372
PRINT ,967 -8,061E-02

CSUP ,814 ,493


CMOYEN ,967 ,161
EMP ,511 ,735
OUV ,974 -,163
INAC ,994 -2,771E-02

Méthode d'extraction : Analyse en composantes


principales.
a 2 composantes extraites.
Le test du coude de Cattell
Les étapes de l’analyse factorielle en composantes

1. la recherche des variables similaires ; celles-ci doivent faire partie


d’un même ensemble : mesure de la satisfaction, de l’intérêt, etc. ;
2. la matrice des corrélations entre les variables choisies ;
3. la diagonalisation de la matrice D1, D2, … Dn ;
4. la rotation, qui désigne les facteurs les plus importants selon leur
degré d’inertie (de variance expliquée) ;
5. la définition « littéraire » des facteurs ;
6. la lecture des tests les plus importants ;
7. l’interprétation des résultats au plan des décisions et de l’action.
Références de base
• Fenneteau H. et Biales C.(1993)« Analyse
statistique des données » Edition ellpses
• Giard V. (1992), Statistique appliquée à la
gestion, Editions Economica.
Kerr A. W., Hall H. K., Kozub S. A., (2002),
Doing Statistics with SPSS, Sage
Publications.
Lebart L., Morineau A., Piron M. (1997),
Statistique exploratoire multidimensionnelle,
Editions Dunod.
Merci pour votre aimable
attention

Vous aimerez peut-être aussi