Vous êtes sur la page 1sur 42

STT-7620 ANALYSE FACTORIELLE EXPLORATOIRE

VARIABLES LATENTES

En statistique sociale, des composantes importantes d’un modèle peuvent ne pas être
observées directement. La définition même de ces variables pose problème. Elles sont
souvent des construits théoriques qui ne sont pas mesurables directement et dont
l’« existence » est postulée à partir d’un raisonnement abstrait propre au domaine
d’applications. On les observe de façon indirecte en notant leur influence sur des
variables mesurées, telles des tests d’aptitude ou des réponses à un questionnaire.

Comment mesure-t-on l’attitude d’une personne face à un enjeu social? Comment définir
le milieu socio-économique d’un étudiant? On évalue ces variables non-observables à
l’aide de questions indirectes. Ainsi l’« intelligence » d’un sujet est mesurée à l’aide de
tests d’aptitude. La « détresse psychologique » d’une personne atteinte d’une maladie
grave est déduite de son attitude face à des activités quotidiennes. La formulation de
questions pour mesurer un concept latent est un art en soi. Les variables latentes sont
également utilisées en dehors des sciences sociales, pour combiner des variables et
mesurer des relations de « causes à effets » dans différents domaines scientifiques.

-1-
En analyse factorielle exploratoire, les données sont des réponses à un ensemble de
questions par un échantillon d’unités. Il y a souvent beaucoup de questions; l’objectif de
l’analyse est d’identifier un petit nombre de variables latentes sous jacentes aux réponses
à ces questions et d’interpréter ces construits, de leur donner un sens. Le mot
exploratoire signifie que (i) les construits latents ne sont pas déterminés a priori et (ii) au
départ les variables observées ne sont pas associées à un construit latent. Lorsque le
questionnaire est construit dans le but de mesurer des construits latents prédéfinis, ajuster
un modèle d’analyse factorielle exploratoire fait une validation empirique du
questionnaire. La construction postule un certain regroupement des questions; ces liens
hypothétiques sont-ils conformes à ceux observés lors de l’analyse statistique?

Un des objectifs de l’analyse est également d’interpréter les construits et de leur donner
un sens à partir des variables qui y sont le plus étroitement associées.

La théorie psychométrique suppose souvent que ces facteurs latents non observables
« existent » vraiment et qu’ils sont les « causes » des valeurs prises par les variables
mesurées. Les statisticiens sont souvent sceptiques face à cette profession de foi envers
des variables non-observables.

-2-
Données : Une matrice nxd contenant les réponses numériques de n sujets à d questions
associées au phénomène étudié.

Exemple : Les données portent sur n=103 officiers de police qui ont été évalués par leurs
superviseurs selon d=13 critères (scores entre 1 et 9 moyennes de 6-7, +=positif).
Les 13 variables sont
1. CommunicationSkills 2. InterpersonalSensitivity
3. ProblemSolving 4. DesireforSelfImprovement
5. LearningAbility 6. Appearance
7. JudgmentUnderPressure 8. Dependability
9. ObservationalSkills 10. PhysicalAbility
11. WillingnesstoConfrontProblems 12. Integrity
13. InterestinPeople

Les 8 premières lignes du fichier de données sont


CommSk ProbSol LearnAbi JudgmentP ObserSk WillConProb IntPeop InterPersoSe DesiSelfIm Appear Depend PhysAbil Inegrety
2 6 8 3 8 8 5 3 8 7 9 8 6
7 4 7 5 8 8 7 6 8 5 7 6 6
5 6 7 5 7 8 6 3 7 7 5 8 7
6 7 8 6 9 7 7 7 9 8 8 9 9
9 9 9 9 7 7 9 8 8 7 8 8 8
8 9 8 9 7 8 9 9 8 8 8 7 9
8 9 9 9 9 8 8 9 8 9 9 7 9

-3-
Évaluation des policiers

Ces 13 questions mesurent différentes facettes de l’attitude du policier dans son emploi.
Certaines portent sur les relations interpersonnelles ; d’autres sur l’attitude personnelle du
policier. Combien de facteurs sont nécessaires pour bien décrire ces 13 questions.

Les corrélations entre les variables données à la page suivante sont toutes positives. Ceci
suggère un effet « taille », fréquent dans ce genre de données. Un modèle avec un seul
facteur « attitude » pourrait peut-être expliquer l’ensemble des résultats. La variable
latente mesurerait l’attitude du policier face à son travail et un score élevé serait associé à
des scores élevés pour les 13 questions.

La première étape de l’analyse de ce modèle est de déterminer le nombre de facteurs


nécessaires pour bien décrire les corrélations calculées entre les 13 items. Pour ce faire il
faut en présenter les aspects un peu plus formels.

Notation : yi est le vecteur dx1 des réponses pour le policier i, i=1,..,n. On suppose que
les yi forment un échantillon d’une Nd(). Le paramètre d’intérêt est la matrice de
variances covariances théoriques .

-4-
Matrice de corrélations pour les données sur les policiers
Will
Prob Learn Judgment Obser Con
CommSk Sol Abi P Sk Prob
CommSk 1.0000 0.6280 0.5546 0.5538 0.5381 0.5265
ProbSol 0.6280 1.0000 0.5690 0.6195 0.4284 0.5015
LearnAbi 0.5546 0.5690 1.0000 0.4892 0.6230 0.5245
JudgmentP 0.5538 0.6195 0.4892 1.0000 0.3733 0.4004
ObserSk 0.5381 0.4284 0.6230 0.3733 1.0000 0.7300
WillConProb 0.5265 0.5015 0.5245 0.4004 0.7300 1.0000
IntPeop 0.4391 0.3972 0.2735 0.6226 0.2616 0.2233
InterPersoSe 0.5030 0.4398 0.1855 0.6134 0.1655 0.1291
DesiSelfIm 0.5642 0.4090 0.5737 0.4826 0.5985 0.5307
Appear 0.4913 0.3873 0.3988 0.2266 0.4177 0.4825
Depend 0.5471 0.4546 0.5110 0.5471 0.5626 0.4870
PhysAbil 0.2192 0.3201 0.2269 0.3476 0.4274 0.4872
Inegrety 0.5081 0.3846 0.3142 0.5883 0.3906 0.3260

Int Perso Desi Phys


Peop Se SelfIm Appear Depend Abil Inegrety
CommSk 0.4391 0.5030 0.5642 0.4913 0.5471 0.2192 0.5081
ProbSol 0.3972 0.4398 0.4090 0.3873 0.4546 0.3201 0.3846
LearnAbi 0.2735 0.1855 0.5737 0.3988 0.5110 0.2269 0.3142
JudgmentP 0.6226 0.6134 0.4826 0.2266 0.5471 0.3476 0.5883
ObserSk 0.2616 0.1655 0.5985 0.4177 0.5626 0.4274 0.3906
WillConProb 0.2233 0.1291 0.5307 0.4825 0.4870 0.4872 0.3260
IntPeop 1.0000 0.8051 0.4857 0.2679 0.6074 0.3768 0.7452
InterPersoSe 0.8051 1.0000 0.3713 0.2600 0.5408 0.2182 0.6920
DesiSelfIm 0.4857 0.3713 1.0000 0.4474 0.5981 0.3752 0.5664
Appear 0.2679 0.2600 0.4474 1.0000 0.5089 0.3820 0.4135
Depend 0.6074 0.5408 0.5981 0.5089 1.0000 0.4461 0.6536
PhysAbil 0.3768 0.2182 0.3752 0.3820 0.4461 1.0000 0.3810
Inegrety 0.7452 0.6920 0.5664 0.4135 0.6536 0.3810 1.0000
Note : Un modèle factoriel décrit la relation entre les variables. On ajuste un tel modèle
seulement si les variables mesurées sont corrélées entre elles.

-5-
Modèle avec une seule variable latente.

Un facteur latent continu z détermine les réponses aux d questions. Ainsi


yj=jjz+j, pour j=1,…,d
où j est le paramètre de la régression de yj sur z (c’est le loading) et j est une erreur de
mesure distribuée selon une loi N(0,j). Sous forme matricielle,
 y1   1   1   1 
 y        
 2    2  2 z  2 
 ...   ...   ...   ... 
 y         
 d  d  d  d
En analyse factorielle classique, on suppose que z suit une distribution N(0,1) et que les
erreurs j sont indépendantes de loi N(0,i) . Ainsi,
y  N d (  ,  '  ) ,
où   R d est un vecteur de paramètres inconnus et   diag( j ) est une matrice
diagonale de variances inconnues. Ce modèle postule une forme particulière pour la
matrice de variances covariances des données,
( ,  )     '

-6-
Modèle avec une seule variable latente.
 1  12 12 13 14 
 
     2
   
Si d=4,   ( ,  )     '   2 1 2 2 2 3 2 4 
 31 32  3  32 34 
 2

 4 1   
4 2  
4 3  4  4 
Le modèle
yj=jjz+j, pour j=1,…,d
est semblable à une régression linéaire simple sauf que la variable « explicative » z n’est
pas observée.

Comme en régression linéaire on décompose la variance  2j de yj en deux parties : d’une


part  j2 la variance expliquée par la variable latente (la « communality ») et  j la
variance résiduelle (la « specific variance » ou « unique variance »). On peut définir un
R2 pour la jième variable par R 2j   j2 /  2j . Un modèle est bon dans la mesure où les R2
pour les d variables sont assez grands.
Nb de paramètres : Ce modèle a d variance  j et d composante au vecteur  soient 2d
paramètres. En général, d(d+1)/2 paramètres sont associés à une matrice de variances
covariances quelconque.

-7-
Modèle avec une seule variable latente.
La matrice de corrélation associée à  est,
 12 13 14 
 1 
 ( 2  22 )( 1  12 ) ( 3  32 )( 1  12 ) ( 4  42 )( 1  12 ) 
 21 23 24 
 1 
 ( 1  1 )( 2  2 ) ( 3  32 )( 2  22 ) ( 4  42 )( 2  22 ) 
2 2

 
31 32 34
 1 
 ( 1  12 )( 3  32 ) ( 2   )( 3   )
2
2
2
3 ( 4  4 )( 3  3 ) 
2 2

 
 41 42 43 
1
 (   2 )(   2 ) ( 2  22 )( 4  42 ) ( 3  32 )( 4  42 ) 
 1 1 4 4 
 1 1s 2s 1s 3s 1s 4s 
 s s s s
  1  
s s
 4 
En fait si  j   j /  j ,
s 2
 s s2 1 2 3 2
.
 3 1 3 2
s s
1 3 4 
s s

 s s 

 4 1  
s s
4 2  
s s
4 3 1 
Le loading standardisé  js donne la corrélation entre la jième variable et la variable
latente. Il indique l’importance de la variable j dans la définition de la variable latente.

-8-
Estimation des paramètres : Il n’y pas de formes explicites pour les estimateurs du
maximum de vraisemblance des paramètres j et j. Pour les calculer on utilise souvent
un algorithme itératif qui cherche à maximiser la log-vraisemblance des données,

n 1
(  ,  ) 
2
log | S |  log | ( ,  ) |  tr( S ( ,  ) 1 )  d 

où S est la matrice de variances covariances empiriques. Lors des itérations successives,


il est possible d’obtenir des ˆ i négatifs. Ce phénomène est connu comme un « Haywood
case », du nom du premier statisticien à observer ce problème en 1931.

Tests d’ajustement : Si le modèle à un facteur s’ajuste bien la statistique


 obs
2
 ˆ , ˆ ) |  tr( S ( 
 ( n  1) log | S |  log | (  ˆ , ˆ ) 1 )  d 
suit une loi chi-deux à d(d-3)/2 degrés de liberté si d>3. Le seuil observé d’un test pour
l’ajustement du modèle est P  d2( d 3)/2   obs
2
. On peut augmenter le nombre de facteurs
si le seuil observé est trop petit. Note : d(d-3)/2=nb de variables dans S (d(d+1)/2) moins
le nombre de paramètres du modèle (2d).

-9-
Analyse du modèle à un facteur (sortie PRELIS)
Les données sont-elles normales?

Univariate Summary Statistics for Continuous Variables


Variable Mean St. Dev. Skewness Kurtosis Minimum Freq. Maximum Freq.
CommSk 6.650 1.764 -0.927 0.874 1.000 1 9.000 14
ProbSol 6.631 1.590 -0.759 0.858 1.000 1 9.000 11
LearnAbi 6.990 1.339 -0.831 1.352 2.000 1 9.000 11
Judgment 6.738 1.732 -0.879 0.206 2.000 2 9.000 12
ObserSk 6.932 1.762 -1.047 0.975 1.000 1 9.000 19
WillConP 7.291 1.525 -1.251 1.602 2.000 1 9.000 21
IntPeop 6.709 1.892 -1.296 1.652 1.000 4 9.000 13
InterPer 6.621 1.761 -0.942 1.036 1.000 2 9.000 12
DesiSelf 6.573 1.730 -0.890 0.439 1.000 1 9.000 8
Appear 7.000 1.799 -1.041 1.088 1.000 2 9.000 24
Depend 6.825 1.917 -0.972 0.530 1.000 2 9.000 20
PhysAbil 7.204 1.555 -1.352 2.654 1.000 1 9.000 20
Inegrety 7.214 1.845 -1.648 3.196 1.000 4 9.000 27

- 10 -
Les coefficients d’asymétrie sont négatifs. Regardons les histogrammes de quelques
variables pour comprendre ce qui se passe
variable: Inegrety
FREQUENCY PERCENTA LOWER CLASS
GE LIMIT
4 3.9 1.000
0 0.0 1.800
1 1.0 2.600
3 2.9 3.400
4 3.9 4.200
0 0.0 5.000
14 13.6 5.800
23 22.3 6.600
27 26.2 7.400
27 26.2 8.200
variable: InterPer

FREQUENC PERCENTA LOWER CLASS


Y GE LIMIT
2 1.9 1.000
1 1.0 1.800
4 3.9 2.600
2 1.9 3.400
0 0.0 4.200
14 13.6 5.000
22 21.4 5.800
20 19.4 6.600
26 25.2 7.400
12 11.7 8.200

- 11 -
Analyse du modèle à un facteur (sortie SAS, PROC FACTOR)
(Dans les analyses qui suivent la transformation des données ne change pas vraiment les
résultats)
proc factor data=jobratings;
method=ML n=1;run;
Convergence criterion satisfied.
Significance Tests Based on 103 Observations
Pr >
Test DF Chi-Square ChiSq

H0: No common factors 78 852.5129 <.0001


HA: At least one common factor
H0: 1 Factor is sufficient 65 291.1636 <.0001
HA: More factors are needed

Chi-Square without Bartlett's Correction 308.82516

 On a d=13 variables il y donc 13x14/2=91 degrés de liberté pour estimer 


 On ajuste d’abord un modèle avec aucun facteur, qui suppose l’indépendance entre
les 13 variables. Il y a 91-13=78 degrés de liberté pour la statistique chi-deux du

- 12 -
modèle d’indépendance. Cette statistique est très grande ; l’hypothèse
d’indépendance entre les 13 variables est rejetée.
 Pour le modèle à un facteur on a d(d-3)/2=65 degrés de liberté et la statistique du
chi-deux est très grande. Ceci indique un mauvais ajustement.
 En fait la vraie statistique du chi-deux est 308.83. SAS incorpore dans son test
d’ajustement la correction de Bartlett qui améliore la qualité de l’approximation chi-
deux comme distribution de la statistique du test.
2d  11 2 2  13  11 2
C  1   1   .934
6n 3n 6  103 3  103
Cette correction n’apparaît pas dans les statistiques du chi-deux pour les modèles plus
complexes d’équations structurelles qu’on va rencontrer plus loin.
 Pour juger du mauvais ajustement du modèle à un facteur, on utilise souvent
 obs
2
/ dl  308.83 / 65  4.75 . Une valeur voisine de 1 est associée à un bon
ajustement.

- 13 -
ASPECTS NUMERIQUES
Lorsque l’on ajuste des modèles statistiques standards (régression linéaire, analyse
discriminante, régression logistique, modèle linéaire mixte) les problèmes numériques
sont rares.

En analyse factorielle et en équations structurelles, il peut arriver que la matrice de


variance covariance n’ait pas une forme compatible avec le modèle postulé. Par exemple
'
 2 1 2 11 1 0 0 
  1 2 2  11  0 1 0 
      
 2 2 3   2   2   0 0 1 
      
est une matrice de variance covariance (elle est définie positive) qui est incompatible
avec un modèle à un facteur, car le paramètre 3=-1 est négatif. Si on essaie d’ajuster un
modèle à un facteur à des données provenant d’une N3(), on risque d’obtenir une
estimation de 3 négative, ce qui est impossible pour une variance. Il s’agit d’un
« Haywood case », du nom du statisticien qui a mis ce phénomène en lumière.

Dans des modèles d’équations structurelles complexes, lorsque la vraie matrice  est
incompatible avec le modèle postulé, l’algorithme de maximisation de la vraisemblance
risque de ne pas converger. Les problèmes numériques sont très fréquents !

- 14 -
Modèle à m<d facteurs.

Dans un modèle factoriel général, à m facteurs, on a y    f  ε où est la matrice


dxm des loadings, f  N m (0, I ) est le vecteur des facteurs et ε  N d (0,  ) est le vecteur
des erreurs. Sous forme matricielle,
 y1   1   11 ... 1m   1 
 y     ...   1   
f
2m  
 2    2    21 ...    2 
 ...   ...   ... ... ...     ... 
 y      ...    fm    
 d   d   d1 dm   d
On suppose que f et  sont indépendants. C’est un modèle semblable à un modèle de
régression multiple, sauf que les variables explicatives ne sont pas observées. Dans ce
cas,
y  N d (  ,  T   ) .

m m m
En fait, y j    ji f i   j . Ainsi Var( y j )      ji   j et Cov( y j , yk )    ji ki .
2
j
2

i 1 i 1 i 1
m
On appelle souvent hi    2ji la « communality » et i la « specific variance ».
i 1

- 15 -
Modèle à m<d facteurs.
Pour interpréter les résultats, on travaille surtout avec la matrice de corrélation. Cette
 m 2 
matrice a aussi la forme  (  )   avec   diag  j /    ji   j   et
s s T s s

  i 1 
 m m 
 11 /  1i   1 ... 1m /  1i   1 
2 2

 i 1 i 1 
 11s ... 1sm   
 s s 
m m
 ... 2 m   21 /   2 i   2 ... 2 m /   2 i   2 
2 2
 s   21  i 1 i 1 
 ... ... ...   
 s  ... ... ...
 d 1 ... dm   
s

 m m 
 d 1 /   di   d ... dm /   di   d 
2 2

 i 1 i 1 
En fait 1  sj est égal au R2 de la régression de yj sur les variables latentes. C’est un bon
indicateur de la contribution de cette variable au modèle. Les loadings standardisés  jis
sont indépendants des unités de mesures des d variables. De plus  jis est la corrélation
entre la jième variable observée et la ième variable latente.

- 16 -
ROTATION DES FACTEURS
Note : Les facteurs ne sont pas définis de façon unique. En effet, pour toute matrice de
rotation R mxm, on a
 y1   1   11 ... 1m   1 
 y       1  
f
...  
 2    2    21 2m 
RR T  ...    2  ,
 ...   ...   ... ... ...     ... 
f 
 y        m   
 d   d   d 1 ... dm   d
T T
où R représente la transposée de R et RR =I la matrice identité. Sous forme vectorielle,

y    RR T f  ε    Rf *  ε , où f *  N m (0, I ) .


Ainsi et R donnent des modèles équivalents pour tout matrice de rotation R. Ceci fait
en sorte que l’on va disposer de d2/2-dm-d/2+m(m-1)/2=(d-m)2-(d+m)/2 degré de liberté
pour tester l’ajustement du modèle. Ceci complique le problème mathématique de
maximiser la vraisemblance. Notons que la matrice des loadings standardisés
correspondant à R est sR.

A la fin d’une analyse on va multiplier la matrice ̂ par une rotation R qui en facilitera
l’interprétation. Plusieurs critères de construction pour R sont disponibles. Le critère
varimax de Kaiser (1956) est beaucoup utilisé.

- 17 -
COMMENT CHOISIR LE NOMBRE DE FACTEURS LATENTS m?
On peut regarder les valeurs propres de la matrice de corrélation. Une règle simple est de
prendre le nombre de valeurs propres supérieures à 1. Dans l’exemple des policiers,
Eigenvalues of the Correlation Matrix

Eigenvalue Difference Proportion Cumulative

1 6.54740242 4.77468744 0.5036 0.5036


2 1.77271499 0.76747933 0.1364 0.6400
3 1.00523565 0.26209665 0.0773 0.7173
4 0.74313901 0.06479499 0.0572 0.7745
5 0.67834402 0.22696368 0.0522 0.8267
6 0.45138034 0.06922167 0.0347 0.8614
7 0.38215866 0.08432613 0.0294 0.8908
8 0.29783254 0.02340663 0.0229 0.9137
9 0.27442591 0.01208809 0.0211 0.9348
10 0.26233782 0.01778332 0.0202 0.9550
11 0.24455450 0.04677622 0.0188 0.9738
12 0.19777828 0.05508241 0.0152 0.9890
13 0.14269586 0.0110 1.0000
La règle précédente donne m=3. On note tout de même une baisse importante de la
cinquième à la sixième valeur propre. Ceci suggère m=5 (il y a des problèmes de
convergence à m=5); prenons m=4.
Pr >
Test DF Chi-Square ChiSq
H0: 3 Factors are sufficient 42 63.3931 0.0181
Chi-Square without Bartlett's Correction 68.18380
H0:4 Factors are sufficient 32 40.0813 0.1544
Chi-Square without Bartlett's Correction 43.41555

- 18 -
La formule générale de la correction de Bartlett

2d  11 2m 2  13  11 2  3
C  1   1   .921
6n 3 n 6  103 3  103
Lorsque m=3, la correction vaut .921 et la statistique corrigée est .921 x 68.184= 62.78
(SAS utilise sans doute une formule un peu différente pour calculer la correction).

Note : Utiliser les tests d’ajustement du chi-deux calculés avec les estimateurs du
maximum de vraisemblance pour déterminer le nombre de facteurs dans le modèle n’est
pas conseillé. En effet cette procédure donne en général un nombre de facteurs trop
grand.

Il n’y a pas de critères objectifs fiables pour déterminer le nombre de facteurs dans une
analyse factoriel exploratoire. Il s’agit d’une décision subjective. Ceci met en lumière le
besoin de faire une analyse confirmatoire pour valider les résultats obtenus.

- 19 -
Variable Communality (m=4) Communality (m=3)
CommSk 0.64391778 0.61738108
ProbSol 0.85591425 0.74637038
LearnAbi 0.61034395 0.58134448
JudgmentP 0.62017374 0.63230061
ObserSk 0.74131204 0.73933084
WillConProb 0.67550914 0.67696521
IntPeop 0.82059941 0.81852117
InterPersoSe 0.83448666 0.83215412
DesiSelfIm 0.61403172 0.59206011
Appear 0.35255083 0.34864210
Depend 0.66105061 0.66468760
PhysAbil 0.96094246 0.31143644
Inegrety 0.72497294 0.73322027

On a les communality standardisées (c'est-à-dire les 13 R2) lorsque respectivement 4 et 3


facteurs sont conservés. L’ajout du 4ième facteur est bénéfique pour expliquer PhysAbil et
ProbSol. Même avec 4 facteurs, Appear n’est pas bien représenté

La méthode varimax (Kaiser ,1956) maximise une somme pondérée des variances des m
loadings pour déterminer la rotation R.

- 20 -
Exemple : Rotation des axes de l’analyse précédente

proc factor data=jobratings(drop=Overall) method=ML scree rotate=varimax ;


L’option varimax permet de multiplier les facteurs par la rotation donnée ici. Les
loadings standardisés des facteurs après rotation sont données à la page suivante. Notons
m m
que la rotation ne change pas les communalities,  ˆ 2ji   (ˆ rot
ji
) 2
et les R2
.
i 1 i 1
Pour interpréter les facteurs il faut fixer un seuil au-delà duquel un loading est considéré
comme étant important. On utilise un seuil de .5. Les deux rotations R, pour m=4 et m=3
sont

Orthogonal Transformation
Matrix Orthogonal
Transformation Matrix
1 2 3 4
1 2 3
1 0.492 0.493 0.264 0.666
1 0.546 0.718 0.429
2 0.177 0.585 0.355 -0.706
2 0.703 -0.672 0.230
3 -0.672 0.627 -0.353 0.172
3 0.454 0.176 -0.873
4 0.523 0.142 -0.823 -0.165

- 21 -
Rotated Factor Pattern
Interprétation des facteurs :
Factor Factor Factor
1. Observation+Apprentissage
1 2 3
2. Relation humaine
3. Communication CommSk 0.4540 0.3564 0.5331
ProbSol 0.3021 0.2565 0.7677
La solution à 4 facteurs est présentée à la page LearnAbi 0.5870 0.0876 0.4785
suivante. Elle isole les variables ProbSol JudgmenPress. 0.2683 0.5543 0.5030
et PhysAbil. ObserSk 0.8247 0.0875 0.2267
WillConProb 0.7565 0.0331 0.3218
IntPeop 0.1862 0.8728 0.1481
InterPersoSe 0.0129 0.8675 0.2816
DesiSelfIm 0.6440 0.3765 0.1885
Appear 0.5150 0.2107 0.1973
Depend 0.5734 0.5479 0.1886
PhysAbil 0.4877 0.2652 0.0565
Integrety 0.3719 0.7646 0.1011

- 22 -
Varimax-Rotated Factor Loadings
Factor 1 Factor 2 Factor 3 Factor 4 Unique Var
CommSk -0.057 0.400 0.556 0.413 0.356
ProbSol 0.114 0.263 0.359 0.803 0.144
LearnAbi -0.022 0.128 0.683 0.357 0.390
Judgment 0.122 0.570 0.302 0.436 0.380
ObserSk 0.176 0.114 0.828 0.106 0.259
WillConP 0.276 0.047 0.734 0.240 0.324
IntPeop 0.162 0.871 0.144 0.122 0.179
InterPer 0.012 0.879 0.030 0.247 0.166
DesiSelf 0.108 0.403 0.659 0.073 0.386
Appear 0.202 0.217 0.492 0.149 0.647
Depend 0.183 0.560 0.549 0.111 0.339
PhysAbil 0.912 0.206 0.284 0.075 0.039
Inegrety 0.136 0.769 0.336 0.053 0.275

- 23 -
Si on retire Physical Ability et Appearance, les deux
Rotated Factor Pattern
facteurs du modèle avec m=2 sont très très semblable aux
deux premier facteurs du modèle avec m=4. Factor1 Factor2
CommSk 0.5989 0.4564
Pour ce modèle,  342  66.3 avec un seuil observe de ProbSol 0.5337 0.4018
0.0008 LearnAbi 0.7300 0.1784
JudgmentP 0.4109 0.6375
Ce modèle est-il acceptable ?
ObserSk 0.8426 0.1275
Note : Pour essayer d’interpréter les facteurs on peut aussi WillConProb 0.8030 0.0951
travailler avec des transformations obliques qui ne sont plus IntPeop 0.1649 0.8784
des rotations. Cette approche crée des facteurs latents InterPersoSe 0.0592 0.9079
corrélés. DesiSelfIm 0.6395 0.4022
Depend 0.5483 0.5706
Inegrety 0.3179 0.7597

- 24 -
Note : si on ajuste deux modèles à un
facteur à chacun des 2 groupes de
variables, en enlevant ProbSol on
obtient le diagramme ci contre pour
les variables standardisées:

Unrotated Factor Loadings (Facteur 1)


Factor 1 Unique Var
CommSk 0.684 0.533
LearnAbi 0.733 0.463
ObserSk 0.859 0.262
WillConP 0.791 0.375
DesiSelf 0.723 0.477

Note : Unique Var = 1-R2 de la


régression de la variable sur le facteur . Ajustement  52  10.57 (s.o.=6%). Avec
ProbSol,  92  32.85 seuil observé = 10-4.

En analyse factorielle, on considère que les variables latentes « causent » les variables
mesurées ce qui motive la direction des flèches, des variables latentes aux variables
mesurées.

- 25 -
Pour le deuxième groupe de
variables

Unrotated Factor Loadings (Facteur 2)

Factor 1 Unique Var


Judgment 0.707 0.501
IntPeop 0.909 0.174
InterPer 0.861 0.260
Depend 0.692 0.521
Inegrety 0.829 0.313
Ajustement  52  9.7 seuil observé =
8.4%. On a identifié 2 facteurs,
associés aux aptitudes personnelles
et relationnelles.

Dans les représentations graphiques des deux analyses factorielles, les variables latentes
sont représentées par des ellipses. On retrouve, pour chaque variable le loading
standardisé et le 1-R2.

- 26 -
Le modèle avec les deux facteurs pour expliquer les 10 variables s’ajuste bien
 262  34.94
Varimax-Rotated Factor Loadings

Factor 1 Factor 2 Unique Var


CommSk 0.457 0.575 0.460
LearnAbi 0.187 0.708 0.464
Judgment 0.639 0.382 0.446
ObserSk 0.134 0.862 0.239
WillConP 0.103 0.797 0.353
IntPeop 0.886 0.159 0.190
InterPer 0.901 0.048 0.186
DesiSelf 0.414 0.644 0.415
Depend 0.580 0.551 0.361
Inegrety 0.768 0.321 0.307

Facteur 1 : Relations interpersonnelles


Facteur 2 : Habilités individuelles

Certaines variables sont clairement identifiées à un facteur (ObserSk, WillConP,


LearnAbi, IntPeop, InterPer) alors que les 5 autres contribuent aux deux facteurs (  jis
supérieur à .3).

- 27 -
Test de normalité multivariée

Test of Multivariate Normality for Continuous Variables (données non transformées)


Skewness Kurtosis Skewness and Kurtosis
Value Z-Score P-Value Value Z-Score P-Value Chi-Square P-Value
31.245 10.915 0.000 150.220 6.275 0.000 158.514 0.000

Test of Multivariate Normality for Continuous Variables (données transformées)


Skewness Kurtosis Skewness and Kurtosis
Value Z-Score P-Value Value Z-Score P-Value Chi-Square P-Value
18.844 4.347 0.000 129.727 3.169 0.002 28.934 0.000

La transformation par les scores normaux rend les données plus normales.

Note la valeur théorique pour la « kurtosis » multivariée est de d(d+2) si les données sont
normales (120 dans l’exemple).

- 28 -
QUELLE EST LA CONCLUSION DE CETTE ANALYSE ?

Dans les analyses de régression réalisées dans la partie un des notes, les conclusions
étaient claires. Il y a des relations significatives entre la mortalité et certaines variables,
qui semblent pouvoir s’interpréter comme des relations de cause à effet.

Dans l’analyse factorielle exploratoire, on a isolé deux variables latentes sous jacentes à
10 variables observées. On a procédé par essai et erreur. La relative complexité de la
démarche fait en sorte qu’il est difficile de distinguer le signal du bruit dans cette analyse.
Ces deux variables latentes se manifesteraient-elles de la même façon si on réutiliserait le
questionnaire pour évaluer un nouvel ensemble de policiers ? Peut-être…

Pour confirmer les résultats de cette analyse if faudrait les valider sur un nouvel ensemble
de données. L’analyse factorielle exploratoire a été critiquée parce que lors
d’expériences par simulations selon le schème

le modèle estimé était souvent différent du modèle initial (Seber, 1977, Multivariate
Observations)

- 29 -
ANALYSE EN COMPOSANTES PRINCIPALES VERSUS ANALYSE
FACTORIELLE

En ACP l’objectif de l’analyse est de déterminer les sources de variations importantes


dans les données. L’analyse est simple ; on effectue une décomposition en valeurs
propres de la matrice de variances covariances ou de la matrice de corrélations.

En analyse factorielle l’objectif est d’expliquer les corrélations entre les variables. Il est
donc important de s’assurer au préalable que les variables observées sont corrélées entre
elles avec le test d’indépendance du chi-deux (ou en examinant les corrélations). Une
méthode d’estimation approximative appelée Principal factor analysis estime d’abord la
specific variance j à l’aide de la variance résiduelle de la régression de la jième variable
sur les d-1 autres variables. Les facteurs sont ensuite déterminées en faisant une ACP de
S  ˆ (option priors=smc dans SAS). Cette méthode non itérative peut être utilisée
pour ajuster un modèle d’analyse factorielle lorsque l’algorithme de calcul pour
l’estimateur du maximum de vraisemblance ne converge pas.

- 30 -
METHODE DE CALCUL DES ESTIMATEURS DES PARAMETRES DU MODELE
AFE

La méthode du maximum de vraisemblance (ML) maximise l’expression suivante :

n 1
(  ,  ) 
2
log | S |  log | ( ,  ) |  tr( S ( ,  ) 1 )  d  ;

un algorithme itératif est requis pour faire les calculs. Le principal factor analysis est une
méthode approximative qui fonctionne à tous les coups. Une autre méthode intéressante
est la méthode des moindres carrés non pondérés (ULS pour unweighted least squares).
Elle minimise

f ( ,  )  tr [ S  ( ,  )]2 

Cette méthode est implantée par PRELIS pour faire de l’analyse factorielle exploratoire
sous le nom MINRES. La méthode ULS est également disponible, sur LISREL, pour
estimer un modèle d’équations structurelles arbitraire. Elle est particulièrement utile
lorsque la méthode du maximum de vraisemblance ne converge pas. Contrairement à la
méthode ML, l’ULS n’est pas invariant à un changement d’échelle.

- 31 -
LE COEFFICIENT ALPHA DE CRONBACH
Pour déterminer si un ensemble de questions définit bien un construit latent, on
utilise souvent le coefficient alpha de Cronbach (1951). C’est une mesure
d’homogénéité ou de cohérence interne entre les items d’un questionnaire (mesurés
sur une échelle de Likert) associés au même construit (une dimension de
l’instrument de mesure).

Comment le calcule-t-on ?

Il existe deux versions au coefficient alpha αde Cronbach, celui obtenu à partir des
scores brutes aux items ( ) et celui obtenu à partir des scores standardisés ( ).
s s

Chacun d’eux se calcule comme suit :

 p
2

p 
 s j 
prm
b  1  2 
j 1
et s 
p 1 sT  1  ( p  1) rm
 
 

- 32 -
Où p = Nbre d’items pour la dimension à l’étude de l’instrument,
s  Variance de l’item j,
2
j
j=1,…, p et s  Variance du score total de la
2
T

dimension;
r  corrélation moyenne entre tous les p(p-1)/2 couples d’items.
m

Dans la pratique, on utilisera  si les items sont mesurés sur la même échelle et  si les
b s
items sont mesurés sur des échelles différentes.

Interprétation :

Le coefficient alpha varie entre 0 et 1. Plus grand est ce coefficient, meilleure est la
cohérence interne. En pratique, Nunnally (1978) a suggéré une valeur de 0.70 comme
une valeur acceptable.

- 33 -
Exemple de calcul :
Sujets Item1 Item2 Item3 Score total
1 2 3 2 7
2 1 1 2 4
3 2 2 2 6
4 3 3 3 9
5 1 1 1 3
s2 0.7 1 0.5 5.7

Dans cet exemple, la valeur prise par αb ,le coefficient α de Cronbach brut, est

 p
2
  s 
p  j
j  1  3  0.7  1  0.5 
  1    2 1   0.921.
b p 1  2  5.7 

 s
T 
 
 

Pour le calcul de αs,le coefficient de Cronbach standardisé, les corrélations entre tous les
couples d’items sont les suivantes:

- 34 -
Pearson Correlation Coefficients, N = 5

x1 x2 x3
x1 1.00000 0.89642 0.84515
x2 0.89642 1.00000 0.70711
x3 0.84515 0.70711 1.00000

La moyenne des corrélations inter-items est r = (0.89642 + 0.84515 + 0.70711)/3 =


m

0.8162275. Ainsi, la valeur prise par le coefficient αs de Cronbach est

pr 3(0.8162275)
  m   0.9302
s 1  ( p  1) r 1  2(0.8162275)
m

- 35 -
Programmation SAS : variables
data lecture; Deleted Corr with Corr with
Var. Alpha Total Alpha Total
input sujet x1 x2 x3; ------------------------------------
datalines; --------------
1 2 3 2 x1 0.944 0.800 0.942 0.828
2 1 1 2 x2 0.842 0.909 0.830 0.916
3 2 2 2 x3 0.790 0.937 0.797 0.945
4 3 3 3
5 1 1 1; Programmation R :
proc corr data=lecture alpha; library(psy)
var x1 x2 x3; run; x <- matrix(c(2,3,2,1,1,2,2,2,2,3,3,3,1,1,1),
nrow=5, ncol=3,
Cronbach Coefficient Alpha
Variables Alpha byrow=TRUE, dimnames = list(c("id1",
--------------------------------- "id2","id3", "id4", "id5"),
Raw 0.921053 c("item1", "item2", "item3")))
Sandardized 0.930190 cronbach(x)
Cronbach Coefficient Alpha with
Deleted Variable $sample.size [1] 5

$number.of.items [1] 3
Raw Variables Standardized $alpha[1] 0.9210526

- 36 -
Programme SAS pour calculer les coefficients pour les deux groupes de variables
identifié plus haut

proc corr data=jobratings alpha;


var CommSk LearnAbi ObserSk WillConProb DesiSelfIm;
run;

Cronbach Coefficient Alpha


Variables Alpha
Raw 0.868604
Standardized 0.871839

proc corr data=jobratings alpha;


var JudgmentP IntPeop InterPersoSe Depend Inegrety;
run;

Cronbach Coefficient Alpha


Variables Alpha
Raw 0.899208
Standardized 0.899491

- 37 -
Les deux coefficients sont élevés. L’ajout de ProbSol au premier groupe de variables ne
change pas vraiment l’analyse :

Cronbach Coefficient Alpha


Variables Alpha
Raw 0.878801
Standardized 0.881405

Ainsi le coefficient  de Cronbach est un outil beaucoup moins sensible que l’analyse
factorielle pour déterminer si un ensemble de variables défini bien un construit latent.

Un coefficient de Cronbach trop élevé (>.9) signifie que les questions ne sont pas
suffisamment différenciées. Elles mesurent alors des variables très semblables.

Le  de Cronbach est pratique pour juger de la cohérence de plusieurs questions en vue


d’en faire la somme pour décrire un certain phénomène. Cependant est-il vraiment utile
pour juger de la pertinence d’une certaine variable latente dans un modèle factoriel ?

- 38 -
TRANSFORMATION DES DONNÉES

Si l’hypothèse de normalité est en doute, on peut transformer les données. Lorsque les
données sont ordinales les variables prennent des valeurs entières, avec un espacement de
1 entre deux modalités successives. Ce codage, avec espacement de 1, est arbitraire. On
peut refaire ce codage en changeant l’espacement entre les choix de réponses pour rendre
les données plus normales. On peut par exemple augmenter l’espacement d’une modalité
avec ses voisines si cette dernière a une fréquence élevée. Les « normal scores » calculés
par PRELIS à partir des rangs des données, permettent de faire ce travail. Pour IntPeop
 5→4.655, 7→6.613,
 6→5.485, 9→9.896, 8→7.94.
La transformation crée un espacement plus grand entre les catégories avec des effectifs
élevés. Elle normalise les données sans changer les 2 premiers moments.

Algorithme
1. On remplace chaque score par son rang moyen divisé par n+1 (n=103 dans
l’exemple), Xi→Ri/(n+1)
2. On évalue -1(Ri/(n+1)) où -1 est l’inverse de la fonction de répartition normale
standardisé

- 39 -
3. Yi  X  s x  1  Ri / ( n  1)  qui crée une nouvelle variable avec les mêmes moments
que l’originale mais avec des espacements différents (PRELIS construit les scores
selon une formule un peu différente).
Cette transformation normalise les données. Dans l’exemple sur les policiers, le
tableau suivant, qui porte sur les données transformées, montre des petites valeurs pour
l’asymétrie et l’aplatissement.
Variable Mean St. Dev. T-Value Skewn. Kurtosis Minimum Freq Maximum Freq
CommSk 6.651 1.764 38.258 -0.142 -0.325 1.828 1 9.544 14
ProbSol 6.631 1.590 42.317 -0.104 -0.255 2.284 1 9.432 11
LearnAbi 6.990 1.339 52.972 -0.117 -0.212 3.302 1 9.366 11
Judgment 6.738 1.732 39.484 -0.135 -0.319 2.423 2 9.722 12
ObserSk 6.932 1.762 39.935 -0.197 -0.424 2.079 1 9.552 19
WillConP 7.291 1.525 48.517 -0.236 -0.390 3.056 1 9.491 21
IntPeop 6.709 1.892 35.982 -0.124 -0.394 2.504 4 9.896 13
IntPersS 6.621 1.761 38.164 -0.121 -0.321 2.244 2 9.648 12
DesiSelI 6.573 1.730 38.564 -0.122 -0.181 1.841 1 9.884 8
Appear 7.000 1.799 39.498 -0.252 -0.549 2.476 2 9.442 24
Depend 6.825 1.917 36.134 -0.215 -0.477 2.029 2 9.618 20
PhysAbil 7.204 1.555 47.012 -0.220 -0.382 2.900 1 9.482 20
Integret 7.214 1.845 39.675 -0.277 -0.637 3.043 4 9.606 27
Cependant la transformation ne change pas de façon importante les résultats de
l’analyse factorielle. On va travailler avec les données originales même si certains
indicateurs de normalité ne sont pas respectés.

- 40 -
AFE pour les données sur le SATS (PréHomme) La sortie SAS (PROC FACTOR)
Enoncé SAS
Data D2 (type=cov) ;
input _type_ $ _name_ $ V1-V9; Significance Tests Based on 1705 Observations
Pr >
label
V1='PA1' V2='PA2' V3='PC1' Test DF Chi-Square ChiSq
V4='PC2' V5='PV1' H0: No common factors 36 9094.8655 <.0001
V6='PV2' V7='PV3' V8='PD1'
V9='PD2'; HA: At least one common factor
cards;
N . 1705 1705 1705 1705 1705 1705
H0: 4 Factors are sufficient 6 10.8895 0.0919
1705 1705 1705 HA: More factors are needed
cov V1 0.98 . . . . . . . .
cov V2 0.66 0.99 . . . . . . .
cov V3 0.59 0.69 0.98 . . . . . .
cov V4 0.61 0.71 0.71 0.97 . . . . .
cov V5 0.41 0.41 0.37 0.45 0.89 . . . .
cov V6 0.37 0.35 0.44 0.45 0.62 0.94 . . .
cov V7 0.45 0.43 0.42 0.50 0.66 0.75 1.05 . .
cov V8 0.33 0.32 0.24 0.33 0.12 0.09 0.12 0.63 .
cov V9 0.31 0.32 0.26 0.31 0.10 0.06 0.11 0.36 0.49;
proc factor data=D2 (type=cov) n=4 method=ML heywood rotate=varimax;
proc factor data=D2 (type=cov) n=4 method=ML heywood rotate=promax;run;

- 41 -
Final Communality Estimates and Variable
Varimax Rotated Factor Pattern Weights
Factor1 Factor2 Factor3 Factor4 Total Communality: Weighted = 20.696065
Unweighted = 6.603297
V1 PA1 0.32629 0.36267 0.54462 0.23350
Variable Communality Weight
V2 PA2 0.25985 0.30926 0.75168 0.27165
V1 0.58912707 2.43384219
V3 PC1 0.26892 0.19623 0.46095 0.82262
V2 0.80198287 5.05000740
V4 PC2 0.38260 0.34553 0.55127 0.36884
V3 1.00000000 Infty
V5 PV1 0.73973 0.07840 0.26970 0.06996
V4 0.70571304 3.39801022
V6 PV2 0.85994 0.03216 0.09010 0.21801
V5 0.63098461 2.70991375
V7 PV3 0.82841 0.07307 0.21491 0.09465
V6 0.79616827 4.90608570
V8 PD1 0.06700 0.83894 0.14461 0.06825
V7 0.74675116 3.94869591
V9 PD2 0.02426 0.71441 0.26705 0.12811
V8 0.73387325 3.75763862
V9 0.59869718 2.49187054
En faisant une rotation des facteurs, on note
que les facteurs A (Affect) et C (Cognitive competence) ne sont pas bien différenciés car
ils n’apparaissent pas sur des facteurs séparés. Ceci est sans doute associé à la forte
corrélation observée entre ces deux variables latentes dans les travaux du groupe SATS.

- 42 -

Vous aimerez peut-être aussi