Académique Documents
Professionnel Documents
Culture Documents
Analyse Factorielle
Analyse Factorielle
2011/2012
Analyse Factorielle
Analyse Factorielle
2011/2012
Nous voyons que Statistica nous demande de fixer a priori le nombre de facteurs extraire et nous
propose plusieurs mthodes d'extraction des facteurs. Choisissons d'extraire deux facteurs par la
mthode du maximum de vraisemblance.
Statistica fournit alors les rsultats sous plusieurs onglets :
Sous l'onglet "Variance explique", on obtient notamment les 4 tableaux de rsultats suivants :
- un tableau de "valeurs propres" :
Val. Propres (Open/Closed Book Data)
Extraction : Facteurs du max. de vrais.
Val Propre
% Total
variance
1
2,824170
56,48341
2
0,319491
6,38983
Cumul
Val propre
2,824170
3,143662
Cumul
%
56,48341
62,87323
R-deux
Multiple
0,376414
0,445122
0,671358
0,540864
Analyse Factorielle
2011/2012
Statistics(O)
0,529029
0,568977
0,479319
0,784601
Mechanics(C)
Vectors(C)
0,3
Facteur2
0,2
0,1
0,0
Algebra(O)
-0,1
Analysis(O) Statistics(O)
-0,2
-0,3
-0,95
-0,90
-0,85
-0,80
-0,75
Facteur1
-0,70
-0,65
-0,60
Analyse Factorielle
2011/2012
Facteur
2
0,457102
0,425053
-0,151209
-0,326209
-0,264662
Facteur
2
0,73671
-0,00951
0,35850
0,02871
....
Comme on peut le voir, l'analyse factorielle, par certains aspects, semble ressembler l'analyse en
composantes principales. Mais qu'en est-il vritablement ?
0,78 0,67
1
On souhaiterait tudier l'hypothse suivante :
Les valeurs observes sont la somme de deux lments :
- Une quantit proportionnelle une variable ou facteur (non observable) mesurant l'intelligence du
sujet
- Une quantit spcifique au test, laquelle s'ajoute une erreur alatoire.
F.-G. Carpentier - 2011/2012
Analyse Factorielle
2011/2012
Autrement dit :
- On a observ un ensemble X1, X2, ..., Xp de variables sur un chantillon
- On fait l'hypothse que ces variables dpendent (linairement) en partie de k variables non
observables, ou variables latentes ou facteurs F1, F2, ..., Fk.
On cherche donc dcomposer les variables observes Xi (supposes centres) de la faon suivante
:
k
X i lir Fr Ei
r 1
cii lir2 vi
r 1
cij lir l jr si i j
r 1
c'est--dire, matriciellement :
C LL'V .
Ce problme n'admet en gnral pas une solution unique. On ajoute alors une condition
supplmentaire telle que :
J L'V 1 L est diagonale
Mais, toute rotation des facteurs ainsi dtermins fournit galement aussi une solution.
Vocabulaire : les coefficients lir sont appels poids factoriels (loadings) des variables sur les
k
facteurs. La quantit hi2 lir2 qui reprsente la partie de la variance de Xi due aux facteurs et dont
r 1
Analyse Factorielle
2011/2012
Modle 1
6
Modle 2
Analyse Factorielle
2011/2012
90
98
103
107
112
0,02130
0,02636
0,02607
0,02385
0,01931
0,01942
0,03683
0,03970
0,03521
0,02420
Vraisemblance
6,74E-09
2,42E-08
On voit que le modle 2, dont la vraisemblance est de 2,42 10-8 est plus vraisemblable que le
modle 1.
Analyse Factorielle
2011/2012
Selon Lawley et Maxwell, si le khi-2 trouv excde la valeur critique correspondant au niveau de
significativit choisi, H0 est rejete, et il faut considrer au moins k+1 facteurs dans le modle.
Remarques.
1. On doit avoir p k p k ce qui limite le nombre de facteurs.
2
2. Certains auteurs noncent une rgle en termes de taille des chantillons pour utiliser cette
statistique. Par exemple, Mardia et Kent indiquent : n p 50 .
3. Cette statistique peut tre utilise pour dterminer le nombre de facteurs extraire. On calcule
alors la statistique pour k=1, k=2, ... L'extraction d'un facteur supplmentaire se traduit par une
diminution de la valeur de la statistique, mais galement par une diminution du nombre de degrs
de libert. La p-value correspondante n'est donc pas ncessairement amliore par l'augmentation
du nombre de facteurs. On choisit ensuite le nombre de facteurs qui conduit la meilleure p-value
(celle qui est la plus proche de 1).
4. Cette statistique est malheureusement trs sensible la taille de l'chantillon.
Analyse Factorielle
2011/2012
Pour une ACP, ces quantits sont interprtes en termes de qualit de reprsentation, ou de
dformation due la projection. Dans le cadre de l'analyse factorielle, elles nous indiquent quelle
est la part de variabilit de chacune des variables observes qui participe la variance "commune"
et, par diffrence, quelle est la part qui est spcifique chaque variable, et donc non prise en compte
dans le modle factoriel. Par exemple, pour la variable Algebra(O), la part "commune" est de 81%
et la part spcifique, non prise en compte par les facteurs est de 19%.
Analyse Factorielle
2011/2012
Facteur 1
-2,05705
Facteur 2
0,73671
Analysis(O)
1,36866891
Statistics(O)
2,24235647
Et on vrifie que :
Facteur 1Sujet1 0,132 2,176 0,162 2,390 0,465 1,543 0,216 1,369 0,165 2,242 2,057
Remarque. A l'exception des scores factoriels des individus, l'ensemble des rsultats d'une analyse
factorielle peut tre obtenu partir de la matrice des corrlations (ou des covariances) des variables,
et de la taille de l'chantillon. C'est pourquoi Statistica propose de deux formats pour les donnes
d'entre : donnes brutes ou matrice de corrlations.
Facteur 1
-0,628393
-0,695376
-0,899408
-0,779602
-0,727344
2,824170
0,564834
Facteur 2
0,373128
0,312083
-0,049958
-0,201066
-0,199869
0,319491
0,063898
On examine les poids factoriels aprs rotation varimax. Les trois matires values livre ouvert
sont alors fortement corrles avec le premier facteur, alors que le second facteur correspond aux
deux matires values livre ferm et dans une moindre mesure l'algbre.
La rotation la plus frquemment utilise est la rotation varimax (Kaiser 1958). L'effet produit par
une telle rotation est gnralement le suivant : pour chaque facteur, les poids factoriels levs
concernent un nombre rduit de variables et les autres poids factoriels sont proches de 0.
10
Analyse Factorielle
2011/2012
D'autres rotations ont galement t proposes. Les rotations dites orthogonales produisent des
facteurs non corrls entre eux, tandis que les transformations par rotation oblique produisent de
nouveaux facteurs qui peuvent tre corrls.
- Un terme d'erreur, ou perturbation du modle, est reprsent par une variable sans cadre :
- Une flche entre deux variables signifie que les variations de la seconde sont dues, au moins en
partie, aux variations de la premire.
Exemple :
Source : pages en ligne de Michael Friendly l'adresse :
http://www.psych.yorku.ca/lab/psy6140/fa/facfoils.htm
Calsyn et Kenny (1971) ont tudi la relation entre les aptitudes perues et les aspirations scolaires
de 556 lves du 8 grade. Les variables observes taient les suivantes :
Self : auto-valuation des aptitudes
Parent : valuation par les parents
Teacher : valuation par l'enseignant
Friend : valuation par les amis
Educ Asp : aspirations scolaires
Col Plan : projets d'tudes suprieures
Sur l'chantillon tudi, les corrlations observes entre ces six variables sont les suivantes :
Self
Parent
Teacher
Self
1,00
0,73
0,70
Parent
0,73
1,00
0,68
Teacher
0,70
0,68
1,00
11
Friend
0,58
0,61
0,57
Educ Asp
0,46
0,43
0,40
Col Plan
0,56
0,52
0,48
Analyse Factorielle
Friend
Educ Asp
Col Plan
2011/2012
0,58
0,46
0,56
0,61
0,43
0,52
0,57
0,40
0,48
1,00
0,37
0,41
0,37
1,00
0,72
0,41
0,72
1,00
4
5
6
Friend
Educ Asp
Col Plan
0,58
0,46
0,56
0,61
0,43
0,52
0,57
0,40
0,48
1,00
0,37
0,41
0,37
1,00
0,72
0,41
0,72
1,00
0,00000
0,00000
0,00000
1,00000
1,00000
1,00000
On choisit ensuite le menu Statistiques - Modles linaires / non linaires avancs - Modlisation
d'quations structurelles.
Sous l'onglet "Avanc", on clique sur le bouton "Assistant liaisons" et on choisit l'option "Analyse
factorielle confirmatoire" :
12
Analyse Factorielle
2011/2012
Lorsqu'on clique sur le bouton OK, Statistica affiche une fentre permettant d'indiquer les
corrlations entre les facteurs. On peut la complter comme suit :
13
Analyse Factorielle
2011/2012
Le modle spcifi est alors traduit en "langage" PATH1 sous la forme suivante :
(Aptitudes)-1->[Self]
(Aptitudes)-2->[Parent]
(Aptitudes)-3->[Teacher]
(Aptitudes)-4->[Friend]
(Aspirations)-5->[Educ Asp]
(Aspirations)-6->[Col Plan]
(DELTA1)-->[Self]
(DELTA2)-->[Parent]
(DELTA3)-->[Teacher]
(DELTA4)-->[Friend]
(DELTA5)-->[Educ Asp]
(DELTA6)-->[Col Plan]
(DELTA1)-7-(DELTA1)
(DELTA2)-8-(DELTA2)
(DELTA3)-9-(DELTA3)
(DELTA4)-10-(DELTA4)
(DELTA5)-11-(DELTA5)
(DELTA6)-12-(DELTA6)
(Aspirations)-13-(Aptitudes)
Cliquez ensuite sur OK (Excuter modle), puis sur le bouton OK de la fentre suivante.
Le bouton "Synthse du modle" permet d'obtenir la feuille de rsultats suivante :
Modle Estim (Ability and Aspiration dans AFC.stw)
Estimation
Erreur
Stat.
Niveau
Paramtre
Type
T
Proba
F.-G. Carpentier - 2011/2012
14
Analyse Factorielle
(Aptitudes)-1->[Self]
(Aptitudes)-2->[Parent]
(Aptitudes)-3->[Teacher]
(Aptitudes)-4->[Friend]
(Aspirations)-5->[Educ Asp]
(Aspirations)-6->[Col Plan]
(DELTA1)-->[Self]
(DELTA2)-->[Parent]
(DELTA3)-->[Teacher]
(DELTA4)-->[Friend]
(DELTA5)-->[Educ Asp]
(DELTA6)-->[Col Plan]
(DELTA1)-7-(DELTA1)
(DELTA2)-8-(DELTA2)
(DELTA3)-9-(DELTA3)
(DELTA4)-10-(DELTA4)
(DELTA5)-11-(DELTA5)
(DELTA6)-12-(DELTA6)
(Aspirations)-13-(Aptitudes)
2011/2012
0,863
0,849
0,805
0,695
0,775
0,929
0,015
0,016
0,018
0,025
0,026
0,024
57,973
54,296
44,287
28,217
30,279
39,165
0,000
0,000
0,000
0,000
0,000
0,000
0,255
0,279
0,352
0,517
0,399
0,137
0,666
0,026
0,027
0,029
0,034
0,040
0,044
0,031
9,915
10,487
12,020
15,078
10,061
3,111
21,528
0,000
0,000
0,000
0,000
0,000
0,002
0,000
On retrouve dans ce tableau le poids factoriel de chacune des variables sur le facteur spcifi par le
modle (sur une seule colonne - ce qui ne facilite pas la lecture du tableau). On y trouve galement
les variances des termes d'erreur DELTA1 DELTA6 et enfin l'estimation de la corrlation entre
les facteurs Aspirations et Aptitudes : 0,666.
Ces rsultats seraient plus lisibles disposs de la faon (plus classique) suivante :
Modle Estim (Ability and Aspiration dans AFC.stw)
Aptitudes
Aspirations Communaut Spcificit
Self
0,863
0
0,745
0,255
Parent
0,849
0
0,721
0,279
Teacher
0,805
0
0,648
0,352
Friend
0,695
0
0,483
0,517
Educ Asp
0
0,775
0,601
0,399
Col Plan
0
0,929
0,863
0,137
Dans ce tableau, les communauts sont simplement les carrs des poids factoriels et les spcificits
sont les complments 1 des communauts.
Le logiciel donne ensuite de nombreux indices valuant la qualit du modle.
En particulier, le bouton "Statistiques de synthse" nous fournit la valeur d'une statistique du khi-2
du maximum de vraisemblance :
Statistiques de Synthse (Ability and Aspiration dans AFC.stw)
Valeur
Chi-Deux MV
9,256
Degrs de Libert
8,000
Niveau p
0,321
La valeur trouve ici (p-value = 0,32) montre une bonne adquation du modle aux donnes.
D'autres indices de qualits
D'autres indices sont aussi couramment utiliss :
F.-G. Carpentier - 2011/2012
15
Analyse Factorielle
2011/2012
16
Analyse Factorielle
2011/2012
3 Bibliographie :
Ouvrages :
Lawley, D.N., Maxwell, A.E., Factor Analysis as a Statistical Method, Butterworths Mathematical
Texts, England, 1963.
Mardia, K.V., Kent, J.T., Bibby, J.M., Multivariate Analysis, Academic Press, London 1979.
Articles :
Sites internet :
http://faculty.chass.ncsu.edu/garson/PA765/factor.html
Documents mis en ligne par Michael Friendly et notamment :
http://www.psych.yorku.ca/lab/psy6140/lectures/
Une discussion intressante sur l'utilisation pratique de l'analyse factorielle :
http://core.ecu.edu/psyc/wuenschk/stathelp/EFA.htm
Site pour tlcharger ce polycopi et les fichiers d'exemples :
http://geai.univ-brest.fr/~carpenti/
17
Analyse Factorielle
2011/2012
18