Vous êtes sur la page 1sur 43

STT-7620 ANALYSE FACTORIELLE CONFIRMATOIRE

L’analyse factorielle exploratoire permet d’identifier des facteurs latents à partir de


variables mesurées. Elle définit chaque variable latente en y associant un certain nombre
de variables mesurées. L’analyse factorielle confirmatoire permet de poursuivre
l’analyse en posant des paramètres  (loadings) égaux à 0, en permettant aux facteurs
latents d’être corrélés, et en ajoutant au besoin des corrélations supplémentaires entres les
erreurs résiduelles. Elle définit de façon détaillée les facteurs latents.

En principe l’analyse exploratoire et confirmatoire ne se font pas sur le même jeu de


données. L’analyse confirmatoire peut chercher à déterminer si un ensemble de questions
développées dans un certain contexte permet de bien caractériser un phénomène dans un
contexte un peu différent. Il peut s’agir du suivi et de la validation de questionnaires mis
sur pied dans la phase initiale d’un projet de recherche.

-1-
EXEMPLE DU MILIEU SOCIO-ECONOMIQUE

Dans les données sur les étudiants américains (n=3094) on cherche à caractériser le
background d’un étudiant, à savoir le milieu socio-économique de ses parents et sa
performance académique à l’école secondaire. Cette dernière est mesurée par la variable
HSRank. Pour caractériser le milieu socio-économique on a utilisé la variable FaEd. On
va maintenant utiliser 3 variables
pour cela, à savoir MoEd, FaEd et
PaJntInc, (l’éducation de la mère, du
père et le revenu moyen des parents).

Le milieu socio-économique de
l’étudiant (PaSeS) est maintenant
une variable latente déterminée par 3
variables observées. On a deux
variables explicatives latentes (la
deuxième variable latente AcRank est
confondue avec la variable observée
HSRank.)
.

-2-
EXEMPLE DU MILIEU SOCIO-ECONOMIQUE

Le diagramme précédent spécifie que MoEd, FaEd et PaJntInc sont conditionnellement


indépendantes de HSRank étant donné PaSeS. En d’autres termes les corrélations
observées entre MoEd, FaEd, PaJntInc et HSRank sont toutes déterminées par la
corrélation 12 entre les deux variables latentes du modèle et par les loadings  ,  et  .
11 21 31

Si le diagramme ci-haut décrit bien la réalité et si la variable latente PaSeS est une
variable explicative pour les trois variables endogènes DegreAsp, Selctvty et Degree,
alors l’analyse de régression avec variable observée où FaEd caractérise le milieu socio-
économique (voir partie 1) sous estime la force de la relation entre PaSeS et les variables
dépendantes. En effet selon le diagramme, FaEd mesure PaSeS avec une erreur 2.

En régression, la force de la relation entre une variable explicative mesurée avec erreurs
et la variable dépendante est plus faible que si la variable explicative est mesurée sans
erreur.

-3-
DÉFINITION DU MODÈLE

Sous forme matricielle


 X 1   11 0   1 
 X   0   1    2 
 
2 21     ,où

 X 3   31 0   2    3 
X   0    
 4  42   4
  21  12 

     2 
est la matrice de
 12 2 

variances covariances des variables


latentes et
  diag ( 21 , 22 , 23 , 24 ) est la
matrice de variances covariances
résiduelles.

Ce modèle a la même forme qu’un modèle factoriel exploratoire à m=2 facteurs sauf que
(i) on permet des variances quelconques et une corrélation pour les variables latentes et
(ii) des loadings (paramètres ) sont fixés à 0,    = =   0 .
12 22 32 41

-4-
DÉFINITION DU MODÈLE

On a vu, dans l’étude des modèles d’analyse factorielle exploratoire, que d=3 variables
observées donnent un modèle à une variable latente saturé (il n’y a aucun degré de liberté
pour tester l’ajustement du modèle). Le modèle avec d=3 à une variable latente pour
MoEd, FaEd et PaJntInc s’ajuste donc parfaitement.

Le modèle étudié ici spécifie en plus que les trois corrélations entre HSrank et (MoEd,
FaEd, PaJntInc) s’expliquent toutes par la corrélation entre PaSES et HSrank. Etudier
l’ajustement du modèle c’est évaluer la véracité de cette hypothèse.

-5-
ÉCRITURE DE LA MATRICE DE VARIANCES-COVARIANCES THÉORIQUE.

La matrice de variances-covariances de X est une matrice 4x4 (note d=4=NX dans la


notation de LISREL). Pour la calculer on utilise le fait que les erreurs sont
indépendantes des variables latentes  et donc que E(=0. Ainsi, en général, ( ) a
une forme semblable à celle rencontrée en analyse factorielle exploratoire,
( )   x E ( ') x ' E ( ')
Pour le modèle à l’étude,
 11 0    21 0 0 0 
   2      
0   0   0  2
0 0 
( )   21   1 12 2

11 21 31

 31 0    12  22   0 0 42   0 0  3 0  2
0
 0    
 42 
 2 
0  4 
 0 0
En effectuant les produits matriciels on obtient l’expression suivante.
 112  21   21 1121 21 1131 21 1142 12 
 
   2
 2
 2
  2
   2
  
( )   1 2 
11 21 1 21 1  2 21 31 1 21 42  
 1131  2
2131 12
31 1   3 3142 12 
2 2 2

 1

 1142   2142 12 3142 12 42 2   4 
2 2 2 
 1 2

-6-
DÉFINITION DES VARIABLES LATENTES

Les paramètres du modèle précédent ne sont pas tous identifiables car les variables
latentes peuvent être définies de plusieurs façons :

1. On peut faire comme dans l’analyse exploratoire et standardiser les variables


latentes en imposant  21   22  1 . Le seul paramètre non estimable dans le modèle
précédent est alors  24 car la deuxième variable latente est proportionnelle à une
variable observée
2. Pour donner des unités de mesure à chaque variable latente, on peut fixer un loading
égal à 1 pour chaque construit. Si on pose     1, la première variable latente a
31 42

les mêmes unités que PaJntInc alors que la deuxième est égale à HSRank.
Évidemment  24 n’est toujours pas estimable dans ces conditions.
3. On a en d(d+1)/2 =4x5/2=10 degrés de liberté dans une matrice de variances-
covariances 4x4 et 8 paramètres à estimer. Il reste donc 2 degrés de liberté pour
tester l’ajustement du modèle.

-7-
ESTIMATEUR DU MAXIMUM DE VRAISEMBLANCE

Le modèle postule que les Xi suivent une loi normale de moyenne  (un vecteur 4x1) et
de matrice de variances covariances ( ) où  est les vecteurs des 8 paramètres de la
matrice de variances covariances (on pose     1 et  24  0 ) :
31 42

  21   21 21 2 31 2   


 
1 1 1 2

  2
212  2   2 2131 2 21  
( )   1 2 
21 1 1 2 1
.
 31 2 2131 2 312  2   2 31   
 1 1 1 3 1 2

   21   31    2 
2
 1 2 1 2 1 2

Notons que ( ) satisfait les deux égalités


( )13  ( ) 24 31 1  21 12 ( )12  ( )34 21 1  31 12
2 2

  1 et   1.
( )23  ( )14 2131 1   12
2
( )13  ( ) 24 31 1  21 12
2

La matrice de variances covariances empiriques S ne satisfait pas ces égalités, il faut donc
utiliser un algorithme itératif pour trouver une matrice ( ) qui soit le plus prêt possible
de S.

-8-
ESTIMATEUR DU MAXIMUM DE VRAISEMBLANCE

Moins la log-vraisemblance des données s’écrit

n 1
( ) 
2
log | ( ) |  log | S |  tr[S( ) 1 ]  d 

où d est le nombre de variables X observées et S est la matrice de variances-covariances.


Dans l’exemple on a d=4 variables (MoEd, FaEd, PaJntInc, HSRank ) de plus

 1.510 1.133 1.452 0.110   1.510 1.135 1.447 0.098 


 1.133 2.283 2.125 0.150   1.135 2.283 2.122 0.144 
S=   et (ˆ)=  ,
 1.452 2.125 7.017 0.113   1.447 2.122 7.017 0.183 
 0.110 0.150 0.113 0.604   0.098 0.144 0.183 0.604 
 

où (ˆ) représente la matrice ( ) évaluée à l’estimateur du maximum de vraisemblance


ˆ . Cet estimateur est obtenu en minimisant ( ) à l’aide d’un algorithme itératif
(attention des problèmes de convergence sont possibles!).

-9-
TESTS D’AJUSTEMENT

Notons que (ˆ) mesure l’écart entre la matrice de variances covariances empirique S et
son estimateur (ˆ) . En fait (ˆ)  0 si S  (ˆ) . La magnitude de (ˆ) permet de
juger de l’ajustement du modèle CFA à l’étude. La statistique du chi-deux pour tester
l’ajustement du modèle est
 d2( d 1)/2 p  2 (ˆ)  (n  1) F  S , (ˆ)  .
On rejette au seuil  l’hypothèse que le modèle s’ajuste bien si 2 (ˆ)   d2( d 1)/2 p ,1 , le
percentile 100(1-) du chi deux à d(d+1)/2-p degrés de liberté (ici 2 degrés de libertés
sont associés à ce test). Notons qu’il n’y a pas de correction de Bartlett pour un modèle
CFA quelconque. Dans la sortie LISREL,

F  S , (ˆ)   log | ( ) |  log | S |  tr[S( ) 1 ]  d

est le Minimum fit function pour le modèle. En fait le test du rapport de vraisemblance
n’est pas suffisant pour juger de la qualité d’un ajustement et plusieurs autres statistiques
on été mises de l’avant pour ce faire.

- 10 -
ETUDE DES RÉSULTATS

Dans la sortie on regarde :

1. Les variances estimées de variables latentes (une variable latente intéressante varie!)
2. Les tests pour H0 : ji=0 pour savoir si les variables mesurées contribuent de façon
significative aux variables latentes construites;
3. Les R2 de chaque variable observée pour voir le pourcentage de sa variabilité
expliquée par les variables latentes;
4. Les estimations ˆ s des loadings standardisés pour déterminer les variables les plus
ij
associées à chaque variable latente;
5. Les indices d’ajustement pour vérifier si le modèle s’ajuste bien aux données;

- 11 -
AJUSTEMENT DU MODELE
PROGRAMME R
PROGRAMMATION SAS :
library(sem)
data afc(type=cov); cov<-matrix(
_type_="COV"; c(1.510,1.133,1.452,0.110,
infile cards missover; 1.133, 2.283, 2.125, 0.150,
input _name_ $ MoEd FaEd PaJntInc HSRank; 1.452, 2.125, 7.017, 0.113,
datalines; 0.110, 0.150, 0.113, 0.604),
MoEd 1.510 byrow=T, nrow=4, ncol=4,
FaEd 1.133 2.283 dimnames=list(c("MoEd","FaEd","PaJntInc","HSRan
PaJntInc 1.452 2.125 7.017 k"),c("MoEd","FaEd","PaJntInc","HSRank")))
HSRank 0.110 0.150 0.113 0.604
; model1<- specify.model()
PaSES -> MoEd, NA, 1
proc calis data=afc cov pcorr nobs=3094; PaSES -> FaEd, lam21, NA
LINEQS PaSES -> PaJntInc, lam31, NA
MoEd = F_PaSES + E1, AcRank -> HSRank, NA, 1
FaEd = lambda_21 F_PaSES + E2, MoEd <-> MoEd, e1, NA
PaJntInc = lambda_31 F_PaSES + E3, FaEd <-> FaEd, e2, NA
HSRank = F_AcRank; PaJntInc <-> PaJntInc, e3, NA
STD HSRank <-> HSRank, NA, 0
F_PaSES = var_PaSES, PaSES <-> PaSES, vf1, NA
F_AcRank = var_AcRank, AcRank <-> AcRank, vf2, NA
E1-E3 = var_e1-var_e3; PaSES <-> AcRank, covF1F2, NA
COV
F_PaSES F_AcRank = cov; afc <- sem(model1, cov, 3094)
VAR MoEd FaEd PaJntInc HSRank; summary(afc)
run;

- 12 -
PROGRAMME SIMPLIS
Quatre variables pour le statut parental et la
Programme LISREL
performance scolaire TI Quatre variables pour le statut parental et la
Observed Variables performance scolaire
MoEd FaEd PaJntInc HSRank !DA NI=4 NO=3094 MA=CM
Correlation Matrix SY='C:\Documents and Settings\***\CFA02-06.DSF'
1 MO NX=4 NK=2 TD=SY
.610 1 LK
.446 .531 1 PaSES ACRank
.115 .128 .055 1 FI TD(4,4)
Standard deviations FR LX(2,1) LX(3,1)
1.229 1.511 2.649 .777 VA 1 LX(1,1)
Sample Size 3094 VA 1 LX(4,2)
Latent Variables: PaSES ACRank PD
Relationships: OU SC ND=3
MoEd = 1*PaSES Note :
FaEd PaJntInc = PaSES LK Donne le nom des variables latentes
HSRank = 1*ACRank TD=Theta Delta
Set the error Variance of HSRank to 0
Number of Decimals = 3 SY= Symmetric
Wide Print FI=fixe des paramètres
Path Diagram FR= spécifie les paramètres libres
End of Problem
VA=donne une valeur spécifique à un
(Ce programme pose     1) 31 42
paramètre

- 13 -
SORTIE SAS :
Matrice de variances covariances empirique (S):

MoEd FaEd PaJntInc HSRank


MoEd 1.510 1.133 1.452 0.110
FaEd 1.133 2.283 2.125 0.150
PaJntInc 1.452 2.125 7.017 0.113
HSRank 0.110 0.150 0.113 0.604

Manifest Variable Equations with Estimates

MoEd = 1.0000 F_PaSES + 1.0000 E1  1 0


FaEd = 1.4665*F_PaSES + 1.0000 E2 
Std Err 0.0483 lambda_21 ˆx 
1.467 0 
t Value 30.3663 
1.869 0
PaJntInc = 1.8692*F_PaSES + 1.0000 E3 
Std Err 0.0627 lambda_31  0 1 
t Value 29.7994
HSRank = 1.0000 F_AcRank

Cette partie de la sortie SAS donne les éléments de la matrice des coefficients structuraux ˆij
(loadings). Tous les coefficients sont significatifs.

- 14 -
Variances of Exogenous Variables

Variable Parameter Estimate StdErr tValue


F_PaSES var_PaSES 0.77398 0.03984 19.43
F_AcRank var_AcRank 0.60400 0.01536 39.33
E1 var_e1 0.73602 0.02852 25.81
E2 var_e2 0.61850 0.04875 12.69
E3 var_e3 4.31268 0.13323 32.37

Covariances Among Exogenous Variables


ˆ =
0.7740 0.0981 
Var1 Var2 Parameter Estimate Stderr tValue
  0.0981 0.6040 
 
F_PaSES F_AcRank cov 0.09814 0.01392 7.05
 0.7360 0 0 0
Ces parties de la sortie SAS renseigne sur les éléments de la matrice de  0 0.6185 0 0
  
ˆ 
variances covariances des variables latentes ( ̂ ) et sur les éléments de   0 0 4.3127 0 
la matrice de variances covariances des erreurs pour les variables  0 0 
ˆ
observées (  ).  0 0

Comme en régression, le modèle décompose la variance de chaque variable en une partie prédite par
le modèle et une partie résiduelle. Par exemple,

var( FaEd )  ˆ212  ˆ2  ˆ2  1.4672  0.774  0.6185  2.283


1 1

- 15 -
Manifest Variable Equations with Standardized Estimates ˆijs
MoEd = 0.7159 F_PaSES + 0.6982 E1
FaEd = 0.8539*F_PaSES + 0.5205 E2
lambda_21
PaJntInc = 0.6208*F_PaSES + 0.7840 E3
lambda_31
HSRank = 1.0000 F_AcRank

Squared Multiple Correlations


Error Total
Variable Variance Variance R-Square

1 MoEd 0.73602 1.51000 0.5126


2 FaEd 0.61850 2.28300 0.7291
3 PaJntInc 4.31268 7.01700 0.3854
4 HSRank . 0.60400 .
Correlations Among Exogenous Variables

Var1 Var2 Parameter Estimate


F_PaSES F_AcRank cov 0.14354

Ces parties de la sortie SAS donne les loadings standardisés qui sont les corrélations entre les
variables observées et les variables latentes. Par exemple, la corrélation entre MoEd et PaSES est de
ˆ11s  0.7159 . De plus, le R2 de la régression de PaSES sur MoEd est de 51.26%. La dernière
statistique nous renseigne sur la corrélation entre les deux variables latentes, soit r=0.14354.

- 16 -
L’information sur l’ajustement du modèle peut être résumée dans le diagramme de cheminement
suivant :
Diagramme de cheminement des variables latentes

Effets standardisés Estimateurs des paramètres


d’origine

- 17 -
Interprétation des sorties

Le loading standardisé (standardized solution) est défini comme étant


ˆijs  ˆ2j ˆij ,
c’est le loading qu’on aurait obtenu si on avait fixé la variance de la variable latente à 1.
Dans l’exemple précédent, le loading standardisé pour FaEd est
ˆijs  .774  1.467  1.290

Par contre le loading complètement standardisé (completely standardized solution) est


celui qui tient également compte de la variance de la variable
ˆijcs  ˆ2j / si2 ˆij
Dans l’exemple précédent, le loading complètement standardisé pour FaEd est
ˆijs  .774 / 2.283  1.467  0.854
Dans LISREL les effets standardisés donnent les loadings complètement standardisés.
Standardized Solution Completely Standardized Solution
LAMBDA-X LAMBDA-X

PaSES ACRank PaSES ACRank


MoEd 0.880 -- MoEd 0.716 --
FaEd 1.290 -- FaEd 0.854 --
PaJntInc 1.645 -- PaJntInc 0.621 --
HSRank -- 0.777 HSRank -- 1.000

- 18 -
INDICES D’AJUSTEMENT

Tous les programmes pour les modèles d’équations structurelles rapportent plus d’une
trentaine d’indices pour évaluer l’ajustement d’un modèle. Le principal défaut du test
d’ajustement du rapport de vraisemblance est qu’il dépend de n. Il a tendance à être
significatif lorsque n est grand même si le modèle s’ajuste relativement bien. Plusieurs
alternatives au test du chi-deux ont été mises de l’avant pour évaluer l’ajustement. On a,
par exemple, essayer de généraliser le R2 de la régression qui s’écrit :

R  1
2  ( yi  yˆ i )2
 1 
SSres
.
 i( y  y ) 2
SS tot
En mot, c’est un moins la proportion de la variabilité de y qui n’est pas expliquée par le
modèle de régression.

Le GFI (goodness of fit index) reprend cette formule avec SSres  F  S , (ˆ)  et
SStot  F  S , (0) , où (0) est une matrice de variance covariances de référence dont
tous les paramètre sont fixes (peut-être que (0) est la matrice identité). Comme valeur
de SStot le NFI (normed fit index) prend plutôt SStot  F  S ,diag(ˆ12 ,...,ˆ d2 )  où
F  S ,diag(ˆ12 ,...,ˆ d2 )   Fi est proportionnelle à la statistique du chi-deux pour tester
l’hypothèse d’indépendance,

- 19 -
 d2( d 1)/2  (n  1) F  S ,diag(ˆ12 ,..., ˆ d2 )   (n  1) Fi .
Rappelons que si cette statistique est petite, disons du même ordre de grandeur que ses
degrés de liberté, l’hypothèse d’indépendance entre les d variables est acceptable. Il est
inutile de poursuivre l’analyse.
Le Normed fit index est donc 1 moins la proportion du chi-deux d’indépendance qui reste
une fois que le modèle a été ajusté,
Fi  F  S , (ˆ)  F  S , (ˆ) 
NFI   1 .
Fi Fi
(attention : peut être inférieur à 1 même si le modèle s’ajuste bien ; cet indice peut sous-
estimer la qualité de l’ajustement !)
Certaines mesures, comme le adjusted goodness of fit index (AGFI) s’inspirent du R2
ajusté,
n 1
2
Radj  1 (1  R 2 )
n  p 1

(on rappelle que p est le nombre de paramètres du modèle d’équations structurelles).

Une version un peu compliquée du NFI, le non normed fit index (NNFI), compare les
indices 2 divisés par leur degré de liberté pour le modèle d’indépendance et le modèle à
l’étude :

- 20 -
Fi / [d ( d  1) / 2  d ]  F  S , (ˆ)  / [d ( d  1) / 2  p]
NNFI  .
Fi / [d (d  1) / 2  d ]   n 

Le comparative fit index de Bentler est


max ( n  1) F  S , (ˆ)   d ( d  1) / 2  p,0
CFI  1    .
max (n  1) F  S , ( )   d ( d  1) / 2  p,( n  1) Fi  d ( d  1) / 2,0 
ˆ
 
L’ajustement du modèle est jugé satisfaisant si ces indices sont supérieurs à environ 90%.

Le « parsimonious normed fit index », PNFI, multiplie le NFI par {d(d+1)/2-p}/{d(d-


1)/2}, la proportion des paramètres de dépendance non utilisée par le modèle. Une valeur
faible indique que le modèle utilise un pourcentage important des paramètres disponibles.

Un autre indice mesure le manque d’ajustement. Le root mean squared error


approximation (RMSEA),
 F  S , (ˆ)  
RMSEA  max    
1
,0 
 d (d  1) / 2  p n  1 
 
qui doit être inférieur à 6%.

- 21 -
Goodness of Fit Statistics (LISREL) ECVI for Saturated Model = 0.00647 ECVI for
Independence Model = 0.888
Degrees of Freedom = 2 =d(d+1)/2-p
Minimum Fit Function Chi-Square = 7.405 (P = Chi-Square for Independence Model with 6 Degrees
0.0247) Test d’ajustement du modèle (Hypothèse of Freedom = 2739.195
nulle: le modèle postulé décrit bien la relation entre Test d’indépendance, Hypothèse nulle: Les 4
les variables, Alternative : le modèle ne décrit pas variables du modèle sont indépendantes (les 6
bien cette relation) paramètres de covariance sont nuls)
Normal Theory Weighted Least Squares Chi-Square = Independence AIC = 2747.195 Model AIC = 23.372
7.372 (P = 0.0251) Saturated AIC = 20.000 Independence CAIC =
Estimated Non-centrality Parameter (NCP) = 5.372 2775.344 Model CAIC = 79.670 Saturated CAIC =
90 Percent Confidence Interval for NCP = (0.491 ; 90.372
17.733) (AIC=Akaike Information Criterion)
Minimum Fit Function Value F  S , (ˆ)  =0.00239
=7.405/3093 Normed Fit Index (NFI) = 0.997
Population Discrepancy Function Value (F0) = Non-Normed Fit Index (NNFI) = 0.994
0.00174 Parsimony Normed Fit Index (PNFI) = 0.332
90 Percent Confidence Interval for F0 = (0.000159 ; Comparative Fit Index (CFI) = 0.998
0.00573) Incremental Fit Index (IFI) = 0.998
Root Mean Square Error of Approximation (RMSEA) Relative Fit Index (RFI) = 0.992
(livre p. 89-90)
= 0.0295  .00239 / 2  1/ 3093
90 Percent Confidence Interval for RMSEA = Critical N (CN) = 3848.465
(0.00891 ; 0.0535) P-Value for Test of Close Fit Root Mean Square Residual (RMR) = 0.0228
(RMSEA < 0.05) = 0.915 Standardized RMR = 0.0116
Goodness of Fit Index (GFI) = 0.999
Expected Cross-Validation Index (ECVI) = 0.00756 Adjusted Goodness of Fit Index (AGFI) = 0.994
90 Percent Confidence Interval for ECVI = (0.00598 ; Parsimony Goodness of Fit Index (PGFI) = 0.200
0.0116)

- 22 -
Bentler's Comparative Fit Index
INDICE D’AJUSTEMENT DE LA SORTIE SAS 0.9979
Normal Theory Reweighted LS Chi-Square 7.3963
(LISTE ÉCOURTÉE) Akaike's Information Criterion 3.4288
Bozdogan's (1987) CAIC -10.6457
Fit Function Schwarz's Bayesian Criterion
0.0024 -8.6457
Goodness of Fit Index (GFI) McDonald's (1989) Centrality 0.9991
0.9988 Bentler & Bonett's (1980) Non-normed Index 0.9938
GFI Adjusted for Degrees of Freedom (AGFI) Bentler & Bonett's (1980) NFI 0.9972
0.9940 James, Mulaik, & Brett (1982) Parsimonious NFI
Root Mean Square Residual (RMR) 0.3324
0.0228 Z-Test of Wilson & Hilferty (1931) 1.9794
Parsimonious GFI (Mulaik, 1989) Bollen (1986) Normed Index Rho1 0.9915
0.3329 Bollen (1988) Non-normed Index Delta2 0.9979
Chi-Square Hoelter's (1983) Critical N 2496
7.4288
Chi-Square DF
2
Pr > Chi-Square
0.0244
Independence Model Chi-Square
2628.6
Independence Model Chi-Square DF
6
RMSEA Estimate
0.0296
RMSEA 90% Lower Confidence Limit
0.0091
RMSEA 90% Upper Confidence Limit
0.0537
ECVI Estimate
0.0076
ECVI 90% Lower Confidence Limit
0.0060
ECVI 90% Upper Confidence Limit
0.0116
Probability of Close Fit
0.9133

- 23 -
CONCLUSIONS POUR LE PREMIER EXEMPLE:
 Statistique du chi deux (et obs
2
/ 2 =3.71) un peu grande ; ceci est sans doute
attribuable à la grande taille d’échantillon ;
 Cette grande valeur vient du fait que la corrélation observée de 0.055 entre PaJntInc
et HSRank est beaucoup plus petite que la corrélation prédite .089. En fait PaJntInc
mesure le volet économique du milieu socio économique parental alors que les deux
autres variables sont associés à l’aspect académique de ce milieu. HSRank qui
mesure la performance académique est plus corrélée avec MoEd et FaEd qu’avec
PaJntInc. On pourrait raffiner le modèle en distinguant deux aspects, académique et
économique, au milieu parental.
 Les indices d’ajustement sont bons, cependant les indices de parcimonie sont
faibles ; le modèle utilise beaucoup de paramètres pour modéliser 10 degrés de
liberté ;
 Le R2 de .386 pour PaJntInc est faible et pose la question à savoir si cette variable
est vraiment utile pour caractériser le niveau socio-économique des parents. Notons
cependant que le loading associé à cette variable, ˆ13  1.869 , est significativement
différent de 0 (t=30). Ceci suggère de conserver cette variable dans le modèle.
 Le alpha de Cronbach pour la variable latente PaSES est de .77. Les 3 items sous-
jacents sont bien associés à un même construit latent.

- 24 -
ANALYSE FACTOREILLE CONFIRMATOIRE : QUE FAIRE SI
L’AJUSTEMENT EST MAUVAIS

Le bon ajustement d’un modèle d’analyse factorielle confirmatoire signifie que l’analyste
a identifié une structure plausible pour le phénomène étudié. Évidemment, cette structure
plausible n’est pas unique et il est possible qu’une analyse des mêmes données avec un
autre modèle donne des résultats aussi bons!

Que faire si le modèle postulé ne s’ajuste pas bien? On peut


1. Rejeter le modèle étudié comme étant incapable de bien représenter la structure des
données à l’étude.
2. Choisir le modèle qui s’ajuste le mieux parmi une liste dressée a priori des modèles
susceptibles de bien expliquer les données.
3. Modifier le modèle en se basant sur des mesures d’ajustement et sur des statistiques
diagnostiques dont nous allons discuter maintenant.

On distingue souvent deux types d’erreurs, externes et internes. L’oubli d’une variable
importante pour l’analyse est une erreur externe alors que l’omission d’un lien entre deux
variables de l’analyse est une erreur interne. Une bonne connaissance du domaine
d’application des équations structurelles offre une certaine protection contre les erreurs
externes. Des outils statistiques sont disponibles pour mettre en lumière les erreurs
internes.

- 25 -
Modification Indices (MI) et Expected Parameter Change (EPC)

Ces deux classes de statistiques sont des outils pour détecter et corriger les erreurs
internes pour un modèle.

On peut ajouter au modèle des paramètres structuraux  ou éventuellement des


covariances entre les variables observées, c’est-à-dire des éléments non nuls hors de la
diagonale de la matrice .
Si un paramètre  est fixé à 0 dans la spécification initiale du modèle on peut étudier le
bien fondé de cette décision en testant l’hypothèse H0 :=0. Une statistique score,
souvent appelé test du multiplicateur de Lagrange, peut être utilisée dans ce cas.
L’intérêt d’un test score est qu’il peut être calculé sans faire un nouvel ajustement du
modèle, en y ajoutant un nouveau  possiblement non nul. En analyse d’équations
structurelles les MI sont les statistiques chi-deux observées, à un degré de liberté, pour les
tests scores de paramètres fixés à 0 lors de l’ajustement initial du modèle.

On va maintenant construire des variables latentes pour les variables endogènes dans
l’exemple du milieu socio-économique. Dans l’exemple de diagramme de cheminement
avec variables observée, on avait trois variables endogènes DegreAsp → Selctvty →
Degree. On va chercher à mieux caractériser l’ambition et le milieu socio-économique en
les définissant à partir de plusieurs variables observées.

- 26 -
CFA POUR LA MOTIVATION ACADEMIQUE, LE PRESTIGE DU COLLEGE ET
LE STATUT SOCIO-ECONOMIQUE
On a 7 variables observées X1=AcAbilty, X2=SelfConf, X3=DegreAsp, X4=Selctvty,
X5=Degree, X6=OcPrestg X7=Income. La matrice de variances covariances à modéliser
est

AcAbilty SelfConf DegreAsp Selctvty Degree OcPrestg Income


AcAbilty 0.554
SelfConf 0.283 0.612
DegreAsp 0.178 0.163 1.028
Selctvty 0.566 0.336 0.432 3.960
Degree 0.173 0.135 0.247 0.486 0.925
OcPrestg 0.193 0.112 0.202 0.491 0.736 2.531
Income 0.077 0.051 0.041 0.240 0.166 0.352 2.647

On veut exprimer ces variables en terme de trois variables latentes, à savoir 1=
Motivation académique, 2= Prestige du collège et 3= Statut socio-économique de la
façon suivante,
X1=AcAbilty, X2=SelfConf, X3=DegreAsp → 1= Motivation académique,( AcMotiv )
X4=Selctvty → 2= Prestige du collège (ColgPres )
X5=Degree, X6=OcPrestg X7=Income → 3=Statut socio-économique (SES)

- 27 -
UN PROBLEME POTENTIEL

En principe, dans un modèle d’analyse factorielle confirmatoire, deux variables associées


à une même variable latente devraient être plus corrélées entre elles que si elles étaient
associées à deux variables latentes différentes. En effet, dans ce dernier cas la corrélation
entre les deux variables vient seulement de la corrélation entre les deux variables latentes.

Dans cet exemple, les corrélations entre Degree et Income est de .106 alors que la
corrélation Degree DegreAsp est de .253. Ces corrélations contreviennent à la règle
générale énoncée plus haut. Elle laisse planer un doute concernant la qualité du modèle
postulé. On note également la faible corrélation de Income avec toutes les autres
variables.
AcAbilty SelfConf DegreAsp Selctvty Degree OcPrestg Income
AcAbilty 1
SelfConf 0.487 1
DegreAsp 0.236 0.206 1
Selctvty 0.382 0.216 0.214 1
Degree 0.242 0.179 0.253 0.254 1
OcPrestg 0.163 0.090 0.125 0.155 0.481 1
Income 0.064 0.040 0.025 0.074 0.106 0.136 1
Note: les de Cronbach pour Degree , OcPrestg ,Income (correlation moyenne rm=.241,
s=0.49) et AcAbilty, SelfConf, DegreAsp (rm=.310, s=0.57) ne satisfont pas le critère
3rm
s   0.7 .
1  2rm

- 28 -
Le modèle de CFA est décrit par les matrices suivantes

  21 0 0 0 0 0 0 
 11 0 0   
  2
0   0  0 0 0 0 0 
0 2
 21   0  2 0 
 31 0 0    2
     0 0 0 0
 1
 1 2 1 3
  3

 x   0 42 0      12  2    et    0 0 0  2 4
0 0 0 
 0 0 
2 2 3
    2   2
 0 0 53   13 
0 0 0 5
0

 
2 3 3

 0 0 63   0 0 0 0 0  2 0 
 2 
6
 0 73   0
 0
 0 0 0 0 0  7 

Sample Size 3094


Le programme SIMPLIS et sa sortie sont : Latent Variables: AcMotiv ColgPres SES
Observed Variables
Relationships:
AcAbilty SelfConf DegreAsp Selctvty
AcAbilty = 1*AcMotiv
Degree OcPrestg Income
SelfConf = AcMotiv
Correlation Matrix
DegreAsp = AcMotiv
1
Selctvty = 1*ColgPres
.487 1
Degree = 1*SES
.236 .206 1
OcPrestg =SES
.382 .216 .214 1
Income=SES
.242 .179 .253 .254 1
Set the error Variance of Selctvty to 0
.163 .090 .125 .155 .481 1
Number of Decimals = 3
.064 .040 .025 .074 .106 .136 1
Wide Print
Standard deviations
Path Diagram
.744 .782 1.014 1.990 .962 1.591 1.627
End of Problem

- 29 -
LISREL Estimates (Maximum Likelihood) Goodness of Fit Statistics
Measurement Equations
AcAbilty = 1.000*AcMotiv, Errorvar.= 0.193 R=0.651 Degrees of Freedom = 12
(0.0161) Minimum Fit Function Chi-Square = 155.501 (P = 0.0)
11.972
Minimum Fit Function Value = 0.0503
SelfConf = 0.765*AcMotiv, Errorvar.= 0.401 R²=0.345 Population Discrepancy Function Value (F0) = 0.0459
(0.0371) (0.0138) 90 Percent Confidence Interval for F0 = (0.0341 ;
20.605 29.045 0.0600)
Root Mean Square Error of Approximation (RMSEA) =
DegreAsp = 0.568*AcMotiv, Errorvar.= .912 R²=0.113 0.0618
(0.0387) (0.0244) 90 Percent Confidence Interval for RMSEA = (0.0533
14.671 37.415 ; 0.0707)
P-Value for Test of Close Fit (RMSEA < 0.05) =
Selctvty = 1.000*ColgPres,, R² = 1.000 0.0116

Degree = 1.000*SES, Errorvar.= 0.287 , R² = 0.690 Expected Cross-Validation Index (ECVI) = 0.0601 (ou
(0.0430) 6.671 .0606 selon le livre p.107)
90 Percent Confidence Interval for ECVI = (0.0483 ;
OcPrestg = 1.151*SES, Errorvar.= 1.685 , R² =0.334 0.0742)
(0.0808) (0.0708)
14.254 23.801 Chi-Square for Independence Model with 21 Degrees
.5
CS= 1.151(.639/2.531) =.578 of Freedom = 3526.069
Income = 0.309*SES, Errorvar.= 2.586 , R² = 0.0230 Independence AIC = 3540.069
(0.0452) (0.0663) Model AIC = 185.852 Saturated AIC = 56.000
6.833 38.985 Independence CAIC = 3589.330
Model CAIC = 298.447 Saturated CAIC = 253.042
On note le petit R2 de 2.3%
Covariance Matrix of Independent Variables Normed Fit Index (NFI) = 0.956
AcMotiv ColgPres SES Non-Normed Fit Index (NNFI) = 0.928
AcMotiv 0.360 Parsimony Normed Fit Index (PNFI) = 0.546
(0.020) Comparative Fit Index (CFI) = 0.959
Incremental Fit Index (IFI) = 0.959
17.784
Relative Fit Index (RFI) = 0.923
ColgPres 0.549 3.960 Critical N (CN) = 522.490
(0.028) (0.101) Root Mean Square Residual (RMR) = 0.0540
19.604 39.326 Standardized RMR = 0.0370
SES 0.184 0.478 0.639 Goodness of Fit Index (GFI) = 0.986
(0.013) (0.035) (0.048) Adjusted Goodness of Fit Index (AGFI) = 0.967
Parsimony Goodness of Fit Index (PGFI) = 0.423
14.377 13.631 13.325

- 30 -
Faits saillants de l’analyse :
1-Income contribue très peu à la variable SES (R² = 0.0230)
2- Mauvais ajustement 12  153.85 .
2

Les degrés de liberté sont calculés de la façon suivante dl =7*8/2-6-4- 6 = 12 où 6= #


variances résiduelles, 4= # paramètres  qui varient, 6= # de paramètres dans la matrice
. En fait ce modèle compte 6+4+6=16 paramètres.

On va chercher les aspects les plus problématiques du modèle à l’aide des indices de
modification (MI) et ajouter certains paramètres au modèle

- 31 -
The Modification Indices Suggest to Add the

Path to from Decrease in Chi-Square New Estimate


AcAbilty ColgPres 12.5 0.05
AcAbilty SES 12.1 -0.10
SelfConf ColgPres 43.4 -0.07
DegreAsp ColgPres 19.5 0.05
DegreAsp SES 85.3 0.27
OcPrestg AcMotiv 8.6 -0.31
La suggestion qui baisse le plus la statistique chi-deux ne respecte pas la construction du
modèle: DegreAsp est un déterminant de AcMotiv. SES ne peut contribuer à cette
variable.
The Modification Indices Suggest to Add an Error Covariance

Between and Decrease in Chi-Square New Estimate


#1 SelfConf AcAbilty 70.9 0.23
#3 DegreAsp AcAbilty 56.7 -0.12
#7 Selctvty AcAbilty 14.5 0.14
#4 Selctvty SelfConf 35.7 -0.18
#9 Selctvty DegreAsp 10.2 0.11
#8 Degree AcAbilty 13.6 -0.04
#2 Degree DegreAsp 70.8 0.12
#5 Income Degree 20.5 -0.16
#6 Income OcPrestg 15.2 0.17

Note : LISREL sort ces statistiques par défaut.

- 32 -
#1 SelfConf AcAbilty 70.9
#2 Degree DegreAsp 70.8
DegreAsp SES 85.3
Stratégie d’analyse

1- On libère un paramètre
s’il a un grand MI et si
son EPC est grand s’il
respect la logique du
modèle.

2- On peut régler un
problème de deux façons
différentes, en ajoutant
un nouveau  ou en
permettant à certaines
erreurs de covarier.

- 33 -
Suggestions pour la suite :
1- Laisser tomber Income et utiliser seulement deux variables pour définir la variable
latente SES ;
2- On ajoute des covariances entres les erreurs résiduelles pour (1) SelfConf et
AcAbilty et (2) Degree et DegreAsp

Programme SIMPLIS avec ces changements


Observed Variables Path Diagram
AcAbilty SelfConf DegreAsp Selctvty Degree End of Problem
OcPrestg 6.6in.02in
Correlation Matrix
1
.487 1 LISREL Estimates (Maximum Likelihood)
.236 .206 1
.382 .216 .214 1 Measurement Equations
.242 .179 .253 .254 1
.163 .090 .125 .155 .481 1
Standard deviations
AcAbilty = 1.000*AcMotiv, Errorvar.= 0.323,R²=0.416
.744 .782 1.014 1.990 .962 1.591 (0.0206)
Sample Size 3094 15.713
Latent Variables: AcMotiv ColgPres SES
Relationships: SelfConf = 0.683*AcMotiv, Errorvar.= 0.504,R²=0.176
AcAbilty = 1*AcMotiv
(0.0389) (0.0174)
SelfConf = AcMotiv 17.551 28.999
DegreAsp = AcMotiv
Selctvty = 1*ColgPres DegreAsp = 0.811*AcMotiv, Errorvar.= 0.877,R²=0.147
Degree = 1*SES (0.0652) (0.0255)
OcPrestg =SES
12.440 34.451
Set the error Variance of Selctvty to 0
Set the error Covariance of AcAbilty and SelfConf Selctvty = 1.000*ColgPres,, R² = 1.000
free
Set the error Covariance of Degree and DegreAsp Degree = 1.000*SES, Errorvar.= 0.237 , R² = 0.743
free
(0.0527)
Number of Decimals = 3 4.492
Wide Print

- 34 -
90 Percent Confidence Interval for F0 = (0.00306 ;
OcPrestg = 1.066*SES, Errorvar.= 1.751 ,R² = 0.308 0.0137)
(0.0856) (0.0748) Root Mean Square Error of Approximation (RMSEA) =
12.450 23.428 0.0379
90 Percent Confidence Interval for RMSEA = (0.0247
Error Covariance for SelfConf and AcAbilty = 0.126 ; 0.0524)
(0.0156) P-Value for Test of Close Fit (RMSEA < 0.05) =
8.069 0.912
Error Covariance for Degree and DegreAsp = 0.0895
(0.0161) Expected Cross-Validation Index (ECVI) = 0.0191
5.558 90 Percent Confidence Interval for ECVI = (0.0150 ;
0.0257)
La variance de AcMotiv a baissé de .360 à ECVI for Saturated Model = 0.0136
.230 ! Les R2 associés à cette variable ont ECVI for Independence Model = 1.102

diminués, sans doute parce que l’on permet une Normed Fit Index (NFI) = 0.992
corrélation entre SelfConf and AcAbilty. Non-Normed Fit Index (NNFI) = 0.980
Parsimony Normed Fit Index (PNFI) = 0.331
Covariance Matrix of Independent Variables
Goodness of Fit Index (GFI) = 0.997
Adjusted Goodness of Fit Index (AGFI) = 0.988
AcMotiv ColgPres SES Parsimony Goodness of Fit Index (PGFI) = 0.237
AcMotiv 0.230
(0.022)
10.438 Evidemment, l’ajustement est meilleur
ColgPres 0.551 3.960
(0.028) (0.101) qu’avant, cependant le construit AcMotiv
19.541 39.326 manque de stabilité. Sa variance
SES 0.181 0.484 0.686
(0.013) (0.035) (0.057) relativement est faible de AcMotiv .230 .
13.980 13.725 12.062
Un Intervalle de confiance à 95% est
Goodness of Fit Statistics
Degrees of Freedom = 5 (.186, .274).
Minimum Fit Function Chi-Square = 27.464 (P =
0.000)

Minimum Fit Function Value = 0.00888


Population Discrepancy Function Value (F0) =
0.00718

- 35 -
Les estimés et les estimés standardisés

36
DISCUSSION DES RESULTATS
1-L’instrument mis au point répond-il aux attentes ? Mesure-t-il ce pourquoi il a été
développé ?
Les valeurs possibles de l’instrument couvrent-elles une plage suffisamment large ?
(Note : Instrument = Variable latente construite)

Validité = corrélation avec d’autres variables censées mesurées la même chose.

L’analyse confirmatoire permet de définir 3 dimensions à validité :


1- Bon ajustement statistique du modèle aux données ;
2- Des coefficients  assez grands (pour comparer 2 jeux de données on utilise les
coefficients non standardisés alors que pour comparer les variables entre elles on
utilise les coefficients standardisés) ;
3- Une correspondance entre les relations estimées et espérées entre les variables
latentes.
Fiabilité
1- Stabilité temporelle (corrélation entre deux temps de collecte, carry-over effect ?)
2- Cohérence interne (corrélation entre les 2 composantes d’un construit ou alpha de
Cronbach)
3- Les R2 qui donnent la proportion de variance expliquée par les construits sont
grands

37
4- ANALYSE FACTORIELLE CONFIRMATOIRE : ÉVALUATION DES
POLICIERS
Le modèle avec les deux facteurs pour expliquer les 10 variables s’ajuste bien
 262  34.94
Factor 1 Factor 2 Unique Var
CommSk 0.457 0.575 0.460
LearnAbi 0.187 0.708 0.464
Judgment 0.639 0.382 0.446
ObserSk 0.134 0.862 0.239
WillConP 0.103 0.797 0.353
IntPeop 0.886 0.159 0.190
InterPer 0.901 0.048 0.186
DesiSelf 0.414 0.644 0.415
Depend 0.580 0.551 0.361
Inegrety 0.768 0.321 0.307

Facteur 1 : Relations interpersonnelles


Facteur 2 : Habilités individuelles

En général un item n’est associé qu’à un seul construit latent. On peut donc 5 items à
chacun des deux construit sur la base du plus grand  jis .Ceci donne un modèle d’AFC
dont nous allons maintenant évalué l’ajustement.

38
Programme Simplis
CFA: donnees sur les policiers; estimation des
variables latentes
Raw data from file job13AFE.lSF
Reorder variables: ObserSk CommSk DesiSelf
LearnAbi WillConP IntPeop Judgment InterPer
Depend Inegrety
Latent variables: Perso Rela
Relationships:
ObserSk =1*Perso
CommSk DesiSelf LearnAbi WillConP = Perso
IntPeop =1*Rela
Judgment InterPer Depend Inegrety
=Rela
path diagram
Number of Decimals=3
End of Program
Clairement le modèle proposé ne s’ajuste pas
bien
Goodness of Fit Statistics Root Mean Square Error of Approximation (RMSEA)
0.158
Degrees of Freedom for (C1)-(C2) 34 90 Percent Confidence Interval for RMSEA (0.128 ;
Maximum Likelihood Ratio Chi-Square (C1) 121.396 (P 0.189)
= 0.0000) P-Value for Test of Close Fit (RMSEA $<$ 0.05) 0.000
Browne's (1984) ADF Chi-Square (C2\_NT) 130.842 (P =
0.0000) Expected Cross-Validation Index (ECVI) 1.586
Estimated Non-centrality Parameter (NCP) 87.396 90 Percent Confidence Interval for ECVI (1.296 ;
90 Percent Confidence Interval for NCP (57.505 ; 1.950)
124.877) ECVI for Saturated Model 1.068
Minimum Fit Function Value 1.179 ECVI for Independence Model 12.310
Population Discrepancy Function Value (F0) 0.849
90 Percent Confidence Interval for F0 (0.558 ; Chi-Square for Independence Model (45 df) 1247.947
1.212)

39
Normed Fit Index (NFI) 0.902 Covariance Matrix of Independent Variables
Non-Normed Fit Index (NNFI) 0.903
Parsimony Normed Fit Index (PNFI) 0.681 Perso Rela
Comparative Fit Index (CFI) 0.927 -------- --------
Incremental Fit Index (IFI) 0.927 Perso 2.101
Relative Fit Index (RFI) 0.870 (0.429)
4.896
Critical N (CN) 48.104
Rela 1.429 2.822
(0.321) (0.500)
4.449 5.641

On inclut dans le modèle des covariances entre certaines variables observes pour obtenir
un meilleur ajustement. Les indices de modifications suggérent d’ajouter un lien de
Perso à Depen. Cette modification pourrait également être envisagée. Notons que l’ajout
des trois covariances résiduelles augmente la corrélation entre les deux facteurs latents
qui passe de 0.59 à 0.71.

Il faut aussi noter que l’ajout de covariance diminue les R2 car la variable latente n’est
plus la seule explication pour la variabilité d’une variable observée. Elle diminue aussi la
variance des variables latentes. Par exemple, celle de Rela passe de 2.82 à 2.39. Dans le
modèle retenu le RMSEA est élevé. Peut-être qu’identifier Depen à un seul construit
n’est pas approprié. C’est toutefois ce modèle que nous allons utiliser pour construire un
modèle de prédiction pour le score global.

40
Sortie SIMPLIS pour le modèle choisi
Measurement Equations

ObserSk = 1.000*Perso, Errorvar.= 1.331 , R\² = 0.571


Standerr (0.233)
Z-values 5.726

CommSk = 1.055*Perso, Errorvar.= 1.335 , R\² = 0.596


Standerr (0.137) (0.240)
Z-values 7.675 5.572

DesiSelf = 1.031*Perso, Errorvar.= 1.110 , R\² = 0.629

41
Standerr (0.132) (0.206)
Z-values 7.810 5.378

LearnAbi = 0.747*Perso, Errorvar.= 0.805 , R\² = 0.551


Standerr (0.102) (0.137)
Z-values 7.307 5.885

WillConP = 0.783*Perso, Errorvar.= 1.239 , R\² = 0.467


Standerr (0.0866) (0.201)
Z-values 9.040 6.159

IntPeop = 1.000*Rela, Errorvar.= 1.186 , R\² = 0.669


Standerr (0.222)
Z-values 5.340

Judgment = 0.821*Rela, Errorvar.= 1.383 , R\² = 0.539


Standerr (0.103) (0.225)
Z-values 8.004 6.154

InterPer = 0.833*Rela, Errorvar.= 1.370 , R\² = 0.548


Standerr (0.0711) (0.220)
Z-values 11.706 6.222

Depend = 0.967*Rela, Errorvar.= 1.437 , R\² = 0.609


Standerr (0.112) (0.248)
Z-values 8.654 5.801

Inegrety = 1.021*Rela, Errorvar.= 0.907 , R\² = 0.734


Standerr (0.105) (0.192)

42
Z-values 9.688 4.722

Error Covariance for WillConP and ObserSk = 0.573


(0.174)
3.295

Error Covariance for InterPer and CommSk = 0.493


(0.139)
3.547

Error Covariance for InterPer and IntPeop = 0.642


(0.178)
3.609

Covariance Matrix of Independent Variables

Perso Rela
-------- --------
Perso 1.772
(0.413)
4.290

Rela 1.472 2.395


(0.315) (0.491)
4.679 4.876

43

Vous aimerez peut-être aussi