Vous êtes sur la page 1sur 59

LES MÉTHODES

D’ÉQUATIONS
STRUCTURELLES

Jean-Marc FERRANDI
PROGRAMME
‰ Quelques rappels sur les méthodes de première
génération

‰Les méthodes confirmatoires de seconde


génération Æ apprendre à valider un outil de
mesure

‰Les relations entre construits Æ modèles


d’équations structurelles
INDICATIONS
BIBLIOGRAPHIQUES
‰ Roussel P., Durrieu F., Campoy E. et El Akremi A. (2002), Méthodes
d'équations structurelles: recherche et applications en gestion, Economica.
‰ Roussel P. et Wacheux F. (2005), Management des ressources humaines :
Méthodes de recherche en sciences humaines et sociales, De Boeck.
‰ Schumacker R.E. et Lomax RG. (1996), A beginner's guide to structural
equation modeling, Lawrence Erlbaum Associates.
‰ Valette-Florence P. (1988), Spécificités et apports des méthodes d'analyse
multivariée de la deuxième génération, Recherche et Application en
Marketing, 3, 4, 23-56.
‰ Steenkamp J.B. et Baumgartner H. (2000), On the use of structural
equation model for marketing modeling, International Journal of Research
in Marketing, 17, 195-202.
‰ Crié D. (2005), De l'usage des modèles de mesure réflectifs ou formatifs
dans les modèles d'équations structurelles, Recherche et Applications en
Marketing, 20, 2, 5-28.
‰ M. Wedel et W. De Sarbo (1995), A Mixture Likelihood Approach for
Generalized Linear Models, Journal of Classification, 12, 1, 1-35.
ANALYSES DE BASE

une Nominale Ordinale Métrique


une

Nominale Test du χ2

Ordinale

Métrique Comparaison de Corrélation de


moyennes – Pearson
Analyse de la
variance
MÉTHODES DESCRIPTIVES
Nombre et nature des Types de méthodes
variables
Deux variables nominales Analyse factorielle des correspondances
simple
Plusieurs variables métriques ou Analyse des correspondances multiples
non
Plusieurs variables ordinales Analyse des préférences ou des similarités

Plusieurs variables métriques Analyse factorielle en composantes


principales
Plusieurs variables de nature Typologie
diverse
MÉTHODES EXPLICATIVES
Variable dépendante Variable Méthode
indépendante
Une nominale Plusieurs nominales Modèles log-linéaires
Une nominale Plusieurs métriques Analyse discriminante
Une ordinale Plusieurs non métriques Mesures conjointes
Une/plusieurs métriques Une/plusieurs non Modèles d’analyse de la
métriques ou diverses variance
Une métrique Une /plusieurs Régression
métriques simple/multiple
Plusieurs variables Plusieurs variables Analyse canonique
métriques métriques
Plusieurs variables de Plusieurs variables de Équations structurelles
nature diverse nature diverse et réseaux neuronaux
L’ANALYSE EN COMPOSANTES
PRINCIPALES

Quelques rappels
PRINCIPE
‰Résumer l’information contenue dans un
tableau individus x variables.

‰Remplacer les variables initiales par un


nombre plus petit de variables composées
ou facteurs

‰Comme dans une caricature, on grossit


les traits les plus expressifs (les facteurs)
= capturer «l’essence» des données
PRÉSENTATION
‰On appelle «analyse factorielle» un
ensemble de techniques multi-variées destinées
à découvrir la structure sous jacente d’une
matrice de données métriques
‰Une fois cette structure mise à jour, il est
possible de :
‰Résumer les données : elle sont concentrées dans un
nombre réduit de dimensions
‰Réduire les données : un score est recalculé pour chaque
observation sur l’ensemble des dimensions
ILLUSTRATION
Variables: X1, X2 , X3 X4, X5, X6 X7, X8, X9 X10, X11

Facteurs : F1 F2 F3 F4

Par exemple: les variables Xi sont les caractéristiques


d’une automobile, et les facteurs Fi les dimensions de
perception comme la puissance, la beauté ou le confort.
UTILITÉ

‰L’analyse factorielle est utilisée pour

‰Mettre à jour les dimensions sous-jacentes


d’un phénomène : personnalité, image, etc.

‰Réduire un nombre important de variables


corrélées entre elles en un plus petit nombre
de dimensions faiblement ou non corrélées
entre elles
LES CONDITIONS PRATIQUES

‰Les variables de départ doivent être


suffisamment nombreuses, et métriques (si
elles ne sont pas métriques, il faut utiliser
l’analyse factorielle des correspondances)

‰Il doit y avoir suffisamment de coefficients


supérieurs à .30 dans la matrice de corrélation
Analyse de la matrice de corrélations ou
Phase 1 de la matrice de covariances

Choix d’une méthode


d’analyse factorielle

Phase 2
Analyse en composantes
principales

Phase 3 Choix du nombre de facteurs


avant rotation

Choix d’une méthode


Phase 4 de rotation

Interprétation
Phase 5 des facteurs

Analyses
supplémentaires

Phase 6
Calcul des scores factoriels
Validation de l’analyse
Autres analyses factorielle
statistiques : Analyses Analyse factorielle
factorielles d’ordre confirmatoire
supérieur, régressions,
typologies, etc. 13
LA COMMUNAUTÉ

‰Elle représente le pourcentage de


variance de la variable qui est pris en
compte par la solution factorielle.
‰S’il est trop faible (moins de 0,5)
‰Conserver la variable si l’objectif est uniquement
la réduction de données
‰Recommencer l’analyse sans cette variable, si
l’objectif est de concentrer les données
LA ROTATION DES FACTEURS
‰Par construction, les facteurs sont orthogonaux (non
corrélés). Dans la solution initiale beaucoup de variables ont un
poids factoriel élevé sur le premier facteur, ce qui rend
l’interprétation difficile

‰Les méthodes de rotation orthogonale (varimax) visent à


faciliter l’interprétation tout en préservant l’orthogonalité de la
solution initiale

‰Les méthodes de rotation obliques (oblimin, promax) ne


préservent pas l’orthogonalité, mais correspondent mieux à la
réalité du phénomène étudié
LA NOTION DE POIDS
FACTORIEL
‰Un loading ou poids factoriel correspond
à la corrélation entre la variable et le facteur.
Il est donc compris entre –1 et +1.
‰Élevé au carré, il représente le pourcentage
de variance de la variable pris en compte par
le facteur
‰L’interprétation des facteurs se fonde sur
l’analyse des poids factoriels
INTERPRÉTATON DES
FACTEURS
‰Variable par variable, souligner le plus fort
poids factoriel
‰La signification de chaque facteur est
donnée par les variables dont le poids
factoriel a été souligné pour ce facteur
‰Plus un poids factoriel est élevé, plus la
variable concernée donne son sens au
facteur
CONCLUSION
‰Une méthode très utile pour comprendre la structure
d’une matrice de données et positionner les unités
d’observation

‰L’essentiel de la procédure est guidé par l’expérience


et l’intuition du chercheur

‰L’analyse factorielle confirmatoire vient renforcer les


résultats. De nos jours, c’est une étape devenue
indispensable à la suite d’une analyse factorielle
exploratoire, surtout dans le cadre de la construction
et validation d’une échelle.
L’ANALYSE FACTORIELLE
CONFIRMATOIRE
Comparaison avec les méthodes
de première génération
LES MODÈLES D’ÉQUATIONS
STRUCTURELLES
‰« Une classe de méthodologies ayant pour objectif
de représenter certaines hypothèses au sujet des
moyennes, des variances et des covariances de
données observées en termes d’un plus petit
nombre de paramètres structuraux définis dans un
modèle théorique sous-jacent » (Kaplan, 2000, cité
par Crié, 2005)
‰Des démarches par nature hypothético-déductives
permettant de traiter simultanément la nature de la
mesure de variables latentes et l’analyse des
structures théoriques représentant les relations
entre ces variables
LES MÉTHODES DE SECONDE
GÉNÉRATION

‰On part d’une structure définie théoriquement


a priori.

‰ On va valider cette structure théorique en la


confrontant à la réalité
DEUX MÉTHODES
COMPLÉMENTAIRES

‰L’ACP traditionnelle fait émerger la structure


des données a posteriori

‰ L’AFC confirmatoire valide un modèle de


mesure défini a priori
LES CARACTÉRISTIQUES DES
MÉTHODES DE SECONDE
GÉNÉRATION
‰La notion de variables latentes
LES VARIABLES LATENTES
‰Les variables latentes (non directement observables)
Æ variables théoriques. Elles sont déduites de
l’observation
‰Les variables observées = variables pour
lesquelles on dispose de mesures expérimentales
⇒Déplacement du modèle des variables observées
aux variables latentes.
‰Les variables latentes sont indéterminées ⇒ le calcul
est impossible théoriquement. Il existe un terme
d’erreur ζ qui aide à approcher la valeur
LES CARACTÉRISTIQUES DES
MÉTHODES DE SECONDE
GÉNÉRATION
‰La notion de variables latentes
‰La spécification de la relation entre les
variables latentes et leurs mesures
TROIS TYPES DE RELATIONS
‰Les relations causales
‰Indicateurs réflectifs

δ1 X1
δ2 X2
ξ1
δ3 X3
TROIS TYPES DE RELATIONS
‰Les relations causales
‰Indicateurs réflectifs
‰Indicateurs formatifs

X1
X2 ξ1

X3
TROIS TYPES DE RELATIONS

‰Les relations causales


‰Indicateurs réflectifs
‰Indicateurs formatifs
NB: Tout ce qui fait appel à l’individu est modélisé
de manière réflective.
‰Les relations non causales
‰L’analyse multidimensionnelle confirmatoire
LES CARACTÉRISTIQUES DES
MÉTHODES DE SECONDE
GÉNÉRATION
‰La notion de variables latentes
‰La spécification de la relation entre les
variables latentes et leurs mesures
‰Les relations entre les variables latentes
ε1 ε2 ε3

ψ31
δ1 X1 λ11 λ’11 λ’21 λ’31 ζ1 ζ3
λ21 γ11 η1
δ2 X2 ξ1 ε7
β31
δ3 X3 λ31
γ12 η3 ε8
ϕ21 β21 β12
δ4 X4 λ42 β32 ε9
λ52 ξ γ22
δ5 X5 2 η2
ζ2
δ6 X6 λ62
Y6

ε4 ε5 ε6
LES RELATIONS ENTRE
VARIABLES LATENTES
‰Trois types de paramètres
‰Libres: estimés
‰Fixés
‰Contraints: estimés sous certaines contraintes
spécifiées par le modélisateur
‰Deux parties
‰La partie noble: la partie structurelle
‰La mesure
‰sur les variables exogènes (ξ) = variable déterminée
exclusivement par des variables externes ou modèle.
‰sur les variables endogènes (η) = variable
déterminée au moins par une autre variable du
modèle.
LES RELATIONS ENTRE
VARIABLES LATENTES
‰ Trois types de relations entre les variables latentes
‰les relations symétriques : ici ξ1 et ξ2 co-varient ensemble mais il
n’y a pas de relations causales
‰ϕ21= corrélation entre les variables 2 et 1.
‰la notion d’orthogonalité : indépendance entre les variables
latentes = absence de lien, de flèches sur le modèle
‰les relations directionnelles, de causalité : elles sont liées à
l’influence d’une variable sur une autre. Elles peuvent être
récursives (unidirectionnelles) ou non récursives
(bidirectionnelles)
‰γ11 = influence de ξ1 sur η1
‰Influence entre variables latentes endogènes : β21 = effet de η1
sur η2
‰avec 1er chiffre = destination et 2nd chiffre = origine
‰Ces deux coefficients sont appelés les coefficients de
dépendance ou path coefficients
LES NOTATIONS
‰λ = intensité du lien entre la variable latente exogène et
sa mesure
‰λ’ = intensité du lien entre la variable latente endogène
et sa mesure
‰δ, ε = termes d’erreur
‰ϕ = corrélation entre les ξ
‰ζ1, ζ2, ζ3 = termes d’erreur associés à une variable
latente endogène = la part de la variable latente non
prédite par le modèle. De ce fait, il faut chercher les ζ
les plus petits possibles
‰ψ = auto-corrélation entre les termes d’erreur.
LES CARACTÉRISTIQUES DES
MÉTHODES DE SECONDE
GÉNÉRATION
‰La notion de variables latentes
‰La spécification de la relation entre les
variables latentes et leurs mesures
‰Les relations entre les variables latentes
‰L’analyse de causalité
L’ANALYSE DE CAUSALITÉ
‰ Une variable latente endogène est au moins influencée par une
variable exogène.
‰ Elle est pure si elle n’influence aucune variable: c’est le cas ici de η3
‰ Elle est intermédiaire ou médiatrice si elle influence d’autres
variables comme η1 et η2.
‰ Ces variables intermédiaires sont notamment importantes en
théorie du consommateur.
‰ Elle a un effet catalyseur si elle renforce l’effet
‰ Elle a un effet inhibiteur si elle réduit l’effet.
‰Ici influence indirecte de ξ1 sur η3 = somme des chemins
permettant d’aller à η3.
‰Si effet positif alors influence de η1 et η2.
‰Si la somme est positive, l’effet est catalyseur.
‰Si la somme est négative, l’effet est inhibiteur.
LES CARACTÉRISTIQUES DES
MÉTHODES DE SECONDE
GÉNÉRATION

‰La notion de variables latentes


‰La spécification de la relation entre les
variables latentes et leurs mesures
‰Les relations entre les variables latentes
‰L’analyse de causalité
‰L’analyse confirmatoire
LES CARACTÉRISTIQUES DES
MÉTHODES DE SECONDE
GÉNÉRATION

‰Traiter simultanément plusieurs ensembles de


variables explicatives et expliquées
‰Analyser les liens entre variables latentes (ou
variables théoriques non observables)
‰Tenir compte des erreurs δ et ε
‰Modéliser ce que l’on souhaite ⇒ confirmatoire.
LA CONSTRUCTION D’UNE
ECHELLE DE MESURE
1. Spécification du domaine du construit

2. Phase exploratoire
- Création d’un ensemble d’items
- Purification de la mesure

3. Phase de validation (nouvelles données)


- fiabilité
- validité
OBJECTIFS DE L’ANALYSE
FACTORIELLE CONFIRMATOIRE

‰Valider une structure factorielle définie a priori:


‰ s’assurer de la fidélité (ou de la fiabilité) de
l’instrument de mesure
‰ s’assurer de la validité de l’instrument de mesure
‰ validité faciale (ou de contenu)
‰ validité de trait ou de construit (convergente et
discriminante)
‰ validité prédictive
LES CONDITIONS D’UTILISATION

‰Variables métriques (=ACP)

‰ Taille de l’échantillon (entre 5 et 10 questionnaires


par paramètre à estimer)

‰ Normalité de la distribution des variables


observées
LA FIABILITÉ
‰Si on mesure un phénomène plusieurs fois avec le
même instrument, on doit obtenir le même résultat
‰Classiquement : le calcul de l’alpha de Cronbach
‰Mais L’alpha est sensible :
‰à la taille de l’échantillon Æ si n augmente, l’alpha peut
baisser (Peter et Churchill, 1986)
‰au mode d’administration du questionnaire -> si le
questionnaire est auto-administré, l’alpha est supérieur
(Peterson, 1994)
‰au nombre d’items Æ l’alpha augmente avec le nombre
d’items (à condition que les items soient corrélés) (Peterson,
1994 ; Cuhachek et al., 2005)
LE RHO DE JORESKOG
‰Le Rhô semble moins sensible au nombre
d’items du questionnaire

‰Sa valeur plancher communément admise


pour attester de la fidélité est de 0,7 ou
0,8 (selon les auteurs)
LA VALIDITÉ FACIALE
‰ La validité faciale (ou validité de
contenu) ne peut être statistiquement
établie Æ structure des données
considérée comme pertinente par la
communauté scientifique (en accord avec
la littérature)
LA VALIDITÉ DE TRAIT
‰Les indicateurs construits sont-ils une bonne
représentation du phénomène à étudier ?
¾validité convergente : il faut vérifier que les
indicateurs qui sont supposés mesurer le même
phénomène sont corrélés.
¾ validité discriminante : les indicateurs qui
sont supposés mesurer des phénomènes
différents doivent être faiblement corrélés
entre eux.
LA VALIDITÉ CONVERGENTE

‰Deux conditions sont nécessaires à son


obtention :
‰ des corrélations variables/facteurs (lambdas)
significativement non nulles (test t – valeur de
t>1,96)
‰la variance du construit davantage expliquée
par les items qui le mesurent que par l’erreur
Æ référence à la variance moyenne extraite ou
rhô de validité convergente qui doit être
supérieure à 0,5
LES RHO DE VALIDITÉ
CONVERGENTE
‰Premier calcul :
p
ρvc(ξ) = Σ λ2i /p ≥ 0,5
i=1

ρvc = « rhô de validité convergente » Æ moyenne des variances


entre le construit et sa mesure
λ2i = contribution factorielle de l’item i avec le facteur i
correspondant au construit ξ élevé au carré = pourcentage de
la variance de l’item restitué par le construit
p = nombre d’indicateurs qui caractérisent le construit ξ (ex:
nombre d’items de l’échelle)
LES RHO DE VALIDITÉ
CONVERGENTE
‰Second calcul (deuxième rhô de validité
convergente) : critère de la variance moyenne extraite
(Fornell et Larker, 1981)
p

Σ1 λ2i
ρvc(ξ) = p p

Σ λ2 i + Σ VAR (εi)
1 1

‰Doit également être ≥ 0,5


‰ La variance expliquée par le construit doit être
supérieure à la variance due aux erreurs de mesure
LE BOOTSTRAP
‰ Permet de vérifier que chaque contribution
factorielle est significativement différente de 0
‰ Il faut que chaque test « t de Student » pour
chaque contribution factorielle soit supérieur à
1,96 (si sur l’ensemble des sous-échantillons,
chaque coefficient est statistiquement différent
de 0, alors le modèle théorique des variables
latentes vérifie la validité convergente)
‰ Lorsque la validité convergente et la fiabilité
de cohérence interne (rhô de Jöreskog
supérieur à 0,70 sont vérifiées), l’homogénéité
de l’échelle servant à mesurer un construit est
confirmée
δ1 X1
ρVC = 0.6 δ2 X2
ξ1
ρVC = 0.55 δ3 X3 ϕ221 = 0.72 = 0.49

δ4 X4 ϕ221 = 0.82 = 0.64


ρVC = 0.7
δ5 X5 ξ2

ρVC = 0.6 δ6 X6 Validité discriminante


non satisfaisante
TOUT CECI VALABLE SI
‰Les indices d’ajustement sont bons :
‰ indices absolus (GFI – AGFI – RMSEA…)
‰ indices incrémentaux (NFI – CFI …)
‰ indices de parcimonie (Khi2/ddl, ECVI)
‰ les paramètres calculés sont stables
(bootstrap)
LES PRINCIPAUX INDICES
‰Les indices de mesure absolus
Æ Permettent d’évaluer dans quelle mesure le modèle
théorique posé a priori reproduit correctement les
données collectées
Æ indices :
9 χ2 : aucune valeur clé (voir p associée ; si significatif,
adéquation du modèle pas suffisante) ; sensible à la taille
de l’échantillon
9 GFI, AGFI, gamma Æ > 0,9
9 RMSEA Æ <0,08 et si possible <0,05
9 RMR et SRMR Æ La plus proche de 0 ; valeur fixée par le
chercheur (souvent : <0,5)
9 PNI Æ le plus faible possible
9 PNNI Æ > 0,95
LES PRINCIPAUX INDICES
‰ Les indices incrémentaux
ÆMesurent l’amélioration de l’ajustement en
comparant le modèle testé à un modèle plus
restrictif, dit « modèle de base » (le plus
souvent, modèle pour lequel toutes les variables
seraient non corrélées)
Æ Indices :
9 NFI Æ > 0,9
9 TLI (NNFI) et IFI Æ > 0,9
9 CFI et BFI (BL89) Æ > 0,9
LES PRINCIPAUX INDICES
‰Les indices de parcimonie
Æ Objectif : déterminer le modèle qui a le meilleur
ajustement : qui n’est pas surestimé (on améliore
artificiellement le modèle grâce à l’ajout de
paramètres à estimer) ou sous-estimé (absence de
paramètres à estimer car trop de paramètres ont été
fixés)
Æ Indices :
9 χ2 normé Æ le plus faible possible (5 maximum)
9 AIC, CAIC, CAK et ECVI Æ le plus faible possible
(comparaison)
9 PNFI et PGFI Æ le plus faible possible
(comparaison)
CONSEILS
‰Toujours s’assurer de la fiabilité

‰Les validités convergente et discriminante


qui sont les plus utilisées lors des AF
confirmatoires

‰ Vérifier le nombre suffisant de


questionnaires
LES MODÈLES D’ÉQUATIONS
STRUCTURELLES
OBJECTIFS ET LIMITES
‰Objectifs :
‰tester des relations causales hypothétiques entre
des variables latentes selon un modèle théorique
conçu et justifié par un corps d’hypothèses (le plus
souvent, analyse des relations linéaires)
‰Comparer des modèles théoriques pour déterminer
celui qui s’ajuste le mieux aux données empiriques
‰Limites :
‰Les inférences causales reposent sur la théorie =>
‰pertinence des développement théoriques sous-jacents
‰qualité de l’instrument de mesure pour collecter les
données (importance de fiabilité, validité)
OBJECTIFS ET LIMITES
‰ Toutes les variables explicatives doivent être
incluses dans le modèle
‰ Interprétation des résultats
‰ bon ajustement (good fit) du modèle aux
données empiriques = les relations directionnelles
entre les variables explicatives et expliquées
proposées dans le modèle peuvent rendre compte
des propriétés des données empiriques
‰ à compléter par une analyse de la signification de
tous les paramètres du modèle estimé
LES DIFFICULTÉS POSSIBLES
‰ Matrice positive non définie Æ multicolinéarité
entre les variables observées

‰ Non-convergence du modèle

‰ Modèle non satisfaisant :


o Echantillon de taille insuffisante Æ à éviter :
N<150 (Anderson et Gerbin, 1988)
o Non-normalité des variables
o Prévoir au moins 3 indicateurs par variable
latente
INTÉRÊT DES MODELES
D’EQUATIONS STRUCTURELLES
‰ Permettent de traiter simultanément
plusieurs ensembles de variables
explicatives et expliquées
‰ Tiennent compte des erreurs au niveau
de la mesure
‰ Des modèles concurrents appliqués aux
mêmes données peuvent être comparés

Vous aimerez peut-être aussi