Data Mining Cours

LES MÉTHODES
D’ÉQUATIONS
STRUCTURELLES
Jean-Marc FERRANDI
PROGRAMME
Quelques rappels sur les méthodes de première
génération
Les méthodes confirmatoires de seconde

génération Æ apprendre à valider un outil de
mesure
Les relations entre construits Æ modèles

d’équations structurelles
INDICATIONS
BIBLIOGRAPHIQUES
Roussel P., Durrieu F., Campoy E. et El Akremi A. (2002), Méthodes
d'équations structurelles: recherche et applications en gestion, Economica.
Roussel P. et Wacheux F. (2005), Management des ressources humaines :
Méthodes de recherche en sciences humaines et sociales, De Boeck.
Schumacker R.E. et Lomax RG. (1996), A beginner's guide to structural
equation modeling, Lawrence Erlbaum Associates.
Valette-Florence P. (1988), Spécificités et apports des méthodes d'analyse
multivariée de la deuxième génération, Recherche et Application en
Marketing, 3, 4, 23-56.
Steenkamp J.B. et Baumgartner H. (2000), On the use of structural
equation model for marketing modeling, International Journal of Research
in Marketing, 17, 195-202.
Crié D. (2005), De l'usage des modèles de mesure réflectifs ou formatifs
dans les modèles d'équations structurelles, Recherche et Applications en
Marketing, 20, 2, 5-28.
M. Wedel et W. De Sarbo (1995), A Mixture Likelihood Approach for
Generalized Linear Models, Journal of Classification, 12, 1, 1-35.
ANALYSES DE BASE
une Nominale Ordinale Métrique

une
Nominale Test du χ2
Ordinale
Métrique Comparaison de Corrélation de

moyennes – Pearson
Analyse de la
variance
MÉTHODES DESCRIPTIVES
Nombre et nature des Types de méthodes
variables
Deux variables nominales Analyse factorielle des correspondances
simple
Plusieurs variables métriques ou Analyse des correspondances multiples
non
Plusieurs variables ordinales Analyse des préférences ou des similarités
Plusieurs variables métriques Analyse factorielle en composantes

principales
Plusieurs variables de nature Typologie
diverse
MÉTHODES EXPLICATIVES
Variable dépendante Variable Méthode
indépendante
Une nominale Plusieurs nominales Modèles log-linéaires
Une nominale Plusieurs métriques Analyse discriminante
Une ordinale Plusieurs non métriques Mesures conjointes
Une/plusieurs métriques Une/plusieurs non Modèles d’analyse de la
métriques ou diverses variance
Une métrique Une /plusieurs Régression
métriques simple/multiple
Plusieurs variables Plusieurs variables Analyse canonique
métriques métriques
Plusieurs variables de Plusieurs variables de Équations structurelles
nature diverse nature diverse et réseaux neuronaux
L’ANALYSE EN COMPOSANTES
PRINCIPALES
Quelques rappels
PRINCIPE
Résumer l’information contenue dans un
tableau individus x variables.
Remplacer les variables initiales par un

nombre plus petit de variables composées
ou facteurs
Comme dans une caricature, on grossit

les traits les plus expressifs (les facteurs)
= capturer «l’essence» des données
PRÉSENTATION
On appelle «analyse factorielle» un
ensemble de techniques multi-variées destinées
à découvrir la structure sous jacente d’une
matrice de données métriques
Une fois cette structure mise à jour, il est
possible de :
Résumer les données : elle sont concentrées dans un
nombre réduit de dimensions
Réduire les données : un score est recalculé pour chaque
observation sur l’ensemble des dimensions
ILLUSTRATION
Variables: X1, X2 , X3 X4, X5, X6 X7, X8, X9 X10, X11
Facteurs : F1 F2 F3 F4
Par exemple: les variables Xi sont les caractéristiques

d’une automobile, et les facteurs Fi les dimensions de
perception comme la puissance, la beauté ou le confort.
UTILITÉ
L’analyse factorielle est utilisée pour
Mettre à jour les dimensions sous-jacentes

d’un phénomène : personnalité, image, etc.
Réduire un nombre important de variables

corrélées entre elles en un plus petit nombre
de dimensions faiblement ou non corrélées
entre elles
LES CONDITIONS PRATIQUES
Les variables de départ doivent être

suffisamment nombreuses, et métriques (si
elles ne sont pas métriques, il faut utiliser
l’analyse factorielle des correspondances)
Il doit y avoir suffisamment de coefficients

supérieurs à .30 dans la matrice de corrélation
Analyse de la matrice de corrélations ou
Phase 1 de la matrice de covariances
Choix d’une méthode

d’analyse factorielle
Phase 2
Analyse en composantes
principales
Phase 3 Choix du nombre de facteurs

avant rotation
Choix d’une méthode

Phase 4 de rotation
Interprétation
Phase 5 des facteurs
Analyses
supplémentaires
Phase 6
Calcul des scores factoriels
Validation de l’analyse
Autres analyses factorielle
statistiques : Analyses Analyse factorielle
factorielles d’ordre confirmatoire
supérieur, régressions,
typologies, etc. 13
LA COMMUNAUTÉ
Elle représente le pourcentage de

variance de la variable qui est pris en
compte par la solution factorielle.
S’il est trop faible (moins de 0,5)
Conserver la variable si l’objectif est uniquement
la réduction de données
Recommencer l’analyse sans cette variable, si
l’objectif est de concentrer les données
LA ROTATION DES FACTEURS
Par construction, les facteurs sont orthogonaux (non
corrélés). Dans la solution initiale beaucoup de variables ont un
poids factoriel élevé sur le premier facteur, ce qui rend
l’interprétation difficile
Les méthodes de rotation orthogonale (varimax) visent à

faciliter l’interprétation tout en préservant l’orthogonalité de la
solution initiale
Les méthodes de rotation obliques (oblimin, promax) ne

préservent pas l’orthogonalité, mais correspondent mieux à la
réalité du phénomène étudié
LA NOTION DE POIDS
FACTORIEL
Un loading ou poids factoriel correspond
à la corrélation entre la variable et le facteur.
Il est donc compris entre –1 et +1.
Élevé au carré, il représente le pourcentage
de variance de la variable pris en compte par
le facteur
L’interprétation des facteurs se fonde sur
l’analyse des poids factoriels
INTERPRÉTATON DES
FACTEURS
Variable par variable, souligner le plus fort
poids factoriel
La signification de chaque facteur est
donnée par les variables dont le poids
factoriel a été souligné pour ce facteur
Plus un poids factoriel est élevé, plus la
variable concernée donne son sens au
facteur
CONCLUSION
Une méthode très utile pour comprendre la structure
d’une matrice de données et positionner les unités
d’observation
L’essentiel de la procédure est guidé par l’expérience

et l’intuition du chercheur
L’analyse factorielle confirmatoire vient renforcer les

résultats. De nos jours, c’est une étape devenue
indispensable à la suite d’une analyse factorielle
exploratoire, surtout dans le cadre de la construction
et validation d’une échelle.
L’ANALYSE FACTORIELLE
CONFIRMATOIRE
Comparaison avec les méthodes
de première génération
LES MODÈLES D’ÉQUATIONS
STRUCTURELLES
« Une classe de méthodologies ayant pour objectif
de représenter certaines hypothèses au sujet des
moyennes, des variances et des covariances de
données observées en termes d’un plus petit
nombre de paramètres structuraux définis dans un
modèle théorique sous-jacent » (Kaplan, 2000, cité
par Crié, 2005)
Des démarches par nature hypothético-déductives
permettant de traiter simultanément la nature de la
mesure de variables latentes et l’analyse des
structures théoriques représentant les relations
entre ces variables
LES MÉTHODES DE SECONDE
GÉNÉRATION
On part d’une structure définie théoriquement

a priori.
On va valider cette structure théorique en la

confrontant à la réalité
DEUX MÉTHODES
COMPLÉMENTAIRES
L’ACP traditionnelle fait émerger la structure

des données a posteriori
L’AFC confirmatoire valide un modèle de

mesure défini a priori
LES CARACTÉRISTIQUES DES
MÉTHODES DE SECONDE
GÉNÉRATION
La notion de variables latentes
LES VARIABLES LATENTES
Les variables latentes (non directement observables)
Æ variables théoriques. Elles sont déduites de
l’observation
Les variables observées = variables pour
lesquelles on dispose de mesures expérimentales
⇒Déplacement du modèle des variables observées
aux variables latentes.
Les variables latentes sont indéterminées ⇒ le calcul
est impossible théoriquement. Il existe un terme
d’erreur ζ qui aide à approcher la valeur
GÉNÉRATION
La spécification de la relation entre les
variables latentes et leurs mesures
TROIS TYPES DE RELATIONS
Les relations causales
Indicateurs réflectifs
δ1 X1
δ2 X2
ξ1
δ3 X3
Indicateurs formatifs
X1
X2 ξ1
X3

Indicateurs formatifs
NB: Tout ce qui fait appel à l’individu est modélisé
de manière réflective.
Les relations non causales
L’analyse multidimensionnelle confirmatoire
GÉNÉRATION
Les relations entre les variables latentes
ε1 ε2 ε3
ψ31
δ1 X1 λ11 λ’11 λ’21 λ’31 ζ1 ζ3
λ21 γ11 η1
δ2 X2 ξ1 ε7
β31
δ3 X3 λ31
γ12 η3 ε8
ϕ21 β21 β12
δ4 X4 λ42 β32 ε9
λ52 ξ γ22
δ5 X5 2 η2
ζ2
δ6 X6 λ62
Y6
ε4 ε5 ε6
LES RELATIONS ENTRE
VARIABLES LATENTES
Trois types de paramètres
Libres: estimés
Fixés
Contraints: estimés sous certaines contraintes
spécifiées par le modélisateur
Deux parties
La partie noble: la partie structurelle
La mesure
sur les variables exogènes (ξ) = variable déterminée
exclusivement par des variables externes ou modèle.
sur les variables endogènes (η) = variable
déterminée au moins par une autre variable du
modèle.
LES RELATIONS ENTRE
VARIABLES LATENTES
Trois types de relations entre les variables latentes
les relations symétriques : ici ξ1 et ξ2 co-varient ensemble mais il
n’y a pas de relations causales
ϕ21= corrélation entre les variables 2 et 1.
la notion d’orthogonalité : indépendance entre les variables
latentes = absence de lien, de flèches sur le modèle
les relations directionnelles, de causalité : elles sont liées à
l’influence d’une variable sur une autre. Elles peuvent être
récursives (unidirectionnelles) ou non récursives
(bidirectionnelles)
γ11 = influence de ξ1 sur η1
Influence entre variables latentes endogènes : β21 = effet de η1
sur η2
avec 1er chiffre = destination et 2nd chiffre = origine
Ces deux coefficients sont appelés les coefficients de
dépendance ou path coefficients
LES NOTATIONS
λ = intensité du lien entre la variable latente exogène et
sa mesure
λ’ = intensité du lien entre la variable latente endogène
et sa mesure
δ, ε = termes d’erreur
ϕ = corrélation entre les ξ
ζ1, ζ2, ζ3 = termes d’erreur associés à une variable
latente endogène = la part de la variable latente non
prédite par le modèle. De ce fait, il faut chercher les ζ
les plus petits possibles
ψ = auto-corrélation entre les termes d’erreur.
GÉNÉRATION
L’analyse de causalité
L’ANALYSE DE CAUSALITÉ
Une variable latente endogène est au moins influencée par une
variable exogène.
Elle est pure si elle n’influence aucune variable: c’est le cas ici de η3
Elle est intermédiaire ou médiatrice si elle influence d’autres
variables comme η1 et η2.
Ces variables intermédiaires sont notamment importantes en
théorie du consommateur.
Elle a un effet catalyseur si elle renforce l’effet
Elle a un effet inhibiteur si elle réduit l’effet.
Ici influence indirecte de ξ1 sur η3 = somme des chemins
permettant d’aller à η3.
Si effet positif alors influence de η1 et η2.
Si la somme est positive, l’effet est catalyseur.
Si la somme est négative, l’effet est inhibiteur.
GÉNÉRATION

L’analyse de causalité
L’analyse confirmatoire
GÉNÉRATION
Traiter simultanément plusieurs ensembles de

variables explicatives et expliquées
Analyser les liens entre variables latentes (ou
variables théoriques non observables)
Tenir compte des erreurs δ et ε
Modéliser ce que l’on souhaite ⇒ confirmatoire.
LA CONSTRUCTION D’UNE
ECHELLE DE MESURE
1. Spécification du domaine du construit
2. Phase exploratoire
- Création d’un ensemble d’items
- Purification de la mesure
3. Phase de validation (nouvelles données)

- fiabilité
- validité
OBJECTIFS DE L’ANALYSE
FACTORIELLE CONFIRMATOIRE
Valider une structure factorielle définie a priori:

s’assurer de la fidélité (ou de la fiabilité) de
l’instrument de mesure
s’assurer de la validité de l’instrument de mesure
validité faciale (ou de contenu)
validité de trait ou de construit (convergente et
discriminante)
validité prédictive
LES CONDITIONS D’UTILISATION
Variables métriques (=ACP)
Taille de l’échantillon (entre 5 et 10 questionnaires

par paramètre à estimer)
Normalité de la distribution des variables

observées
LA FIABILITÉ
Si on mesure un phénomène plusieurs fois avec le
même instrument, on doit obtenir le même résultat
Classiquement : le calcul de l’alpha de Cronbach
Mais L’alpha est sensible :
à la taille de l’échantillon Æ si n augmente, l’alpha peut
baisser (Peter et Churchill, 1986)
au mode d’administration du questionnaire -> si le
questionnaire est auto-administré, l’alpha est supérieur
(Peterson, 1994)
au nombre d’items Æ l’alpha augmente avec le nombre
d’items (à condition que les items soient corrélés) (Peterson,
1994 ; Cuhachek et al., 2005)
LE RHO DE JORESKOG
Le Rhô semble moins sensible au nombre
d’items du questionnaire
Sa valeur plancher communément admise

pour attester de la fidélité est de 0,7 ou
0,8 (selon les auteurs)
LA VALIDITÉ FACIALE
La validité faciale (ou validité de
contenu) ne peut être statistiquement
établie Æ structure des données
considérée comme pertinente par la
communauté scientifique (en accord avec
la littérature)
LA VALIDITÉ DE TRAIT
Les indicateurs construits sont-ils une bonne
représentation du phénomène à étudier ?
¾validité convergente : il faut vérifier que les
indicateurs qui sont supposés mesurer le même
phénomène sont corrélés.
¾ validité discriminante : les indicateurs qui
sont supposés mesurer des phénomènes
différents doivent être faiblement corrélés
entre eux.
LA VALIDITÉ CONVERGENTE
Deux conditions sont nécessaires à son

obtention :
des corrélations variables/facteurs (lambdas)
significativement non nulles (test t – valeur de
t>1,96)
la variance du construit davantage expliquée
par les items qui le mesurent que par l’erreur
Æ référence à la variance moyenne extraite ou
rhô de validité convergente qui doit être
supérieure à 0,5
LES RHO DE VALIDITÉ
CONVERGENTE
Premier calcul :
p
ρvc(ξ) = Σ λ2i /p ≥ 0,5
i=1
ρvc = « rhô de validité convergente » Æ moyenne des variances

entre le construit et sa mesure
λ2i = contribution factorielle de l’item i avec le facteur i
correspondant au construit ξ élevé au carré = pourcentage de
la variance de l’item restitué par le construit
p = nombre d’indicateurs qui caractérisent le construit ξ (ex:
nombre d’items de l’échelle)
LES RHO DE VALIDITÉ
CONVERGENTE
Second calcul (deuxième rhô de validité
convergente) : critère de la variance moyenne extraite
(Fornell et Larker, 1981)
p
Σ1 λ2i
ρvc(ξ) = p p
Σ λ2 i + Σ VAR (εi)
1 1
Doit également être ≥ 0,5

La variance expliquée par le construit doit être
supérieure à la variance due aux erreurs de mesure
LE BOOTSTRAP
Permet de vérifier que chaque contribution
factorielle est significativement différente de 0
Il faut que chaque test « t de Student » pour
chaque contribution factorielle soit supérieur à
1,96 (si sur l’ensemble des sous-échantillons,
chaque coefficient est statistiquement différent
de 0, alors le modèle théorique des variables
latentes vérifie la validité convergente)
Lorsque la validité convergente et la fiabilité
de cohérence interne (rhô de Jöreskog
supérieur à 0,70 sont vérifiées), l’homogénéité
de l’échelle servant à mesurer un construit est
confirmée
δ1 X1
ρVC = 0.6 δ2 X2
ξ1
ρVC = 0.55 δ3 X3 ϕ221 = 0.72 = 0.49
δ4 X4 ϕ221 = 0.82 = 0.64

ρVC = 0.7
δ5 X5 ξ2
ρVC = 0.6 δ6 X6 Validité discriminante

non satisfaisante
TOUT CECI VALABLE SI
Les indices d’ajustement sont bons :
indices absolus (GFI – AGFI – RMSEA…)
indices incrémentaux (NFI – CFI …)
indices de parcimonie (Khi2/ddl, ECVI)
les paramètres calculés sont stables
(bootstrap)
LES PRINCIPAUX INDICES
Les indices de mesure absolus
Æ Permettent d’évaluer dans quelle mesure le modèle
théorique posé a priori reproduit correctement les
données collectées
Æ indices :
9 χ2 : aucune valeur clé (voir p associée ; si significatif,
adéquation du modèle pas suffisante) ; sensible à la taille
de l’échantillon
9 GFI, AGFI, gamma Æ > 0,9
9 RMSEA Æ <0,08 et si possible <0,05
9 RMR et SRMR Æ La plus proche de 0 ; valeur fixée par le
chercheur (souvent : <0,5)
9 PNI Æ le plus faible possible
9 PNNI Æ > 0,95
Les indices incrémentaux
ÆMesurent l’amélioration de l’ajustement en
comparant le modèle testé à un modèle plus
restrictif, dit « modèle de base » (le plus
souvent, modèle pour lequel toutes les variables
seraient non corrélées)
Æ Indices :
9 NFI Æ > 0,9
9 TLI (NNFI) et IFI Æ > 0,9
9 CFI et BFI (BL89) Æ > 0,9
Les indices de parcimonie
Æ Objectif : déterminer le modèle qui a le meilleur
ajustement : qui n’est pas surestimé (on améliore
artificiellement le modèle grâce à l’ajout de
paramètres à estimer) ou sous-estimé (absence de
paramètres à estimer car trop de paramètres ont été
fixés)
Æ Indices :
9 χ2 normé Æ le plus faible possible (5 maximum)
9 AIC, CAIC, CAK et ECVI Æ le plus faible possible
(comparaison)
9 PNFI et PGFI Æ le plus faible possible
(comparaison)
CONSEILS
Toujours s’assurer de la fiabilité
Les validités convergente et discriminante

qui sont les plus utilisées lors des AF
confirmatoires
Vérifier le nombre suffisant de

questionnaires
LES MODÈLES D’ÉQUATIONS
STRUCTURELLES
OBJECTIFS ET LIMITES
Objectifs :
tester des relations causales hypothétiques entre
des variables latentes selon un modèle théorique
conçu et justifié par un corps d’hypothèses (le plus
souvent, analyse des relations linéaires)
Comparer des modèles théoriques pour déterminer
celui qui s’ajuste le mieux aux données empiriques
Limites :
Les inférences causales reposent sur la théorie =>
pertinence des développement théoriques sous-jacents
qualité de l’instrument de mesure pour collecter les
données (importance de fiabilité, validité)
OBJECTIFS ET LIMITES
Toutes les variables explicatives doivent être
incluses dans le modèle
Interprétation des résultats
bon ajustement (good fit) du modèle aux
données empiriques = les relations directionnelles
entre les variables explicatives et expliquées
proposées dans le modèle peuvent rendre compte
des propriétés des données empiriques
à compléter par une analyse de la signification de
tous les paramètres du modèle estimé
LES DIFFICULTÉS POSSIBLES
Matrice positive non définie Æ multicolinéarité
entre les variables observées
Non-convergence du modèle
Modèle non satisfaisant :

o Echantillon de taille insuffisante Æ à éviter :
N<150 (Anderson et Gerbin, 1988)
o Non-normalité des variables
o Prévoir au moins 3 indicateurs par variable
latente
INTÉRÊT DES MODELES
D’EQUATIONS STRUCTURELLES
Permettent de traiter simultanément
plusieurs ensembles de variables
explicatives et expliquées
Tiennent compte des erreurs au niveau
de la mesure
Des modèles concurrents appliqués aux
mêmes données peuvent être comparés

Data Mining Cours

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Data Mining Cours

Transféré par

Droits d'auteur :

Formats disponibles

LES MÉTHODES

Les méthodes confirmatoires de seconde

Les relations entre construits Æ modèles

une Nominale Ordinale Métrique

Métrique Comparaison de Corrélation de

Plusieurs variables métriques Analyse factorielle en composantes

Remplacer les variables initiales par un

Comme dans une caricature, on grossit

Par exemple: les variables Xi sont les caractéristiques

L’analyse factorielle est utilisée pour

Mettre à jour les dimensions sous-jacentes

Réduire un nombre important de variables

Les variables de départ doivent être

Il doit y avoir suffisamment de coefficients

Choix d’une méthode

Phase 3 Choix du nombre de facteurs

Choix d’une méthode

Elle représente le pourcentage de

Les méthodes de rotation orthogonale (varimax) visent à

Les méthodes de rotation obliques (oblimin, promax) ne

L’essentiel de la procédure est guidé par l’expérience

L’analyse factorielle confirmatoire vient renforcer les

On part d’une structure définie théoriquement

 On va valider cette structure théorique en la

L’ACP traditionnelle fait émerger la structure

 L’AFC confirmatoire valide un modèle de

Les relations causales

La notion de variables latentes

Traiter simultanément plusieurs ensembles de

3. Phase de validation (nouvelles données)

Valider une structure factorielle définie a priori:

Variables métriques (=ACP)

 Taille de l’échantillon (entre 5 et 10 questionnaires

 Normalité de la distribution des variables

Sa valeur plancher communément admise

Deux conditions sont nécessaires à son

ρvc = « rhô de validité convergente » Æ moyenne des variances

Doit également être ≥ 0,5

δ4 X4 ϕ221 = 0.82 = 0.64

ρVC = 0.6 δ6 X6 Validité discriminante

Les validités convergente et discriminante

 Vérifier le nombre suffisant de

 Modèle non satisfaisant :

Vous aimerez peut-être aussi

Les méthodes confirmatoires de seconde

Les relations entre construits Æ modèles

Remplacer les variables initiales par un

Comme dans une caricature, on grossit

L’analyse factorielle est utilisée pour

Mettre à jour les dimensions sous-jacentes

Réduire un nombre important de variables

Les variables de départ doivent être

Il doit y avoir suffisamment de coefficients

Elle représente le pourcentage de

Les méthodes de rotation orthogonale (varimax) visent à

Les méthodes de rotation obliques (oblimin, promax) ne

L’essentiel de la procédure est guidé par l’expérience

L’analyse factorielle confirmatoire vient renforcer les

On part d’une structure définie théoriquement

On va valider cette structure théorique en la

L’ACP traditionnelle fait émerger la structure

L’AFC confirmatoire valide un modèle de

Les relations causales

La notion de variables latentes

Traiter simultanément plusieurs ensembles de

Valider une structure factorielle définie a priori:

Variables métriques (=ACP)

Taille de l’échantillon (entre 5 et 10 questionnaires

Normalité de la distribution des variables

Sa valeur plancher communément admise

Deux conditions sont nécessaires à son

Doit également être ≥ 0,5

Les validités convergente et discriminante

Vérifier le nombre suffisant de

Modèle non satisfaisant :