Académique Documents
Professionnel Documents
Culture Documents
Methodes Quantitatives en Gestion Unh2024
Methodes Quantitatives en Gestion Unh2024
Balemba EBK, Bugandwa, DAM, Murhula, P and Bitakuya, W (2023), Employee Job
Satisfaction in Microfinance Institutions: Scale Developement and Validation, Revue Finance,
Contrôle et Stratégie, 26-2, pp 1-59
Balemba EBK, Lusheke B, Bugandwa MA, Murhula P, Buchekuderhwa C et Kadundu P (2023),
When unethical practices harm relationship outcomes: testing the influence of Consumer
Perceived Unethical Behaviour on Trust and Satisfaction in the Banking sector, International
Journal of Bank Marketing, Forthcoming
Balemba, E.B.K., Murhula, P., Mushigo, B., Mbantshi, H., Bugandwa D (2023), Linking
consumers’ perceived barriers towards mobile money, attitudes and continuance usage intention.
Journal of Financial Services Marketing, Forthcoming
Etudes, publications et affiliations
Bugandwa, D.B.M., Kanyurhi, E.B., Juwa, G.B. and Hongo, A.M. (2022), “Savings
Groups in the Democratic Republic of Congo”, in Redford, D.T. and Verhoef, G.
(Ed.), Transforming Africa, Emerald Publishing Limited, Bingley, pp. 97-115.
https://doi.org/10.1108/978-1-80262-053-520221009
Bugandwa T, Balemba EBK, Bugandwa DM, and Haguma B (2021), Linking
Corporate Social Responsability and Trust in Banking sector : explororing
disagregatted relations, International Journal of Bank Marketing, Vol. 39 No. 4, pp.
592-617
Chubaka J, Balemba EBK, Bugandwa DM and Chubaka P (2021), Measuring Price
Fairness and Its impact of customers’ trust and Switching Intentions in Microfinance
Institutions, Journal of Financial Services Marketing, 27(2) : 111-135
Etudes, publications et affiliations
Balemba, E.B.K., Bucekuderhwa, C., Kadundu, P., Haguma, B., Chubaka, N.,
Kadurha, L. et Mirindi, J (2021), Religiosité, Philanthropie et Performance des
entrepreneurs en République Démocratique du Congo, in « Gundolf, K. et Janssen,
F., Entrepreneuriat, Spiritualité et Religion : des sphères antinomiques ou
étroitement liées? Deboeck Supérieur, Belgique, Collection Méthodes &
Recherches Management, Première Édition Octobre 2021, 304 pages,
9782807330290
Chubaka P, Balemba EK, Bugandwa D et Labie M (2019), Appropriation des
coopératives d’épargne et de credit par leurs membres à Bukavu: mesure et
déterminants, Mondes en Développement, 47 (188) : 127-148
Haguma B, Balemba EK et Bitakuya W (2019), Relation entre la microfinance et la
performance perçue des PME à Bukavu: rôles moderateur et médiateur de
l’opportunité entrepreneuriale et la prise de risque, Revue Finance, Contrôle et
Stratégie, 22 (4), 1-41
Etudes, publications et affiliations
Finalités et compétences
1. Appliquer les méthodes et techniques analytiques
2. Intégrer les savoirs de différents domaines pour formuler des réponses systémiques
Livres et articles de base
Byrne B. (2009). “Structural Equation Modeling With LISREL, PRELIS, and SIMPLIS:
Basic Concepts, Applications, and Programming”, New York, Psychology Press Taylor and
Francis
Brown, T. (2006). Confirmatory factor analysis for applied research. New York, London:
The Guilford Press
Churchill, G., (1979), A Paradigm for Developing Better Measures of Marketing Constructs,
Journal of Marketing Research, Vol.16, n°1, p. 64-73.
Livres et articles de base
Balemba, K. (2017). Customer satisfaction with the services of microfinance institutions: Scale
development and validation. Strategic Change, 26, 563–574.
Bagozzi, R.P., Yi, Y., & Phillips, L.W. (2012). Specification, evaluation, and interpretation of
structural equation models, Journal of the Academic Marketing. Science, 40, 8–34.
Walsh, G. & Beatty, S. (2007). Customer-based corporate reputation of a service firm: scale
development and validation, Journal of the Academy of Marketing Science, 3, 127-143
Livres et articles de base
Bugandwa T, Balemba EBK, Bugandwa DM, and Haguma B (2021), Linking Corporate
Social Responsability and Trust in Banking sector : exploring disagregatted relations,
International Journal of Bank Marketing, Vol. 39 No. 4, pp. 592-617
Chubaka J, Balemba EBK, Bugandwa DM and Chubaka P (2021), Measuring Price Fairness
and Its impact of customers’ trust and Switching Intentions in Microfinance Institutions,
Journal of Financial Services Marketing, 27(2) : 111-135
Balemba EBK, Bugandwa, DAM, Murhula, P and Bitakuya, W (2022), Employee Job
Satisfaction in Microfinance Institutions: Scale Developement and Validation, Revue
Finance, Contrôle et Stratégie, 26-2, pp 1-59
Plan
Recherche quantitative
Commencer la mesure après que le chercheur ait formulé une question de recherche et
déterminé les variables et les unités d’analyse qu’il compte utiliser dans son projet de
recherche.
Processus de développement d’outils de mesure
On ne préoccupe pas de savoir si une variable est explicative (indépendante) ou expliquée
(dépendante)
On développe des définitions claires permettant de créer des outils fiables permettant
l’obtention des résultats pertinents.
Introduction à la mesure en gestion
Sciences sociales
Certains des phénomènes que les chercheurs essaient de mesurer sont « visibles » (âge,
sexe, race, revenu, …) ;
La plupart difficilement observables (attitudes, satisfaction, professionnalisme, …)
Chercheurs des sciences naturelles inventent des mesures indirectes pour approcher les
objets invisibles…
Chercheurs en sciences sociales créent des mesures pour les aspects du monde social qui
sont difficilement observables.
Raisons de la mesure : extension de nos sens
Une entreprise souhaite évaluer la satisfaction des travailleurs par rapport à leur travail
(job satisfaction)
Important de créer un outil qui permet de mesurer cette satisfaction.
Mesure de la satisfaction devra être systématique et produire des données
quantitatives précises que d’autres peuvent répliquer.
Voir les différentes échelles de mesure de la satisfaction
Job Satisfaction Survey (Spector, 1985)
Job Satisfaction of Industrial Salesmen (Churchill et al., 1974)
Job Satisfaction in Microfinance Institutions (Balemba et al., 2023)
Processus de la mesure
Travail du chercheur en sciences sociales est donc plus difficile que celui du chercheur des
sciences naturelles
1. Mesures utilisées impliquent de parler avec les gens et observer leurs comportements.
2. Réponses de ces personnes peuvent être ambiguës et influencées par le fait même que les
personnes savent qu’ils font l’objet d’une étude.
3. Interaction avec les sujets d’étude peut être source de beaucoup de biais.
Mesure et design de la recherche
Les chercheurs ont besoin des mesures pour collecter leurs données et
éventuellement tester les hypothèses.
1. Choisissent un sujet général
2. Raffinent en un problème (question) précis de recherche.
3. Mesure peut commencer
Mesure et design de la recherche : conceptualisation
Une bonne définition doit avoir un sens précis et clair, éviter toute ambiguïté.
Définition claire des concepts permet le développement d’une des meilleures
explications théoriques.
Un même concept peut avoir plusieurs définitions
Les chercheurs peuvent ne pas s’accorder sur les définitions d’un même concept.
Certains articles scientifiques se sont proposé de conceptualiser des concepts
clés.
Parasuraman et al (1985), Huston (2010), Naver et Slatter 1990 etc.
Mesure et design de la recherche : conceptualisation
Quand les chercheurs ne s’accordent pas sur les définitions des concepts,
Indispensable de toujours se positionner de manière explicite par rapport à la définition qui
est utilisée dans la recherche.
Intégrer les définitions de certains auteurs pour proposer une définition originale qui va
guider la recherche.
Certains concepts sont plus abstraits et complexes ( morale, confiance) que d’autres (ex :
revenu, âge)
Chercheur doit être conscient du niveau de cette complexité pour évaluer l’approche à
adopter.
Démarche concrète de la conceptualisation
Morale d’un enseignant (Neuman Lawrence, p. 134 ; 2ème colonne ).
Mesure et design de la recherche : opérationnalisation
Processus de mesure pour deux variables qui sont liées au sein d’une théorie.
Trois niveaux doivent être considérés
1. Niveau plus abstrait
Chercheur s’intéresse à la relation causale entre deux construits, c’est-à-dire une hypothèse
conceptuelle.
2. Niveau des définitions opérationnelles
Chercheur s’intéresse au test d’une hypothèse empirique en vue de déterminer le degré
d’association entre les indicateurs.
Etudes des corrélations, des tendances,…
◦ Le troisième niveau est celui du monde empirique.
1.Indicateurs opérationnels d’une variable (questionnaire ou items) sont logiquement reliés à
un construit
2.Approcher correctement la réalité empirique du monde sociale en rapport avec le niveau
conceptuel.
Mesure et design de la recherche : opérationnalisation
Factor analysis is by far the most often used multivariate technique of research studies,
specially pertaining to social and behavioural sciences.
It is a technique applicable when there is a systematic interdependence among a set of
observed or manifest variables
The researcher is interested finding out something more fundamental or latent variables
which creates this commonality.
Introduction to factor analysis
We might have data, say, about an individual’s income, education, occupation and dwelling area
We want to infer from these some factor (such as social class) which summarizes the
commonality of all the said four variables.
The technique used for such purpose is generally described as factor analysis.
Factor analysis, thus, seeks to resolve a large set of measured variables in terms of relatively
few categories known as factors.
Introduction to factor analysis
This technique allows the researcher to group variables into factor (based on correlation
between variables)
The factors so derived may be treated as new variable (often termed as latent variables)
Their value derived by summing the values of the original variables which have been
grouped into the factor.
Introduction to factor analysis
The meaning and name of such new variable is subjectively determined by the
researcher.
Since the factors happen to be linear combinations of data, the coordinates of
each observation or variable is measured to obtain what are called factor
loadings.
Such factor loadings represent the correlation between the particular variable
and the factor, and are usually place in a matrix of correlations between the
variable and the factors.
Mathematical basis
The mathematical basis of factor analysis concerns a data matrix (also termed
as score symbolized as S.
The matrix contains the scores of N persons of k measures.
Thus a1 is the score person 1 on measure a, a2 is the score of person 2 on
measure a, and kN is the score of person N on measure k.
The score matrix then take the form as shown following: SCORE MATRIX (or
Matrix S)
Mathematical basis
a b c k
1 a1 b1 c1 k1
2 a2 b2 c2 k2
Persons 3 a3 b3 c3 k3
(objects)
. . . . .
. . . . .
. . . . .
N aN bN cN kN
Variables
Mathematical basis
Mathematical basis
Test de Bartlett vise justement à vérifier si l’on s’écarte significativement de cette situation de
référence |R| = 1.
Test basé sur le déterminant d’une estimation de la matrice de corrélation
Hypothèses
Ho: variables sont globalement indépendantes.
H1: variables sont globalement dépendantes.
Statistique de test s’écrit :
ddl = p*(p-1)/2
La significativité du test jugée par la valeur du Khi-deux significatif.
Mathematical basis: test de Kaiser-Meyer-Oklin (KMO)
L’indice KMO participe de la même idée : est-ce qu’il est possible de trouver
une factorisation intéressante des données ?
Le point de départ est toujours la matrice de corrélation.
On sait que les variables sont plus ou moins liées dans la base.
La corrélation brute entre deux variables est influencée par les (p-2) autres.
Nous utilisons la corrélation partielle pour mesurer la relation (nette) entre
deux variables en retranchant l’influence des autres.
L’indice cherche alors à confronter la corrélation brute avec la corrélation
partielle.
Mathematical basis: test de Kaiser-Meyer-Oklin (KMO)
Si la seconde est nettement plus faible (en valeur absolue), cela veut dire que la
liaison est effectivement déterminée par les autres variables.
Cela accrédite l’idée de redondance et donc la possibilité de mettre en place
une réduction efficace de l’information.
Si la seconde est équivalente, voire plus élevée en valeur absolue,
Il a une relation directe entre les deux variables. Elle sera difficilement prise
en compte par l’analyse factorielle.
Mathematical basis: test de Kaiser-Meyer-Oklin (KMO)
Communality (h²)
Communality, symbolized as h², shows how much of each variable accounted for the
underlying factor then together.
A high value of communality means that not much of the variable is left over after whatever the
factors represent is taken into consideration.
It is worked out in respect of each variable as under:
h² of the ith variable = (ith factor loading of factors A)² + (ith factor loading of factor B)² + … (ith
factor loading of factor N)²
Frequent used terms in factor analysis
Rotation
Rotation, in the context of factor analysis, is something like staining a
microscope slide.
Just as different stains on it reveal different structures in the tissue, different
rotations reveal different structures in the data.
Different rotations give results that appear to be entirely different,
From a statistical point of view, all results are taken as equal, none superior
or inferior to others.
Frequent used terms in factor analysis
From the standpoint of making sense of the results of factor analysis, one must
select the right rotation.
If the factors are independent orthogonal rotation is done and if the factors are
correlated, an oblique rotation is made.
Communality for each variables will remain undisturbed regardless of rotation
but the eigen values will change as result of rotation.
Frequent used terms in factor analysis
Factor scores
Factor score represents tire degree to which each respondent gets high scores
on the group of items that load high on each factor.
Factor scores can help explain what the factors mean.
With such scores, several other multivariate analyses can performed.
Important Methods used in exploratory factor analysis
There are several methods of factor analysis, but they do not necessarily give
same results.
As such factor analysis is not a single unique method but a set of techniques.
Three main methods of factor analysis are:
1.The centroid method;
2.The principal components method;
3.The maximum likelihood method.
Important Methods used in exploratory factor analysis:
Centroid Method
Centroid Method
It is defined by linear combinations in which ail weights are either +1.0 or -
1.0.
The main merit of this method is that it is relatively simple, can be easily
understood and involves simpler computations.
If one understands this method, it becomes easy to understand the mechanics
involved in other methods of factor analysis.
Important Methods used in exploratory factor analysis:
Centroid Method
To obtain second centroid factor (say B), one must first obtain a matrix of
residual coefficients.
The loadings for the two variables on the first centroid factor are multiplied.
This is done for all possible pairs of variables (in each diagonal space is the
square of the particular factor loading).
The resulting matrix of factor cross products may be named as Q1.
Then Q1 is subtracted clement by element from the original matrix of
correlation, R, and the result i the first matrix of residual coefficients, R1.
Important Methods used in exploratory factor analysis:
Centroid Method
Important Methods used in exploratory factor analysis:
Centroid Method
Since in R1 the diagonal terms are partial variances and the off-diagonal terms
are partial co-variances,
it is easy to convert the entire table to a matrix of partial correlations.
For this purpose one has to divide the elements in each row by the square-root
of the diagonal element for that row and then dividing the elements in each
column by the square-root of the diagonal element for that column.
Important Methods used in exploratory factor analysis:
Centroid Method
After obtaining R1, one must reflect some of the variables in it, meaning thereby
that some of the variables are given negative signs in the sum [This is usually
done by inspection)
The aim in doing this should be to obtain a reflected matrix, R’1, which will
have the highest possible sum of coefficient (T)].
Important Methods used in exploratory factor analysis:
Centroid Method
For subsequent factors (C, D, etc.) the same process outlined above is repeated.
After the second centroid factor is obtained, cross products are computed
forming, matrix, Q2, is then subtracted from R1 (and not from R’1) resulting in
R2.
To obtain a third factor (C) one should operate on R2 in the same way as on
R1.
Important Methods used in exploratory factor analysis:
Centroid Method
Variables
1 2 3 4 5 6 7 8
oUsing the centroid method of factor analysis, work out the first and second
centroid factors from the above information.
oGiven correlation matrix, R, is a positive manifold and as such the weights for
all variables be +1.0.
owe calculate the first centroid factor (A) as under:
mportant Methods used in exploratory factor analysis: Centroid
Method
Important Methods used in exploratory factor analysis:
Centroid Method
Variables Factor loadings concerning first Centroid factor A
1 0.683
2 0.618
3 0.642
4 0.641
5 0.629
6 0.624
7 0.679
Important Methods used in exploratory factor analysis:
Centroid Method
1 2 3 4 5 6 7 8
1 0.520 0.281 -0.241 -0.363 0.190 -0.368 -0.316 0.301
Variables 2 0.281 0.618 -0.346 -0.307 0.192 -0.331 -0.337 0.230
3 -0.241 -0.346 0.588 0.259 -0.281 0.243 0.146 -0.366
4 -0.363 -0.307 0.259 0.589 -0.381 0.353 0.178 -0.327
5 0.190 0.192 -0.281 -0.381 0.604 -0.390 -0.217 0.294
6 -0.368 -0.331 0.243 0.353 -0.390 0.518 0.330 -0.354
7 -0.316 -0.337 0.146 0.178 -0.226 0.330 0.539 -0.312
8 0.301 0.230 -0.366 -0.327 0.294 -0.354 -0.312 0.534
Now we obtain first matrix of residual coefficient (R1) by subtracting Q1 from R as shown above
Important Methods used in exploratory factor analysis:
Centroid Method
2 0.618 0.577
3 0.642 -0.539
4 0.641 -0.602
5 0.629 0.558
6 0.694 -0.630
7 0.679 -0.518
8 0.683 0.593
Important Methods used in exploratory factor analysis:
Centroid Method
Work out the communality and eigen values from the final results obtained in
Example 15.1. Also explain what they (along with the said two factors) indicate.
We work out the communality and eigen values for the given problem as
under:
Important Methods used in exploratory factor analysis: Centroid
Method
Variables Factor loadings Communality (h²)
Centroid factor A Centroid factor B
1 .693 .563 (.693)² + (.563)² = .797
2 .618 .577 (.618)² + (.577)² = .715
3 .642 -.539 (.642)² + (-.539)² = .703
4 .641 -.602 (.641)² + (-.602)² = .773
5 .629 .558 (.629)² + (.558)² =.707
6 .694 -.630 (.694)² + (-.630)² = .879
7 .679 -.518 (.679)² + (-.518)² = .729
8 .683 .593 (.683)² + (.593)² = .818
Eigen value (variance
accounted for i.e. common
variance) Proportion of total 3.490 2.631 6.121
variance Proportion of
common variance) .44 .33 .77
(44%) (33%) (77%)
Important Methods used in exploratory factor analysis:
Principal Components Method
X1 X2 X3 … Xk
Variables
X1 r11 r12 … r1k
X2 r21 r22 … r2k
X3 r31 r32 … r3k
. . . .
. . . .
Xk rk1 rk2 … rkk
Important Methods used in exploratory factor analysis:
Principal Components Method
The first step is to obtain the sum of coefficients in each column, including the diagonal
element. The vector of column sum is referred to as and when U, is normalized, we call it
Va1.
This is done by squaring and summing the column sums in and then dividing each
element in Ua1 by the square row of the sum of squares (which may be termed as
normalizing factor).
Then elements in Va1 are accumulatively multiplied by the first row of R to obtain the
first element in a new vector Ua2.
For instance, in multiplying Va1 by the first row of R, the first element in would be
multiplied by the r11 value and this would he added to the product of the second element
in Va1 multiplied by the r12, value, which would be added to the product of third element
in Va1 multiplied by the r13 value, and so on for all the corresponding elements in Va1 and
the first row of R
Important Methods used in exploratory factor analysis:
Principal Components Method
To obtain the second element of Ua2, the same process would be repeated i.e.,
the elements in Va1, are accumulatively multiplied by the 2nd row of R.
The same process would be repeated for each row of R and the result would
be a new vector Ua2. Then Ua2, would be normalized to obtain Va2.
One would then compare V0, and they are nearly identical, then convergence
is said to have occurred (If convergence does not occur, one should go on
using these trial vectors again and again till convergence occurs).
Important Methods used in exploratory factor analysis:
Principal Components Method
To obtain factor B, one seeks solutions for Vb, and the actual factor loadings for
second component factor B.
The same procedures are used as we had adopted for finding the first factor,
except that one operates off the first residual matrix, R1 rather than the original
correlation matrix R (We operate on R1 in just the same way as we did in case
of centroid method stated earlier).
This very procedure is repeated over and over again to obtain the successive
PC factors (viz. C, D, etc.),
Important Methods used in exploratory factor analysis: Principal
Components Method
Variables
1 2 3 4 5 6 7 8
Column sums Ua1 3.662 3.263 3.392 3.385 3.324 3.666 3.587 3.605
Then we obtain Ua2 by accumulatively multiplying Va1, row by row into R and
the result comes as under:
Ua2: [1.296,1.143,1.201,1.201,1.165,1.308,1.280,1.275]
Normalizing it we obtain (normalizing factor for Ua2 will be worked out as
above and will be = 3.493)
Va2: [.371, .327, .344, .344, .334, .374, .366, .365]
We compute the loadings on the first principal component by multiplying Va by
the square root of the number tint we obtain for normalizing Ua2.
Important Methods used in exploratory factor analysis:
Principal Components Method
Variables Characteristic X Facteur de = Principal
vector Va) normalisation Component 1
1 .371 X 1.868 = .69
2 .331 X 1.868 = .62
3 .334 X 1.868 = .64
4 .343 X 1.868 = .64
5 .337 X 1.868 = .63
6 .372 X 1.868 = .70
7 .363 X 1.868 = .68
8 .365 X 1.868 = .68
Important Methods used in exploratory factor analysis:
Principal Components Method
Variables Principal component II
1 +57
2 +59
3 -52
4 -59
5 +57
6 -61
7 -49
8 -61
Important Methods used in exploratory factor analysis:
Principal Components Method
Variables Principal components Communality h²
I II
Purpose of CFA is to identify factors that account for the variation and covariation among a set of
indicators.
EFA and CFA are based on the common factor model
Many of the concepts and terms apply to CFA (such as factor loadings, unique variances,
communalities, and residuals).
EFA is generally a descriptive or exploratory procedure
CFA the researcher must prespecify all aspects of the factor model: the number of factors, the
pattern of indicator–factor loadings, and so forth.
CFA requires a strong empirical or conceptual foundation to guide the specification and
evaluation of the factor model.
CFA is typically used in later phases of scale development or construct validation—after the
underlying structure has been tentatively established by prior empirical analyses using EFA, as
well as on theoretical grounds.
Ressemblances et différences entre l’analyse factorielle
exploratoire et confirmatoire : Common Factor Model
EFA and CFA often rely on the same estimation methods (e.g., maximum likelihood, or ML).
When a full information estimator such as ML is used, the factor models arising from EFA
and CFA can be evaluated in terms of how well the solution reproduces the observed
variances and covariances among the input indicators (goodness-of-Fit evaluation).
Quality of EFA and CFA models is determined in part by the size of resulting parameter
estimates (magnitude of factor loadings and factor intercorrelations)
How well each factor is represented by observed measures (e.g., number of indicators per
factor, size of indicator communalities, factor determinacy).
Ressemblances et différences entre l’analyse factorielle
exploratoire et confirmatoire: Standardized and Unstandardized
Solutions
Results of CFA include an unstandardized solution (parameter estimates expressed in the original
metrics of the indicators), and possibly a partially standardized solution (relationships involving
unstandardized indicators and standardized latent variables, or vice versa).
Many key aspects of CFA are based on unstandardized estimates, such as the standard errors
and significance testing of model parameters.
CFA may entail the analysis of both unstandardized variance–covariance structures and mean
structures (as the result of standardization in EFA, indicator means are presumed to be zero).
Indicator means are included as input in CFA, the analysis can estimate the means of the factors
and the intercepts of the indicators.
An indicator intercept is interpreted as the predicted value of the indicator when the factor—or
predictor is zero.
Ressemblances et différences entre l’analyse factorielle
exploratoire et confirmatoire: standardized and Unstandardized
Solutions
Table 3.1 presents the factor loading matrices of three analyses of the same data set (N = 1,050
adolescents):
1. CFA (Model A),
2. EFA with oblique rotation (Model B),
3. EFA with orthogonal rotation (Model C).
Eight antisocial behaviors are used as indicators in the analyses entails two factors
1. Property Crimes (e.g., shoplifting, vandalism) and Violent Crimes (e.g., fighting,
aggravated assault).
Ressemblances et différences entre l’analyse factorielle
exploratoire et confirmatoire: Indicator Cross ‑Loadings/Model
Parsimony
Path diagrams of Models A and B in Figure 3.1 correspond to Models A and B in Table 3.1.
Model B path diagram can be edited to conform to an orthogonal EFA by removing the
double-headed curved arrow reflecting the factor correlation.
Each indicator in EFA loads on all factors.
Rotation (either orthogonal or oblique) is used to foster the interpretability of the factor
loadings (i.e., to maximize large loadings, to minimize small loadings).
Rotation does not affect the fit of the EFA solution
Ressemblances et différences entre l’analyse factorielle
exploratoire et confirmatoire: Indicator Cross ‑Loadings/Model
Parsimony
CFA offers the researcher the ability to specify the nature of relationships among the
measurement errors (unique variances) of the indicators.
Within EFA the relationships among unique variances are not specified.
CFA typically entails a more parsimonious
CFA usually attempts to reproduce the observed relationships among indicators with
fewer parameter estimates than EFA)
Possible to estimate such relationships when this specification is substantively
justified and other identification requirements are met
Ressemblances et différences entre l’analyse factorielle
exploratoire et confirmatoire: Unique Variances
The model presented in Figure 3.1C depicts the same CFA measurement model, Exception that
a correlated error has been specified between Y2 and Y3.
Indicators Y2 and Y3 are related in part because of the shared influence of the latent
dimension (Factor 1), some of their covariation is due to sources other than the common
factor.
Specification of correlated errors may be justified
1.Basis of source or method effects that reflect additional indicator covariation resulting from
common assessment methods (e.g., observer ratings, questionnaires);
2.Reversed or similarly worded test items
3.Differential susceptibility to other influences, such as response set, demand characteristics,
acquiescence, reading difficulty, or social desirability (Brown, 2003; Marsh, 1996).
Ressemblances et différences entre l’analyse factorielle
exploratoire et confirmatoire: Unique Variances
The inability to specify correlated errors ( the nature of the relationships among unique
variances) very significant limitation of EFA.
A common consequence of this EFA limitation is the tendency to extract and interpret
methods factors that have little substantive basis (Brown, 2003).
Psychometric literature exists on the Rosenberg (1965) Self-Esteem Scale (SES), a questionnaire
that consists of four positively worded items (I feel good about myself) and three negatively
worded items (At times I think I am no good at all).
EFA produced two SES factors composed of negatively and positively worded items that were
interpreted as substantively meaningful ( Positive Self-Evaluation vs. Negative Self-
Evaluation).
Strong conceptual basis did not exist in support for distinct dimensions of positive and
negative self-esteem.
Ressemblances et différences entre l’analyse factorielle
exploratoire et confirmatoire: Unique Variances
Marsh (1996) evaluated various SES measurement models corresponding to previously reported
solutions using CFA
One-factor model without error covariances, two-factor models and correlated uniqueness
(residual) models.
Results indicated the superiority of a unidimensional solution (Global Self-Esteem) with
method effects (correlated residuals) associated with the negatively worded items.
Existence of a single dimension of self-esteem, but need for an error theory to account for the
additional covariation among similarly worded items
Model could not be estimated in EFA because EFA does not allow for the specification of
correlated indicator errors.
Ressemblances et différences entre l’analyse factorielle
exploratoire et confirmatoire: Model Comparison
CFA framework allows a researcher to impose other restrictions on the factor solution
Such as constraining all the factor loadings or all the unique variances to be equal
Viability of these constraints evaluated by statistically comparing whether the fit of the more
restricted solution is worse than a comparable solution without these constraints.
Direct statistical comparison of alternative solutions is possible when the models are nested.
Nested model contains a subset of the free parameters of another model (which is often
referred to as the parent model).
Two confirmatory Factor Analysis for Applied Research models
1. Model P, a one-factor model composed of six indicators allowed to load freely onto the
factor
2.Model N, a one-factor model identical to Model P, except that the factor loadings are
constrained to load equally onto the factor.
Ressemblances et différences entre l’analyse factorielle
exploratoire et confirmatoire: Model Comparison
Models are structurally the same (i.e., they consist of one factor and the same six indicators)
Difference in their number of freely estimated versus constrained parameters.
Parameters freely estimated
Researcher allows the analysis to find the values for the parameters in the CFA solution (e.g.,
factor loadings, factor correlations, unique variances) that optimally reproduce the variances
and covariances of the input matrix.
Fixed parameters
Researcher assigns specific values (fixes cross-loadings to zero to indicate no relationship
between an indicator and a factor)
Parameters are constrained, the researcher does not specify the parameters’ exact values, but
places other restrictions on the magnitude these values can take on.
Ressemblances et différences entre l’analyse factorielle
exploratoire et confirmatoire: Model Comparison
Case of Model N
Researcher instructs the analysis to optimally reproduce the input matrix under the condition
that all factor loadings are the same.
Model N is nested under Model P
Contains a subset of Model P’s free parameters.
Fit of Model N can be statistically compared to the fit of Model P (through methods such as
the Khi-deux difference test ) to directly evaluate the viability of the condition of equal factor
loadings
EFA entails only freely estimated parameters
Fixed parameters cannot be specified and comparative model evaluation of this nature is not
possible
CFA can be used to statistically determine whether the various measurement parameters of a
factor model (e.g., factor loadings) are the same in two or more groups (males and females).
Purposes and Advantages of CFA
CFA offers a very strong analytic framework for evaluating the equivalence of measurement
models across distinct groups (demographic groups such as sexes, races, or cultures).
Accomplished by either multiple-groups solutions (simultaneous CFAs in two or more
groups) or “multiple indicators, multiple causes” (MIMIC) models
CFA framework is superior in terms of its modeling flexibility and its ability to examine every
potential source of invariance in the factor solution, including latent means and indicator
intercepts.
These capabilities permit a variety of important analytic opportunities in applied research,
Evaluation of whether a scale’s measurement properties are invariant across population
subgroups (are the number of factors, factor loadings, item intercepts, etc., that define the
latent structure of a questionnaire equivalent in males and females?).
Purposes and Advantages of CFA
CFA and SEM allow for such relationships to be estimated after adjustments for
measurement error and an error theory
Relationship between the two constructs is reflected by their factor intercorrelation
(r between Factor 1 and Factor 2) as opposed to the observed relationships among the
indicators that load on these factors.
Factor correlation is a better estimate of the population value of this relationship than
any two indicator pairings (e.g., r between Y1 and Y4)
Adjusted for measurement error; that is, shared variance among the factor’s
indicators is operationalized as true-score variance, which is passed on to the latent
variable
Purposes and Advantages of CFA
Researcher will wish to relate the factors revealed by EFA to other variables.
Requires the researcher to compute factor scores to serve as proxies for the factors in
subsequent analyses.
This practice is limited by the issue of factor score indeterminacy
For any given EFA, an infinite number of sets of factor scores can be computed that are
equally consistent with the factor loadings.
In CFA and SEM, indeterminacy of factor scores is not a problem because this analytic
framework eliminates the need to compute factor scores
The latent variables themselves are used in the analysis.
CFA and SEM offer the researcher considerable modeling flexibility
Additional variables can be readily brought into the analysis to serve as correlates predictors,
or outcomes of the latent variables
Purposes and Advantages of CFA
CFA is used as a precursor to SEM which specifies structural relationships (e.g., regressions)
among the latent variables).
A structural equation model can be broken down into two major components:
1.The measurement model
Specifies the number of factors, how the various indicators are related to the factors, and
the relationships among indicator errors ( CFA model)
2.The structural model
Specifies how the various factors are related to one another (e.g., direct or indirect effects,
no relationship, spurious relationship).
Consider the two basic path diagrams in Figure 3.2.
Both diagrams depict models entailing the same set of indicators and the same factors
Purposes and Advantages of CFA
Two diagrams
First diagram (A) represents a measurement model (CFA model entailing three
intercorrelated factors)
Second diagram (B) reflects a structural model to indicate that the relationship between
Factor X and Factor Y is fully mediated by Factor Z (as with factor loadings, direct effects
among latent variables are depicted by unidirectional arrows in Figure 3.2B).
Relationships among the latent variables are allowed to intercorrelate freely in the CFA
model (analogous to an oblique EFA solution),
Exact nature of the relationships is specified in the structural model; that is, Factor X has a
direct effect on Factor Z, Factor Z has a direct effect on Factor Y, and Factor X has an
indirect effect on Factor Y.
Purposes and Advantages of CFA
Measurement (CFA) model with three parameters relating the factors to one another: factor
correlations between X and Y, X and Z, and Y and Z (depicted by double-headed, curved
arrows in Figure 3.2A).
Structural model, there are only two structural parameters, X → Y and Y → Z.
Structural portion of this solution is overidentified,
Exist fewer structural parameters ( X → Y and Y → Z) in the model than the number of
possible relationships among the factors (correlations between X and Y, X and Z, and Y and
Z).
Structural model is more parsimonious than the measurement model
Attempts to reproduce the relationships among the latent variables with one less freely
estimated parameter.
Purposes and Advantages of CFA
All CFA models contain factor loadings, unique variances, and factor variances.
1. Factor loadings are the regression slopes for predicting the indicators from the latent
variable.
2. Unique variance is variance in the indicator that is not accounted for by the latent
variables.
3. Unique variance is typically presumed to be measurement error and is thus often referred
to as such (other synonymous terms include error variance and indicator unreliability).
Unstandardized solution
Factor variance expresses the sample variability or dispersion of the factor
Extent to which sample participants’ relative standing on the latent dimension is similar or
different.
Parameters of a CFA Model
LISREL notation for the parameters and matrices of a CFA solution for latent X and latent
Y specifications presented in Figures 3.3 and 3.4
Not necessary to understand this notation in order to specify CFA models in most
software packages.
Knowledge of this notational system is useful because most sourcebooks and quantitative
papers rely on it to describe the parameters and equations of CFA and SEM.
Lowercase Greek symbols correspond to specific parameters (i.e., elements of a matrix
such as l)
Uppercase Greek letters reflect an entire matrix (the full matrix of factor loadings, L).
Parameters of a CFA Model
Factor loadings are symbolized by lambdas (λ) with x and y subscripts in the case of exogenous
and endogenous latent variables
The unidirectional arrows (→) from the factors (,, n1) to the indicators ( X1, Y1) depict direct
effects (regressions) of the latent dimensions onto the observed measures;
The specific regression coefficients are the lambdas (λ).
Thetas (Θε) represent matrices of indicator error variances and covariances—theta-delta
(Θδ) in the case of indicators of latent X variables,
Theta-epsilon (Θε) for indicators of latent Y variables.
Symbols δ and ε are often used in place of Θδ and Θε
Parameters of a CFA Model
Factor variances and covariances are notated by phi (ɸ) and psi (Ψ) in latent X and latent Y
models
Bidirectional arrows are used to symbolize covariances (correlations)
Curved arrows indicate the covariance between the factors (ɸ21, Ψ21) and the error covariance
of the X5 and X6 indicators (δ21, ε21)
When relationships are specified as covariances, the researcher is asserting that the variables
are related (e.g., ξ1 and ξ2).
Specification makes no claims about the nature of the relationship,
Lack of knowledge regarding the directionality of the association (ξ 1 → ξ2) or the
unavailability to the analysis of variables purported to account for this overlap
Parameters of a CFA Model
Parameters of a CFA Model
λx11 measure loads on the first exogenous factor (ξ1), and λx21 indicates that X2 also
loads on ξ1.
This numeric notation assumes that the indicators are ordered X1, X2, X3, X4, X5,
and X6 in the input variance–covariance matrix.
Input matrix is arranged in this fashion, the lambda X matrix (Λx) in Figure 3.3 will
be as follows
Parameters of a CFA Model
Parameters of a CFA Model
Two notations
First numerical subscript refers to the row of Λx (i.e., the positional order of the X indicator),
Second numerical subscript refers to the column of Λx (i.e., the positional order of the
exogenous factors, ξ).
λx52 conveys that the fifth indicator in the input matrix (X5) loads on the second latent X
variable (ξ2).
Thus Λx and Λy are full matrices whose dimensions are defined by p rows (number of
indicators)
Latent Y notation for a two-factor CFA model with one error covariance.
Factor variances, factor means, and indicator intercepts are not depicted in the path diagram.
Parameters of a CFA Model
Elements meanings
The zero elements of Λx (λx12, λx41) indicate the absence of cross-loadings (e.g., the
relationship between ξ2 and x2 is fixed to zero).
A similar system is used for variances and covariances among factors (ɸ in Figure 3.3, Ψ in
Figure 3.4) and indicator errors (δ and ε in Figures 3.3 and 3.4, respectively).
CFA solution reflect variances and covariances, they are represented by m × m symmetric
matrices with variances on the diagonal and covariances in the off-diagonal.
Phi matrix (ɸ) in Figure 3.3 will look as follows:
Parameters of a CFA Model
Parameters of a CFA Model
Specificities
δ11 through δ66 are the indicator errors and δ65 is the covariance of the measurement errors of
indicators X5 and X6.
Diagonal elements are indexed by single digits in Figures 3.3 and 3.4 (δ6 is the same as δ66).
The zero elements of Θδ(δ21) indicate the absence of error covariances (these relationships
are fixed to zero).
Indicator intercepts are symbolized by tau (ɽ), and latent exogenous and endogenous means
are symbolized by kappa (κ) and alpha (α) respectively.
LISREL notation also applies to structural component of models that entail directional
relationships among exogenous and endogenous variables.
Gamma (γ, matrix: ┌) denotes regressions between latent X and latent Y variables, and beta
(ß, matrix: B) symbolizes directional effects among endogenous variables.
Fundamental Equations of a CFA Model CFA
CFA aims to reproduce the sample variance–covariance matrix by the parameter estimates of the
measurement solution (e.g., factor loadings, factor covariances, etc.).
Figure 3.3 has been revised
Parameter estimates have been inserted for all factor loadings, factor correlation, and indicator
errors (see now Figure 3.5).
Completely standardized values are presented, although the same concepts and formulas apply to
unstandardized solutions.
The first three measures (X1, X2, X3) are indicators of one latent construct (ξ 1), whereas the
next three measures (X4, X5, X6) are indicators of another latent construct (ξ 2 ).
Indicators X4, X5, and X6 are congeneric (Jöreskog, 1971) because they share a common
factor (x2).
Fundamental Equations of a CFA Model CFA
An indicator is not considered congeneric if it loads on more than one factor.
Congeneric factor loadings
Variance of an indicator is reproduced by multiplying its squared factor loading by the
variance of the factor, and then summing this product with the indicator’s error variance.
Predicted covariance of two indicators that load on the same factor is computed as the
product of their factor loadings times the variance of the factor.
The model-implied covariance of two indicators that load on separate factors is estimated as
the product of their factor loadings times the factor covariance
Fundamental Equations of a CFA Model CFA
Fundamental Equations of a CFA Model CFA
The squared factor loading represents the proportion of variance in the indicator that is
explained by the factor
Communality of X2 is
Factor correlation (ɸ21) rather than the factor variance is used in this calculation.
6 variances and 15 covariances (completely standardized) that are estimated by the two-
factor measurement model.
Correlation between the errors of the X5 and X6 indicators (δ65 = .20).
Covariation between the indicators is not accounted for fully by the factor (ξ 2)
X5 and X6 share additional variance due to influences other than the latent construct
Equation to calculate the predicted correlation of X5 and X6 includes the correlated
error:
CFA model identification
When a marker indicator is specified, a portion of its sample variance is passed on to the
latent variable.
Suppose X1 is selected as the marker indicator for ξ1 and has a sample variance (δ 11) of 16.
Because X1 has a completely standardized factor loading on ξ1 of .90, 81% of its variance
is explained by ξ1; .902 = .81 (cf. Eq. 3.5).
81% of the sample variance in X1 is passed on to x1 to represent the factor variance of ξ1
CFA model identification: Scaling the Latent Variable
A third method of scaling latent variables that is akin to effects coding in ANOVA (Little,
Slegers, and Card, 2006) have introduced.
Priori constraints are placed on the solution,
Set of factor loadings for a given construct average to 1.00 and the corresponding indicator
intercepts sum to zero.
Variance of the latent variables reflects the average of the indicators’ variances explained by
the construct, and the mean of the latent variable is the optimally weighted average of the
means for the indicators of that construct.
Nonarbitrary because the latent variable will have the same unstandardized metric as the
average of all its manifest indicators.
CFA model identification: Statistical Identification
Parameters of a CFA model can be estimated only if the number of freely estimated parameters
does not exceed the number of pieces of information in the input variance–covariance matrix.
A model is underidentified when the number of unknown (freely estimated) parameters
exceeds the number of known information (elements of the input variance–covariance
matrix).
An underidentified model cannot be solved because there are an infinite number of parameter
estimates that result in perfect model fit.
x + y = 7 (3.11)
There are 2 unknowns (x and y) and 1 known (x + y = 7).
This equation is underidentified because the number of unknown parameters (x and y)
exceeds the known information
CFA model identification: Statistical Identification
The unknowns of the CFA solution are the freely estimated model parameters.
There are 4 freely estimated parameters: 2 factor loadings (λx11, λx21) and 2 indicator
errors (δ1, δ2).
Metric of x1 is set by fixing its variance to 1.0.
Factor variance (ɸ11) is fixed, it is not included in the count of unknowns.
May opt to define the metric of ξ1 by choosing either X1 or X2 to serve as a marker
indicator.
Factor variance (ɸ11) contributes to the count of freely estimated parameters, but the
factor loading of the marker indicator is not included in this tally because it is fixed
to pass its metric on to ξ1
CFA model identification: Statistical Identification
CFA model in Figure 3.6A is underidentified
Number of unknowns (4 freely estimated parameters) exceeds the number of knowns (3
elements of the input matrix = 2 variances, 1 covariance).
This model aims to reproduce the sample covariance of X1 and X2.
Sample covariance corresponds to a correlation of .64
λx11, λx21, δ1, and δ2 can take on an infinite number of sets of values to reproduce an X1–X2
correlation of .64.
Predicted correlation between two indicators that load on the same factor is the product of
their factor loadings.
Endless pairs of values that can be estimated for lx11 and lx21 that will produce a perfectly
fitting model λx11 = .80, λx21 = .80; λx11 = .90, λx21 = .711; λx11 = .75, λx21 = .853).
CFA model identification: Statistical Identification
CFA model identification: Statistical Identification
CFA model identification: Statistical Identification
Possible to identify the Figure 3.6A model if additional constraints are imposed on the
solution.
Researcher can add the restriction of constraining the factor loadings to equality.
Number of knowns (3) will equal the number of unknowns (3), and the model will be just-
identified.
Just-identified models there exists one unique set of parameter estimates that perfectly fit the
data.
Only factor loading parameter estimate that will reproduce the observed X1–X2 correlation
(.64) is .80; λx11 = .80 and λx21 = .80, solved by imposing the equality constraint.
Imposing constraints may assist in model identification by reducing the number of freely
estimated parameters
Such restrictions are often unreasonable on the basis of evidence or theory.
CFA model identification: Statistical Identification
CFA model of a construct consisting of 3 observed measures may meet the conditions of
identification (as in Figure 3.6B),
True if the errors of the indicators are not correlated with each other.
Model depicted in Figure 3.6C is identical to that in Figure 3.6B, with the exception of a
correlated residual between indicators X2 and X3.
Additional parameter (δ32) now brings the count of freely estimated parameters to 7, which
exceeds the number of elements of the input variance–covariance matrix (6).
Thus the Figure 3.6C model is underidentified and cannot be fit to the sample data.
CFA model identification: Statistical Identification
A model overidentified
Number of knowns (i.e., number of variances and covariances in the input matrix) exceeds the
number of freely estimated model parameters.
One-factor model depicted in Figure 3.7 (Model A) is structurally overidentified
10 elements of the input matrix (4 variances for X1–X4, 6 covariances), but only 8 freely
estimated parameters (4 factor loadings, 4 error variances; the variance of x1 is fixed to 1.0).
The difference in the number of knowns (a) and the number of unknowns (b; i.e., freely
estimated parameters) constitutes the model’s degrees of freedom (df).
Three cases
1.Overidentified solutions have positive df
2.Just-identified models have 0 df (number of knowns equals the number of unknowns)
3.Underidentified models have negative df (they cannot be solved or fit to the data).
CFA model identification: Statistical Identification
Second model in Figure 3.7 (Model B) is also overidentified with df = 1
There are 10 elements of the input matrix and 9 freely estimated parameters thus resulting in 1
df)
Final example of an overidentified solution,
Measurement model presented in Figure 3.5.
21 pieces of information in the input matrix (6 variances, 15 covariances).
Becomes cumbersome to count the elements of the input matrix as the number of variables
increases
Following formula readily provides this count:
CFA model identification: Statistical Identification
Basic path model is tested with single indicators of behavioral inhibition (x), school
refusal (y), and social anxiety (z) in a group of school-age children (N = 200).
Whether the relationship between behavioral inhibition (x) and school refusal (y) is
fully mediated by social anxiety (z).
Model is somewhat unrealistic (assumes no measurement error in x, y, and z, and does
not conform to the typical strategy for evaluating mediated effects; cf. MacKinnon,
2008)
Simplified nature will foster the illustration of the concepts and calculations
introduced in the preceding and subsequent sections.
Estimation of CFA Model Parameters: Illustration
Paths between x and z, and z and y, must equal their observed relationships
Given the way that the model is specified (e.g., x and z, and z and y, are linked by direct
effects), full reproduction of their observed covariances (correlations) is guaranteed (for
algebraic proof of this fact, see Jaccard & Wan, 1996).
Model also possesses one nontautological (i.e., overidentified) relationship involving x and y.
Model will generate a unique set of parameter estimates
A simple tracing rule is used
Predicted correlation (and covariance) between x and y will be the product o the paths
between x and z and between z and y
Estimation of CFA Model Parameters:
Illustration
Model-implied relationship between x and y will not necessarily equal the observed
relationship between these variables.
Proximity of S to Σ depends entirely on the ability of the path model to reproduce the
observed zero-order relationship between x and y.
Model is thus overidentified with 1 df corresponding to the nontautological relationship
between x and y.
Another way to determine whether the model has 1 df
Take the difference between the number of elements of the input matrix (a = 6 = 3 variances,
covariances) and the number of freely estimated parameters (b = 5 = 2 regressive paths, the
variance of x, and the 2 residual variances of y and z).
Estimation of CFA Model Parameters: Illustration
SAS PROC IML to calculate the residual matrix (sample matrix minus the predicted matrix) and
FML (Table 3.2)
Relationship between x and y is the only nontautological effect in this model, this is the only
element of the residual matrix that can take on a value other than zero.
Residual correlation and covariance for x and y are .40 and 1.6, respectively.
Calculation of FML on the basis of variance-covariance matrice (Table 3.2)
Same FML value will be obtained if correlation matrices are used (variance–covariance
matrices are often preferred in order to obtain unstandardized solutions and valid standard
errors, and to permit other options such as multiple-groups evaluation).
Fitted model results in an FML value of 0.4054651, reflecting the discrepancy between S and Σ
.
Estimation of CFA Model Parameters: Illustration
Estimation of CFA Model Parameters: Illustration
Descriptive Goodness of Fit Indices
Latent variable software programs (Mplus, LISREL starting with Version 9.1) increasingly
calculate b by multiplying FML by N instead of N –1.8
Using N, the Figure 3.8 model Khi-deux is 81.093 (0.4054651 * 200).
Model is associated with 1 df, the critical Khi-deux value (a = .05) is 3.84 (i.e., Khi-deux = z2
= 1.962 = 3.8416).
The model Khi-deux of 81.093 exceeds the critical value of 3.84, and thus the null hypothesis
that S = Σ is rejected.
A statistically significant (llatent variable software programs provide the exact probability
value of the model ) supports the alternative hypothesis that S ≠ Σ ,
Meaning that the model estimates do not sufficiently reproduce the sample variances and
covariances (model does not fit the data well).
Descriptive Goodness of Fit Indices
Khi-deux is steeped in the traditions of ML and SEM (e.g., it was the first fit index to be
developed)
Rarely used in applied research as a sole index of model fit.
1.Many instances (small N, non-normal data), its underlying distribution is not Khi-deux
distributed (compromising the statistical significance tests of the model Khi-deux);
2.Inflated by sample size (e.g., if N were to equal 100 in the Figure 3.8 model, Khi-deux =
40.55), and thus large-N solutions are routinely rejected on the basis of Khi-deux
3.Based on the very stringent hypothesis that S = Σ .
Descriptive Goodness of Fit Indices: Absolute Fit
SRMR can be calculated by (1) summing the squared elements of the residual
correlation matrix and dividing this sum by the number of elements in this matrix
(on and below the diagonal)
a = p(p + 1)/2 (Eq. 3.14)
Taking the square root of this result.
SRMR of the Figure 3.8 solution would be computed as follows:
Descriptive Goodness of Fit Indices: Absolute Fit
Recommended index from this category is the root mean square error of approximation
(RMSEA)
RMSEA is a population-based index that relies on the noncentral Khi-deux
distribution
Distribution of the fitting function (e.g., FML) when the fit of the model is not
perfect.
The noncentral Khi-deux distribution includes a noncentrality parameter (NCP), which
expresses the degree of model misspecification.
The NCP is estimated as Khi-deux –df (if the result is a negative number, NCP = 0).
Fit of a model is perfect, NCP = 0 and a central Khi-deux distribution holds.
Descriptive Goodness of Fit Indices: Absolute Fit
Comparative fit indices (incremental fit indices; e.g., Hu & Bentler, 1998)
Evaluate the fit of a user-specified solution in relation to a more restricted, nested baseline
model.
Baseline model is a “null” or “independence” model in which the covariances among all
input indicators are fixed to zero
Comparative fit indices often look more favorable
Some indices from this category have been found to be among the best behaved of the host
of indices that have been introduced in the literature.
Comparative fit index (CFI; Bentler, 1990) is computed as follows:
Descriptive Goodness of Fit Indices: Comparative Fit
Elements definition
T is the Khi-deux value of the target model (i.e., the model under evaluation);
dfT is the df of the target model;
Khi-deux B is the Khi-deux value of the baseline model (i.e., the “null” model)
DfB is the df of the baseline model.
Max indicates to use the largest value—for example, for the numerator, use (Khi-deux
T –dfT) or 0, whichever is larger.
The Khi-deux B and dfB of the null model are included as default output in most
software programs.
Descriptive Goodness of Fit Indices: Comparative Fit
Another popular and generally well-behaved is the Tucker–Lewis index (TLI; Tucker &
Lewis, 1973)
TLI has features that compensate for the effect of model complexity
TLI includes a penalty function for adding freely estimated parameters that do not
markedly improve the fit of the model.
TLI is calculated by the following formula:
Descriptive Goodness of Fit Indices: Comparative Fit
Elements definition
Khi-deux T is the Khi-deux value of the target model (i.e., the model under evaluation)
dfT is the df of the target model;
Khi-deux B is the Khi-deux value of the baseline model (i.e., the “null” model); and dfB is
the df of the baseline model.
TLI is non-normed
Its values can fall outside the range of zero to one.
Values approaching one are interpreted in accord with good model fit.
TLI for the Figure 3.8 solution is
TLI = [(227.877 / 3) –( 81.093 / 1)] / [(227.877 / 3) –1] = –0.068
Obtaining a Solution for a Just-Identified
Factor Model
Step 4: Now that we know that a = .70, it is straightforward to solve for b and c,
using the original equations.
1. Equation 1. = .595/.70 = b = .85
2. Equation 2. = .448/.70 = c = .64
Factor loadings are .70, .85, and .64, for λx11, λx21, and λx31
Multiplying these loadings together reproduces the input correlations
perfectly: 70(.85) = .595, .70(.64) = .448, .85(.64) = .544.
Obtaining a Solution for a Just-Identified Factor Model
Another way to think about this is to regard total variation as having two components
1. Signal (i.e., true differences in patients, desire for control)
2.Noise ( i.e., score differences caused by everything but true differences in desire for control).
Computing alpha
Partitions the total variance among the set of items into signal and noise components.
The proportion of total variation that is signal equals alpha.
Reliability of measurement : the covariance Matrix
X1 X2 X3
σ2 1 σ1,2 σ1,3
σ1,3 σ2,3 σ2 3
The same matrix is displayed somewhat more compactly using the customary
symbols for matrices, variance’s, and covariance’s
Reliability of measurement : the covariance Matrix
Let us focus our attention on the properties of a covariance matrix for a set of
items that, when added together, make up a scale.
The covariance matrix presented above has three variables X1, X2, and X3.
Assume that these variables are actually scores for three items and that the
items (X1, X2 and X3) when added together make up a scale we will come Y.
What can this matrix tell us about the relationship of the individual items to the
scale as a whole?
Reliability of measurement : the covariance Matrix
σ2 1 σ1,2 σ1,3
σ1,2 σ2, 2 σ2,3
σ1,3 σ2,3 σ2 3
The variance of a scale (Y) made up of three equally weighted items (x1, x2 ,
x3) has the following relationship to the covariance matrix of the items : σσ2 Y
= C2 1
σ2 1
Reliability of measurement : Alpha and the covariance
Matrix
Alpha
Defined as the proportion of a scale’s total variance that is attributable to a
common source, presumably the true score of a latent variable underlying the
items.
Compute alpha
it would be useful to have a value of the scale’s total variance and a value for
the proportion that is « common variance ».
The covariance matrix is just what we need in order to do this.
Reliability of measurement : Alpha and the covariance
Matrix
Reliability of measurement : Alpha and the covariance
Matrix
All the variation in items that is due to the latent variable Y is shared or
common
The terms joint and communal are also used to describe this variation
When Y varies (as it will, for example, accross individuals having different
levels of the attribute it represents), scores of all the items will vary with it
because its is a cause of those scores.
If Y is high , all the item scores will tend to be high , if Y is low, they will
tend to be low.
Reliability of measurement : Alpha and the covariance
Matrix
This means that the items will tend to vary jointly (i.e., be correlated with one
another).
So the latent variable affects items and, thus, they are correlated.
The error terms, in contrast are the unique variation that each item possesses.
Whereas all items share variability due to Y, no two share any variation from
the same error source under our classical measurement assumptions.
The value of a given error term affects the only one item.
Reliability of measurement : Alpha and the covariance
Matrix
Reliability of measurement : Alpha and the covariance
Matrix
The total variance of the scale (σ2Y ) defined as the sum of all elements in the
matrix
The sum of the individual item variances (σ2X ) computed by summing entries
along the sum main diagonal.
These two values can be given a conceptual interpretation.
The sum of the whole matrix is, by definition, the variance of Y, the scale
made up of the individual items.
Reliability of measurement : Alpha and the covariance
Matrix
All the variances (diagonal elements) are single-variable or “variable-with themselves.
Each variance contains information about only one item.
Each represents information that is based on a single item not joined variation shared
among items
The item’s variance does not quantify the that item, irrespective of what causes it
The off-diagonal elements of the covariance matrix all involve pairs of terms and, thus,
common (or joint) variation between two of the scale’s items (covariation).
The element in the covariance matrix ( and, hence, the total variance of Y) consist of
covariation (joint variance, if you will) plus “ non joint” or noncommunal” variation
concerning items considererd individually.
Reliability of measurement : Alpha and the covariance Matrix
Covariance’s and only the covariance’s represent communal variation,
All noncommunal variation must be represented in the variances along the main diagonal
of the covariance matrix
The term Σσ2Y , the total variance, of course, is expressed by the sum of all the matrix
elements.
The ratio of non joint variation to total variation in Y as
Σσ21/ σ2Y
This ratio corresponds to the sum of the diagonal values in the covariance matrix. It thus
follows that we can express the proportion of joint, or communal, variation as what is left
over-in other words, the complement of this value as shown:
1- (Σσ21/ σ2y )
Reliability of measurement : Alpha and the covariance
Matrix
This value corresponds to the sum of all the off-diagonal values of the
covariance matrix.
The formula involving subtraction from 1 is a legacy of the days when
computers were not available to do calculations,
Computing the total variance for Y and the variance for each
individual item (i) were probably operations that had already been done
for other purposes.
Reliability of measurement : Alpha and the covariance
Matrix
Even if there were no need to calculate these variances for other purposes,
consider the computational effort involved.
A formula that quantifies communal variance as what remains after
removing noncommunal from total variance makes more practical sense
than it might first appear to.
The value represented by the formula Σσ21/ σ2y ) or, equivalently, Σσ2ij/ σ2y
First would seem to capture the definition of alpha ( i.e. the communal
portion of total variance in a scale that can be attributed to the items ‘s
common source, of the latent variable ) we still need one more correction
Reliability of measurement : Alpha and the covariance
Matrix
The correlation matrix in this instance would consist of a 5 x 5 with all values equal
to 1.0.
The denominator of the preceding equation, representing the total variance of the
scale comprising the five items, would thus equal 25.
The numerator, however, would equal only 20, thus yielding a reliability of 20/25
(or .80) rather than 1.0. Why is this so?
The total number of elements in the covariance matrix is k2.
The number of elements in the matrix that are noncommunal
The number that are communal (all those not on the diagonal) is k2 - k.
The fraction in our last formula has a numerator based on k - k values and a
denominator based on k values.
Reliability of measurement : Alpha and the covariance
Matrix
To adjust our calculations so that the ratio expresses the relative magnitudes
rather than the numbers of terms that are summed in the numerator and
denominator,
We multiply the entire expression representing the proportion of communal
variation by values to counteract the differences in numbers of terms
summed.
To do this, we multiply by k2/ (k2 - k), or, equivalently, k / (k - 1).
This limits the range of possible values for alpha to between 0.0 and 1.0.
It should soon become apparent that k / (k - 1) is always the multiplier that will
yield an alpha of 1.0 when the items are all perfectly correlated.
α = k/k-1/(1- (Σσ21/ σ2y )
Reliability of measurement : Alpha and the covariance
Matrix
To summarize
A measure's reliability equals the proportion of total variance among its items that is due
to the latent variable.
The formula for alpha expresses this by specifying the portion of total variance for the
item set that is unique,
Subtracting this from 1 to determine the proportion that is communal, and multiplying
by a correction factor to adjust for the number of elements contributing to the earlier
computations.
Alternate-forms Reliability
If two strictly parallel forms of a scale exist, then the correlation between
them can be computed as long as the same people complete both
parallel forms.
Assume that a researcher first developed two equivalent sets of items
measuring patients' desire for control when interacting with physicians,
Administered both sets of items to a group of patients,
Correlated the scores from one set of items with the scores from the
other set.
This correlation would be the alternate-forms reliability.
Alternate-forms Reliability
Recall that parallel forms are made up of items, all of which (either within
or between forms) do an equally good job of measuring the latent variable.
Both forms of the scale have identical alphas, means, and variances
and measure the same phenomenon.
Parallel forms consist of one set of items that have more or less
arbitrarily been divided into two subsets that make up the two parallel,
alternate forms of the scale.
Under these conditions, the correlation between one form and the other is
equivalent to correlating either form with itself, as each alternate form is
equivalent to the other.
Split-Half Reliability
We usually do not have two versions of a scale that conform strictly to
the assumptions of parallel tests.
Alternate forms are essentially of a single pool of items
Take the set of items that make up a single scale (i.e., a scale that doe
have any alternate form),
Divide that set of items into two subset.
Correlate the subsets to assess reliability.
Split-Half Reliability
Voici un exemple fictif (pour simplifier les calculs) de résultats obtenus à une
échelle d’anxiété.
Les scores à chaque item de l’échelle pouvant varier de 1 à 3, il est
impossible de calculer l’indice de fidélité par la formule du kr-20.
Nous devons donc calculer l’alpha de Cronbach.
Reliability of measurement : pratical example
Sujets Item1 Item2 Item3
1 2 3 2
2 1 1 2
3 2 2 2
4 3 3 3
5 1 1 1
Reliability of measurement : pratical example
Sujets Item1 Item2 Item3 Total X X2
1 2 3 2 7 49
2 1 1 2 4 16
3 2 2 2 6 36
4 3 3 3 9 81
5 1 1 1 3 9
Somme 29 191
Somme des I 9 10 10
Somme des I2 19 24 22
SI2 .59 .80 .40
Reliability of measurement : pratical example
Calculez la variance des scores totaux et les variance de chaque item en utilisant
la formule suivante :
S2X = ( ∑x2- (∑x)2/N)/N
Pour la variance des scores au test :
S2X = (191-(29)2/5)/5
S2X = ( 191-168,2)/5
S2X= 4,56
Reliability of measurement : pratical example
Calculer la variance de chacun des item en utilisant la même formule. Voici le calcul pour la
variance de l’item 1
Variance de l’item1
S2X = (19-(9)2/5)/5
S2X = .56
Variance de l’item 2
S2X = (24-(10)2/5)/5
S2X = .80
Variance de l’item 3
S2X = (22-(10)2/5)/5
S2X = . 40
Reliability of measurement : pratical example
En additionnant les variances des 3 items on obtient :
∑i=1j S2i = . 56+.80+.40= 1.76
Utilisons la formule du alpha en y subsituant les valeurs déjà calculées (j étant
le nombre d’items):
α = (j/j-1) (S2X - ∑i=1j S2i )/ S2X
α = (3/3-1) (4,56 – 1.76)/ 4.56
α = (3)/3-1 (.614)
α = ,921
Reliability of measurement : pratical example
Item Statistics
Mean Std. Deviation N
ITEM1 1,80 ,837 5
ITEM2 2,00 1,000 5
ITEM3 2,00 ,707 5
Reliability of measurement : pratical example
Item-Total Statistics
This means that most people who score high on the old measure should also
score high on the new one, and vice versa.
The two measures may not be perfectly associated, but if they measure the
same or a similar construct, it is logical for them to yield similar results.
Construct Validity
Estimating a structural model that connects employee job satisfaction with its antecedents and
consequences (Walsh and Beatty, 2007).
Internal marketing and perceived organisational performance as the main employee job
satisfaction antecedent and consequence in reference to both a service-profit chain model
(Heskett et al., 2008) and equity theory (Schneider et al., 1985).
There is a positive relationship between internal service quality, EJS, firm profitability and
revenue growth (Gelade and Young, 2005).
Validity: nomoligical validity
Illustrations pratiques
The term structural equation modeling conveys two important aspects of the
procedure:
1.The causal processes under study are represented by a series of structural (i.e.,
regression) equations
2.The structural relations can be modeled pictorially to enable a clearer
conceptualization of the theory under study.
The hypothesized model can then be tested statistically in a simultaneous analysis of
the entire system of your variables to determine the extent-to which it is consistent with
the data.
If goodness-of-fit is adequate, the model argues for the plausibility of postulated
relations among variables; if it is inadequate, the tenability of such relations is
rejected.
Introduction
Several aspects of SEM set it apart from the older generation of multivariate procedures (see
Fornell, 1982):
1.It takes a confirmatory, rather than an exploratory, approach to the data analysis (although
aspects of the latter can be addressed).
By demanding that the pattern of intervariable relations be specified a priori, SEM lends
itself well to the analysis of data for inferential purposes.
By contrast, most other multivariate procedures are essentially descriptive by nature (e.g.,
exploratory factor analysis), so that hypothesis testing is difficult, if not impossible.
Whereas traditional multivariate procedures are incapable of either assessing or correcting for
measurement error, SEM provides explicit estimates of these parameters.
Whereas data analyses using the former methods are based on observed measurements only,
those using SEM procedures can incorporate both unobserved (i.e. latent) and observed
variables.
Introduction
Latent variables are not observed directly, it follows that they cannot be measured
directly.
The researcher must operationally define the latent variable of interest in terms of
behavior it.
The unobserved variable is linked to one that is observable, thereby making its
measurement possible.
Assessment of the behavior constitutes the direct measurement of an observed variable,
The indirect measurement of an unobserved variable (i.e., the underlying construct).
The term behavior is used here in the very broadest sense to include scores on a
particular measuring instrument.
Introduction
EFA is designed for the situation where links between the observed and latent
variables are unknown
The analysis thus proceeds in an exploratory mode to determine how, and
to what extent the observed variables a linked to their underlying factors.
The researcher wishes to identify the minimal number of factors that underlie
(or account for) covariation among the observed variables.
This factor analytic approach is considered to be exploratory in the sense that
the researcher has no prior knowledge that the items do, indeed, measure
the intended factors.
Introduction
CFA is appropriately used when the researcher has some knowledge of the
underlying latent variable structure.
Based on knowledge of the theory, empirical research, or both, he or she
postulates relations between the observed measures and the underlying
factors a priori, and then the other sized structure statistically.
Accordingly, a priori specification of the CF A model would allow all sport
competence self-concept items to be free to load on that factor, but restricted
to have zero loadings on the remaining factors.
The model would then be evaluated by statistical means to determine the
adequacy of its goodness of fit to the sample data.
Introduction
The factor analytic model (EFA or CF A) focuses solely on how, and the
extent which the observed variables are linked to their underling latent-factors.
It is concerned with the extent to which the observed variables are generated
by the underlying latent constructs and thus strength of the regression paths
from the factors to the observed variables (the factor loadings) are of
primary interest.
The CFA model focuses solely on the link between factors and their
measured variables, within the framework of SEM, it represents what has
been termed a measurement model.
Introduction : the full latent Variable Model
The full latent variable (LV) model allows for the specification of the regression structure
among the latent variables.
The researcher can hypothesize the impact of one latent construct on another in the modeling
of causal direction.
This model is termed full (0 complete) because it comprises both a measurement model and
a structure model;
The measurement model
Depicting the links between the latent variables and their observed measures (i.e., the CF A
model)
The structural model
Depicting the links among the latent variables themselves.
Introduction: the full latent Variable Model
MG situation to be the most common of the three scenarios, and for good
reason.
Given the many costs associated with the collection of data, it would be a
rare researcher indeed who could afford to terminate his or her research on
the basis of a rejected hypothesized model
The SC scenario is not commonly found in practice.
Concepts fondamentaux
Les chargés d'études marketing doivent souvent répondre à des questions liées les unes
aux autres.
Une entreprise spécialisée dans les services peut par exemple être confrontée aux
questions suivantes :
Quelles sont les variables permettant de déterminer la qualité de service ?
En quoi la qualité de service exerce-t-elle une influence sur l'attitude et la satisfaction à
l'égard du service ?
Concepts fondamentaux
La SEM permet d'établir la part jouée par chacune des dimensions retenues
dans la représentation de la qualité de service.
On évalue à quel point l'ensemble des variables observées pour mesurer ces
critères est représentatif de la qualité de service.
La SEM établit la fiabilité du construit, et cette information aide ensuite à
estimer les relations entre la qualité de service et les autres construits.
La qualité de service exerce une influence directe et positive à la fois sur
l'attitude et la satisfaction à l'égard des services.
Concepts fondamentaux
La SEM s'intéresse à la structure des relations de corrélation qui apparaissent dans les
séries d'équations structurelles.
Ce concept est comparable à l'estimation de séries d'équations de régression multiple.
Ces équations modélisent l'ensemble des relations qui existent entre construits, qu'ils
soient dépendants ou indépendants.
Les construits ne sont pas observables soit il s'agit de facteurs latents représentés par
des variables multiples.
Cette méthode se rapproche de l'analyse factorielle où les facteurs sont représentés
par des variables à la différence que la SEM tient explicitement compte de l'erreur de
mesure.
Cette erreur indique le degré d'incapacité des variables observées à décrire la
pertinence des construits latents.
Concepts fondamentaux
Représentation des construits en tant que facteurs inobservables ou latents dans des relations de
dépendance.
Estimation des relations de corrélation multiple dans un modèle intégré.
Incorporation des erreurs de mesure.
La SEM rend compte explicitement du manque de fiabilité des variables observées et propose
une analyse des atténuations et des estimations envisageables à partir des erreurs de mesure.
Explication des covariances présentes parmi les variables observées.
La SEM s'efforce de présenter des hypothèses à partir des moyennes, de la variance et des
covariances relevées sur les données observées ramenées à un nombre restreint de paramètres
structurels définis par un modèle hypothétique sous-jacent.
Concepts fondamentaux
La SEM est également appelée analyse des structures de covariance, analyse
des variables latentes ou modélisation causale.
Ne permet pas à elle seule d'établir des relations de causalité même si elle
facilite ce processus.. Cette technique est le plus souvent utilisée dans une
optique de confirmation plutôt que d'exploration.
Elle sert en général à déterminer la validité d'un modèle donné plutôt qu'à «
trouver » un modèle adapté. Ceci étant, les analyses SEM comprennent
fréquemment un volet exploratoire.
Notions statistiques associées à la SEM
Construit
Un construit est un concept latent ou inobservable pouvant être conception.
Impossible à mesurer directement ou sans faire d'erreur.
Également appelé facteur, le construit se mesure à l'aide d'indicateurs multiples ou de variables
observées.
Erreur de mesure
Niveau d'incapacité des variables observées à décrire les construits latents pertinents pour la SEM.
Indices absolus.
Ces indices évaluent la qualité ou la médiocrité de l'ajustement ces mesures et des modèles structurels.
Un bon ajustement se caractérise par des valeurs d'ajustement élevées et des valeurs de non-ajustement
faibles.
Notions statistiques associées à la SEM
Variable exogène.
Équivalent d'une variable indépendante latente comptant plusieurs éléments
dans une analyse multi variée traditionnelle.
Une variable exogène est déterminée par des facteurs extérieurs au modèle et
n'a aucun rapport avec les autres variables ou construits de ce dernier.
Modèle factoriel de premier ordre.
Les covariances entre les variables observées s'expliquent par la présence d'un
facteur latent unique ou de plusieurs construits.
.
Notions statistiques associées à la SEM
Indices incrémentaux.
Ces mesures permettent d'évaluer si un modèle spécifique proposé par un
chercheur correspond bien à un autre modèle de base.
Ce dernier est un modèle nul dans lequel les variables observées n'ont aucun
rapport les unes avec les autres.
Modèle de mesure.
Premier des deux modèles évalué par la SEM.
Il reflète la théorie qui caractérise les variables observées pour chaque
construit tout en permettant d'évaluer leur fiabilité
Notions statistiques associées à la SEM
Indice de modification.
Indice calculé pour chaque relation possible n'étant pas estimée librement
mais fixée.
L'indice montre les améliorations qui apparaîtraient dans le X2 du modèle
global s'il était estimé librement.
Modèle imbriqué.
Un modèle est imbriqué dans un autre modèle s'il a le même nombre de
construits et de variables et s'il peut être dérivé à partir d'un autre modèle en
modifiant les relations (par exemple en ajoutant ou supprimant celles-ci).
Notions statistiques associées à la SEM
Ratio de parcimonie.
S'obtient en divisant les degrés de liberté du modèle par la totalité des degrés de
liberté disponibles.
Analyse des pistes causales.
Cas particulier de SEM ne contenant que des indicateurs simples pour
chacune des variables du modèle causal.
L'analyse des pistes causales est une SEM dotée d'un modèle structurel mais
dépourvue de modèle de mesure.
.
Notions statistiques associées à la SEM
Matrice de covariance.
Symbolisée par S.
Variances et covariances des variables observées.
Modèle factoriel de second ordre.
Compte deux niveaux.
Un construit latent de second ordre cause de nombreux construits latents de
premier ordre qui causent à leur tour les variables observées.
Les construits de premier ordre servent donc ensuite d'indicateurs ou de
variables observées pour le facteur de second ordre.
Notions statistiques associées à la SEM
On relie donc par des flèches droites le construit et les variables observées qui
lui servent d'indicateur
Un indicateur unique ne permet pas de représenter un construit dans sa
totalité, mais peut toutefois servir d’indication.
Les modèles d'équations structurelles privilégient l'utilisation des modèles de
mesure de type réflectif, c'est-à-dire dont les indicateurs sont spécifiés comme
le reflet du construit (graphiquement, la flèche part du rond vers le carré).
Principes fondamentaux de la SEM : théorie, modèle et
diagramme des relations causales
Le modèle de mesure s'appuie sur la technique de l'analyse factorielle confirmatoire
(CFA)
Le but est de s'assurer que le nombre de facteurs (ou construits) et l'influence des
variables (indicateurs) observées sont conformes aux attentes théoriques.
La CFA sert à vérifier la structure factorielle d'un ensemble de variables observées.
Le chercheur peut tester l'hypothèse d'une relation entre les variables observées et
leurs construits latents sous-jacents.
Le chercheur va d'abord faire appel à ses connaissances sur la théorie, à la recherche
empirique ou bien aux deux.
Il pose ensuite le type de relation a priori avant de tester cette hypothèse à l'aide
d'outils statistiques
Principes fondamentaux de la SEM : théorie, modèle et
diagramme des relations causales
Le modèle structurel indique quant à lui la manière dont les construits sont
reliés les uns aux autres ;
C'est le plus souvent par des relations de dépendance multiples.
Grâce à ce modèle, il est possible d'attester ou de réfuter l'existence d'une
relation.
Si la théorie pose l'hypothèse d'une relation, on dessine une flèche.
.
Principes fondamentaux de la SEM : théorie, modèle et
diagramme des relations causales
Ce modèle se présente sous la forme graphique (voir chap3) d'un diagramme
des coefficients de direction.
Les normes utilisées pour dessiner le diagramme d'un modèle de mesure sont
les suivantes
Les construits sont représentés par des ovales ou des cercles et les variables
mesurées par des carrés.
Des flèches rectilignes relient les construits aux variables mesurées [voir
figure 20.1 (a)].
Les relations de dépendance sont représentées par des flèches rectilignes [voir
figure 20.1 (a)] et les relations de corrélation par des flèches incurvées [voir
figure 20.1(b)].
Principes fondamentaux de la SEM : théorie, modèle et
diagramme des relations causales
Principes fondamentaux de la SEM : Construits
exogènes et construits endogènes
Un construit est une variable inobservable ou latent que l'on peut définir en
termes conceptuels mais qu'il est impossible de mesurer directement, par
exemple en se fondant sur les résultats d'un questionnaire.
On ne peut mesurer un construit sans faire d'erreur.
Un construit se mesure de manière approximative et indirecte en étudiant sa
persistance au sein de plusieurs variables observées ou mesurées.
Un construit exogène est l'équivalent d'une variable indépendante latente
comptant plusieurs éléments dans une analyse multivariée traditionnelle.
Principes fondamentaux de la SEM : Construits
exogènes et construits endogènes
Le diagramme des relations causales présente en général les relations de dépendance et
de corrélation entre construits endogènes et exogènes, conformément à la théorie.
La SEM permet de tester les autres relations multiples représentées par les équations
multiples.
L'ajustement ou la justesse de prédiction doivent par conséquent être déterminés pour
l'ensemble du modèle et non pas pour une seule relation.
Il existe plusieurs techniques multivariées permettant de décomposer la variance
L'analyse de la variance et de la covariance,
La régression multiple, etc.
Principes fondamentaux de la SEM: Relations de
dépendance et de corrélation
Il est possible de s'appuyer sur les modèles de mesure et les modèles structurels
proposés pour estimer la matrice de covariance entre les variables observées, Y.k.
Le coefficient de détermination est ensuite établi en comparant les similarités entre la
matrice de covariance estimée Hk et la matrice de covariance observée S (échantillon).
On utilise la formule S - Σk pour calculer les tests d'ajustement.
Le résidu est la différence entre la valeur observée et la valeur estimée d'une
covariance.
FML =
Principes fondamentaux de la SEM: identification des
modèles
L’identification du modèle
Permet de savoir si la matrice de covariance contient suffisamment
d'informations pour permettre d'estimer un ensemble d'équations structurelles.
Estimer un paramètre qui servira de modèle pour chaque variance ou covariance
parmi les variables observées.
Si l'on a p variables observées, il est possible d'estimer jusqu’à : (p(p + l))/2
paramètres.
Ce chiffre représente la somme de toutes les covariances uniques (p{p - l))/2 et
de toutes les variances,
p: (p(p+l))/2 = (p(p-l))/2+p
Principes fondamentaux de la SEM: identification des
modèles
Le processus de modélisation par équations structurelles est illustré à la figure 20.2.
Les étapes qui composent ce processus sont les suivantes :
Définir les construits individuels,
Spécifier le modèle de mesure,
Evaluer la fiabilité et la validité du modèle et mesure,
Spécifier le modèle structurel si le modèle de mesure est valide,
Evaluer la validité du modèle structurel
Tirer les conclusions et faire les recommandations appropriées si le modèle structurel
Différentes étapes de la SEM
Différentes étapes de la SEM: définir les construits individuels
Il est primordial que l'analyse de la SEM soit basée sur une théorie.
Préciser les construits spécifiques, la manière dont chaque construit va être défini et
mesuré ainsi que les relations entre les construits en s'appuyant sur une théorie.
On s'intéresse en général à la modélisation par équation structurelles quand on
souhaite tester à la fois la théorie de mesure et la théorie structurelle.
La théorie de mesure spécifie la manière dont les construits sont représentés.
Différentes étapes de la SEM: définir les construits
individuels
La théorie structurelle pose la manière dont les construits sont reliés entre eux.
Les relations structurelles présupposées par la théorie sont converties en
hypothèses
Le test auquel on soumet ces hypothèses ne sera valide que si le modèle de
mesure sous-jacent spécifiant la représentation de ces construits est lui-même
valide.
Apporter le plus grand soin aux opérations de mise en œuvre, de mesure et de
mise à l'échelle des variables pertinentes identifiées et définies par la théorie.
Différentes étapes de la SEM: spécifier le modèle de
mesure
Seules les valeurs reliant chaque variable mesurée avec son construit latent à
l'aide d'une flèche sont estimées, les autres sont nulles.
Un facteur est insuffisant pour expliquer parfaitement une variable mesurée,
ce qui justifie l'ajout d'un terme d'erreur.
On ne distingue pas les construits exogènes et endogènes : ils sont tous traités
comme s'ils étaient du même type, comme dans les analyses factorielles.
Les construits sont fréquemment représentés par des caractères grecs et les
mesures variables par des lettres de l'alphabet.
Différentes étapes de la SEM : Spécifier le modèle de
mesure
Le chargé d'études devra d'ailleurs préciser l'estimation faite pour chaque
paramètre potentiel du modèle.
Les premiers paramètres libres sont estimés au cours de l'analyse.
Les paramètres fixes ne sont pas estimés par la SEM puisque leur valeur est
définie par le chargé d'études.
Ce sera le plus souvent zéro pour indiquer qu'aucune estimation n'est proposée
pour cette relatif» spécifique.
Il est nécessaire de calibrer l'échelle pour spécifier les variables observées ou
les indicateurs de chaque construit latent.
Attribuer une valeur fixe à l'un des facteurs (on choisit en général la valeur 1).
Différentes étapes de la SEM: Détermination de la taille
de l'échantillon
La taille de l'échantillon requis pour une SEM dépend de plusieurs points :
La complexité du modèle,
La technique d'estimation,
Le volume de données manquantes,
La variance d'erreur de la moyenne des indicateurs ou des variables mesurées et
la distribution multivariée des données.
Différentes étapes de la SEM: Détermination de la taille
de l'échantillon
La complexité,
Les modèles qui comptent plus de construits ou plus de variables mesurées
ont besoin d'échantillons plus importants.
C’est aussi le cas s'il existe moins de trois variables mesurées pour chaque
construit.
On utilise la méthode de l’estimation du maximum de ressemblance (ou MLL
Maximum Likelihood Estimation).
L’échantillon compte en général entre 200 et 400 sujets
Différentes étapes de la SEM: Détermination de la taille
de l'échantillon
Indices absolus
Chaque modèle est évalué indépendamment des autres.
Ces indices mesurent directement la rigueur avec laquelle le modèle spécifié reproduit les
données observées ou leur échantillon.
Les indices absolus peuvent mesurer la qualité ou la médiocrité de l'ajustement.
Les indices de la qualité d'ajustement (Goodness-of-Fit)
Indiquent si le modèle spécifié correspond bien aux données observées ou aux échantillons ;
Des valeurs élevées sont souhaitables.
Les mesures les plus courantes sont l'indice GFI (Goodness-of-Fit Index) et l'indice AGFI
(Adjusted Goodness-of-Fit Index).
Différentes étapes de la SEM :Évaluer la qualité de
l'ajustement du modèle
Différentes étapes de la SEM : Évaluer la qualité de
l'ajustement du modèle
Khi-deux (x2).
Tester sur un plan statistique, la différence entre les matrices de covariance comme dans : x2 = (n
- 1) [matrice de covariance de l'échantillon observé - matrice de covariance estimée]
n = taille de l'échantillon ou : x 2 = (n - 1) (S – Σk).
Calculer la probabilité pour que la variance observée soit en fait égale à la covariance estimée.
Plus cette probabilité est faible (p < 0,05), plus les probabilités sont nombreuses pour que les
deux matrices de covariance ne soient pas égales
Le degré de liberté (ddl) se définit à l'aide de la formule suivante :
ddl= 1/2 [(p)(p+l)] –k
P est le nombre total de variables observées et k le nombre de paramètres estimés.
Différentes étapes de la SEM :Évaluer la qualité de
l'ajustement du modèle
Mesure du khi-deux
Présente certaines limitations dans le sens où elle augmente proportionnelle
ment à la taille de l'échantillon et au nombre de variables observées,
Indispensable de connaître d'autres indices d'ajustement
Différentes étapes de la SEM :Évaluer la qualité de
l'ajustement du modèle
Goodness-of-Fit.
Le GFI est un indice absolu tandis que l'AGFI rend compte des degrés de
liberté présents dans le modèle.
Si Fk est l'ajustement minimal du modèle estimé et F0 l'ajustement du modèle
de base sans aucun paramètre libre, alors GFI = 1 - Fk /F0.
Avec un meilleur ajustement, le rapport Fk/F0 diminue et le GFI augmente.
Différentes étapes de la SEM :Évaluer la qualité de
l'ajustement du modèle
AGFI
S'ajuste aux degrés de liberté et sert à établir des comparaisons entre des
modèles présentant des difficultés variées.
AGFJ = [1 - {p (p + 1)/2ddl) (1 - GFI)],
p symbolise le total des variables observées et ddl les degrés de liberté du
modèle.
Des valeurs plus élevées, de l'ordre de 0,90 sont acceptables.
La taille des échantillons a un impact sur le GFI et l'AGFI dont les valeurs
peuvent être importantes dans le cas de modèles à faibles spécifications.
Leur usage est donc limité en tant qu'indices d'ajustement.
Différentes étapes de la SEM :Évaluer la qualité de
l'ajustement du modèle
Le RMSR
Racine carrée de la moyenne du carré des résidus.
Covariance résiduelle moyenne qui est une fonction des unités utilisées pour
mesurer les variables observées.
SRMR,
Valeur standardisée de la racine carrée de la moyenne du carré des résidus,
Comparer l'ajustement de différents modèles.
Des valeurs SRMR et RMSR, faibles indiquent un bon ajustement.
Des valeurs égales ou inférieures à 0,08 sont donc souhaitables.
Différentes étapes de la SEM :Évaluer la qualité de
l'ajustement du modèle
Différentes étapes de la SEM :Évaluer la qualité de
l'ajustement du modèle
Le modèle spécifié est comparé au modèle nul dans lequel on suppose que les
variables ne sont pas corrélées
Le NFI est le ratio de la différence entre le x 2 du modèle proposé (X2prop) et
modèle nul (x2 nul) divisée par le x2 du modèle nul (x2nu¡)
NFI = (x2 nul- X2prop)/ x2 nul
Comme la valeur du x2 du modèle proposé est proche de zéro, le NFI tend à se
rapprocher de 1, c'est-à-dire d'un ajustement parfait.
Plus les paramètres dans le modèle sont nombreux et plus le NFI est élevé
Différentes étapes de la SEM :Évaluer la qualité de
l'ajustement du modèle
Le CFI est lié au NFI et aux facteurs des degrés de liberté des modèles complexes.
CFI = 1 - {X2prop - ddlprop)/ {x2nu¡ - ddlnul),
X2prop et ddlprop sont les valeurs du khi-deux et du degré de liberté du modèle théorique
de base proposé et x2 nul et ddlnull les valeurs du khi-deux et du degré de liberté du
modèle nul.
Le CFI varie de 0 à 1, et les valeurs égales ou supérieures à 0,90 sont en général associés
à un bon ajustement.
L'indice TLI ( Tucker Lewis Index) est identique au CFI d'un point de vue conceptuel,
mais il n'est pas normalisé
Ses valeurs sont donc susceptibles de se situer hors de la fourchette allant de 0 à 1.
Les modèles dont l'ajustement est bon se caractérisent par la valeur TLI proche de 1.
Différentes étapes de la SEM :Évaluer la qualité de
l'ajustement du modèle
CFI et le RMSEA sont les plus populaires et les moins influencées par la taille
de l'échantillon.
Souhaitable de s'appuyer sur plusieurs indices de différents types (au moins
trois).
Rapporter la valeur du x2 aux degrés de liberté associés constitue toujours une
bonne pratique.
S'appuyer sur au moins un indice d'ajustement absolu (Goodness-of-Fit : un
indice d'ajustement absolu de médiocrité (Badness-of-Fit)
Indice d'ajusternent incrémental.
Différentes étapes de la SEM: Évaluer la fiabilité et la
validité du modèle de mesure
On a vu qu'un construit non fiable ne saurait être valide.
Il convient donc d'évaluer en premier lieu la fiabilité des construits du modèle
de mesure.
Recourir au coefficient alpha.
La fiabilité des construits (ou CR, Composite Reliability)
Différentes étapes de la SEM: Évaluer la fiabilité et la
validité du modèle de mesure
CR - fiabilité des construits ;
λ = valeur factorielle complètement standardisée ;
δ = variance d'erreurs ;
p = nombre d'indicateurs ou de variables observées.
La fiabilité des construits rejoint donc la notion conventionnelle de fiabilité des
théories statistiques classiques.
On considère comme bonne une fiabilité des construits supérieure ou égale à
0,7.
Situé entre 0,6 et 0,7, elle peut être jugée acceptable à condition que les
estimations relatives à la validité du modèle soient bonnes.
Différentes étapes de la SEM: Évaluer la fiabilité et la
validité du modèle de mesure (validité convergente)
Le volume des valeurs factorielles constitue une preuve de validité convergente.
Des valeurs factorielles élevées indiquent que les variables observées
convergent vers un même construit.
Toutes les valeurs factorielles devraient au moins être significatives sur le plan
statistique et donc idéalement supérieures à 0,5, voire à 0,7.
Des valeurs supérieures à 0,7 indiquent que le Construit est responsable d'au
moins 50 % des variations de variables observées étant donné que (0,71) 2 = 0,5).
On place parfois le seuil à 0,6.
Différentes étapes de la SEM: Évaluer la fiabilité et la
validité du modèle de mesure
Les résidus sont la différence entre la covariance observée (par exemple les
échantillons de données) et la covariance estimée.
Un résidu standardisé est un résidu divisé par son erreur standard.
Valeurs absolues des résidus standardisés.
Cela pose problème lorsqu'elles dépassent 4,0.
Celles comprises entre 2,5 et 4,0 sont à surveiller attentivement.
Différentes étapes de la SEM: Manque de validité et
diagnostiquer les problèmes
Le genre d'ajustements (pistes estimées, des résidus standardisés, etc) vont à l'encontre de la
nature intrinsèque de l'analyse factorielle confirmatoire
Ce type d'ajustement se rapproche en fait davantage de celui l'analyse factorielle exploratoire (EFA).
Dans le cadre de modifications mineures (supprimer par exemple moins de 10 % des variables
observées)
Continuer à utiliser le modèle et les données fournies après avoir procédé aux changements
proposés.
En cas de modifications importantes
Modifier la théorie de mesure, spécifier un nouveau modèle de mesure et collecter de nouvelle-
données pour tester le nouveau modèle.
Différentes étapes de la SEM: Spécifier le modèle
structurel
Une fois que le modèle de mesure a été validé, on peut passer à la spécification
du modèle structurel.
L'accent qui était mis sur des relations entre construits latents et variables
observées se déplace vers la nature et la magnitude des relations entre
construits.
Le modèle de mesure est donc modifié en fonction des relations entre
construits latents.
Ce changement va également provoquer une modification de la matrice de
covariance estimée basée sur l'ensemble des relations estimées.
Différentes étapes de la SEM: Spécifier le modèle
structurel
La matrice de covariance observée, basée sur des échantillons ces données, va
quant à elle, rester identique
Ce sont les mêmes données qui seront utilisées pour estimer le modèle
structurel.
Les statistiques relatives à l'ajustement vont, elles aussi être modifiées, ce qui
indique une différence entre l'ajustement du modèle structurel et l'ajustement
du modèle de mesure.
Différentes étapes de la SEM: Spécifier le modèle
structurel
Différentes étapes de la SEM: Spécifier le modèle
structurel
Les construits Cl et C2 entretiennent maintenant une relation de dépendance :
C2 dépend de Cl.
La flèche double incurvée de la figure 20.3 a été remplacée par une flèche rectiligne
simple qui représente la piste entre Cl et C2.
La notation et les symboles ont eux aussi été modifiés.
Le construit C2 est maintenant représenté par ƞ 1.
Ce changement aide à distinguer un construit endogène (C2) d'un construit exogène (Cl).
Seules les variables observées du construit exogène Cl sont représentées par X [X1 àX3).
Les variables observées pour le construit endogène (C2) sont quant à elles représentées par Y
( Y1 à Y3).
Les termes de la variance d'erreur pour les variables Y sont symbolisés par £ plutôt que par S.
Évaluer la validité du modèle structurel : évaluer
l’ajustement
L’ajustement d'un modèle structurel s'observe à l'aide des mêmes critères que
ceux vus précédemment pour le modèle de mesure.
Le nombre de relations du modèle structurel peut être tout au plus que celui
du modèle de mesure.
Le modèle structurel contient moins de paramètres estimés.
Sa valeur x2 ne peut donc être inférieure à celle du modèle de mesure
correspondant.
Un modèle structurel ne peut pas avoir un meilleur ajustement.
Évaluer la validité du modèle structurel : évaluer
l’ajustement
Montrer que cet ajustement est meilleur que celui des modèles concurrents qui pourraient servir
d'alternative.
Un bon ajustement ne suffit pas pour prouver que la théorie ou le modèle structurel proposés
sont ceux qui correspondent le mieux aux échantillons de données (matrice de covariance).
Un autre modèle pourrait tout à fait offrir un ajustement équivalent, vont même meilleur.
La qualité de l’ajustement ne garantit pas que le modèle structurel proposé soit la seule version
valable.
Défendre le modèle trouvé en le comparant avec des modèles concurrents.
La comparaison entre le modèle proposé (Ml) et le modèle concurrent (M2) peut porter sur les
différences entre les indices d'ajustement incrémentaux ou les indices de mesure de parcimonie
Évaluer la validité du modèle structurel: comparer des
modèles concurrents
Les outils de diagnostic du modèle structurel sont les mêmes que ceux du
modèle de mesure. On procède donc au même examen.
Une analyse complémentaire peut être réalisée à l’aide des outils de
diagnostic.
Spécifier une ou plusieurs pistes supplémentaires qui ne faisaient pas partie
des hypothèses de la théorie de départ.
Toute relation provenant d’une modification n’est pas soutenue par la théorie et
ne devrait pas être traitée de la même manière que les relations originales basées
sur la théorie structurelle.
Évaluer la validité du modèle structurel: tirer des
conclusions et faire des recommandations
Ces conclusions sont le fruit des tests d’hypothèse effectués dans le modèle
structurel.
Déduire que les relations qui se caractérisent par des paramètres structurels
estimés importants et pertinents sont confirmées.
Les implications théoriques, managériales et/ou publiques de ces relations
peuvent bien sûr donner lieu à discussion.
Il est possible de faire des recommandations appropriées à la direction en
s'appuyant sur les effets possibles au niveau du management.
Évaluer la validité du modèle structurel: analyse
factorielle confirmatoire d'ordre supérieur
Une échelle IUIPC destinée à mesurer les inquiétudes des utilisateurs quant à la confidentialité
de leurs informations personnelles sur Internet.
L'échelle IUIPC compte trois dimensions
1.Collecte d'information (COL),
2.Contrôle de l'information (CON)
3.Prise de connaissance (CONN)
Les construits mesurées respectivement par quatre, trois et trois variables observées
Évaluer la validité du modèle structurel: analyse
factorielle confirmatoire d'ordre supérieur
Les covariances entre les trois construits latents COL. CON et CONN sont
estimées librement dans le modèle de premier ordre
Le modèle de second ordre illustre quant à lui ces covariances en spécifiant un
autre construit d'ordre supérieur (IUIPC) qui génère des construits de premier
ordre (COL, CON et CONN).
Évaluer la validité du modèle structurel: Analyse factorielle
confirmatoire d'ordre supérieur
Évaluer la validité du modèle structurel: analyse factorielle confirmatoire
d'ordre supérieur