Vous êtes sur la page 1sur 19

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/260986872

Le processus de validation des échelles de mesure : fiabilité et validité

Conference Paper · January 2000

CITATIONS READS
0 8,426

1 author:

Mourad Touzani
NEOMA Business School
72 PUBLICATIONS   262 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Trust development and collapse processes in BtoB, BtoC, GtoC and CtoG relationships View project

All content following this page was uploaded by Mourad Touzani on 23 March 2014.

The user has requested enhancement of the downloaded file.


Le processus de validation des échelles de mesure : fiabilité etvalidité
Touzani Mourad ; Salaani Tarek
Séminaire de Méthodologie de Recherche du LIGUE, Tunis, Janvier 2000

LE PROCESSUS DE VALIDATION
DES ECHELLES DE MESURE :
FIABILITE ET VALIDITE

Mourad TOUZANI
Enseignant-chercheur à l’Institut Supérieur de Gestion , Tunis.
CEROG, Institut d'Administration des Entreprises, Aix-en-Provence
URM, Institut Supérieur de Gestion, Tunis

Tarek SALAANI
Enseignant-chercheur à l’Institut Supérieur de Gestion , Tunis.

Résumé :
Le recours aux échelles psychométriques est devenu très courant dans les recherches
académiques en sciences de gestion. Pourtant, plusieurs chercheurs ne s’intéressent que
sommairement aux conditions d’une bonne utilisation de ces instruments de mesure. Cette
communication présente les différents outils permettant aux chercheurs de vérifier les propriétés
psychométriques des échelles de mesure.

Mots-clés : échelles psychométriques, fiabilité, validité, mesure, paradigme de Churchill.

THE VALIDATION PROCESS OF PSYCHOMETRIC SCALES:


RELIABILITY AND VALIDITY

Abstract :
Psychometric scales are of common use in academic research in the field of management.
However, many researchers seem to overlook some of the properties of these measurement tools.
This paper presents the different techniques that researchers can use to check the psychometric
properties of item-based scales.

Key words : psychometric scales, reliability, validity, measure, Churchill paradigm.


INTRODUCTION

D’une utilisation très courante dans les recherches en gestion, les échelles psychométriques sont
des instruments de mesure de phénomènes non-observables, reflétant des processus mentaux:
opinions, attitudes et comportements. Elles se composent généralement de plusieurs items
(propositions à évaluer). Elles sont accompagnées d’échelles d’attitude permettant de calculer des
scores pour chaque répondant : échelle de Likert, échelle d’Osgood, échelle à icônes, échelle
sémantique différentielle, etc.

La figure 1 donne un exemple d’échelle psychométrique appelée DSI (Domain Specific


Innovativeness) et qui mesure l’innovativité du consommateur relative à une catégorie de
produits donnée. Extraite d’une recherche transculturelle (Nyeck et al., 1996), cette échelle est
appliquée au cinéma. Plus un individu aura un score élevé, plus il pourra être considéré comme
un innovateur en matière de cinéma.

Figure 1. L’échelle de mesure de l’innovativité spécifique à une catégorie de produits

Pour chacune des propositions suivantes indiquez votre degré d’accord,


en écrivant le bon numéro :

[1] Tout à fait en désaccord ;


[2] En désaccord ;
[3] Plus ou moins d’accord ;
[4] D’accord ;
[5] Tout à fait d’accord.

DSI1 En général, dans mon groupe d’amis, je suis le premier à aller voir un nouveau film ___
lorsqu’il sort en salle.
DSI2 Si j’apprenais la sortie d’un nouveau film au cinéma, je serais assez intéressé d’aller ___
le voir.
DSI3 Par rapport à mes amis, je vais moins souvent au cinéma. ___
DSI4 En général, je suis le dernier dans mon entourage à connaître les nouveaux films à ___
l’affiche.
DSI5 Je n’irais pas voir un nouveau film si je n’en avais pas encore entendu parler. ___
DSI6 J’aime aller voir de nouveaux films avant tout le monde. ___

Source : Nyeck S., Paradis S., Xuereb J.M. et Chebat J.C (1996) : « Standardisation ou adaptation des échelles de mesure à travers
différents contextes nationaux : L’exemple d’une échelle de mesure de l’innovativité », Recherche et Applications en
Marketing, Vol 11, n°3, p. 73.

291
Les échelles psychométriques sont souvent intégrées dans les sondages réalisés à l’occasion des
recherches en gestion, notamment en marketing, où elles font l’objet de recueil recensant toutes
les échelles disponibles (Bruner et Hensel, 1998 ; Bearden et Netemeyer, 1999), en gestion des
ressources humaines, en management et stratégie, dans les recherches relatives aux systèmes
d’information et depuis peu en finance. Elles sont également très utilisées dans d’autres
disciplines : l’ergonomie, la psychologie, la sociologie, la psychosociologie ainsi que les sciences
médicales et de la santé.

Est-il possible d’utiliser une échelle de mesure développée dans un autre pays ou permettant de
mesurer les caractéristiques d’une autre population ? Est-il possible, dans le cadre de recherches
transculturelles, d’administrer une même échelle dans plusieurs pays ? Pour pouvoir être utilisées
à bon escient, les échelles psychométriques doivent préalablement répondre à certains critères :
leur utilisation doit être faite de manière à minimiser les erreurs pour maximiser leur fiabilité et
leur validité.

I – LA PROBLEMATIQUE DE LA VALIDATION DE LA MESURE


La validation des échelles de mesure est une condition nécessaire de la qualité des résultats de la
recherche. Elle se décline en deux principales préoccupations: Mesure-t-on ce que l’on entend
mesurer? La mesure obtenue est-elle de qualité? Ici, il est fait référence à deux notions clés de
la théorie de la mesure psychométrique : la fiabilité et la validité. La fiabilité (ou fidélité) est
vérifiée lorsque, utilisé plusieurs fois dans les mêmes conditions, un instrument donne les mêmes
résultats. La validité est bonne lorsqu’un instrument mesure vraiment le phénomène que l’on
cherche à mesurer. Il est souvent fait référence à la métaphore du chimiste pour expliquer ces
deux concepts. Un chimiste relève la température: si son thermomètre indique toujours 2 degrés
de plus que la normale, il y a un problème de validité. Si notre chimiste est myope et arrive mal à
lire le thermomètre, les valeurs qu’il enregistre sont approximatives : il y a alors un problème de
fiabilité (Nunally, 1978).

La fiabilité et la validité peuvent être affectées par nombreuses sources d’erreurs pouvant être
regroupées en deux grande catégories : les erreurs aléatoires et les erreurs systématique.

Le modèle de la vraie valeur (true score model) constitue un cadre qui se propose de tenir
compte de ces deux principales catégories d’erreurs. Il décompose le résultat d’une mesure en
trois éléments essentiels : la vraie valeur, censée correspondre à la réalité du phénomène étudié,
l’erreur aléatoire et l’erreur systématique.

Mesure = Vraie + Erreur + Erreur


obtenue valeur aléatoire systématique

292
L’erreur aléatoire est due à des problèmes de fiabilité et survient lorsque le phénomène étudié
connaît des aléas comme les facteurs situationnels, l’humeur des répondants ou des variations
dans les conditions de collecte des données. L’erreur systématique se produit lorsque l’outil de
mesure utilisé a un écart systématique avec le phénomène étudié ; elle affecte directement la
validité des mesures. La fiabilité étant une condition nécessaire mais non suffisante à la validité,
la validité dépend à la fois de l’erreur aléatoire et de l’erreur systématique.

De nombreuses variables sont susceptibles de contribuer à l’émergence des erreurs et de faire de


telle sorte que l’on s’éloigne de la vraie valeur. Les principales sources externes ayant une
influence néfaste sur la validité interne ou la validité externe d'une relation causale sont indiquées
dans quadrant suivant:

• L'effet d'histoire : c'est l'ensemble des changements qui se produisent dans l'environnement de la
recherche pendant que celle-ci est menée et qui vont affecter les résultats obtenus.
• L'effet de maturation : il s'agit des changements survenus dans les unités expérimentales elles-
mêmes. Ce sont, par exemple, les changements des attitudes des répondants d'une enquête
provoqués par la fatigue, l'ennui ou le vieillissement. Cet effet est d'autant plus marqué que la
recherche dure dans le temps.
• L'effet d'interaction : cet effet se traduit par une plus grande sensibilité du répondant du fait de la
mesure préalable qui attirerait l'attention et sensibiliserait la personne au problème de la recherche.
Cet effet a donc pour conséquence la modification des comportements initiaux spontanés des sujets
servant de support pour la recherche.
• L'effet de test : la prise de conscience d'être interrogé entraîne chez les répondants des
comportements de rationalisation, de recherche de cohérence ou de conformisme social qu'on
désigne sous l'expression d'effet test. Il y a également effet de test lorsque les répondants ont déjà
répondu aux mêmes questions dans le cadre d’une autre recherche : ceci est principalement dû au
désintérêt qui se manifeste de leur part (Evrard et al., 1997).
• L'effet de variation de l'instrument de mesure : ce sont les erreurs de mesure provoquées par des
modifications des instruments de mesure utilisés, notamment des changements dans les méthodes de
collectes des informations (par exemple, le passage d’une échelle de notation à une échelle de
Likert), des différences de comportements des enquêteurs ou de mauvaises interprétations de la part
du chercheur.
• L'effet de sélection : c'est le problème de savoir si le choix des groupes à étudier est effectué de
façon à permettre de faire des comparaisons. Ce problème se pose surtout lorsque des
comparaisons entre groupes doivent être faites.
• L'effet de mortalité expérimentale: il est provoqué par la disparition d'unités expérimentales au
cours de la recherche, ce qui se traduit par une perte d'information. Cet effet est de plus en plus
important que la recherche au fur et à mesure que la recherche s’étale dans le temps
• L'effet de régression statistique: il est observé lorsqu’il y a des biais qui font que les scores obtenus
prennent des valeurs extrêmes. Ainsi, mesurer la religiosité du consommateur durant la période de
Ramadan risque d’aboutir à des scores extrêmes dus à la période d’administration de l’échelle
psychométrique.
• L'effet d’instrumentation: il peut être dû à la mauvaise qualité de l’échelle psychométrique ou du
questionnaire ou à l’incompétence de l’enquêteur ou du chercheur.
• L'effet de contamination: si les personnes interrogées interagissent, les réponses peuvent être biaisé.
C’est le cas lorsque le répondant a appris le véritable objet de l’étude ou le nom de son
commanditaire.

293
II – LE PARADIGME DE CHURCHILL

Churchill (1079) a proposé une méthodologie de construction et/ou de validation des échelles de
mesure connue sous le nom de Paradigme de Churchill (figure 2). Cette méthodologie dont la
finalité est de systématiser la procédure de développement et d’étude de la fiabilité et de la
validité des outils de mesure préconise de mener une revue de la littérature approfondie sur le
construit étudié, de procéder à des études qualitatives pour en explorer le domaine, puis de
recourir à une batterie de tests statistiques pour établir la fiabilité et la validité de l’échelle
psychométrique construite. Cette démarche s’applique uniquement dans le cas où il s’agit de
développer une échelle multi-items : elle permet de construire des échelles où plusieurs énoncés
mesurent un même construit et dont l’objectif est d’attribuer un score à chaque répondant.

Figure 2. Démarche du paradigme de Churchill

Etapes Coefficients ou techniques recommandées

1. Spécifier le domaine du construit Revue de la littérature

2. Générer un échantillon d’items Revue de la littérature


Expérience – enquête
Exemples types
Incidents critiques
Entretiens de groupes

3. Collecter des données

4. Purifier l’instrument de mesure Coefficients alpha


Analyse factorielle

5. Collecter des données

6. Estimer la fiabilité Coefficients alpha


Fiabilité des deux moitiés

7. Estimer la validité Matrice multitrait-multiméthode


Critère de validité

8. Développer des normes Moyennes et autres statistiques


résumant la distribution des scores

Source : Churchill, G.A., (1979) : "A paradigm for developing better measures of marketing constructs", Journal of Marketing
Research, vol. 16, pp. 64-73.

Le paradigme de Churchill est d’une utilisation très courante dans le domaine marketing (Evrard
et al., 1997) où il a été développé. Il est également utilisé, entièrement ou partiellement, dans les
autres branches de la gestion notamment en systèmes d’informations (Sethi et King, 1991 ; Van
Dyke et al., 1997), en gestion des ressources humaines (Roussel, 1996 ; Igalens, 1998) et en
finance (Finkelstein, 1992).

294
III – LA FIABILITE DES OUTILS DE MESURE

La vérification de la fiabilité des outils de mesure passe par la vérification de principales


propriétés psychométriques : la stabilité (test-retest), la cohérence interne, (corrélations inter-
items, alpha de Cronbach et Kuder-Richardson) et l’équivalence (formes alternatives).

1 – L’évaluation de la stabilité par la méthode du test-retest


Cette méthode consiste à administrer deux fois la même échelle psychométrique auprès d’un
même échantillon, à deux instants différents mais dans des conditions identiques. En vue de
comparer de comparer les réponses des sujets interrogés, on étudie la corrélation entre les scores
obtenus la première fois et les scores obtenus la deuxième fois (R de Pearson). Cette technique
permet de s’assurer que l’instrument de mesure utilisé est stable et ne dépend pas des
changements d’humeur ou d’opinion des personnes interrogées (Hendrickson et al., 1993).

Plus le coefficient est proche de 1, plus l’échelle psychométrique est considérée comme fiable.
De façon opérationnelle, on a tendance à considérer comme fiables toutes les échelles où les
coefficients de corrélation sont supérieurs à 0,70.

La difficulté de cette méthode réside dans le choix de la période séparant les deux enquêtes. Si
cette période est longue, il risque alors d’y avoir un effet de test : les réponses au deuxième
questionnaire peuvent être biaisées du fait de la connaissance préalable de l’échelle de mesure et
de l’impression de connaître les réponses (le répondant ne réfléchit donc plus vraiment aux
réponses qu’il fournit) ou du fait de la volonté d’être cohérent avec soi-même (et donc d’essayer
à tout prix de répondre de la même manière plutôt que d’essayer de répondre selon l’impression
du moment).

Dans la pratique, les chercheurs adoptent une période allant de deux semaines à 2 mois, sachant
que plus la période séparant le test du retest est coûte, plus les coefficients de corrélation auront
tendance à être élevés.

Ce type de test dépend fortement de l’effet de mortalité expérimentale : si des individus qui au
répondu au premier questionnaire disparaissent lors du retest, cela peut compromettre les résultats
obtenus. Pour éviter cela, il est d’abord conseillé de recourir à un échantillon suffisamment large
pour que la représentativité soit quand même assurée. De plus, il est conseillé d’adjoindre des
questions supplémentaires (ouvertes et dont les réponses sont personnelles) permettant
d’identifier les répondants.

2 – La technique du split-half
Cette technique, également appelée technique des deux moitiés, peut être utilisé de deux façons
différentes : le split-half peut être appliqué au niveau des individus de l’échantillon ou au niveau
des items de l’échelle de mesure. Dans les deux cas, il faut veiller à ce que les deux sous-
échantillons retenus ne soient pas appariés (Evrard et al., 1997).

295
Première variante :
Dans ce cas, il s’agit d’administrer les échelles à tester à un échantillon suffisamment large et
pouvant être scindés en deux sous-échantillons substantiels. Les individus seront affectés aux
deux sous-échantillons de façon aléatoire. Il s’agit alors de s’assurer qu’il existe bien une
ressemblance dans les réponses fournies au niveau des échelles testées. L’analyse se fait un test
de comparaison de moyenne : l’échelle est jugée avoir une bonne cohérence interne s’il n’existe
de différence significative entre deux sous-échantillons .

Les précautions à prendre lors de l’utilisation de cette méthode sont de veiller à éviter l’effet de
sélection, en s’assurant, le cas échant, que les deux sous-échantillons soient tous deux
représentatifs de la population étudiée et qu’ils soient véritablement appariés, c'est-à-dire ayant
une structure similaire.

Deuxième variante :
Cette technique consiste, dans ce cas, à diviser les items d’une même échelles en deux moitiés.
L’une des méthodes les plus communément utilisées par les chercheurs consiste à considérer
d’une part les items impairs et d’autre part les items impairs. Des coefficients de corrélation sont
calculés, notamment le coefficient de Kuder-Richardson et le coefficient de Spearman-Brown
pour s’assurer de l’harmonie des deux sous-groupes d’items. Les coefficients de Kuder-
Richardson sont habituellement utilisés lorsque les échelles de mesure sont de type dichotomique
(oui/non) tandis que le coefficient de Spearman-Brown est utilisé lorsque l’on a recours à
l’échelle de Likert.

Notons que chaque item est comparé avec chacun des autres items en vue de s’assurer de la
cohérence de l’échelle. Des scores moyens sont également calculés : les scores des sous-
échantillons seront d’autant plus proches que le coefficient de Kuder-Richardson est proche de 1,
c'est-à-dire que les items de l’échelle mesurent le même contenu.

Notons que la principale limite de cette méthode est qu’elle repose sur l’hypothèse implicite qu’il
existe un parfait parallélisme entre les deux groupes d’items. Elle n’encourage donc pas de varier
le contenu des items.

3 – La corrélation inter-items
Cette technique consiste à évaluer le degré de corrélation entre les items et le score total. Elle
permet de mettre en valeur la présence d’items qui contribuent peu à l’échelle : un item
faiblement corrélé aux autres items d’une même échelle psychométrique a une forte probabilité
de ne pas mesurer le même construit. Cette analyse est généralement complétée par le calcul des
coefficients de corrélations entre chaque item et le score global de l’échelle. Il est également
possible d’effectuer une régression multiple entre chaque item, considéré comme variable à
expliquer, et l’ensemble des autres items pris comme variables explicatives. Les coefficients de
corrélation multiple permettent alors de juger de l’apport de chaque item à l’échelle : les items
dont le R² est faible ont moins de chance de mesurer le même phénomène que les autres items.

296
4 – L’ Alpha de Cronbach
Cet un instrument de mesure sert à évaluer les corrélations entre les énoncés d’une échelle qui
mesure un concept. Il s’interprète comme un coefficient de corrélation classique: plus il est
proche de 1, plus l’échelle est fiable (0,6 et 0,8). C’est sans doute l’instrument de fiabilité le plus
utilisé par les chercheurs (Cronbach, 1951).

Il faut noter que l’alpha de Cronbach dépend du nombre d’items, les échelles de 2 ou 3 items
affichant généralement des alphas particulièrement petits par rapport aux échelles à plus de 3
items. Et indicateur dépend également du mode d’administration du questionnaire : l’auto-
administration permet d’aboutir à des alphas supérieurs à ceux obtenus par une administration en
face à face (Peterson, 1995). Par ailleurs, le calcul de l’alpha de Cronbach n’est pertinent que
lorsque l’échelle utilisée est unidimensionnelle (Gerbing et Anderson, 1988) : il faut donc
préalablement procéder à des analyses en composantes principales sur l’échelle psychométrique
pour s’enquérir de sa dimensionnalité et calculer l’alpha de Cronbach pour chaque dimension.

5 – Le Kuder-Richardson
Le Kuder-Richardson ou KR-20 (Kuder et Richardson,1937) est un coefficient qui permet
d’évaluer le degré de corrélation entre les items, dans le cas où ces derniers sont de nature
dichotomique. Il s’interprète de la même manière que l’alpha de Cronbach. Le Kuder-Richardson
est en fait la version dichotomisée du coefficient alpha. De ce fait, les propriétés relatives au
nombre d’items ou au mode de collecte des données se retrouvent à ce niveau également (Perrien
et al, 1983).

6 – La technique des formes alternatives


Il s’agit d’administrer aux mêmes individus, deux formes alternatives de la même échelle
psychométrique. A titre d’exemple, la première échelle sera mesurée avec une échelle de Likert
et la seconde avec une échelle de Stapel. Deux phases d’administration seront alors prévues,
généralement espacées d’une période de deux semaine. Des coefficients de corrélation sont alors
calculés sur les scores obtenus lors des deux collectes. Cette technique contribue à s’assurer d’un
certain parallélisme entre les items de l’échelle (Segal, 1984).

Cette méthode est très peu utilisée dans le cadre des recherches ayant pour objet la validation des
échelles de mesure. D’abord, elle présente tous les inconvénients de la méthode du test-retest.
S’ajoute à cela la subtilité de la notion d’équivalence des formes. En effet, pour que celle-i soit
vérifiée, les deux ensembles alternatifs d’items doivent avoir les mêmes moyennes, les mêmes
variances et les mêmes inter-corrélations. Il devient donc ainsi difficile de dire si un faible
coefficient de corrélation signifie une absence de fiabilité ou plutôt une absence d’équivalence
des formes.

Pour conclure sur cette notion de fiabilité, il faut noter que la grande majorité des recherches se
contente de calculer l’Alpha de Cronbach. Les autres critères sont utilisés seulement lors de la
validation d’échelles nouvellement construites.

297
IV – LA VALIDITE DES OUTILS DE MESURE

Trois principales formes de validité existent : la validité de contenu, la validité liée à un critère et
la validité de construit.

1 – La validité de contenu
La validité de contenu s’appréhende par la validité faciale et la validité de consensus. Elle
consiste à s’assurer que l’échelle est porteuse de signification et qu’elle peut pertinemment être
jugée comme pertinente et approchant la réalité (Lacity et Jansen, 1994). D’un point de vue
théorique, un outil de mesure d’un construit donné a une validité de contenu si les items qu’il
comporte constitue un échantillon représentatif de l’univers des items qui représentent le domaine
entier du construit. Evaluer la validité de contenu consiste donc à répondre à une question
précise : les items utilisés sont-ils représentatifs du contenu de l’univers du construit à mesurer ?
(Rungtusanatham, 1998).

La validité faciale est vérifiée lorsque le chercheur examine l’échelle psychométrique étudiée et
s’assure qu’elle semble bien mesurer ce que l’on désire mesurer. Les items sont analysés un par
un par le chercheur et sont mis en rapport avec le construit étudié mais aussi avec le contexte de
l’étude. Les items inappropriés peuvent être soit éliminés soit reformulés de manière à s’adapter
davantage à l’étude.

Pour obtenir une validité de consensus, le chercheur doit faire valider l’échelle par un panel
d’experts qui vérifie que l’échelle couvre, en bonne partie, le construit étudié. Chaque item est
passé en revue par les juges qui évaluent son aptitude à appréhender le construit étudié. Il est
possible de faire accompagner chaque item par une échelle de Likert allant par exemple de 1 = ne
mesure pas du tout le construit à 5 = mesure tout à fait le construit. Des scores sont ensuite
calculé pour chaque item. Il est possible de recourir à des méthodes pointues telles que la
méthode de Delphi ou encore des indices de convergence tels que le kappa de Cohen (1968),
l’alpha de Krippendorff (1980) ou le pi de Scott (1955).

La validité de contenu est particulièrement importante dans les recherches internationales.


Souvent, les chercheurs des échelles psychométriques, développées dans un contexte culturel
particulier, sont traduites et utilisées en l’état dans d’autres contextes. Or, il est fondamental que
les items traduits aient exactement une signification identique à celle de l’échelle originale et
qu’ils aient le même niveau de langage. Ceci rend la traduction particulièrement difficile.

Dans certains cas, il est impossible de retrouver le même sens en effectuant une traduction simple
d’un item. Ainsi, si l’on considère l’item « je vais à l’église tous les dimanches », l’adaptation au
contexte tunisien ne pourra pas être « je vais à la mosquée tous les vendredis », l’action d’aller à
l’église et celle d’aller à la mosquée n’étant pas équivalente dans la mesure elles ne renvoient pas
aux mêmes significations. Il faut donc être particulièrement vigilant à la validité de contenu des
items dans les recherches transculturelles.

298
2 – La validité liée à un critère
Cette forme de validité permet au chercheur de s’assurer que la mesure obtenue est corrélée avec
d’autres critères externes mesurant le phénomène étudié. Deux formes de validité liée à un critère
existent : la validité concurrente et la validité prédictive.

En ce qui concerne la validité concurrente, il s’agit d’administrer l’échelle à un groupe de


personne ayant fortement le trait mesuré (le critère) et à un autre groupe de personnes ayant
faiblement ce trait. La validité concurrente est vérifiée si l’échelle permet de discriminer
significativement entre les deux groupes.

La validité prédictive est généralement utilisée lorsqu’il s’agit de prévoir l’occurrence d’un
phénomène. Cette méthode consiste à administrer l’échelle avant que le phénomène ne se
produise et de s’assurer que l’échelle le prédit correctement. Si le critère retenu est de nature
quantitative, la validité prédictive pourra être estimée par le calcul de coefficients de corrélation
bivariée entre l’échelle psychométrique et le critère (Perrien et al., 1983). Si le critère est de
nature qualitative, il est possible de recourir à l’analyse de la variance ou à l’analyse
discriminante. La validité prédictive peut particulièrement être intéressante pour une échelle
psychométrique permettant de cerner le profil des vendeurs avant leur recrutement. Si la validité
prédictive d’une telle échelle est bonne, elle permettra de recruter des vendeurs performants.

3 – La validité nomologique
La validité nomologique est vérifiée lorsque l’échelle psychométrique se comporte comme est
censé le faire le trait théorique qu’elle mesure. Si le trait construit permet par exemple de
discriminer entre deux populations, s’il est particulièrement élevé ou faible à certaines périodes
ou dans certains contextes, s’il est supposé être en relation avec d’autres traits, l’outil de mesure y
afférant devra se comporter de la même manière. Ainsi, la théorie montre qu’il existe une relation
entre deux traits X et Y, les échelles psychométriques les mesurant sont alors censées être
corrélées. Cette méthode consiste à utiliser parallèlement des variables censées être corrélées.
Elle permet de s’assurer que les liaisons entre les mesures du concept étudié et les mesures
d’autres concepts sont en conformité avec la théorie.

Cronbach et Meehl (1955) préconisent de construire un réseau nomologique donnant une


représentation des relations entre les variables étudiées : c’est le modèle conceptuel. Il s’agira
alors de vérifier empiriquement si les mesures utilisées vérifient ou non ces relations : c’est le
modèle de mesure. Pour parler de validité nomologique, une parfaite symétrie doit être observée
entre le domaine des construits et le domaine des mesures (figure 3). Si c’est le cas, il est possible
de parler de validité nomologique des échelles. Dans le cas contraire, il est difficile de conclure à
l’absence de validité nomologique : en effet, l’absence de relations entre deux variables peut être
due à une échelle non valide, mais également à l’absence de relations entre les véritables, cas
amenant à une remise en cause de la littérature (Roehrich, 1993).

299
Figure 3. Le réseau nomologique

Construit
Construit
Construit

Domaine des
construits Construit
Construit

Mesure
Mesure
Domaine des
mesures

Mesure Mesure
Mesure

4 – La validité de construit
La validité de construit, ou validité de trait, permet de se rendre compte si l’échelle de mesure
fournit une bonne représentation du phénomène à étudier. Elle évalue la structure théorique sous-
jacente au phénomène à étudier. Elle peut prendre deux formes: la validité convergente et la
validité discriminante. La validité convergente est obtenue lorsque les indicateurs supposés
mesurer le même phénomène sont fortement corrélés entre eux. La validité discriminante est
obtenue lorsque les indicateurs supposés mesurer des phénomènes différents sont faiblement
corrélés entre eux. Le recours à la validité de construit nécessite une définition précise et
approfondie des construits utilisés, accompagnée d’une explication de leurs implications
théoriques et empiriques (Jackson et Paunonen, 1985).

5 – Une autre méthode pour évaluer la validité: La méthode multitrait-multiméthode :


MTMM
La méthode multitrait-multiméthode est une méthode développée par Campbell et Fiske (1959)
pour mesurer la validité de trait des échelles de mesure. C’est une approche permettant d’évaluer
la validité de construit d’une échelle de mesure. Elle a initialement été développée par Campbell
et Fiske (1959) qui ont introduit les notions de validité convergente et de validité discriminante
comme des dimensions de la validité de construit. Cette méthode permet de donner une
évaluation de ces deux types de validité. Pour pouvoir affirmer que les échelles de mesure
utilisées dans une enquête ont une validité de construit, il est nécessaire de démontrer la validité
de construit et la validité discriminante.

300
La matrice MTMM est tout simplement un tableau de corrélation organisé de manière à faciliter
l’interprétation de l’évaluation de la validité de construit. Cette méthode suppose que l’on mesure
plusieurs concepts (appelés traits), par l’utilisation de plusieurs méthodes pour chacun d’eux.
Ainsi, on a généralement un ensemble de t traits mesurés par m méthodes. La matrice MTMM est
donc une matrice des corrélations des traits organisés de la façon suivante :

Méthode 1 Méthode 2 Méthode 3


A B C A B C A B C
A A1A1
Méthode 1

B B1A1 B1B1
C C1A1 C1B1 C1C1
A A2A1 A2B1 A2C1 A2A2
Méthode 2

B B2A1 B2B1 B2C1 B2A2 B2B2


C C2A1 C2B1 C2C1 C2A2 C2B2 C2C2
A A3A1 A3B1 A3C1 A3A2 A3B2 A3C2 A3A3
Méthode 3

B B3A1 B3B1 B3C1 B3A2 B3B2 B3C2 B3A3 B3B3


C C3A1 C3B1 C3C1 C3A2 C3B2 C3C2 C3A3 C3B3 C3C3

Où A, B et C sont les 3 traits mesurés.

Analysons à présent les quatre composantes de la matrice MTMM :

a) La diagonale de fiabilité ou diagonale monotrait-monométhode


C’est la diagonale suivante :

Méthode 1 Méthode 2 Méthode 3


A B C A B C A B C
A A1A1
Méth
ode

B B1B1
1

C C1C1
A A2A2
Méth
ode

B B2B2
2

C C2C2
A A3A3
Méth
ode

B B3B3
3

C C3C3

Cette diagonale comporte les corrélations entre deux mesures d’un même trait par la même
méthode. Cette diagonale peut être obtenue soit en mesurant plusieurs fois le même trait par la

301
même méthode, soit en effectuant une mesure unique du trait sur un échantillon suffisamment
large pour être scindé en deux parties. Il est fréquent que les chercheurs ne complètent pas cette
diagonale du fait de ces contraintes.

b) La diagonale monotrait-multiméthode

Méthode 1 Méthode 2 Méthode 3


A B C A B C A B C
A
Méth
ode

B
1

C
A A2A1
Méth
ode

B B2B1
2

C C2C1
A A3A1 A3A2
Méth
ode

B B3B1 B3B2
3

C C3C1 C3C2

Ce sont des corrélations entre des mesures d’un même trait appréhendé par deux méthodes
différentes. Par exemple, B3B2 désigne la corrélation entre le trait B mesuré par la deuxième
méthode et le trait B mesuré par la troisième méthode.

Ces diagonales nous sonnent donc une idée sur la validité convergente des échelles testées dans
la mesure où une forte corrélation indique que les mesures sont convergentes.

c) Les triangles hétérotraits-monométhodes

Méthode 1 Méthode 2 Méthode 3


A B C A B C A B C
A
Méth
ode

B B1A1
1

C C1A1 C1B1
A
Méth
ode

B B2A2
2

C C2A2 C2B2
A
Méth
ode

B B3A3
3

C C3A3 C3B3

Ce sont des corrélations entre les mesures de traits différents évalués avec les mêmes méthodes
de mesure. Ainsi, le coefficient de corrélation C1A1 désigne la corrélation entre la mesure du
trait A par la méthode 1 et la mesure du trait C par la méthode 1.

Ces coefficients doivent être faibles pour deux raisons majeures :


• les traits mesurés sont censés refléter des phénomènes différents.
• l’effet de la méthode ne doit pas l’emporter sur l’effet du trait.

302
Selon Evrard et al. (1997),
« Si les deux phénomènes sont réellement différents, la corrélation d’un phénomène avec lui-
même mesuré par des méthodes différentes doit être supérieure à la corrélation entre deux
phénomènes différents mesurés par la méthode, sinon l’effet dominant est celui de la méthode ».

Les triangles hétérotraits-monométhodes contribuent donc à évaluer la validité discriminante


des phénomènes mesurés, dans la mesure où elle permet de s’assurer que les traits utilisés le sont
de manière significative.

d) Les triangles hétérotraits-hétérométhodes

Méthode 1 Méthode 2 Méthode 3


A B C A B C A B C
A
Méth
ode

B
1

C
A A2B1 A2C1
Méth
ode

B B2A1 B2C1
2

C C2A1 C2B1
A A3B1 A3C1 A3B2 A3C2
Méth
ode

B B3A1 B3C1 B3A2 B3C2


3

C C3A1 C3B1 C3A2 C3B2

Ce bloc fournit les corrélations de traits différents mesurés par des méthodes différentes. Par
exemple, le coefficient de corrélation C3A2 désigne la corrélation de la mesure du premier trait
par la deuxième méthode et la mesure du troisième trait par la troisième méthode. La validité
discriminante exige que la corrélation d’un trait avec lui-même, mesuré par des méthodes
différentes soit supérieur au corrélations de ce trait avec les autres traits, pour les mêmes
méthodes. Ainsi, B3B2 doit être supérieur à B3A2, B3C2, A3B2 et C3B2. Elle exige également
que les structures de corrélations soient respectées. Les patterns de corrélation figurant dans les
triangles hétérotraits-monométhode et les triangles hétérotraits-hétérométhode doivent être
semblables.

La méthode MTMM comporte deux principales limites : d’abord, étant donné que les indicateurs
utilisés sont des coefficients de corrélation brutes, cette méthode permet pas d’isoler les effets dus
aux traits des effets provenant d’erreurs systématiques et aléatoires (Widaman, 1985). De plus,
cette méthode suppose l’hypothèse implicite des traits et des méthodes. Or, cette hypothèse a très
tôt été fortement contestée (Campbell et O’Connel, 1967).

V – LES AUTRES PROPRIETES PSYCHOMETRIQUES DES ECHELLES DE MESURE

Moins étudiées, deux autres propriétés psychométriques ne doivent cependant pas être négligées :
il s’agit de la sensibilité des échelles et de leur caractère généralisable (également appelé
généralisabilité).

303
1 – La sensibilité
La sensibilité d’une échelle psychométrique est importante lorsque le construit que l’on cherche à
mesurer connaît des variations importantes. C’est le cas de la motivation des individus, de
l’image perçue d’un produit ou de l’attitude vis-à-vis d’une entreprise. Un outil est doté d’une
bonne sensibilité lorsqu’il permet d’enregistrer des variations assez fine du construit étudié. Une
échelle psychométrique comprenant un faible nombre d’items ou mesurée par une échelle
d’attitude comportant un faible nombre de points semble peu apte à rendre compte de
changements subtils dans les attitudes ou les traits. Pour augmenter la sensibilité d’une échelle, il
est nécessaire d’accroître l’intervalle de scores auquel elle permet d’aboutir (Zikmund, 2000).

2 – Le caractère généralisable d’une échelle psychométrique

Le caractère généralisable d’une échelle psychométrique (en anglais, generalizability) fait


référence à la possibilité de partir d’observations spécifiques à une recherche et de les généraliser
à un univers plus large. Ainsi, une échelle psychométrique initialement utilisée pour mesurer la
motivation du personnel d’une entreprise, durant une période donnée et ayant recours à une
échelle de Likert à 5 points aura un caractère généralisable s’il est possible de l’utiliser dans
d’autres entreprise, durant d’autres périodes et de l’accompagner d’autres échelles d’attitudes
telle que l’échelle d’Osgood ou celle de Stapel. Il en va de même du mode d’administration du
questionnaire : une échelle conçue pour être auto-administrée n’est pas toujours utilisable dans un
questionnaire téléphonique ou en face à face.

Pour s’enquérir du caractère généralisable d’une échelle psychométrique, il est préalablement


nécessaire de définir les univers possibles de généralisation : échantillon, espace géographique,
mode d’administration, échelle d’attitude utilisée, produit concerné, etc. Il faut alors faire varier
ces univers et s’assurer que les propriétés psychométriques de l’outil utilisé sont bien conservées.
Une procédure de test-retest est appliquée et des coefficients de corrélation sont calculés. Il faut
noter que, malgré tout, il est difficile de conclure qu’une échelle psychométrique est généralisable
à d’autres domaines non-étudiés (Malhotra, 1993).

VI – L’APPORT DES EQUATIONS STRUCTURELLES


L’application des équations structurelles est une nouvelle approche de l’évaluation de la fiabilité
et de la validité des échelles. Elle permet de mettre en valeur la dimensionnalité des échelles et de
la confirmer. Elle permet également de raffiner l’analyse de la matrice MTMM, en fournissant de
nouveaux indices de mesure de la validité. Elle fournit enfin une estimation de la cohérence
interne des échelles moins sensible au nombre d’items que comporte l’échelle (Bagozzi, 1980 ;
Evrard, 1985).

L’analyse causale met à la disposition des chercheurs de nombreux outils permettant de vérifier
la fiabilité et la validité d’une échelle psychométrique tels que l’analyse factorielle confirmatoire
de premier et de second ordre ou le rho de Joreskog. A la lumière de cette nouvelle génération de
méthodes d’analyse, Roehrich (1993) propose ainsi une version révisée du paradigme de
Churchill (figure 4).

304
Figure 4. Le paradigme de Churchill révisé selon Roehrich (1993)

Etapes de la procédure Priorité Techniques recommandées

1. Spécifier le domaine du construit Délimiter le construit en théorie Revue de la littérature

2. Générer un échantillon d’items Validité de contenu Revue de la littérature


Entretiens de groupes
Intuition

3. Collecter des données Uniquement les items générés

4. Vérifier la structure de la mesure; Validité de contenu Analyse factorielle confirmatoire


la purifier

5. Cohérence interne de chaque Fiabilité Coefficient 8 de Joreskog


dimension

6. Collecter des données Procédure multitrait-


multiméthode

7. Vérifier à nouveau la structure et la Validité de contenu: stabilité de Analyse factorielle confirmatoire


cohérence interne la structure Coefficient 8 de Joreskog

8. Vérifier la validité de trait Validité convergente et Analyse factorielle confirmatoire du


discriminante premier et/ou du second ordre

9. Vérifier la validité nomologique Validité prédictive et Modèle causal


nomologique

10. Développer des normes Si l’échantillon est représentatif Paramètres statistiques résumant la
distribution des scores
Source : Roehrich, G., (1993) : "Les consommateurs innovateurs : un essai d’identification", thèse de doctorat d’état, CERAG,
Ecole supérieure des affaires de Grenoble.

CONCLUSION

Cette communication présente les différents outils à la disposition des chercheurs et leur
permettant de vérifier les propriétés psychométriques des échelles de mesure. Plusieurs objectifs
sont ainsi visés : attirer l’attention sur l’existence d’échelles psychométriques pouvant être
utilisés par les chercheurs, mettre en garde contre une utilisation « trop facile » de ces items mais
aussi contre les adaptations rapides telles que la suppression arbitraire d’items pour alléger le
questionnaire.

305
BIBLIOGRAPHIE

Bagozzi, R.P., Causal models in marketing, Wiley.


Bearden, W.O., Netemeyer, R.G., (1999) : Handbook of marketing scales: Multi-item measures for marketing
and consumer behavior research, Sage publications.
Campbell, D.T., Fiske, D.W., (1959): “Convergent and discriminant validation by the multitrait-multimethod
matrix”, Psychological Bulletin, vol.56, march, pp. 81-105.
Campbell, D.T., O’Connel, J., (1967) : "Method factors in multitrait-multimethod matrices: multiplicative rather
than additive ?”, Multivariate Behavioral Research, vol. 2, october, pp. 409-426.
Cohen, J., (1968): “Weighted kappa: nominal scale agreement, with provision for scaled disagreement or partial
credit”, Psychological Bulletin, vol. 70, october, pp. 213-220.
Cronbach, L.J., (1951): “Coefficients alpha and the internal structure of tests“, Psychometrika, vol. 16, pp. 297-
334.
Cronbach, L.J., Meehl, P., (1955): “Construct validity in psychological tests”, Psychological Bulletin, vol. 52, n°
4, pp. 281-302.
Evrard, Y., (1985) : "Validité des mesures et causalité en marketing", Revue Française du Marketing, n° 1, pp.
17-34.
Evrard, Y., Pras, B., Roux, E., (1997) : Market : études et recherches en marketing, fondements, méthodes, 2ème
édition, Nathan.
Finkelstein, S., (1992) : Power in Top Management Teams: Dimensions, Measurement, and Validation, Academy
of management journal, August, vol. 35, n° 3, pp. 505-523.
Gerbin, D.W., Anderson, J.C., (1988): “An updated paradigm for scale development”, Journal of Marketing
Research, Vol. 25, pp. 186-192.
Gordon, C., Bruner, I.I., (1998) : Marketing Scales Handbook: A Compilation of Multi-Item Measures, American
Marketing Association.
Hendrickson, A.R., Massey, P.D., Cronan, T.P., (1993) : “On the test-retest reliability of perceived usefulness
and perceived ease of use sclaes”, MIS Quarterly, June, pp. 227-230.
Jackson, D.N., Paunonen, S.V., (1985) : “Construct validity and the predictability of behavior”, Journal of
Personality and Social Psychology, vol. 49, n° 2, pp. 554-570.
Igalens, J., Roussel, P., (1998): Méthodes de recherche en gestion des ressources humaines, Collection recherche
en gestion, Economica.
Krippendorff, K., (1980): Content analysis: an introduction to its methodology, Sage Publications.
Kuder, G.F., Richardson, M.W., (1937) : « The theory of the estimation of test reliability”, Psychometrika,
september, pp. 151-160.
Lacity, M., Jansen, M. A., (1994) : “Understanding qualitative data: a framework of text analysis methods”,
Journal of Management Information System, vol. 11, pp. 137-160.
Malhotra, N.K., (1993) : Marketing research : an applied orientation, Prentice Hall.
Nunally, J., (1978) : Psychometric Theory, 2ème édition, New-York, Mc Gaw Hill.
Nyeck S., Paradis S., Xuereb J.M. et Chebat J.C (1996) : « Standardisation ou adaptation des échelles de mesure
à travers différents contextes nationaux : L’exemple d’une échelle de mesure de l’innovativité », Recherche et
Applications en Marketing, Vol 11, n°3, pp 59-74
Perrien, J., Chéron, E.J., Zins, M., (1983) : Recherche en marketing : méthodes et décisions, Gaëtan Morin.
Peterson, R., (1995) : « Une méta-analyse du coefficient alpha de Cronbach », Recherche et applications en
Marketing, vol. 10, n° 2, pp. 75-88.
Roehrich, G., (1993) : "Les consommateurs innovateurs : un essai d’identification", thèse de doctorat d’état,
CERAG, Ecole supérieure des affaires de Grenoble.
Roussel, P., (1996) : Rémunération, motivation et satisfaction au travail, Collection recherche en gestion,
Economica.
Rungtusanatham, (1998) : « Let’s not overlook content validity », Decision Line, june, pp.10-14.
Scott, W., (1955) : « Reliability of content analysis : the case of nominal case coding », Public Opinion
Quarterly, vol. 19, fall, pp. 321-325.
Segal, M.N., (1984): “Alternate form conjoint reliability”, Journal of Advertising Research, vol. 4, pp. 31-38.
Sethi, V., King, W.R., (1991): “Construct measurement in information systems research: an illustration in
strategic systems", Decision Sciences, vol. 22, n° 4, July-August, pp. 455-472.
Van Dyke, T.P., Kappelman, L.A., Prybutok, V.R., (1997) : "Measuring information systems service quality:
Concerns on the use of the questionnaire", MIS Quarterly, vol. 21, n° 2, pp. 195-208.

306
Widaman, Keith F. (1985), “Hierarchically Nested Covariance Structure Models for Multitrait-Multimethod
Data,” Applied Psychological Measurement, vol. 9, march, pp. 1-26.
Zikmund, W.G., (2000) : Exploring marketinng research, seventh edition, The Dryden Press.

307

View publication stats