Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Donald Long
Centre de Recherche et de Développement en Éducation
(CRDE)
Université de Moncton
Moncton, Nouveau-Brunswick, Canada
E1A 3E9
longd@umoncton.ca
Je tiens à remercier Michel Rousseau, professeur à la Faculté des sciences de
l’éducation de l’Université de Moncton, pour la révision du texte
et pour ses judicieux conseils
Table des matières
1. Introduction .............................................................................................. 1
17. Conclusion............................................................................................ 41
« Beyond the elementary process of understanding what a specific statistical result means,
however, those of us who do quantitative social science seldom address the issue of how we
do interpretation. » (Herbert M. Kritzer, 1996)
1. Introduction
L’utilisation du mot analyse à toutes les sauces est symptomatique. Elle reflète
une conception de l’interprétation des résultats de recherche axée sur un
processus de découpage plutôt que d’assemblage. L’analyse des résultats de
recherche ne se ramène pas seulement au dépeçage d’un ensemble. L’objectif
ultime consiste plutôt à rattacher ces pièces ensemble de façon significative,
surtout en relation avec un cadre conceptuel bien établi et abondamment
documenté. Tout comme un casse-tête, chaque pièce n’est importante qu’en
autant qu’elle contribue à un ensemble.
La façon de réaliser une synthèse des résultats fait parfois défaut et entraîne
malheureusement des conclusions douteuses, voire tirées par les cheveux. À tort,
on croit qu’en multipliant les analyses statistiques, on améliore la
compréhension de la problématique à l’étude. Certes, on doit identifier et décrire
chacune des variables. Cependant, il est tout aussi important d’établir des
relations prévues entre certaines variables.
VI1
VD
VI2
VD VI1
VI1
VD
VI3
VI3 VD VI4
VI4 VD
De façon générale, les variables soumises à l’étude font partie intégrante d’un
ensemble que nous connaissons comme la problématique de recherche qui
renferme un cadre conceptuel. En réalité, le cadre conceptuel oriente les
analyses statistiques en précisant les relations entre les variables. Dès qu’un
modèle conceptuel est proposé et que des variables sont énumérées et mesurées,
on déduit que ces variables font partie, pour la plupart, du modèle à vérifier. Un
modèle se vérifie d’un seul coup et non par des analyses indépendantes qui ne
font pas de rapprochement entre les variables.
En bout de ligne, les résultats d’une recherche descriptive finissent par être mis
en relation avec des normes, des critères, des résultats quelconques tirés d’une
autre source. À bien y penser, à quoi sert de savoir que votre échantillon se
compose de 56,9 % de filles, si la variable genre n’est pas mis en relation ou en
interaction avec d’autres variables de votre étude. Par contre, ce pourcentage
pourrait être important à connaître lorsqu’il s’agit d’établir un parallèle avec une
autre recherche. Ce faisant, une relation est créée.
Tableau 3. Relation entre le genre et l’aide financière fournie par les parents
à leurs enfants inscrits en 1re année universitaire
Genre Aide financière des parents
Oui Non
Filles % %
Garçons % %
Malgré tout, la plupart des modèles complexes se fondent sur les mêmes
principes que les autres plus simples. L’ajout de variables à un modèle
conceptuel est motivé par la conviction qu’un phénomène arrive selon des
conditions particulières et que le nombre et le dosage de ces conditions ont des
propriétés précises et déterminées. Lorsqu’on ne peut prédire avec précision un
phénomène, c’est que nous ne connaissons pas toutes les variables qui entrent en
jeu ou bien que nous n’avons pas mesuré la contribution exacte de chacune
d’elles.
Quoiqu’il soit, nous croyons que plus un modèle est exhaustif plus il se
rapproche de l’explication complète du phénomène.
Ce module, tout comme les autres d’ailleurs, vise à simplifier des notions qui
donnent du fil à retordre aux étudiantes et aux étudiants qui en sont à leurs
premiers ébats en recherche. Je vous invite à être patiente et patient dans votre
processus d’apprentissage. Bien des notions ne sont vraiment comprises
qu’après de longues années d’expérience dans le domaine. Il serait plus juste de
soutenir qu’avec le temps on gagne en confiance : la compréhension véritable
n’est peut-être qu’une illusion.
En fait, les notions ne seront pas vraiment simplifiées, mais plutôt ramenées à
des éléments fondamentaux, à des principes de base. Vous ne trouverez pas dans
ce module une recette magique pour interpréter une analyse discriminante, un
chi carré ou tout autre test statistique. Par contre, le discours sera orienté de
manière à vous faire comprendre, par exemple, comment toutes les analyses
statistiques s’apparentent de telle sorte qu’on peut les ramener à une cellule
souche.
Si cette affirmation vous tombe sur la tête comme une tonne de briques,
continuez votre lecture. Sinon, vous comprenez déjà la fonction essentielle et
primordiale des tests statistiques et vous avez mieux à faire que lire le texte qui
suit.
Piège à éviter
Si la recherche est structurée de façon à vérifier une idée déjà conçue, il va sans
dire que cette idée s’inscrit dans un cadre conceptuel basé sur des recherches
antérieures et sur un raisonnement implacable. Par exemple, vous voulez
démontrer que les filles s’inscrivent en plus grand nombre dans les facultés
universitaires de sciences selon qu’elles ont été exposées à des modèles
familiaux apparentés. Les filles, dont une ou plusieurs femmes de leur famille
immédiate font carrière dans un domaine scientifique, tendent-elles davantage
que les autres à choisir elles aussi une carrière en science ? Voilà votre question
de recherche.
Supposons que vous mettez à jour des relations entre certaines variables que
vous jugez pertinentes et importantes. Si vous décidez d’incorporer ces résultats
à votre document, vous devrez revenir sur votre recension des écrits, la
conceptualisation de votre problématique et la formulation de nouvelles
hypothèses. Pourquoi ? Il vous faudra non seulement expliquer ces nouveaux
résultats statistiques, mais aussi les justifier au niveau conceptuel. La section
des résultats dans une recherche n’a pas de mérite à être une boîte à surprises !
Ainsi, nous pouvons soutenir qu’un score précis dans le cadre d’une recherche
n’arrive pas de lui-même ; il dépend plutôt de l’action et de la contribution
d’autres variables qui interagissent entre elles. À bien y penser, les modèles
conceptuels, qu’ils soient simples ou complexes, s’inspirent de ce principe qui
représente, pour moi, une croyance fondamentale en recherche quantitative.
Satisfaction
Santé
Salaire 2
Famille
Âge
Statut civil 3
Environnement
Etc.
4
Insatisfaction
C’est à se demander si, dans l’univers, il y a des choses qui existent par elles-
mêmes, complètement isolées des autres et libres de toute influence mutuelle.
Par exemple, tout objet de l’univers subit la gravité d’un autre corps, et ce,
Lorsque vos résultats proviennent d’un échantillon, les valeurs que vous obtenez
ne sont pas nécessairement les vraies valeurs correspondant à la population
totale. Aussi bien dire que, la plupart du temps, les valeurs d’une recherche ne
sont pas exactes ! Pour vous en convaincre, répétez la même expérience avec
plusieurs échantillons et vous constaterez que, si les résultats de chacun d’eux
varient peu, il reste qu’ils ne sont pas tout à fait les mêmes. La moyenne de ces
variations entre les échantillons vous fournira une idée de l’erreur
d’échantillonnage ou de la différence entre les échantillons.
C’est ainsi qu’on dira, par exemple, que, dans 95 échantillons sur 100, la valeur
va se situer entre 29 et 35. Il y a donc 5 % de chance (p = 0,05) que le vrai score
se trouve en dehors de cette zone ou étendue de valeurs. La vraie valeur est donc
comprise entre des limites de confiance. Ce qui nous amène à conclure que :
Nous verrons bien, plus loin, que la statistique est un outil dont les chercheurs
disposent afin de porter des jugements qualitatifs à partir de données
quantitatives. La tradition dans toutes les sphères de la recherche montre que,
même si les résultats de recherches comportent un degré d’incertitude et
d’imprécision, il est possible de tirer des conclusions fermes, moyennant
certaines conditions.
Une recherche faisant appel à un nombre restreint de sujets court le risque que
les résultats qui s’en dégageront soient biaisés à cause d’un échantillon non
représentatif, à moins, bien sûr, que des dispositions aient été prises pour assurer
sa représentativité. Que signifie représentativité d’un échantillon ? Les
caractéristiques principales et pertinentes à votre recherche doivent se
retrouver dans votre échantillon en proportion équivalente avec la population à
laquelle vous désirez généraliser vos résultats.
Pire encore, nous n’avons pas un document qui fournit les valeurs réelles de
toutes les variables étudiées en recherche. Y rêver tient de l’utopie ! Voilà
pourquoi la science des mathématiques est venue à la rescousse de la statistique
en dressant des tables de probabilité.
Ces tables ne nous indiquent pas à quel point ce que nous observons est
fréquent, mais plutôt dans quelle mesure nous pouvons généraliser de
l’échantillon à la population totale. C’est un cadre de référence qui fournit des
probabilités. Ces tables ne font rien pour indiquer, par exemple, si la nature
Cette valeur critique est-elle valable pour tous les niveaux de confiance ? Non.
Les valeurs critiques inscrites dans le tableau précédent sont celles associées à
un niveau de probabilité de 0,05 (p = 0,05). On peut s’attendre que ces valeurs
soient vraies pour 95 échantillons sur 100 (19 chances sur 20) et fausses dans 5
% des échantillons.
5 à la taille de l’échantillon et
au choix du niveau de signification.
Par conséquent, il existe une variance pour chaque variable et il peut exister,
aussi, une variance partagée entre des variables.
Les variations entre plusieurs variables peuvent être régulières au point où une
variation dans une variable est associée à une variation similaire dans une autre.
Que veut-on dire par variations régulières ? Simplement, la position d’un
individu sur une variable est conditionnée par sa position sur une autre
variable.
Dans le cas où la plupart des individus obtiennent un score de même taille sur
les deux variables (variables A et B), on obtiendra une corrélation positive.
Aussi, il est possible d’obtenir une corrélation négative ou inverse entre deux
variables (variables A et C, B et C) lorsque la plupart des individus obtiennent
un score inverse sur une variable par rapport à leur score sur une autre variable.
Enfin, l’absence de relation entre deux variables est visible dans les trois cas
suivants (A et B, B et D, C et D) : le score obtenu sur une variable n’est pas
conditionné par le score sur une autre variable. Le tableau 8 montre les 4
distributions auxquelles nous venons de faire allusion, tandis que le tableau 9
montre les coefficients de corrélation obtenus entre les 4 variables fictives.
On peut conclure en affirmant que, dans une relation positive entre deux
variables, la variance expliquée ou partagée par les deux variables augmente
lorsque, pour chaque cas, les scores sur les deux variables se retrouvent du
même côté de la moyenne. On peut tout aussi bien conclure que, dans une
relation négative entre deux variables, la variance expliquée par les deux
variables augmente lorsque, pour chaque cas, les scores sur une variable sont en
haut de la moyenne sur une variable et en bas de la moyenne sur l’autre variable.
Réfléchissons
1 Le nombre de cas dans une analyse n’influence pas le calcul de la variance expliquée.
2 La variance expliquée découle d’une relation entre deux variables.
3 Les distributions doivent être le plus normales possible entre elles : si l’une des deux
distributions est sévèrement irrégulière, le coefficient de corrélation sera lourdement
affecté.
4 À cet effet, on doit éviter d’écourter une distribution en formant des catégories. Une
variable dont les valeurs sont regroupées en quelques catégories et mise en corrélation
avec une autre variable verra son coefficient diminué par rapport à sa distribution
originale.
5 Un effort particulier doit être fait pour dénicher les scores extrêmes et réduire leur
influence. Un score extrême influence le calcul de la moyenne. Or, la variance découle
de la comparaison des scores avec la moyenne. Une moyenne affectée par un score au
détriment des autres affecte le coefficient de corrélation.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 21
Donald Long CRDE Université de Moncton
6 Les variables à l’étude n’ont pas besoin d’être sur la même échelle de mesure. Par
exemple, le niveau d’éducation croisé avec le salaire. De par sa nature, le coefficient de
corrélation comporte une standardisation des variables.
7 Une échelle de mesure plus longue ne se traduit pas, ipso facto, par une augmentation
automatique du degré de relation entre des variables.
8 Le pourcentage de variance expliquée est un indice qui peut servir à comparer des
résultats provenant d’études différentes.
9 Tout coefficient de corrélation se traduit en variance expliquée.
10 Le pourcentage de variance expliquée est une mesure relative, cependant. Rien
n’indique qu’un pourcentage de valeur x soit considérable ou insignifiant.
11 De nombreuses analyses statistiques utilisent le coefficient de corrélation comme
énergie vitale (par ex. la régression multiple, l’analyse factorielle, la corrélation
canonique, l’analyse des pistes causales et l’analyse discriminante). Ces analyses, et
d’autres, génèrent aussi de l’information quant à la variance expliquée.
On serait porter à croire, par exemple, qu’un test portant sur les fréquences, tel
le chi carré, existe simplement pour déterminer une différence entre deux
fréquences, chacune associée à une variable ou à une section d’une distribution.
Nous nous en servons plus souvent, cependant, pour déterminer si deux
variables dichotomiques, ou même ordinales, interagissent.
Nous voyons que l’utilisation de l’ordinateur varie d’une année à l’autre. En fait,
le fait d’appartenir à une année scolaire plutôt qu’à une autre influe sur le
nombre d’utilisateurs de l’ordinateur. On ne cherche pas, ici, à savoir si les
élèves utilisent tous au même degré l’ordinateur. On souhaite plutôt compter les
têtes de pipe : combien d’élèves utilisent ou n’utilisent pas l’ordinateur ?
Comme la majorité des tests statistiques portent sur des variables ordinales, à
intervalles et de proportion, plutôt que nominale comme nous venons de le voir,
nous sommes en droit de nous interroger sur ce que tous ces tests cherchent à
établir en bout de ligne : une relation ou une différence entre des variables ?
Vous pouvez continuer cette recherche de tests statistiques qui ne sont pas reliés
à une mesure quelconque de relation entre deux ou plusieurs variables. Vous ne
trouverez que quelques cas isolés tels que le Test t visant une paire de variables
(paired t Test) portant sur deux variables et l’analyse discriminante.
L’important, c’est de constater que, la plupart du temps, la recherche consiste à
mesurer des liens existants entre des variables. Le plus souvent ces variables
font partie d’un ensemble conceptuel que nous appelons cadre conceptuel.
Si la majorité des tests statistiques ont été conçus pour répondre aux besoins des
chercheuses et des chercheurs, c’est à croire que la majorité de leurs besoins
porte sur des questions relatives à des relations entre variables. Vous pouvez
aussi éplucher des revues scientifiques afin de trouver des expériences qui ne
portent pas sur des relations entre variables ou sur la formule fondamentale
Comme dans l’exemple précédent, on ne sait rien sur la relation entre les
variables dépendantes. Il ne faudrait donc pas laisser croire dans l’interprétation
des résultats que les filles qui sont plus satisfaites de leur travail sont les mêmes
que celles dont le salaire est moins élevé, sont plus instruites, lisent plus de
romans et sont moins stressées. Rien n’indique que toutes ces variables soient
fortement reliées entre elles.
En exécutant une seule analyse de variance multivariée qui intègre toutes les
variables qui ont fait l’objet d’une analyse univariée, plus souvent qu’autrement,
les résultats dressent un portrait différent. Il est d’autant plus différent, si les
variables dépendantes entretiennent entre elles des corrélations positives, des
corrélations négatives.
C’est toujours risqué de faire des analyses statistiques avec un nombre réduit de
sujets, si représentatifs soient-ils. Il vaut mieux profiter d’un grand nombre de
sujets que de souffrir d’un petit nombre. Ce qui me fait croire que :
8 More is better !
(le plus possible, c’est mieux)
À bien des variables, leurs scores apparaîtront comme extrêmes et à eux seuls
déplaceront les valeurs de tendance centrale, en particulier. Une transformation
de scores pourrait suffire, les ramenant plus près du centre de la distribution
(tout en faisant reculer le centre…..). Ce pourrait même être indispensable
d’appliquer une transformation pour éviter à tout prix d’éliminer des individus !
Ces individus méritent d’être retenus dans les analyses statistiques, d’abord,
parce qu’ils font partie de cette population. Ensuite, parce qu’ils vivent à leur
façon cette réalité moderne. La situation serait différente si les scores extrêmes
étaient ceux appartenant à des individus qui ignorent le sujet de recherche. Par
conséquent, lors des analyses d’un tel fichier, on doit autant se préoccuper des
individus ne présentant que des scores faibles que ceux ne présentant que des
scores élevés. Éliminer les scores extrêmes de chaque côté de la distribution
serait dommageable. Il ne faut surtout pas oublier, dans ce cas, que les individus
compétents dans le sujet de recherche sont préférables à conserver que les autres
incompétents. Si vous souhaitez mesurer la relation entre la fréquence
d’utilisation de l’ordinateur et les motifs de l’utilisation, la recommandation ci-
dessus prend tout son sens.
Hopkins (2000) a soulevé cette difficulté courante et offre une solution. In all
studies, subject characteristics can affect the relationship you are investigating.
Limit their effect either by using a less heterogeneous sample of subjects or
preferably by measuring the characteristics and including them in the analysis.
On pourrait croire qu’un échantillon aléatoire tiré selon les règles de l’art
améliore les relations entre les variables et permet de dégager des profils stables
de réponse. Un échantillon aléatoire assure une généralisation des résultats,
une similitude entre un échantillon et la population comme telle.
Dans la plupart des recherches, nous souhaitons cerner des concepts qui ne sont
pas des girouettes et qui ont plutôt une signification uniforme à travers divers
sous-groupes. Par surcroît, nous désirons que ces concepts entretiennent
entre eux des relations stables. Nielsen (2004) nous met en garde lorsqu’il
s’agit d’un nombre considérable de variables à étudier : If you measure enough
variables, you will inevitably discover that some seem to correlate.
Vous savez que tout résultat statistique est ramené à une table de probabilité.
Ces tables, bien que constituées de chiffres précis, sont purement arbitraires.
Nous les acceptons par convention. Elles ne représentent pas une réalité étanche
et immuable. Elles sont un critère de référence représentant des probabilités.
Vous êtes sans doute surpris que ces variables soient si étroitement associées
même si leurs moyennes diffèrent énormément. Comment peuvent-elles être
associées ? Pour éviter une confusion inutile, je reproduis le tableau 13 pour en
faire le tableau 14 en y ajoutant des informations supplémentaires.
Tableau 13.
V.1 V.2 V.3 V.4 V.5
Très important Très important Très important Très important Très important
Pas important Pas important Pas important Pas important Pas important
Pour qu’il y ait une corrélation positive forte entre ces variables, assez pour
constituer un facteur ou un concept stable, la plupart des sujets devront
présenter un profil régulier sur l’ensemble des variables, c'est-à-dire que la
position d’un individu sur une variable est conditionnée par sa position sur
une autre variable.
Par exemple, le sujet représenté par le (■) pourra obtenir des scores au-dessus de
la moyenne à chacune des variables ; le sujet représenté par le (□) obtiendra des
scores en dessous de la moyenne sur chacune des variables. Tous les sujets
n’auront pas un profil aussi parfait. Un troisième sujet représenté par (♠) a
obtenu des scores au-dessus et au-dessous de la moyenne, ce qui diminue la
force de la corrélation bien entendu. Cependant, vous devez vous imaginer que
J’ai introduit la moyenne dans chacune des colonnes pour justement montrer que
ce n’est pas la taille de la moyenne qui compte, mais la position que chaque
sujet occupe par rapport à cette moyenne, et ce, pour chacune des variables.
Mais, c’est bien plus qu’un test statistique. Les résultats issus de la
corrélation servent à alimenter un très grand nombre d’autres analyses
statistiques, surtout les multivariées.
En fait, ce que nous mesurons de commun aux individus peut être le résultat de
facteurs extérieurs. Des individus vivant dans un environnement particulier
finissent par posséder en commun des caractéristiques : l’environnement
façonne l’individu. Si les individus possédaient énormément plus de différences
que de similitudes, la science du comportement tiendrait par un fil et n’aurait pas
sa raison d’être actuelle.
Une recherche porte généralement sur une question. On formule donc une
hypothèse. À la rigueur, une seule analyse devrait suffire : après tout, on
cherche une réponse à une question, et non plusieurs réponses ! Une caricature
simpliste, me direz-vous.
Une recherche valable et valide peut fort bien être bâtie sur un seul pilier. Si,
une hypothèse suffit à lancer une recherche, une seule analyse englobante et
pertinente devrait suffire. Il est vrai que, pour démontrer la véracité d’une
hypothèse, diverses analyses peuvent souvent être nécessaires. Mais,
À lire les hypothèses de recherche, on comprend vite qu’elles portent sur une
différence ou une association quelconque. L’hypothèse établit des liens
fonctionnels en même temps qu’elle oriente les analyses statistiques. Lorsque
plusieurs hypothèses sont formulées, on s’attend à ce que des analyses séparées
soient exécutées. La multiplication des analyses n’est pas une surprise à ce
moment-là, car elles découlent d’une prédiction.
L’hypothèse la plus simple comprend une relation quelconque entre une variable
indépendante et une variable dépendante. Par exemple, les hommes ont un
niveau de stress plus élevé que celui des femmes tel que mesuré par un test
comprenant 5 concepts associés au stress. Dans ce cas-ci, on cherche à établir
une différence. Au fond, on cherche aussi à établir une relation entre le genre et
le stress.
VI 1
VI 2 VD
VI 3
VI 1
VI 2
VD1
VI 3
VD2
VI 5
VI 6
Tableau 16
VI 1
VI 2
VI 3
VI 7
VI 8
VI 4 VD
VI 9
VI 10
VI 5 VI 11
VI 6
Dans les sciences humaines, nous fragmentons, pour ainsi dire, l’individu pour
mieux l’étudier ; cette fragmentation n’est pas typique aux sciences humaines,
cependant. De nouvelles analyses statistiques nous permettent d’intégrer un
nombre considérable de variables et d’étudier une problématique en fonction
d’un ensemble plus complexe. Personne ne croit que l’être humain est aussi
Bien sûr, vous ne pouvez pas influencer la définition de l’âge ou du genre des
sujets. Par contre, certaines variables seront construites en accord avec une
approche théorique. Parmi les facteurs que vous soupçonnez d’agir sur le stress,
il y a les préoccupations de l’individu. Elles seront mesurées à l’aide d’une
échelle construite à cette intention. La nature de cette définition représente elle
aussi un facteur qui agit sur la relation entre le concept des préoccupations et le
stress ; ce sont d’ailleurs deux concepts construits de toutes pièces.
Lors qu’il existe une corrélation entre deux variables, rien n’indique que l’une
cause l’autre. Les deux variables peuvent être influencées par une troisième
variable. La corrélation ne fait que rendre compte de la force d’une association.
La nature d’une corrélation dépend de l’interprétation qu’on en fait. Voici
ce que Jacob Cohen (1990) a écrit sur le sujet : There is no royal road to
statistical induction, that the informed judgment of the investigator is the crucial
element in the interpretation of data.
Par exemple, une corrélation positive est trouvée entre le niveau socio
économique et le nombre de visites à une clinique médicale. Les individus plus
fortunés sont-ils en moins bonne santé que les moins bien nantis ? Se blessent-
ils plus souvent que d’autres parce qu’ils travaillent davantage ? Portent-ils
davantage attention à leur santé ? Craignent-ils moins les coûts associés à ces
visites ? Ont-ils davantage accès aux cliniques médicales ? Autant de questions
qui ne peuvent être répondues adéquatement qu’en intégrant dans une même
analyse statistique les variables pertinentes. La gestion de ces variables ne se fait
pas au hasard non plus ; de là l’importance de se référer à un cadre conceptuel.
Tabachnik & Fidell (1989) prétendent, à la page 61, que, The pattern of missing
data is more important than the amount missing. Dans un premier temps, il
s’agit d’identifier les valeurs manquantes. Dans un deuxième temps, une
décision doit être prise à leur sujet.
Il ne s’agit pas d’estimer le genre des sujets. L’estimation dont nous parlons
porte plutôt sur des variables construites : attitude, perception, motivation, et
d’autres.
17. Conclusion
Helberg (1995) résume ainsi trois catégories de pièges dont il faut se méfier en
recherche: We can consider three broad classes of statistical pitfalls. The first
involves sources of bias. These are conditions or circumstances which affect the
external validity of statistical results. The second category is errors in
methodology, which can lead to inaccurate or invalid results. The third class of
problems concerns interpretation of results, or how statistical results are
applied (or misapplied) to real world issues.
Le présent document n’a pas porté uniquement sur les pièges à éviter lors de
l’interprétation de résultats obtenus à la suite d’une recherche quantitative. J’ai
choisi d’attirer votre attention sur certains pièges qui peuvent affecter
l’interprétation des résultats d’une recherche, qu’ils soient d’ordre conceptuel,
méthodologique, statistique ou interprétatif. Il en existe bien d’autres. Plusieurs
auteurs ont choisi de les approfondir et je vous recommande de lire leurs écrits à
ce sujet.
Un résultat statistique n’a pas de valeur en soi, à moins qu’il s’inscrive dans un
cadre conceptuel défini. La valeur réelle d’un résultat statistique dépend
beaucoup de son contexte. On réalise qu’il existe une différence entre un résultat
précis et un résultat valide : un résultat n’est pas valide parce qu’il est précis ou
parce qu’il est représenté par des chiffres. L’interprétation de résultats
quantitatifs dépend de la subjectivité du chercheur. L’approche quantitative, par
contre, offre diverses méthodes et stratégies pour que les résultats comme tels
soient davantage valides, nonobstant l’interprétation du chercheur. Encore faut-il
faire une application judicieuse de la méthodologie et des tests statistiques.
Trop souvent, les chercheurs ne retiennent que les résultats favorisant leurs
hypothèses, même si ces résultats sont parfois mitigés. Confirmer ou infirmer
une hypothèse requiert que les effets prévus soient fermes et répandus à
l’ensemble des résultats. Les limites de confiance pourraient parfois inclure des
résultats statistiquement significatifs, surtout lorsque l’erreur d’échantillonnage
est importante, une situation qui risque de se produire lorsque l’échantillon est
restreint.
Parfois, certains choix doivent être faits afin de contourner des difficultés. Par
exemple, on utilise un instrument validé pour mesurer un concept. Pour diverses
raisons, les résultats obtenus avec notre échantillon ne concordent pas avec ceux
obtenus lors de la validation de l’instrument. Quelle que soit l’alternative
envisagée, les résultats vont en subir le contrecoup. Cependant, lorsqu’on
comprend la signification d’une validation, en quoi elle consiste, le chercheur
peut continuer ses travaux de recherche et interpréter ses résultats en fonction de
la décision qu’il aura prise à ce sujet. Un instrument validé ne l’est pas partout et
pour toujours : il reflète le profil d’un échantillon particulier. Lorsqu’on
l’applique à un autre groupe, on décèle parfois d’importances différences.
Malgré tout, il existe bien des instruments qu’on a rodés au point de conserver
une surprenante stabilité à travers les échantillons.
Cohen, Jacob (1990). Things I have learned (so far). American Psychologist, 45, 1304-12.
Helberg, Clay (1995). Pitfalls of data analysis (or how to avoid lies and damned lies). Paper
presented at The Third International Applied Statistics in Industry Conference in Dallas, TX.
[En ligne]. Disponible.
http://my.execpc.com/~helberg/pitfalls/
Kritzer, Herbert M. (1996). The data puzzle: The nature of interpretation in quantitative
research. American Journal of Political Science, 40, February, 1-32.
Roberts, J. K. & Henson, R. K. (2002). Correction for bias in estimating effect sizes.
Educational and Psychological Measurement, 62, 241-253.