Vous êtes sur la page 1sur 47

Bruno Marien et Jean-Pierre Beaud

GUIDE PRATIQUE POUR L'UTILISATION


DE LA STATISTIQUE EN RECHERCHE :
LE CAS DES PETITS CHANTILLONS

Rseau Sociolinguistique et dynamique des langues


Agence universitaire de la Francophonie
Qubec
Mai 2003

Prface
Depuis sa cration en 1993, le rseau Sociolinguistique et dynamique des langues
de lAgence universitaire de la Francophonie sest donn, entre autres objectifs, celui de
produire du matriel scientifique et des manuels lintention de ses membres. Le rseau a
dj publi les ouvrages suivants :

Marie-Louise Moreau, Sociolinguistique: Concepts de base, Mardaga, 1997;


Robert Chaudenson, L'valuation des comptences linguistiques en franais,
Didier rudition, Paris, 1996;
Pierre Dumont et Bruno Maurer, Sociolinguistique du franais en Afrique
francophone, gestion d'un hritage, devenir d'une science, EDICEF, 1995;
Robert Chaudenson, Vers un outil d'valuation des comptences linguistiques en
franais dans l'espace francophone, Didier rudition, Paris, 1995;
Cl. Bavoux, Franais rgionaux et inscurit linguistique, Paris, L'Harmattan,
1996;
Pierre Dumont et Louis-Jean Calvet, Mthodologie de l'enqute sociolinguistique,
Paris, L'Harmattan, 2000.

Lors de sa dernire runion en mai 2003, le comit du rseau a constat que plusieurs
dossiers envoys en rponse son troisime appel collaborations passaient sous silence
ou traitaient trop rapidement certaines questions mthodologiques comme la constitution
de lchantillon servant lenqute ou le plan danalyse statistique. Le comit a jug quil
serait trs utile de produire un petit guide sur lutilisation des chantillons et de la
statistique en sociolinguistique, sujets jusque-l peu traits dans des publications en
langue franaise. Lorsque les enqutes sociolinguistiques peuvent se permettre davoir
recours des chantillons substantiels, comparables ceux quutilisent les instituts de
sondage dans leurs enqutes dopinion (1 000 enquts et plus), la situation est
relativement simple puisque nous disposons dune mthodologie qui a largement fait ses
preuves et que nous pouvons facilement (ou relativement facilement) solliciter laide
dexperts en la matire. Mais la situation de la sociolinguistique est particulire du fait
que nos enqutes recourent souvent des petits chantillons, voire des microchantillons. Se posent alors la question de la reprsentativit de ces petits chantillons et
des gnralisations que nous pouvons faire partir deux. Cest ce terrain encore
largement en friche que le comit de rseau a demand aux professeurs Bruno Marien et
Jean-Pierre Beaud de commencer dbroussailler. M. Marien est charg de cours au
dpartement de science politique de lUniversit du Qubec Montral, o il enseigne les
statistiques, et il a contribu mettre sur pied lInstitut national de la statistique du CapVert; en plus de plusieurs emplois dans le secteur priv, il a aussi travaill Statistique
Canada, le grand institut de statistique du gouvernement canadien, o il a coordonn
lintgration des mthodes statistiques lintrieur du programme de tldtection.
M. Beaud est directeur du dpartement de science politique de lUQAM; il est lauteur
dun texte sur les techniques dchantillonnage et il travaille activement sur lutilisation
des statistiques en sciences humaines. Vous trouverez, dans la prsente brochure, la
synthse quils ont produite.

ii

Le document que nous publions aujourdhui pourrait donner lieu une deuxime
dition si vous, sociolinguistes engags dans la recherche sur le terrain, nous faites
connatre vos commentaires, remarques, critiques et besoins. Nous pourrons ainsi
produire une version plus toffe, susceptible de rpondre encore mieux vos besoins. Il
faut donc considrer le prsent texte comme un document de travail perfectible.
Le comit de direction du rseau Sociolinguistique et dynamique des langues souhaite
profiter des prochaines journes scientifiques qui doivent runir Ouagadougou,
vraisemblablement en septembre 2004, tous les rseaux de langue de lAgence
universitaire de la Francophonie pour organiser des journes de formation. Ces journes
de formation doivent rpondre aux besoins des membres et nous vous invitons nous les
communiquer ladresse lectronique du rseau (qui est donne plus bas). Le comit de
rseau propose daborder les thmes suivants au cours des journes de formation : les
petits chantillons, les statistiques descriptives et lutilisation des tests statistiques. Cette
formation sera dautant plus profitable que vous nous aurez fait connatre auparavant vos
besoins.
Au nom des membres du comit de direction du rseau Sociolinguistique et
dynamique des langues, Mme lisa Rafitoson, MM. Ahmed Boukous, Pierre Dumont,
Jean-Marie Klinkenberg, Bruno Maurer et Auguste Moussirou-Mouyama, je vous
souhaite bonne lecture.
Jacques Maurais
Coordonnateur
Rseau Sociolinguistique et dynamique des langues
Agence universitaire de la Francophonie
Courriel du rseau : sdl@refer.org
Qubec, le 23 mai 2003

iii

Premire partie : lments de base sur les chantillons en statistique


Introduction
Combien de personnes devons-nous interroger pour quune enqute soit
crdible? Voil certes la question que tout chercheur se pose avant
dentreprendre une dmarche quantitative. On retrouve galement la mme
interrogation dans l'esprit des lecteurs de cette mme recherche. Ces derniers
peuvent en effet remettre en question les conclusions d'une tude parce qu'un
trop petit nombre de personnes, leurs yeux, ont t interroges ou encore
cause d'une certaine faiblesse mthodologique dans la constitution de
lchantillon. La question du nombre de rpondants n'est, en effet, qu'un des
lments qu'il faut considrer dans le processus d'enqute. En plus de la
question du nombre de rpondants, il est appropri de sinterroger sur la manire
de choisir ces derniers, sur lutilisation faire des donnes recueillies et sur le
type danalyse privilgier. Toutes ces dimensions auront un impact sur les
rsultats dune recherche qui se base sur une enqute. Plus encore, l'application
de certaines rgles de base permet de rpondre avec confiance la question
Comment,

partir

dun

petit

nombre,

pouvons-nous

extrapoler

sur

lensemble?
Nous comprenons qu'une utilisation abusive et techniquement faible de la
statistique et, dans le cas qui nous occupe ici, la manire de recueillir les
informations peuvent remettre en question les rsultats de travaux qui autrement
pourraient contribuer grandement lavancement de la connaissance.
Lobjectif de ce document est donc de fournir un guide, un support
technique, quant la manire dutiliser loutil statistique, notamment en ce qui
concerne lchantillonnage et plus particulirement les petits chantillons. Les
petits chantillons demeurent un sujet peu trait dans les manuels de
statistiques. Ce sont surtout les techniques d'analyse partir d'un nombre

restreint d'observations qui ont fait l'objet d'une rflexion. Cependant, pour
comprendre comment appliquer ces techniques, il est essentiel de bien matriser
les principes de base de l'approche statistique. Nous avons donc jug opportun
de faire un retour sur ces principes avant d'aborder le sujet plus prcis de
l'utilisation des petits chantillons.
Ce texte sadresse principalement aux personnes pour qui la statistique ne
reprsente pas leur domaine d'expertise. Nous avons voulu simplifier et
dmystifier la technique dchantillonnage afin que tous puissent maximiser
lutilisation de cet outil important. Comme son titre lindique, ce document est
plus un guide qu'un texte technique. C'est pourquoi nous avons limit, dans la
mesure du possible, les notations algbriques. Ce texte sert essentiellement
mettre en lumire les principes de base dans lapplication de la statistique,
notamment au chapitre de lchantillonnage.
Objectif de la statistique
La statistique sert, entre autres, dcrire, comprendre et estimer (ou
projeter) une situation. Les outils statistiques et les techniques danalyse
particulires varieront en fonction de lobjectif poursuivi.
Lorsque lon travaille partir dun chantillon, la statistique descriptive
rend simplement compte des observations faites partir de cet chantillon. On
tente de comprendre une situation lorsque l'on est en mesure d'expliquer les
diffrences observes dans lchantillon au moyen de variables qui expliquent
ces diffrences : par exemple, on observe la prsence dans une population de
personnes unilingues et de personnes bilingues et les variables servant
expliquer le phnomne peuvent tre nombreuses (niveau de scolarit, prsence
de mdias en une autre langue, etc.). Enfin, on projette sur l'ensemble de la
population lorsque les donnes dun chantillon permettent de gnraliser sur
l'ensemble de la population. Il faut donc prendre les moyens pour sassurer

que

lchantillon

est

reprsentatif

avant

de

faire

cette

opration

de

gnralisation.
Cependant, les statistiques n'auront de sens que si les donnes utilises
sont crdibles. Pour cela, il faut que le nombre dobservations soit suffisant et
fiable. Les personnes ou lments qui seront utiliss dans ce contexte doivent
donc tre reprsentatifs de lensemble de la population ltude. On parle
dchantillon lorsque lon tudie une partie plutt que la totalit d'une
population dans le cadre d'une enqute. Si l'chantillon est bien construit et,
surtout, sil est reprsentatif de l'ensemble dont il est issu, il devient alors
scuritaire dutiliser les donnes dans une dmonstration. En fait, l'opration
statistique, par la mdiation d'un chantillon, vise rduire l'erreur de dcision
que l'on commet lorsque l'on prsente un rsultat. Cette notion d'erreur demeure
omniprsente dans l'application de la statistique.
La dmarche statistique (ou quantitative) comporte trois grands axes : la
quantification, l'analyse et l'interprtation. Ces trois axes sont intimement lis
entre eux. La quantification reprsente l'tape o on traduit une question
scientifique (laspirine peut-elle contribuer rduire les risques dattaque
cardiaque?) en un problme scientifique (les conditions objectives de
lutilisation de laspirine dans la prvention des crises cardiaques). C'est de
cette tape quil est question dans le prsent texte. L'analyse reprsente
l'application de techniques essentiellement mathmatiques qui mettent en
vidence certaines particularits des valeurs mesures. Enfin, l'interprtation sert
tirer des conclusions scientifiques des rsultats de l'analyse statistique1.
Les trois tapes mentionnes dans le paragraphe prcdent sont
intimement lies. Cependant, l'analyse statistique, notamment lorsquil est
question d'un petit nombre d'observations, est particulirement dlicate. Mais

Ce paragraphe est inspir de Jacques Allard, Concept fondamentaux de la statistique, Montral, AddisonWesley, 1992.

que l'on compte sur un grand nombre d'observations ou sur peu d'lments, les
principes dchantillonnage demeurent les mmes. C'est pourquoi nous avons
cru ncessaire dinsister sur les points fondamentaux de l'chantillonnage. Nous
savons par ailleurs que les chercheurs, et les diteurs de revues scientifiques,
prfrent travailler avec un niveau de confiance lev par rapport leurs
rsultats. On exige souvent un niveau de confiance de 95 %. C'est--dire que le
chercheur dsire tre sr 95 %, ou 19 fois sur 20, de ne pas commettre
d'erreur dans les chiffres qu'il propose. Cela demande une approche rigoureuse,
notamment lorsque le chercheur ne dispose pas d'un grand nombre de sujets
tudis.
Dcrire, comprendre et projeter
Lorsque l'objectif d'une recherche est simplement de dcrire une situation
ou un ensemble de donnes, il est d'usage d'utiliser la statistique descriptive. La
statistique descriptive se distingue de l'infrence statistique qui vise, elle,
extrapoler sur la population entire les rsultats d'une enqute portant sur un
chantillon.
On dcrit une situation par le biais de statistiques qui, en un chiffre ou
groupe de chiffres, rsument une situation, un tat ou un problme. Par exemple,
l'ge moyen des lves dune classe est une valeur qui rsume lge de tous les
membres dans cette classe. La moyenne est la valeur qui permet de trouver un
quilibre entre toutes les valeurs dun groupe (ou dun groupe dobjets). Lorsqu'il
devient impossible d'interroger toutes les personnes qui composent une classe,
nous utiliserons une fraction des personnes prsentes. Le rsultat obtenu sera
par la suite utilis pour reprsenter tous les membres. L'chantillon, la fraction,
sert donc dcrire l'ensemble, la population.
Il existe trois mesures de tendances centrales : la moyenne, la mdiane et
le mode. Ces mesures servent reprsenter l'ensemble de toute la population.

Cependant, lutilisation de ces mesures peut parfois prter confusion. Prenons


lexemple suivant :
Il y a dans une classe 50 % de filles et 50 % de garons. Il y a donc autant
de filles que de garons. Lge moyen est de 18 ans. La classe est donc
compose dlves qui gravitent autour de cette moyenne. Lge mdian, lge
qui spare en deux parties gales toutes nos observations, est galement de 18
ans. Nous pourrions dire alors que lge des lves est relativement similaire
pour tous. Ltude conclut que nous observons une classe relativement
homogne au niveau de lge. Mais voil, la classe nest compose que dun
garon et dune fille dont lge est respectivement de 22 et de 14 ans. Nous
avons effectivement 50 % de garons et 50 % de filles. Lge moyen et mdian
est effectivement de 18 ans. Cependant, ces informations ne rendent pas
compte de la ralit.
Mme si cet exemple semble extrme, il montre que lutilisation parfois
abusive, et simpliste, des statistiques peut davantage nuire une bonne
comprhension dune situation qu lclairer. Comment expliquer cette mauvaise
utilisation des chiffres? Premirement, nous navions pas dfini notre population.
De qui parlions nous? Une classe? Mais une classe de quoi? Pourquoi
seulement deux personnes taient-elles dans la classe? Pourquoi avoir
transform en pourcentage ces deux observations? Il est vident que si nous
avions mentionn un garon et une fille plutt que 50 % et 50 %, la raction du
lecteur et t diffrente. Cest galement pourquoi un statisticien, ou une
personne sensible aux lments quantitatifs, demeure prudent lorsquil est
question de pourcentage. On doit toujours sinterroger sur le nombre total utilis
pour calculer les pourcentages, la moyenne, la mdiane ou le mode. Mieux, il
faut, dans un premier temps, dfinir prcisment la population tudie. Il est
insuffisant de dire quune tude porte sur les classes. De quelle classe s'agit-il? Il
faut galement prciser si ltude porte sur les lves masculins et fminins, en
milieu urbain et rural, etc. Dans un tel cas, la simple description sera insuffisante.

Il faudra dterminer si les deux sexes, si les urbains et les ruraux se comportent
de la mme faon. ce moment, loutil statistique nous permettra de
comprendre si les lves se comportent de la mme faon ou si, au contraire,
ils sont diffrents et, surtout, pourquoi ils sont diffrents. Finalement, si les
rsultats doivent servir projeter sur lensemble de la population des lves, les
outils statistiques devraient permettre dextrapoler et de valider des thories.
Aussi une mauvaise dfinition du sujet de ltude, une mauvaise
planification ainsi que des choix douteux quant la slection des individus
peuvent venir invalider les conclusions dune tude qui autrement pourrait tre
parfaitement valable. La racine d'une tude statistique rside dans la manire de
recueillir l'information. Le nombre de sujets inclus dans l'tude nous permet
d'tre plus prcis et d'examiner plus de questions.
Ce quil faut retenir de lexemple prcdent, cest que la justesse dune
situation dpend largement de la comprhension de la population tudie.
Remarquez que le nombre de personnes retenues pour faire lvaluation est
assurment trop petit. On ne peut en effet tirer de conclusions partir dun si
petit nombre. Le mme principe sapplique pour la slection des personnes qui
feront partie de notre chantillon. La slection des personnes influencera les
rsultats que nous obtiendrons et, par consquent, les conclusions que nous en
tirerons. Cela sera d'autant plus vrai lorsque le nombre de personnes interroges
sera relativement petit. Des donnes aussi simples que la moyenne, la mdiane
et les pourcentages peuvent nous entraner vers une fausse perception de la
ralit lorsquelles sont mal employes.
Comme nous avons pu le constater, une description sommaire, si elle
nest pas contextualise, peut entraner une perception qui est loin de la ralit.
La mme chose peut se produire lorsque lon veut comprendre une situation.

Pour une tude sociolinguistique, il devient alors important de bien cerner


l'objet. Il ne suffit pas d'interroger beaucoup de monde mais d'interroger des
personnes en fonction d'un plan d'analyse statistique prdfini.
Population, chantillon et le langage des statistiques
La statistique utilise un langage qui lui est propre. Le statisticien parle
algbre et lalgbre a ses propres rgles de grammaire . Bien quil ne soit pas
ncessaire de parler algbre pour faire des statistiques, quelques notions de
base sont utiles, notamment lors de la manipulation d'un petit nombre
d'observations2. Mais, comme dans toutes les langues, des exceptions existent.
Nous soulignerons ces exceptions dans le texte.
Il est essentiel, dans un premier temps, de bien dfinir la population
l'tude. Une population, dans le sens statistique du terme, est un ensemble
d'individus ou d'units statistiques qui composent la totalit de l'univers qui est
tudi. Si l'tude porte sur les jeunes de 15 18 ans, alors la population sera
tous les jeunes de 15 18 ans. Si l'tude porte sur les jeunes de 15 18 ans
d'un continent, alors la population sera tous les jeunes de 15 18 ans de ce
continent et ainsi de suite. Une population peut tre trs circonscrite ou trs
gnrale. Il est cependant primordial, d'un point de vue statistique, de bien
connatre cette population afin d'tablir le plan chantillonnal optimal. Plus la
population aura des caractristiques diffrentes, plus il sera difficile d'utiliser des
tests statistiques propres aux petits chantillons. L'analyse partir de petits
chantillons sert surtout examiner des points trs prcis et non des gnralits.
L'chantillon, pour sa part, ne compte que sur une partie de la population.
On utilise un chantillon lorsquon dsire connatre les caractristiques dune
population mais quil est trop difficile, pour des raisons pratiques ou financires,

Essentiellement, la statistique utilise une notation base de lettres grecques et latines. En gnral, les
lettres grecques reprsentent les chantillons et les lettres latines les populations.

dinterroger lensemble de cette population3. Il sagit donc dans un premier temps


de dterminer si lenqute touchera lensemble de la population ou une partie
seulement. Il est important de dterminer si les personnes interroges
reprsentent bien la population gnrale ou une sous-population. Il est en effet
possible que la population se subdivise en sous-populations. Dans un tel cas,
lchantillon devra tenir compte de cette caractristique. Une sous-population
peut tre dfinie en fonction du sujet tudi. Par exemple, si ltude porte sur
lutilisation de certaines expressions, il est possible que ces expressions soient
conditionnes par le lieu de rsidence (urbain vs rural), l'origine sociale, le sexe,
le pays d'origine, etc. Dans un tel cas, nous serions en face de sous-populations
ayant des caractristiques propres. Si l'objectif de la recherche est d'valuer les
diffrences d'origine sociale ou territoriale du locuteur, on doit alors envisager la
constitution dun chantillon de plus grande taille. Si, au contraire, l'tude se
prte bien un environnement contrl4, un plus petit chantillon pourrait
alors tre utilis.
Il est donc essentiel de bien dfinir la population et les sous-populations
qui composent notre champ d'tude. Il est galement important dtablir si le
chercheur dsire dcrire les caractristiques dune population, ou dune souspopulation, de comprendre les raisons du comportement de cette population ou
encore de projeter sur lensemble de toute la population, ou des souspopulations, le comportement ventuel des personnes qui la composent. La cl
rside dans l'chantillonnage et dans la technique d'analyse.

Dans le cas o tous les lments dune population sont slectionns on parle dun recensement.
Un exemple d'un environnement contrl serait une valuation qualitative d'une raction physique
(mouvement des yeux, expression gnrale du visage, etc.) lorsqu'un sujet est soumis des expressions
linguistiques particulires. L'valuation se fait alors en fonction de la raction et en rapport avec la
connaissance ou l'absence de connaissance pralable de l'expression. En sociolinguistique, un exemple-type
serait la technique du matched guise ou locuteur masqu.

La taille de lchantillon
Combien de personnes devons-nous interroger? Afin de rpondre cette
question, il est essentiel de sinterroger sur la raison dtre de lenqute. En fait, il
existe deux faons denvisager la question. Voulons-nous brosser un tableau
gnral de la situation (mme de faon approximative) ou obtenir des donnes
minutieuses et prcises? La taille de lchantillon est donc tributaire de la
prcision recherche. Il est donc plus juste de se demander : Quelle est la taille
de lchantillon qui assure un niveau de prcision acceptable pour les fins de la
recherche? . Plus spcifiquement, il s'agit d'valuer si la prcision recherche
est pour une moyenne (le fumeur moyen a 30 ans), un total (un million de
fumeurs), une proportion (60 % des fumeurs sont des femmes) ou un effectif
(il y aura 1,2 millions de fumeurs dans deux ans). Il faut donc s'interroger sur
les besoins de la recherche afin d'appliquer correctement le test le plus
appropri. Le rsultat recherch doit-il tre prcis un dixime de point prs ou
serions-nous satisfaits d'un cart de plus ou moins 3 %?
Il existe un principe voulant que la taille de lchantillon est indpendante
de la taille de la population en ce qui concerne lerreur chantillonnale5. Par
exemple, un chantillon de 500 personnes pour une cole de 3 000 lves, une
ville de 100 000 habitants ou un pays de 25 millions dhabitants offre la mme
erreur chantillonnale dans chacun de ces trois cas.
La taille de lchantillon dpend de plusieurs autres facteurs. Nous en
examinerons deux. Le premier est la marge derreur que nous sommes disposs
tolrer. Le deuxime facteur porte sur la connaissance statistique pralable de
5

Lerreur dchantillonnage est la variation observe, et due au hasard, entre les chantillons. partir
dune mme population, il est possible de tirer plusieurs chantillons. Chaque chantillon donnera un
rsultat diffrent. Toutefois, lcart entre les chantillons ne variera qu lintrieur dune fourchette dont le
pourcentage est dtermin par la taille de lchantillon. Si on examine la note mthodologique des sondages
publis dans les quotidiens et les magazines, on peut lire une formule du genre : Pour une enqute de cette
taille, lerreur chantillonnale ne scartera pas de plus ou moins 4 % (ou 3,5 % ou 5 %, etc.) dix-neuf fois
sur vingt. Cela signifie que, si lon prend 100 chantillons de la mme population, il est possible que cinq
de ces chantillons scartent de la marge derreur de 4 % (ou de 3,5 % ou de 5 %, etc.).

la population enqute, connaissance qui peut provenir de recensements,


denqutes dopinion, etc.

Diffrences de taille dun chantillon pour une population finie et infinie


Du point de vue statistique, une population finie est une population dont
on connat la taille au dpart et elle est gnralement petite (par exemple, les
200 lves dune cole). Une population infinie est une population dont on ne
connat pas la taille exacte ou qui est relativement grande (par exemple, tous les
lves du Qubec).
Lorsque la population ltude est petite6, la taille de lchantillon peut
tre plus petite tout en conservant la mme marge derreur que pour une
population plus grande. Mais nous devons alors appliquer un facteur de
correction.
Par exemple, nous avons une population dlves de 200 personnes.
Nous ignorons les caractristiques de cette population, donc lcart-type est
inconnu. Nous dcidons daccepter une marge derreur de + ou 5%. Pour
dterminer le nombre des rpondants ncessaires, nous appliquons ensuite la
formule n = 1 / E2, cest--dire la taille de lchantillon (n) est gale linverse de
lerreur (E) au carr. Comme nous avons dtermin que lerreur acceptable
serait de 5 %, nous avons donc :
n = 1 / 0,052 ; n = 1 / 0,0025; n = 400.
Nous avons donc besoin de 400 rpondants. Avec ce nombre, les
rsultats ne scarteront pas de plus ou moins 5 %, 19 fois sur 20 (ou 95 % des
6

Pour dterminer si la population est petite, on applique la rgle du 7 . On multiplie la taille de


lchantillon calcul par 7. Si le rsultat est plus petit que la taille de la population, on applique le facteur
de correction. Par exemple, si mon chantillon est de 200, il faut que la taille de la population soit dau
moins 1 400.

10

fois). Comme ma population de 200 lves est infrieure la taille de mon


chantillon, je dois appliquer le facteur de correction. Ce dernier suit la formule
suivante :
n' = N X n
N+n
O n' = l'chantillon corrig
N = la taille de ma population (ici : 200 lves)
n = la taille de l'chantillon (ici : 400 rpondants)
Donc, ici n' = 200 X 400 / 200 + 400 = 80 000 /600 = 133
Nous avons donc besoin de 133 rpondants.
Cette dmarche doit tre adopte si nous utilisons des tests statistiques
qui extrapolent les rsultats lensemble de la population.
Par exemple, si je dsire estimer l'ge moyen des rpondants, disons 18
ans, et lextrapoler lensemble de la population, ce rsultat peut varier de + ou
0,9 ans (5 % de 18 ans). Ma moyenne dge se situe donc entre 17,1 ans et
18,9 ans.
Remarquez que nous parlons ici du nombre de rpondants. Le nombre de
personnes contacter est habituellement plus grand que le nombre de
rpondants. Car, moins dune enqute trs cible, il est possible que certaines
personnes slectionnes ne se qualifient pas pour notre recherche. Par exemple,
le professeur dans une classe ne se qualifierait pas pour faire partie dune tude
sur le comportement linguistique des lves. Cependant, le professeur fait partie
intgrante de la classe. Dans un cas comme celui-l, il est relativement facile
dexclure le professeur du bassin. Ou encore si ltude porte sur lutilisation de

11

certaines expressions franaises chez les lves dont la langue maternelle nest
pas le franais, il est important dexclure les lves de langue maternelle
franaise de nos rpondants. Ces derniers viendraient fausser les rsultats. Si la
classe slectionne est mixte, lve de langue maternelle franaise et lves
ayant le franais comme langue seconde, et que nous ne pouvons, pour une
raison ou une autre, dpartager lorigine linguistique des lves, il est alors
possible que des personnes qui ne se qualifient pas dans notre population
ltude soient malgr tout slectionnes mais il faudra les liminer7. Si le nombre
de rpondants a t tabli 400 personnes, il faut slectionner plus de monde
dans notre chantillon pour tenir compte de ces lves que nous devrons exclure
de lchantillon par la suite. De plus, il est possible que certains lves refusent
de participer ltude. En dautres termes, ill faut tenir compte du taux
dincidence et du taux de refus.
Le taux dincidence
Dans notre exemple, le taux dincidence reprsente le pourcentage des
lves qui satisfont aux critres de ltude sur le nombre total des lves dans la
classe. Disons que la moiti (50 %) des lves ont une langue maternelle autre
que le franais et que nous dsirons 400 rpondants. Il faudra slectionner 800
lves pour obtenir nos 400 rpondants puisque, sur les 800 lves
slectionns, 400 auront comme langue maternelle le franais.
Le taux de refus
Nous savons donc quil faut slectionner 800 lves pour obtenir nos 400
rpondants. Mais est-ce que tous ces lves vont rpondre? Sils ne rpondent
pas tous, nous serons en dficit. Il est donc essentiel destimer au pralable le
nombre dlves qui, croyons-nous, refuseront de participer lenqute. Cette

Pour ce faire, on peut utiliser des questions-filtres (dans notre exemple, ce serait : quelle est votre langue
maternelle?).

12

estimation est base la fois sur lexprience, le lieu du droulement de


lenqute et les particularits des questions.
Il est vident que, si lenqute a lieu dans des coles o les lves sont
obligs de rpondre, le taux de rponse sera probablement de 100% et il ny
aura pas de problme. Cependant, si lenqute porte, par exemple, sur des
expressions religieuses et que certains lves (disons que notre classe est
multiconfessionnelle) refusent de rpondre pour des raisons justement
religieuses, il est possible, malgr lobligation faite par la direction de lcole, que
des lves refusent de participer lenqute. Aussi, pour aboutir au nombre de
rpondants calcul au point de dpart, il faudra tenir compte de ces refus. Dans
notre exemple si 10 % des lves qui se qualifient pour lenqute refusent de
rpondre, il faudra alors slectionner 90 lves de plus8.
Quarrive-t-il si la taille de lchantillon est petite?
Lorsque la taille de lchantillon est petite, la marge derreur est alors plus
grande. Sauf quil est possible dutiliser des tests spcifiques pour compenser.
On trouve des petits chantillons dans le cas dtudes mdicales ou lorsque le
cot de lenqute est lev. Le premier critre retenir est lhomognit de la
population ltude ainsi que de lchantillon et le contrle du champ
exprimental. Quand des petits chantillons sont utiliss, c'est surtout la
pertinence de l'utilisation de certains tests statistiques qui est importante. Les
tests t, dont le plus connu est le t de Student9, sont cet gard des plus utiles.

En effet, sur 90 lves la moiti (45) seront de langue maternelle autre que le franais. Nous aurions donc
445 lves dans notre chantillon. 10 % de ces derniers refuseraient de participer (44,5 lves) quil faut
arrondir 45. Ainsi 445 moins 45 refus nous donne 400 rpondants.
9
Le t de Student fut dvelopp par William Gosset qui travaillait pour la brasserie Guiness. Il tait
responsable du contrle de la qualit et devait travailler partir dchantillons de la production. Gosset ne
pouvait travailler avec de gros chantillons. Gosset a donc dvelopp un test lui permettant de comparer les
diffrents chantillons. Gosset a publi sous le pseudonyme Student, pour tudiant, puisquil lui tait
interdit par son employeur de publier sous son nom.

13

Le cas particulier des micro-chantillons


On utilise des micro-chantillons lorsque la cueillette de linformation est
difficile ou coteuse ou encore lorsque la population est trs petite. Nous
retrouvons entre autres cette situation dans des recherches mdicales, en
biostatistique ou en psychologie. Il est prfrable davoir recours au moins
deux micro-chantillons, surtout pas un seul.
Lutilisation de micro-chantillons ne cre pas de problme en soi. Ce sont
surtout les tests statistiques utiliss pour valider linformation qui sont importants.
En effet, si lchantillon est petit, limpact de chacun des lments de cet
chantillon peut tre significatif surtout si une variation importante est observe.
Il faut donc respecter lhomognit des observations et utiliser les tests
appropris. On considre un chantillon comme micro lorsque le nombre est
infrieur 20 (certains auteurs disent 30).
Ainsi, partir de micro-chantillons, il est possible d'effectuer des calculs
qui viennent examiner la variabilit des rponses et dterminer si oui ou non il
existe un lien ou une association statistique significative. Le choix de ces tests
demeure conditionn par le type d'tude effectu et l'objectif recherch. De plus,
il est possible de calculer a posteriori quelle aurait d tre la taille de l'chantillon
au dpart laide dun test de puissance.
Les diffrents types dchantillons
Il existe plusieurs mthodes pour slectionner les personnes qui serviront
rpondre aux objectifs dune recherche. Essentiellement, les chantillons se
regroupent en deux grandes familles: les chantillons non probabilistes et les
chantillons probabilistes.

14

Les chantillons non probabilistes


Un chantillon non probabiliste est un chantillon qui noffre pas tous les
membres de la population une chance gale, ou pr-dtermine, dtre
slectionns. La probabilit de slection dun membre de la population est donc
inconnue. Il devient alors impossible de calculer la prcision des rsultats ainsi
obtenus et d'utiliser les rsultats pour extrapoler sur l'ensemble de la population.
Cette impossibilit rside essentiellement dans le fait qu'il est possible que les
rpondants peuvent ne pas tre reprsentatifs de la population.
Baser une enqute sur des donnes recueillies auprs d'individus qui
connaissent un chercheur est un exemple dun chantillon non probabiliste. En
effet,

les

personnes

que

le

chercheur

connat

ne

reprsentent

pas

ncessairement lensemble de la population. Il faudrait donc conclure d'une telle


tude que les personnes qui connaissent le chercheur se comportent d'une
certaine manire mais on ne pourrait pas gnraliser lensemble de la
population.
Lutilisation dune cole, cause de sa proximit ou parce que le directeur
est un intime du chercheur, entre dans la dfinition dun chantillon non
probabiliste. Le choix d'une classe, parce que le fils ou la fille du chercheur y est
inscrit, nest pas ncessairement reprsentatif de lensemble des classes de
l'cole. Le choix d'un groupe d'amis l'intrieur de la classe entre galement
dans la catgorie d'un chantillon non probabiliste.
Lchantillon volontaire est un autre type d'chantillon non probabiliste.
Dans une classe, un chantillon volontaire serait form de toutes les personnes
qui se disent intresses participer l'enqute. Il faut de demander si ces
personnes ont les mmes caractristiques que celles qui dcident de ne pas
participer.

15

Il est toutefois possible et lgitime dutiliser un chantillon non probabiliste


pour valider un questionnaire, notamment au niveau de la comprhension des
questions ou encore pour calculer le temps dadministration ou de traitement.

Les chantillons probabilistes


Un chantillon est considr comme probabiliste lorsque la probabilit
d'tre choisi est connue pour tous les membres d'une population. Il est alors
possible d'effectuer des calculs afin de mesurer l'exactitude des rsultats de
l'enqute.
Il existe plusieurs mthodes d'chantillonnages probabilistes. Nous en
examinerons les principales.
L'chantillon alatoire simple
Lchantillonnage alatoire simple consiste slectionner les rpondants
au hasard partir dune population. Dans ce cas, chaque membre de la
population a une chance gale dtre slectionn. On peut illustrer cette mthode
de la faon suivante: le nom de toutes les personnes faisant parti dune
population se retrouvent lintrieur dune immense cuve. Aprs avoir dtermin
le nombre de personnes ncessaires pour lenqute, on pige au hasard le
nombre de noms de cette cuve. Cest le mme principe quun tirage de tombola
o tous les billets participants se trouvent lintrieur dun baril de tirage. Sil y a
10 000 participants, vous avez une chance sur 10 000 que votre billet soit tir si,
bien entendu, chaque participant na quun seul billet. Sil y a 500 gagnants ,
les 500 noms tirs reprsenteraient ainsi un chantillon. Nous pourrions, partir
de cet chantillon, estimer lge, le sexe, le revenu ou toute autre variable
pertinente des participants en partant du principe que le hasard sera
reprsentatif de la population l'intrieur d'une certaine marge. En prenant soin

16

de remettre dans le baril les 500 premiers gagnants et en rptant lexercice,


nous aurions un deuxime chantillon de 500 personnes. Il est fort probable,
toutefois, que lge moyen de ce deuxime chantillon sera diffrent du premier.
Mais cet cart, comme nous lavons vu prcdemment, ne variera que du
pourcentage dj tabli par la taille de lchantillon : cest--dire que lcart se
situera lintrieur de la marge derreur. Dans notre exemple, un chantillon de
500 personnes nous donne une marge derreur de + ou 4,47 % (on peut
arrondir 4,5 %). En fait, lensemble de tous les chantillons possibles nous
donnerait la vraie moyenne de la population.
Lchantillon alatoire systmatique
Ce type dchantillon est simple et sutilise lorsque nous avons affaire
une population captive ou si nous disposons d'une liste des membres qui la
composent10. Les lments sont choisis d'une faon systmatique selon le
nombre de personnes devant tre slectionnes. Par exemple, nous dsirons
slectionner 100 personnes et notre liste contient 1 000 noms. Nous prenons un
chiffre au hasard entre 1 et 10, puisque 1 000 divis par 100 donne dix, ceci
reprsente le pas de sondage. Disons que nous avons choisi au hasard le
chiffre 5. Nous slectionnons la cinquime personne sur la liste puis toutes les
dix personnes qui suivent. Aussi, les personnes choisies seraient la 5e personne
de la liste, la 15e, la 25e et ainsi de suite. Toutes les personnes, au dpart,
avaient une chance gale d'tre slectionnes. En effet, nous aurions pu choisir
comme point de dpart la deuxime, troisime, dixime personne sur la liste.
Lchantillonnage par grappes
Lorsquune population se divise en plusieurs composantes semblables, ou
en sous-populations possdant des caractristiques similaires, on associe ces

10

Dans un tel cas, nous parlerions d'une base de liste. Le bottin tlphonique, la liste des lecteurs, la liste
des lves d'une cole reprsentent des exemples de listes.

17

populations des grappes. Dans le cas dune tude sur des coles, les coles
d'un quartier formeraient une grappe. Nous tenons pour acquis que toutes les
coles

d'un

mme

quartier

possdent

les

mmes

caractristiques

sociodmographiques. Alors, une cole de ce quartier pourrait reprsenter


l'ensemble des coles de ce quartier. On rpterait la mme procdure pour
l'ensemble des quartiers. Il est vident que, si un quartier n'est pas homogne, il
est hasardeux d'utiliser cette mthode.
La grappe peut tre complte ou partielle. Cest--dire quon peut dcider
de prendre tous les lves de lcole ou seulement une partie dentre eux. Dans
ce dernier cas de figure, il faudra videmment les choisir de faon alatoire.
Rappelons que l'chantillon par grappes ne peut donc tre utilis que
quand la population est homogne et quelle peut tre sous-divise. Lchantillon
par grappes permet une conomie dchelle, notamment dans les dplacements;
cest une procdure plus particulirement indique dans le cas dtudes
stendant sur un vaste territoire.
Lchantillonnage stratifi
Il y a une relation directe entre la prcision des rsultats dune enqute et
lhomognit de la population ltude. Il arrive parfois que des sous-population
soient plus homognes que la population elle-mme ou que des lments d'une
population ne reprsentent qu'eux-mmes. Dans ce cas, ces sous-populations
forment des strates.
Par exemple, dans une tude portant sur l'utilisation de certaines
expressions, il est possible que des tudes prliminaires aient dmontr que le
niveau d'instruction, l'ge et le revenu influencent le comportement. La slection
des rpondants se fera en fonction de ces strates. Les strates peuvent tre
simples, avec une seule variable, ou complexes, avec plusieurs variables.

18

Il faut donc retenir que les strates sont formes partir de certaines
caractristiques de la population et qu'une connaissance pralable de cette
dernire est ncessaire. Prenons lexemple dune tude qui porte sur les
tudiants dune ville. Supposons quil y a quatre universits dans la ville en
question. Les quatre universits se partagent deux langues denseignement. Il y
a deux universits de la langue A, que nous appelons universits A1 et A2, et
deux universits de la langue B, que nous appelons B1 et B2. La clientle des
quatre universits est galement diffrente. En effet, les tudiants de luniversit
A1 sont majoritairement inscrits dans des programmes scientifiques alors que
ceux de luniversit A2 sont majoritairement inscrits dans des programmes de
sciences humaines. Supposons que nous ayons le mme phnomne dans les
universits B1 et B2. Nous nous retrouvons donc avec une population gnrale
dtudiants. Cependant, si nous effectuons une recherche sur les tudiants de la
ville et que nous ne choisissons que les tudiants de luniversit A1, pouvonsnous lgitimement utiliser les rsultats et en dduire pour lensemble des
tudiants de la ville? Non, puisque les tudiants de luniversit A1 possdent des
caractristiques qui leur sont propres. Dans notre exemple, ces caractristiques
sont la fois linguistiques et dorientation acadmique. Mais si nous faisions une
tude sur lutilisation des termes techniques, nous pourrions alors affirmer que
chacune des universits forme une population qui est homogne.
Lchantillonnage

stratifi

ncessite

une

connaissance

statistique

pralable pouvant provenir des recensements. Ces derniers permettent


lidentification des strates et leur pondration.
Quotas
Les lments d'un chantillon par quota ne sont pas slectionns au
hasard mais en fonction d'un nombre prdtermin d'lments l'intrieur de
certaines catgories. Cette mthode est utilise par certains instituts de

19

sondage. Il s'agit de dterminer au dpart le nombre de personnes qui offrent


certaines caractristiques. Par exemple, 10 personnes de sexe masculin entre
18 et 24 ans, 15 femmes entre 25 et 34 ans etc. Le sondage par quota n'est pas
considr comme probabiliste. Cependant, lorsqu'il est intgr dans le cadre
d'un chantillonnage stratifi, il est possible de travailler partir de ses rsultats
de manire statistiquement fiable.
Cette mthode est pratique pour des recherches en marketing; son
application dans dautres champs dtudes est plus problmatique.
Les chantillons pairs
La mthode de slection est une tape importante. Cependant, il existe
d'autres moyens, notamment lorsqu'il est question de petits chantillons, de
maximiser l'utilisation du potentiel des rpondants. Le principal est l'chantillon
pair.
On entend par chantillon pair un chantillon dont les sujets rpondent
deux reprises aux questions. On examine alors la diffrence entre les rsultats.
Par exemple, on demande 20 personnes leur apprciation qualitative d'une
expression. Puis, aprs avoir fourni ces mmes personnes une explication de
la signification de cette expression, nous leur redemandons une nouvelle
apprciation qualitative. Chaque rpondant aura alors fourni deux rponses.
Nous nous attendons ce que les rponses soit lies, c'est--dire que le niveau
d'apprciation de l'expression volue dans un sens ou dans un autre. Les
chantillons pairs sont notamment utiliss pour des recherche trs spcifiques
et peuvent tre fort utiles avec de petits chantillons.

20

Conclusion
Que ce soit pour des petits chantillons ou pour des chantillons de plus grande
taille, il est important de respecter les tapes de la planification mthodologique.
Ces tapes sont :
1.

Dfinir la population ltude. Il est primordial de bien dfinir cette


population. La dfinition peut se faire au niveau rgional, au niveau de
lge, du sexe, etc.

2.

tablir les objectifs statistiques de lenqute. Voulons-nous simplement


dcrire une situation, comprendre les causes de la situation ou extrapoler
sur lensemble dune population partir dun chantillon?

3.

Dterminer le degr de prcision recherche.

4.

tablir les contraintes de lenqute. Taux dincidence, taux de refus.

5.

tablir la mthode dchantillonnage la plus approprie en fonction des


contraintes :
a) de temps;
b) de budget;

6.

Cots

7.

Dlai imparti

8.

Informations disponibles (recensements, enqutes antrieures, etc.).

21

Comme nous l'avons mentionn, la taille de l'chantillon peut avoir une


influence sur l'erreur que l'on commet lorsque l'on tente de projeter sur
l'ensemble de la population les rsultats d'une enqute. Il existe cependant un
moyen de contourner ce problme lorsque le chercheur est confront aux
contraintes des chantillons, petits ou grands. Il s'agit d'utiliser des tests
statistiques appropris. Le test Mann-Whitney, le t de Student ainsi que les
autres tests t sont particulirement utiles dans ces cas.
L'utilisation de petits chantillons est tout fait possible et pertinente mais
condition de respecter certains principes. La population doit tre homogne et
bien dfinie. L'tude ne doit pas porter sur des diffrences internes la
population mais plutt sur des lments prcis du sujet l'tude.

22

Deuxime partie : les tests statistiques


La cl: les tests utiliser
Au-del de l'chantillonnage, c'est l'utilisation des tests appropris qui est
la cl dans l'utilisation des petits chantillons. Des informations fort pertinentes
peuvent tre obtenues partir d'un petit nombre d'observations condition
dutiliser les tests adquats.
De plus, on associera pour chacune des catgories de variables une srie
de tests qui leur sont propres.
Variables (ou chelles) et valeurs
Du point de vue du traitement statistique, les variables peuvent prendre
quatre formes. Nous adoptons la dfinition suivante de variable : un concept
transform en outil de recherche et prsentant des modalits devant servir
classifier les observations s'y rapportant11.
Toutefois, il est essentiel de prciser quels sont les types de variables.
Mesurer et quantifier : les diffrents types de variables12
Il existe quatre types de variables: nominale, ordinale, intervalle et
mtrique.

11

Alain Gilles, lments de mthodologie et d'analyse statistique pour les sciences sociales, Montral,
McGraw-Hill, 1994, p. 30.
12
On trouve dans certains textes l'appellation chelle.

23

Les variables (ou chelles) nominales


Une variable nominale est de nature qualitative. Une variable est dite
nominale lorsque le chiffre associ chacune des possibilits de rponses une
question est arbitraire. Par exemple, les quartiers d'une ville sont des variables
nominales. L'ordre de traitement des quartiers est subjectif. Supposons qu'il y a
quatre quartiers dans une ville et que ces quartiers se nomment La Rose, La
Fleur, La Tulipe et La Jonquille. Pour des fins de traitements statistiques on
attribue une valeur chacun de ces quartiers, disons La Rose = 1, La Fleur = 2,
La Tulipe = 3 et La Jonquille =4. Nous aurions pu attribuer les valeurs suivantes:
La Rose = 2, La Fleur = 3, La Tulipe = 4 et La Jonquille =1. En fait, le chiffre
associ aux diffrents quartiers importe peu. C'est ce que l'on appelle une
variable nominale. Il suffit de retenir qu'il s'agit en fait d'un NOM. Le sexe
(masculin, fminin), les pays, les coles, le statut matrimonial, la religion sont
tous des exemples de variables nominales. En rsum, une variable nominale
est une variable dont on ne peut que nommer les catgories. D'un point de vue
statistique, il n'est pas possible d'effectuer d'oprations mathmatiques avec des
donnes provenant d'une chelle nominale. Nous ne pouvons donc additionner,
soustraire, multiplier ou diviser les rponses.
Les variables (ou chelles) ordinales
Les variables ordinales ont les mmes caractristiques que les variables
nominales, soit de nommer les catgories. Ce sont donc galement des
variables de nature qualitative. Toutefois, les variables ordinales classent les
personnes, les objets ou les vnements le long d'un continuum. Les catgories
des variables ordinales sont hirarchises, elles ont un ORDRE. Un diplme
doctorat est suprieur un diplme de premier cycle qui lui-mme est suprieur
un diplme dtudes secondaires, etc. Il existe donc un rapport d'ordre, une
hirarchie entre les catgories de la variable. Les chelles ordinales possdent
les deux caractristiques suivantes:

24

1)

elles sont antisymtriques. C'est--dire que la catgorie laquelle on a


assign une valeur, par exemple diplme universitaire = 4, ne peut pas
tre plus petite que les catgories qui la prcdent.

2)

Elles sont transitives. Si un diplme de fin dtudes secondaires (2) est


moins lev qu'un diplme de premier cycle universitaire (3) qui lui-mme
est moins lev qu'un doctorat (4), alors le diplme de fin dtudes
secondaires (2) est moins lev qu'un doctorat (4).13
Comme pour les variables nominales, il est possible de compter le nombre

de cas pour chacune des valeurs de la variable mais les oprations


mathmatiques de bases (addition, soustraction, multiplication et division) ne
sont pas appropries.

Les variables d'intervalles


Les variables d'intervalles sont des variables quantitatives. Il est possible
ici d'valuer des diffrences, ou la distance, entre les points de l'chelle. On
attribue toutefois ce type dchelle des qualits limites du point de vue
mathmatique. Il est en effet possible d'additionner et de soustraire les rsultats,
mais la multiplication et la division ne sont pas appropries. La principale
caractristique d'une variable d'intervalle est que le zro que prend la catgorie
de la variable est relatif et parfois arbitraire.
Le quotient intellectuel (QI) est un exemple d'une variable d'intervalle. Une
personne qui a un QI de zro n'est pas totalement dnue d'intelligence. Il n'y a
pas absence totale et complte d'intelligence. Cela est un zro relatif. Une
temprature de zro degr centigrade ne signifie pas l'absence de chaleur. De

13

Les chiffres entre parathses sont les valeurs que nous aurions pu assigner aux diffrentes catgories de
la variable.

25

fait, le zro degr centigrade n'est pas quivalent au zro degr Fahrenheit. Ces
deux zros sont arbitraires. De plus, nous pouvons affirmer que la diffrence
dans le nombre de degrs sur toute l'chelle est la mme. Il y a effectivement la
mme diffrence de 5 degrs entre 20 et 25 degrs et entre 10 et 15 degrs. Si
on rajoute 5 degrs 10 degrs, nous obtenons une temprature de 15 degrs.
Toutefois, nous ne pouvons dire qu'une temprature de 20 degrs est deux fois
plus chaude qu'une temprature de 10 degrs. Au mme titre que nous ne
pouvons affirmer qu'une personne qui obtient 150 un test de QI est deux fois
plus intelligente qu'une personne qui obtient 75. En conclusion, la distance entre
deux points sur l'chelle nest pas une mesure de proportion.

La variable (ou chelle) de rapport14


La principale caractristique de l'chelle de rapport est qu'elle possde un
vrai zro. Ce zro reprsente l'absence de quelque chose. Si une personne n'a
pas d'argent, il y a absence totale d'argent. La longueur, le volume, le temps, le
revenu, l'ge sont des exemples d'chelles de rapport. Comme le nom l'indique,
il est possible d'effectuer des rapports entre les valeurs de la variable. Quelqu'un
qui a 20 ans est deux fois plus g que quelqu'un qui a dix ans. L'ensemble des
oprations mathmatiques, l'addition, la soustraction, la multiplication et la
division sont alors possibles.
L'ordre de prsentation des chelles est importante. On remarquera que
les

caractristiques

mathmatiques,

et

qualitatives,

des

chelles

sont

cumulatives. Les proprits des diffrentes chelles sont en effet cumulatives.


Une variable de rapport, le revenu, possde en effet toutes les caractristiques
des chelles qui la prcdent. La personne a-t-elle un revenu? Rponse: Oui/
Non (chelle nominale). Ce revenu est-il Trs Important, Assez Important, Peu
Important ou Pas du Tout Important? (chelle ordinale). Ce revenu est-il en haut
14

On parle galement de variable ou dchelle mtrique ou proportionnelle.

26

ou en bas du seuil de la pauvret (zro relatif)? (chelle d'intervalle). Quel est le


revenu rel de l'individu? (chelle de rapport). Il est donc impossible pour une
variable nominale d'avoir les caractristiques d'une chelle qui lui est suprieure.
Nous reprenons les propos d'Howell15 qui souligne que c'est la variable
sous-jacente que nous mesurons , et non les nombres eux-mmes, et que
c'est elle qui importe dans la dfinition de l'chelle. Utilisons l'exemple tir du
livre de Howell. Prenons le cas d'un questionnaire sur l'angoisse distribu un
groupe de lycens. Sans rflchir on pourrait prtendre qu'il s'agit d'une chelle
de rapport sur l'angoisse. On affirmerait qu'une personne obtenant un score de 0
ne prsente aucune angoisse et qu'un score de 80 reflte une angoisse deux fois
plus grande qu'un score de 40. Mme si la plupart des gens trouveraient cette
opinion ridicule, il n'en reste pas moins que certains questionnaires permettraient
ce type de raisonnement. On pourrait galement prtendre qu'il s'agit d'une
chelle d'intervalles et que, mme si le point zro est quelque peu arbitraire
(l'tudiant obtenant 0 prsente tout de mme une certaine angoisse, que le
questionnaire n'a pu dceler), des diffrences quivalentes en termes de scores
reprsentent des diffrences quivalentes en termes d'angoisse. Il serait dj
plus raisonnable d'affirmer que ces scores constituent une chelle ordinale: un
score de 95 reflte une plus grande angoisse qu'un score de 85, qui reflte son
tour un plus grande angoisse qu'un score de 75, mais des diffrences
quivalentes en termes de scores ne refltent pas des diffrences en termes
d'angoisse16.
Il faut donc tre conscient que c'est l'utilisation des chiffres par le biais de
l'analyse qui est importante. Il faut donc rpondre aux questions suivantes:
pourquoi nous recueillons l'information, comment nous la recueillons et quelle
sera la technique d'analyse qui sera utilise. Tout cela doit tre dtermin avant
le dbut de l'enqute et doit tre partie intgrante du plan de recherche.

15
16

David C. Howell, Mthodes statistiques en sciences humaines, Bruxelles, De Boeck, 1998, p. 8.


Howell, op. cit., p. 8.

27

Comme on peut le remarquer, la planification est essentielle la bonne


utilisation des diffrents tests disponibles selon les circonstances. Car chaque
type d'chelle nous associons un type de test statistique. Les pages qui suivent
nous donnent un aperu sommaire des principaux tests en fonction du type
d'chelle.

Tests et variables qualitatives


Nous avons vu qu'il existe deux grandes familles d'chelles: les chelles
qualitatives (variables nominales et ordinales) et les chelles quantitatives
(variables intervalles et de rapports). Nous examinerons dans un premier temps
l'tude des variables qualitatives.
Il est important de souligner que les valeurs d'une variable peuvent se
prsenter de plusieurs faons. On dira d'une variable qu'elle est dichotomique si
cette variable ne peut prendre que deux valeurs. Le sexe du rpondant est une
variable dichotomique puisqu'il y a deux rponses possible: masculin et fminin.
Si les deux variables tudies sont dichotomiques (par exemple : le sexe; le
franais comme langue maternelle ou langue seconde), il est possible d'utiliser
certains tests ou calculs dont les principaux sont: le calcul de la diffrence des
pourcentages, le (phi) et le Q de Yule.
La diffrence des pourcentages permet de comparer les observations.
Prenons l'exemple suivant:

28

Tableau 1
Les chiffres reprsentent le nombre d'observations

Sexe Masculin
Sexe Fminin
Total

Franais langue
maternelle
25
25
50

Franais langue
seconde
30
20
50

Total
55
45
100

On remarque qu'il y a le mme nombre de personnes dont la langue


maternelle et la langue seconde sont le franais. Il existe une petite diffrence au
niveau du sexe. Si lchantillonnage a t fait selon les normes dun
chantillonnage alatoire, la diffrence constate dans les pourcentages devrait
reflter la ralit de lensemble de la population.
Le tableau 2 prsente les mmes donnes, mais sous forme de
pourcentage horizontal.
Tableau 2
Les chiffres reprsentent le pourcentage horizontal par rapport au tableau 1

Sexe Masculin
Sexe Fminin

Franais langue
maternelle
45,5 %
55,5 %

Franais langue
seconde
54,5 %
44,5 %

Total
100 %
100 %

Lorsque l'on transforme les rsultats en pourcentage, on remarque qu'il


existe un cart de 10 % entre les hommes et les femmes en ce qui concerne la
langue et ce mme si le nombre de femmes et d'hommes ayant le franais
comme langue premire est le mme (25 hommes et 25 femmes). On doit lire ce
tableau comme suit: 45,5 % des hommes de notre chantillon ont le franais
comme langue premire comparativement 55,5 % pour les femmes. On
retrouve donc un cart de 10 % (45,5 % - 55,5 %).

29

Tableau 3
Les chiffres reprsentent le pourcentage vertical par rapport au tableau 1

Sexe Masculin
Sexe Fminin
Total

Franais langue
maternelle
50 %
50 %
100 %

Franais langue
seconde
60 %
40 %
100 %

Total
55 %
45 %
100 %

Le lecture du tableau 3 se fait comme suit: 50 % des personnes qui ont le


franais comme langue premire sont des hommes. Il y a une diffrence
importante entre les tableaux 2 et 3. Dans le tableau 2, le pourcentage est
calcul sur l'ensemble des 100 personnes interroges alors que dans le tableau
trois le calcul se fait sur la base du franais langue premire ou langue seconde
seulement, donc sur 50 personnes pour chacun des cas.
La diffrence des pourcentages mesure l'cart entre les pourcentages.
Ainsi, dans le tableau 3, nous avons un cart de -10% pour les hommes (50 % 60 %) et de +10 % pour les femmes (50 % - 40 %).
Nous venons de prsenter les mmes donnes de trois faons diffrentes.
On remarque que linterprtation varie selon la faon de prsenter les donnes et
de lire les tableaux.
Nous avons mentionn pralablement que la statistique utilise un langage
qui lui est propre. Dans l'exemple prcdent, nous pouvons identifier de la faon
suivante chacune des cellules qui composent le tableau:

30

Tableau 4
Illustration algbrique des cellules

Sexe Masculin
Sexe Fminin

Franais langue
maternelle
n11
n21

Franais langue
seconde
n12
n22

La nomenclature suit la logique suivante : le numro de la range suivi du


numro de la colonne. La premire range (masculin) et la premire colonne
(franais langue maternelle) forment la cellule 11. La cellule 21 est donc forme
de la deuxime range et de la premire colonne, etc. (Nous avons retenu la
notation n puisque c'est elle qui sera utilise dans les formules qui suivront.)
Le nombre des personnes qui font partie de notre chantillon influence les
pourcentages. Ainsi, dans lexemple que nous avons pris, nous avons 50
hommes et 50 femmes. Chaque homme reprsente 2 % de la population
masculine et chaque femme reprsente 2 % de la population fminine. Mais si
nous avions observ 24 femmes et 26 hommes, nous aurions obtenus 48% de
femmes et 52 % d'hommes. Par consquent, plus l'chantillon est petit, plus
l'impact de chaque observation particulire est grand. Si lchantillon est petit, le
moindre soubresaut dans lobservation va avoir un impact norme.Il faut donc
tre prudent dans l'extrapolation des rsultats partir d'un nombre restreint
d'observations. Cela est un problme inhrent aux petits chantillons.

Les tests
Le (phi) est une mesure d'association utilise pour rsumer la relation
entre deux variables dichotomiques. Ce test mesure la concentration sur la
diagonale. Il est entre autres utile dans le cas o une des deux variables (ou les
deux) sont ordinales. Utilisons l'exemple suivant:

31

Tableau 517
Comptence linguistique et scolarit
Comptence

Scolarit infrieure

linguistique

Scolarit

Total

suprieure

Unilingue franais

93

83

176

Bilingue

91

116

207

Total

184

199

383

Nous posons l'hypothse qu'il y a plus de personnes bilingues lorsque le


niveau de scolarit est lev.
Calculons maintenant les pourcentages de la mme faon que dans les
tableaux prcdents. Nous allons toutefois intgrer tous les chiffres l'intrieur
d'un seul tableau. Cest la faon dont les donnes sont prsentes dans les
tableaux produits par des logiciels de statistiques comme SPSS ou SAS.

17

Exemple adapt de Alain Gilles, op. cit., p. 262. Les chiffres sont fictifs.

32

Tableau 6
Comptence linguistique et scolarit
(Condens)
Scolarit

Scolarit

infrieure18

suprieure

93

83

176

(% - H)

52,9 %

47,1 %

100 %

(% - V)

50,5 %

41,7 %

(% - T)

24,3 %

21,7 %

Bilingue

91

116

207

(% - H)

44 %

56 %

100 %

(% - V)

49,5 %

58,3 %

(% - T)

23,9 %

30,1 %

184

199

(% - H et % T)

48,1 %

51,9 %

(% - V)

100 %

100 %

Comptence
linguistique
Unilingue franais

Total

Total

383

Lgende:
(% - H) signifie le pourcentage horizontal (le pourcentage de la ligne). On doit
donc lire : 52,9 % des unilingues franais ont une scolarit infrieure pour 44 %
chez les bilingues.
(% - V) signifie le pourcentage vertical (le pourcentage de la colonne). Les
unilingues franais forment 50,5 % de toutes les personnes qui ont une scolarit
infrieure contre 49,5 % chez les bilingues. Ces chiffres sont en caractres gras.
(% - T) reprsente le pourcentage sur le total de toutes les personnes qui ont t
interroges. Les unilingues franais qui ont une scolarit infrieure reprsentent
24,3 % de notre chantillon.

18

Bien entendu, la classification infrieure et suprieure devrait faire lobjet dune justification dans le
cadre thorique. Ce quil faut retenir ici, cest lordre de la classification.

33

Mme si nous observons des diffrences de pourcentage, il est lgitime


de se demander si ces diffrences sont significatives ou non mais il faut se
mfier des apparences : avant de conclure que les diffrences sont significatives,
il faut les valider. Dans notre exemple, il faut valider lhypothse voulant que le
niveau d'ducation et la comptence linguistique soient lis. Dans un tel cas,
nous nous attendons ce que les rsultats suivent la diagonale unilingue moins
de scolarit (cellule n11) et bilingue plus de scolarit (cellule n22). Si on regarde
seulement ces deux cellules, on peut avoir limpression que lhypothse est
confirme parce que ce sont ces cellules qui se trouvent compter le plus
dobservations (n11 = 93 observations; n22 = 116 observations). Or, le test va
nous montrer que tel nest pas le cas.
Le nous permet donc d'examiner le niveau de concentration des
rponses sur les deux diagonales du tableau.
La formule du est la suivante:
n11n22 - n12n21 / n1. X n2. X n.1 X n.2
Remarque sur la notation : quand le point prcde lindice, cela signifie
que le chiffre mis en indice reprsente le total de la colonne. Ainsi, n.1
reprsente le total de la premire colonne. Quand le point suit le chiffre
mis en indice, cela signifie que le chiffre reprsente le total de la range.
Ainsi, n1. reprsente le total de la premire range.
Dans la formule :
n11 = 93, soit le nombre d'observations de la cellule 11 Unilingue et scolarit
infrieure.
n12 = 83, soit le nombre d'observations de la cellule 12. Unilingue et scolarit
suprieure.
n21 = 91, soit le nombre d'observations de la cellule 21. Bilingue et scolarit
infrieure.

34

n22 = 116, soit le nombre d'observations de la cellule 22. Bilingue et scolarit


suprieure.
n1. = 176, soit le nombre total d'observations ayant la caractristique unilingue.
n2. = 207, soit le nombre total d'observations ayant la caractristique bilingue.
n.1 = 184, soit le nombre total d'observations ayant la caractristique scolarit
infrieure.
n.2 =

199, soit le nombre total d'observations ayant la caractristique scolarit

suprieure.
Nous avons donc: = (93) (116) - (83) (91) / (176) (207) (184) (199)
= 10 788 - 7553 / (13,27) (14,39) (13,56) (14,11)
= 3 235 / 36 535,78
= 0,088
varie entre -1 et +1 et ne prendra la valeur maximum (+ ou - 1) que
lorsque toutes les donnes se trouvent sur la diagonale. On obtient un de +1
quand les donnes se trouvent dans le sens positif de la diagonale, cest--dire
quand elles vont de la plus petite la plus grande. Dans le cas prsent, toutes
les donnes devraient tre soit dans la cellule 11 (unilingues scolarit infrieure)
soit dans la cellule 22 (bilingues et scolarit suprieure). Nous obtiendrions -1 si
toutes les donnes se trouvaient dans la cellule 12 (unilingues et scolarit
suprieure) ou 21 (bilingues et scolarit infrieure). Remarquez que le caractre
positif ou ngatif dpend de la classification, cest--dire de lordre dans lequel
nous avons plac nos variables. Le rsultat ne dicte pas ce qui se passe mais
rend compte du comportement en fonction de la classification qui a t effectue
a priori. Un rsultat de 0 signifierait qu'il y a une relation ngligeable entre les
deux variables. Dans notre exemple, le rsultat de +0,088 indique une relation
positive mais faible entre la comptence linguistique et le niveau de scolarit.
En observant le tableau, et en ne se fiant que sur les pourcentages, nous
aurions tendance croire que les unilingues ont une scolarit moins leve que

35

les bilingues. En effet, on observe 10 personnes de plus chez les moins


scolariss que chez les scolariss alors qu'il y a 25 personnes bilingues de plus
chez les plus scolariss. Quant on examine les pourcentages, on remarque que
l'cart est de 8,8 % dans les deux cas.
Le est un test de type PRE (Proportion de rduction de l'erreur). Il
permet donc de rduire l'erreur de prdiction que l'on peut commettre sur une
autre variable lorsque la valeur d'une premire variable est connue. La proportion
de lerreur que lon pourrait commettre est obtenue en prenant le carr de .
Dans notre exemple, le 2 est gal 0,0882, soit 0,006 ou 0,6%. Il y a donc une
variation de moins de 1% entre les deux variables. Cela veut dire que, dans
notre exemple, on ne peut pas infrer le niveau de scolarit partir de la
comptence linguistique. Si lon voulait prdire le niveau de scolarit partir de
la comptence linguistique, ou vice versa, le test montre que je ne rduirais mon
erreur de prdiction que de moins de 1 %.

Le Q de Yule
Le Q de Yule examine la congruence dans la combinaison des catgories.
Ce calcul examine galement la diagonale. Le Q de Yule se calcule comme suit:
Q = n11 n22 - n12 n21 / n11 n22 + n12 n21
Dans notre exemple, nous avons;
Q

= (93) (116) - (83) (91) / (93) (116) + (83) (91)


= 10 788 - 7553 / 10788 + 7 553
= 3 235 / 18 341
= 0,18

36

Le rsultat varie de -1 +1. Si les variables sont ordinales, le signe du Q


de Yule indique une relation positive ou ngative. Plus on s'approche de 1, plus
on peut dire qu'il y a une relation de congruence. Un rsultat de 0,18 nous
indique une relation positive mais faible.19
La caractristique K de Yule
Yule a galement dvelopp une mesure de la richesse du vocabulaire
bas sur la prmisse que la frquence d'un mot se caractrise par une
distribution de Poisson20.
La formule est la suivante:
K = 104( i2Vi - N) / N2 ,
signifie la somme de
i =1,2, et reprsente les observations
N = le nombre de mots dans le texte
V1 = Le nombre de mots utiliss une seule fois dans le texte, V2 le nombre de
mots utiliss deux fois dans le texte ,

La statistique du khi carr (2)


Le 2 est probablement la statistique la plus connue pour les variables
qualitatives. Le rsultat du 2 s'utilise avec la table de rfrence du mme nom.
Le 2 examine la relation entre les frquences observes (Fo) et les frquences
thoriques (Ft)21. Les frquences thoriques s'obtiennent en utilisant le grand
total des observations ainsi que les totaux des colonnes et des ranges d'un
19

La question d'une relation forte ou faible dpend de plusieurs facteurs. Cette interprtation est subjective.
La distribution de Poisson est utilise dans le cas d'vnements rares et l'intrieur d'une priode
dtermine.
21
On retrouve plusieurs appellations pour les frquences thoriques dont frquences attendues et
frquences espres.
20

37

tableau. Le tableau 7 vise essentiellement comparer les rsultats observs en


rapport avec les rsultats thoriques s'il y avait une indpendance entre les deux
variables l'tude. Quand les frquences observes sont prs des frquences
thoriques, nous dirons que les deux variables sont indpendantes. Le 2 est
sensible aux nombres de colonnes et de ranges d'un tableau. Le nombre de
catgories d'une variable aura donc une influence sur le rsultat. Il est donc
important lors de la prparation du questionnaire d'avoir cette contrainte
l'esprit.
Reprenons l'exemple de la comptence linguistique pour illustrer
l'utilisation du 2. Les chiffres entre parenthses reprsentent les frquences
thoriques (dont on verra plus loin la faon de les calculer). La dmonstration du
calcul suit le tableau.
Tableau 7
Comptence linguistique et scolarit
Comptence

Scolarit

Scolarit

linguistique

infrieure

suprieure

93

83

(84,55)

(91,45)

91

116

(99,45)

(107,55)

184

199

Unilingue franais
Bilingue
Total

Total
176
207
383

Pour les colonnes et les ranges, la somme des frquences thoriques


est gale la somme des frquences observes. En fait, les frquences
thoriques sont bases sur une distribution parfaite, en fonction du nombre de
cas pour chacune des colonnes et des ranges, que nous aurions d observer si
les deux variables taient compltement indpendantes l'une de l'autre. Le 2 va
nous permettre de valider si les diffrences entre les frquences observes et les

38

frquences thoriques entrent dans le domaine du possible ou sont le fruit du


hasard.
Le calcul de la frquence thorique est simple. Pour chaque cellule, il
s'agit de multiplier le total de la range par celui de la colonne et de diviser ce
produit par le nombre total d'observations.
Ainsi, pour la cellule 11 nous avons observ (Fo) 93 cas. Il y a un total de
176 cas dans la range unilingue et un total de 184 qui ont une ducation
infrieure. Nous multiplions donc 176 par 184 avec comme rsultat 32 384. On
divise ce produit par le nombre total d'observations qui, dans ce cas-ci, est de
383. Cela nous donne un rsultat de 84,55. Aussi, nous aurions d observer
84,55 cas dans la cellule 11 s'il y avait indpendance entre les deux variables.
Calcul des frquences thoriques
Cellule 11

176 X 184 / 383 = 84,55

Cellule 12

176 X 199 / 383 = 91,45

Cellule 21

207 X 184 / 383 = 99,45

Cellule 22

207 X 199 / 383 = 107,55

Le test du 2 vise examiner la diffrence entre les deux frquences et


tablir si cette diffrence est significative ou non. Si la diffrence est significative,
nous dirons alors que les deux variables s'influencent (ce qui signifie que, dans
notre exemple, il y aurait une association entre la comptence linguistique et le
niveau d'ducation).

39

La formule du 2 est la suivante:


2 = (Fo - Fe)2 / Fe
Fo = La frquence observe
Fe = La frquence thorique
La formule se lit comme suit: La somme du carr des diffrences entre les
frquences observes et les frquences thoriques divise par la frquence
thorique.
Dans notre exemple nous aurions donc:
Cellule 11:

(93 84,55)2 / 84.55 = (8,45)2 / 84,55 = 71,4025 / 84,55 = ,84450

Cellule 12:

(83 91,45)2 / 91,45 = (8,45)2 / 91,45 = 71,4025 / 91,45 = ,78078

Cellule 21:

(91 99,45)2 / 99,45 = (8,45)2 / 99,45 = 71,4025 / 99,45 = ,71797

Cellule 22:

(116 107,55)2 / 107,55 = (8,45)2 / 107,55 = 71,4025 / 107,55 =

,66390
La somme de chacune des contributions au 2 est:
(,84450) + (,78078) + (,71797) + (,66390) = 3,00715
qui reprsente la valeur du 2. Ce chiffre n'a de sens que sil est examin en
rapport avec la table des valeurs critiques du 2 (que lon trouve en annexe de
tous les manuels de statistiques). Si le 2 calcul dpasse le seuil critique de la
table, nous pouvons croire qu'il y a une association entre les deux variables
puisque les diffrences entre les frquences observes et les frquences
thoriques sont trop grandes pour tre le simple fruit du hasard. Mais avant
dutiliser la table, il faut dabord dcider du seuil de signification que l'on accepte
et du degr de libert.
Le seuil de signification reprsente le niveau de confiance o le rsultat
calcul peut se produire. Ainsi, si on accepte un seuil de 0,05, ou de 95 %, il est

40

possible de dire : je suis confiant 95 % que ce rsultat est reprsentatif de


l'association qui prvaut entre ces deux variables.
Comme nous l'avons mentionn prcdemment, le nombre de cellules
influence la rpartition des frquences thoriques. Plus il y aura de cellules, plus
il y aura de possibilits de rponses et plus lcart entre les frquences
observes et les frquences thoriques peut tre grand. Il y donc possibilit de
plus de diffrences, mme lgres, qui influenceront le calcul du 2. On peut
donc s'attendre ce que ce dernier soit plus grand. Pour sadapter la taille du
tableau (par exemple, un tableau de 16 cellules ou un tableau de 32 cellules), on
utilise le principe du degr de libert (dl). Le degr de libert s'obtient en
multipliant le nombre de colonnes moins 1 par le nombre de ranges moins un :
(c-1) (r-1). Dans notre exemple, nous avons deux colonnes, ducation infrieure
et suprieure, et deux ranges, unilingue et bilingue. Le degr de libert sera
donc de (2-1) (2-1) = 1 X 1 = 1. Nous avons ici un degr de libert. Les tables de
2 sont tablies en fonction de divers degrs de libert.
On constate donc que le choix de la classification, plus prcisment le
nombre des catgories, aura une influence sur le test.
Dans notre exemple, le 2 calcul est de 3,00715. La table des valeurs
critiques du 2 pour un seuil de ,05 donne 3,84. Notre 2 est infrieur au seuil
critique : nous invalidons l'hypothse qu'il y a association entre la scolarit et la
comptence linguistique. Les deux variables sont indpendantes l'une par
rapport l'autre.
Le kappa ()
Le est une mesure d'accord qui s'utilise pour mesurer certaines
valuations faites par deux groupes. On utilise le avec des variables ordinales.
Supposons que l'on demande deux valuateurs d'interroger 300 lves sur la

41

comprhension d'une expression. Dans notre exemple, les deux juges


valuent les mmes personnes en mme temps ou coutent les mmes
transcriptions. Les valuateurs classent les rsultats comme: Pas de problme
de comprhension (1); Lgers problmes (2) et Beaucoup de problmes (3)22.
Nous avons ici deux valuateurs. Il est lgitime de se demander si les
valuateurs ont la mme perception ou si, au contraire, une partie de l'valuation
est due au hasard. Le permet d'valuer le niveau d'accord de jugement rel et
les accords dus au hasard. Prenons l'exemple suivant:
Tableau 823
Perception de deux valuateurs
valuateur I
Pas de

Lgers

Beaucoup

problme

problmes

de

Total

valuateur II

problmes
Pas

de

150

20

30.

200

10

30

20

60

10

30

40

160

60

80

300

problme
Lgers
problmes
Beaucoup de
problmes
Total

Lecture du tableau : les rsultats de lvaluateur I apparaissent dans les


colonnes, ceux de lvaluateur Ii dans les ranges. Si les deux valuateurs
taient toujours daccord, il ny aurait de donnes que sur la diagonale. Dans la
cellule 21, lvaluateur I a trouv que 10 navaient pas de problme et, pour sa

22
23

Le chiffre entre parenthses est celui qui est assign pour le traitement informatique.
L'exemple est inspir du livre de David C. Howell, op.cit, p. 184.

42

part, lvaluateur Ii considraient que ces 10 avaient plutt de lgers problmes.


Les deux valuateurs ntaient donc pas daccord sur ces 10 cas.
On peut s'attendre ce que si l'valuation des deux juges est similaire elle
se retrouve sur la diagonale. On entend par diagonale, ici, les valuations o les
deux valuateurs ont la mme opinion (Pas de problme / Pas de problme;
Lgers problmes / Lgers problmes et Beaucoup de problmes / Beaucoup de
problmes). Il y a en fait 210 cas sur 300 o l'valuation est la mme. Nous
serions tents de dire que les valuateurs sont d'accord 70 % des fois et que,
dans 30 % des cas, ils n'avaient pas la mme opinion. Dans le cas des 70 %, il
est lgitime de se poser la question suivante: est-il possible que les valuateurs
aient t d'accord par accident? C'est ce que le nous permet de dcider.
Le applique le mme principe que le 2. On calcule la frquence
thorique mais uniquement pour les cellules qui se trouvent sur la diagonale.
Cela nous donne les rsultats suivants:
Cellule 11
Cellule 22
Cellule 33

200 X 160 / 300 = 106,70


60 X 60 / 300 = 12,0
40 X 80 / 300 = 10,7

Il faut examiner le comportement des deux valuateurs. Ainsi, l'valuateur


I a jug qu'il n'y avait pas de problmes 160 fois sur 300 (53 % des fois) alors
que l'valuateur II a jug qu'il n'y avait pas de problmes 200 fois sur 300 (67 %
des fois). On peut donc s'attendre ce que les deux valuateurs classent 10,67
cas dans la catgorie pas de problme. On remarque que la probabilit est gale
au calcul de la frquence thorique. C'est donc sur cette diffrence entre ce qui a
t observ et ce qui, selon les probabilits, aurait d se produire que le calcul
du sera effectu.

43

La formule du est :
= Fo - Fe/ N - Fe
O:

Fo = la frquence observe
Fe = La frquence thorique
N = Le nombre total d'observations
Aussi dans notre exemple nous avons: 210 129,40 / 30 129,4 = 80,6 /

170,6 = ,47
Ce rsultat signifie que les valuateurs taient d'accord 47 % des fois et
non 70 % des fois. L'cart de 23% s'explique par le hasard. Le test montre donc
quil est possible que les deux valuateurs sont arrivs la mme conclusion par
hasard. (Il ny a pas de table de rfrence pour ce test; linterprtation du rsultat
est de nature subjective; mme sil ne lest pas ici, il peut arriver quun rsultat de
47 % soit intressant dans certaines recherches.)

44