Vous êtes sur la page 1sur 462

STATISTIQUES

Page laisse blanche


Robert R. Haccoun
et
Denis Cousineau

STATISTIQUES

Concepts et applications
Deuxime dition revue et augmente

Les Presses de lUniversit de Montral


Catalogage avant publication de Bibliothque et Archives nationales du Qubec
et Bibliothque et Archives Canada

Haccoun, Robert R.
Statistiques : concepts et applications
2e d.
Publ. lorigine dans la coll. : Paramtres. 2007.
ISBN 978-2-7606-2113-8
eISBN 978-2-7606-2584-6
1. Statistique mathmatique. 2. Probabilits. 3. Statistique. I. Cousineau, Denis,
1967- . II. Titre.
QA276.H185 2010 519.5 C2009-942664-1

Dpt lgal : 1er trimestre 2010


Bibliothque et Archives nationales du Qubec
Les Presses de lUniversit de Montral, 2010
Les Presses de lUniversit de Montral reconnaissent laide financire du gouver-
nement du Canada par lentremise du Programme daide au dveloppement de
lindustrie de ldition (PADI) pour leurs activits ddition.
Les Presses de lUniversit de Montral remercient de leur soutien financier le
Conseil des arts du Canada et la Socit de dveloppement des entreprises culturelles
du Qubec (SODEC).

Imprim au Canada en janvier 2010


la grande fille de son Pappy, Orli Haya Abramson.
Robert Haccoun

lysabeth Aguila et Richard Shifrin, pour leur patience


Denis Cousineau
Page laisse blanche
TABLE DES MATIRES
Avant-propos ....................................................................................... 9
Comment utiliser cet ouvrage........................................................... 11
Chapitre 1 : La description des donnes ................................. 15
Chapitre 2 : La distribution des donnes .......................................... 33
Chapitre 3 : Les statistiques descriptives ........................................... 61
Chapitre 4 : La position relative des observations ........................... 101
Chapitre 5 : La distribution normale ................................................. 129
Chapitre 6 : La corrlation................................................................... 149
Chapitre 7 : La rgression linaire simple......................................... 183
Chapitre 8 : Les concepts de linfrence statistique ......................... 215
Chapitre 9 : La mcanique de linfrence statistique ...................... 251
Chapitre 10 : Une ou deux populations ? Le test t ........................... 293
Chapitre 11 : Lanalyse de variance un facteur ............................. 327
Chapitre 12 : Lanalyse de variance factorielle ................................. 369
Chapitre 13 : Les statistiques non paramtriques ........................... 395
Annexe .................................................................................................... 429
Rponses aux quiz rapides ................................................................. 443
Bibliographie ........................................................................................ 457
Page laisse blanche
AVANT-PROPOS

Si la plupart des programmes de premier cycle exigent que les tudiants


suivent un cours de base en mthodes statistiques, cest que cette forma-
tion est essentielle pour matriser les aspects scientifiques dune discipline,
notamment en sciences sociales.
Ce manuel est dabord destin aux tudiants qui suivront peut-tre un
seul cours de statistiques dans leur formation, mais il pourra galement
servir dentre en matire ceux qui suivront des cours plus avancs. De
la construction dune distribution deffectifs jusqu lanalyse de variance
factorielle, il explique les fondements logiques, les rsultats et les inter-
prtations que les techniques statistiques permettent et celles quelles ne
permettent pas. Nous avons dlibrment laiss de ct les mthodes plus
avances qui permettent danalyser des donnes exprimentales ou corr-
lationnelles complexes.
Ltude des statistiques suscite souvent des apprhensions qui ne faci-
litent pas lapprentissage ; les formules mathmatiques dapparence com-
plexe peuvent en rebuter plus dun. Nous avons donc voulu proposer une
approche intuitive et graduelle qui soit rassurante. Bien entendu, les sta-
tistiques sexpriment par des formules, prsentes dans ce volume, mais il
ne faut pas perdre de vue que ces formules servent dabord rendre des
concepts plus concrets. Cest pourquoi ce sont les concepts et non leur
expression mathmatique qui sont au cur de notre approche. Nous pr-
frons utiliser le concept pour expliquer la formule, plutt que dutiliser la
formule pour expliquer le concept.
Nous croyons que la logique statistique peut tre plus facilement com-
prise lorsquelle fait appel au raisonnement de ltudiant et quelle sappuie
10 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

sur des exemples capables de susciter son intrt. Cest dans cet esprit que
lhumour est parfois mis contribution.
Cette deuxime dition maintient lapproche et lesprit de ldition ori-
ginale, mais elle contient des changements importants : non seulement la
prsentation graphique et les textes ont t entirement rviss, mais plu-
sieurs sections ont t refondues pour les rendre plus claires, notamment
celles dcrivant les aspects plus complexes portant sur linfrence statisti-
que. On y trouve aussi de nouveaux contenus, dont un chapitre addition-
nel sur lanalyse non paramtrique.
Comme dans la premire dition, chaque chapitre est ponctu de quiz
rapides qui permettent aux tudiants de vrifier leur niveau de matrise
des concepts et se termine par des questions choix multiples. On y trouve
videmment les rponses aux uns et aux autres.
Le site Internet (www.pum.umontreal.ca/ca/fiches/978-2-7606-2113-8.html)
reste actif. On y trouve, pour chaque chapitre du livre, des banques de don-
nes, des exercices et les commandes danalyse pour le logiciel SPSS ; on y
trouve galement des discussions sur linterprtation des rsultats produits
par le logiciel.
Nous tenons exprimer nos remerciements aux personnes qui nous ont
aids prparer cette nouvelle dition. Merci dabord Corinne Zacharyas
pour sa lecture aussi attentive que gnreuse, et M. lie Haccoun pour
ses prcieux conseils. Merci tout spcialement nos familles et amis qui
ont eu supporter les carts dhumeur quimplique une entreprise de ce
genre. Enfin, nous exprimons notre reconnaissance aux Presses de lUni-
versit de Montral, son directeur, M. Antoine Del Busso, et notre
ditrice, Mme Natacha Monnier, pour leur soutien indfectible.

Robert R. Haccoun
Denis Cousineau
COMMENT UTILISER CET OUVRAGE

Cet ouvrage explique les concepts et la logique statistiques ; il est principa-


lement destin aux tudiants du premier cycle universitaire qui tudient
la statistique. La prsentation des concepts et techniques se fait de faon
progressive : les premiers chapitres sattachent des aspects lmentaires
(la construction dune distribution, la nature des mesures de tendances
centrales, les indices de dispersion, etc.), les chapitres suivants passent
des aspects plus labors (la logique de linfrence, le test t, lanalyse de
variance, etc.).
Afin de favoriser le dveloppement graduel dune comprhension int-
gre de la statistique, chaque chapitre dbute par un exemple qui fait le lien
avec les connaissances acquises dans le chapitre antrieur. Chaque nouvel
lment ou concept abord dans le chapitre est illustr par des exemples
concrets et simples, la plupart tant extraits de la vie quotidienne, certains
tant mme plutt humoristiques. Il sagit donc dune approche volon-
tairement conviviale de la statistique qui vise susciter lintrt des tu-
diants pour lesquels cette matire semble trop souvent rbarbative.
Cependant, cet ouvrage nest pas un livre de mathmatiques ! Les pr-
sentations et les explications nexigent gnralement pas une formation
pousse en mathmatiques. Si on y prsente, comme il se doit, des formu-
les statistiques de faon formelle, les explications qui les accompagnent
dcrivent leurs logiques plutt que leurs drivations algbriques. Et lorsque
certaines preuves mathmatiques sont requises, elles sont isoles du texte
et places dans des encadrs. Dans certains encadrs, le lecteur trouvera
de brves biographies, des anecdotes et dautres exposs qui illustrent ou
montrent lorigine des concepts qui sont abords dans les chapitres.
Aprs avoir lu chaque chapitre, le lecteur devra normalement tre en
mesure de comprendre lutilisation de la technique dcrite, sa logique et les
12 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

interprtations qui peuvent ou non tre faites partir des rsultats quelle
gnre.
Dans tous les chapitres, nous avons prsent des quiz rapides . Ces
courts exercices permettent au lecteur de tester ses connaissances au fur et
mesure de la lecture de louvrage. Les rponses ces exercices se trouvent
la fin du volume.
la fin de chaque chapitre, une srie de questions choix multiple est
prsente et les rponses figurent leur suite. Ces questions permettent
aux lecteurs dvaluer leur connaissance des concepts dans une forme qui
sapparente celle des examens universitaires. Les rponses ces questions
exigent peu de calculs arithmtiques, voire nen exigent aucun. Laccent est
mis sur la comprhension des concepts et des techniques plutt que sur la
computation mcanique des formules pertinentes.
Comme accompagnement ce manuel, des fichiers contenant plusieurs
banques de donnes, des explications du logiciel danalyse statistique SPSS
et des exercices pouvant tre analyss avec ce logiciel sont disponibles sur
le site Internet des Presses de lUniversit de Montral ladresse suivante :
www.pum.umontreal.ca/ca/fiches/978-2-7606-2113-8.html. Les principa-
les rgles de syntaxe et les fonctionnalits du logiciel SPSS qui se rattachent
chacun des 13 chapitres du volume sont expliques et exemplifies dans
cette partie du site Internet. Les professeurs qui ne prvoient pas de ses-
sions de pratique pour les tudiants pourront simplement ignorer cet ajout
au site Internet.
Ainsi, en lisant chacun des chapitres de cet ouvrage, en faisant les quiz
rapides, en rpondant aux questions de fin de chapitre et en excutant les
exercices du site Internet, le lecteur pourra mettre immdiatement en pra-
tique ses connaissances.
CHAPITRE 1
LA DESCRIPTION DES DONNES

La description et linfrence en statistique ........................................ 15


Lorganisation dune banque de donnes
pour lanalyse statistique ................................................................. 17
Les variables............................................................................................ 19
Les variables indpendantes et les variables dpendantes......... 19
Les chelles de mesure .......................................................................... 20
Les variables (chelles) nominales................................................. 20
Les variables (chelles) ordinales ................................................... 22
Les variables (chelles) intervalles .............................................. 23
Les variables (chelles) de rapport..................................................... 25
Les relations entre les diverses chelles de mesure ..................... 26
Sommaire du chapitre........................................................................... 27
Exercices de comprhension ............................................................... 27
Page laisse blanche
CHAPITRE 1

LA DESCRIPTION DES DONNES

Les statistiques sont un inventaire de techniques et de procdures qui per-


mettent dorganiser et de faire le sommaire dune masse dinformations
afin den dgager des conclusions utiles la comprhension dun phno-
mne.

LA DESCRIPTION ET LINFRENCE EN STATISTIQUE

Les statistiques se divisent en deux branches, complmentaires et inter-


relies : celles qui permettent une description des informations ; et celles
qui permettent, partir de ces descriptions, de faire des infrences. Les sta-
tistiques descriptives font le sommaire et simplifient linformation dans le
but de la clarifier et de rvler ses tendances lourdes. Linfrence statistique
est une srie de procdures qui se servent de ces descriptions pour tirer des
conclusions plus gnrales sur le phnomne ltude.
Tous les phnomnes mesurs peuvent tre analyss statistiquement,
condition que linformation soit exprime numriquement. Cest donc dire
que les statistiques ne doivent utiliser que des informations quantitatives.
16 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Donnes quantitatives
Nous avons tous lhabitude de mesurer les choses en nous servant de chiffres. Notre ge,
notre poids, le montant de nos dettes, le nombre denfants dans notre famille ou notre
temprature corporelle peuvent tous tre mesurs quantitativement. Les attitudes, les
opinions, les croyances, la personnalit et les comportements peuvent aussi tre mesu-
rs quantitativement. En principe, on se sert dun questionnaire comme instrument de
mesure. Chaque rponse possible une question est dcrite par un chiffre. Par exem-
ple, dans un questionnaire qui mesure la satisfaction au travail, on pourrait demander
aux employs dune compagnie dindiquer leur degr daccord ou de dsaccord avec
des phrases telles que : Aller au travail mest trs dsagrable , Si je le pouvais, je
donnerais ma dmission aujourdhui , etc. Les rponses possibles sont : Totalement
en accord (index par le chiffre 1), Plutt en accord (chiffre 2), Ni en accord ni en
dsaccord (chiffre 3), Plutt en dsaccord (chiffre 4), et Totalement en dsaccord
(chiffre 5). Ainsi, les personnes ayant plus de satisfaction au travail auraient tendance
tre en dsaccord avec ces noncs et, par consquent, fourniraient des rponses
plus prs de 5, alors que les rponses des personnes ayant peu de satisfaction au tra-
vail seraient concentres autour de 1. Ces procdures permettent de quantier les
attitudes, de les exprimer numriquement. Ce faisant, il devient possible den faire une
analyse statistique.

Les statistiques que nous allons tudier dans ce livre sont mises pro-
fit pour faciliter la comprhension de phnomnes aussi diversifis que
la croissance conomique dune socit, les comportements sociaux,
lefficacit dune technique chirurgicale, ou mme les ractions chimiques.
Les cognitivistes utilisent les statistiques pour dduire lorganisation du
cerveau et ses liens avec la pense. Les psychologues font appel aux statis-
tiques afin de mieux comprendre les caractristiques individuelles comme
la personnalit, lintelligence ou le comportement dviant lcole. Les
sociologues sen servent pour mieux comprendre la violence sociale ou
la relation entre les idologies et lducation. Les experts en marketing y
recourent afin danalyser et damliorer les stratgies de mise en march.
Dans le monde des affaires, on sen sert pour planifier les inventaires ou
pour tablir les marges de profit. Et ce sont les statistiques qui dterminent,
en grande partie, les dcisions des gouvernements.
Nous lisons tous les jours dans les journaux des rsultats de sondages.
Ces sondages guident, dans une certaine mesure, les dcisions concernant
les activits des institutions, publiques ou prives, limpact de ces activits
se rpercutant sur presque chacun de nous : tudiants, consommateurs, tra-
vailleurs. Tous, nous sommes personnellement affects par les statistiques
LA DESCRIPTION DES DONNES 17

et un grand nombre de dcisions qui nous touchent trouvent leur origine


dans le rsultat dune analyse statistique.
En analyse statistique, les informations (quantitatives) sont recueillies,
organises et soumises des procdures arithmtiques. Le rsultat final de
ces procds est une simplification de linformation qui permet de dga-
ger des tendances afin de mieux comprendre le phnomne tudi et den
tirer des conclusions utiles. Les statistiques nous permettent de voir la fort
malgr les arbres !
Les analyses statistiques offrent la possibilit de mieux comprendre les
caractristiques des individus (lintelligence, la sociabilit), des groupes (la
performance des quipes ou la comptitivit des entreprises), ou des com-
munauts plus larges (le degr de pauvret dans diffrents pays, le cot
des logements dans diffrentes villes). La source des donnes (les indivi-
dus, les quipes, les entreprises, les villes, etc.) se nomme le sujet danalyse
ou lunit danalyse, ou encore lobservation. Le sujet danalyse dfinit donc
lorigine de linformation. Les conclusions, par consquent, sappliqueront
exclusivement cette source. Ainsi, lorsque nous mesurons la densit des
populations dans les villes, le sujet danalyse est la ville et les conclusions
sappliquent aux villes. Lorsque les informations sont recueillies auprs des
individus, le sujet danalyse est lindividu. Si nous mesurons le comporte-
ment des chiens, le sujet danalyse est le chien. Chaque sujet danalyse four-
nit une ou des observations. Ainsi, lorsque nous analysons lintention de
vote de 1 000 citoyens, nous avons 1 000 observations.

LORGANISATION DUNE BANQUE DE DONNES


POUR LANALYSE STATISTIQUE 1

Les informations fournies par les sujets sont gnralement organises sous
la forme dun tableau comprenant des colonnes et des lignes (ranges).
Chaque sujet danalyse (chaque rpondant un sondage par exemple)
occupe une ligne du tableau. Les variables (chaque question du sondage)
occupent les colonnes. lintersection de chaque colonne et de chaque

1. Le site Internet du livre (www.pum.umontreal.ca/ca/fiches/978-2-7606-2113-8.html)


contient plusieurs banques de donnes, y compris celle portant sur les salaires des
joueurs de hockey. Un extrait de ce dossier est reproduit au Tableau 1.1.
18 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

range, nous trouvons une cellule. Cest dans cette cellule que sera place la
valeur numrique qui sera analyse.
Chaque colonne contient une seule variable. Si nous demandons
10 personnes de fournir une rponse trois questions, la banque de don-
nes comprendra 10 lignes et 3 colonnes. En lisant horizontalement, sur
une ligne, nous observons la valeur obtenue par un sujet danalyse pour cha-
que variable. linverse, avec une lecture verticale, le long dune colonne,
nous obtenons la rponse de tous les sujets sur une variable. Par exemple,
le Tableau 1.1 prsente une banque de donnes sur les salaires annuels des
joueurs de hockey. Chaque ligne du tableau identifie un joueur de hockey
spcifique. Chaque colonne dfinit une variable diffrente. lintersection
de chaque range et de chaque colonne, nous trouvons une cellule qui indi-
que la valeur de la variable X pour le joueur Y. Ainsi, en lisant les colonnes
consacres lathlte dcrit dans la range 1, nous voyons son nom (varia-
ble joueur ), son quipe (variable quipe ), la position quil occupe au
jeu (variable position ) et son salaire annuel (variable salaire ).

Tableau 1.1
Banque de donnes organises pour une analyse statistique

Joueurs quipes Position Salaire ($US)

Joueur 1 Flames de Calgary G 400 000

Joueur 2 Canadiens de Montral C 3 300 000

Joueur 3 Predators de Nashville G 900 000

Joueur 4 Snateurs dOttawa G 1 500 000

Joueur 5 Canucks de Vancouver G 425 000

Joueur 6 Avalanches du Colorado C 11 000 000

Joueur 7 Blues de Saint-Louis G 165 000

Il est relativement facile dorganiser des banques de donnes en se servant


de logiciels tels que Word ou Excel, ou de programmes danalyse statistique
spcialiss tels que SPSS ou SAS. Limportant est de se souvenir de cette rgle :
chaque range dfinit un sujet diffrent et chaque colonne, une variable diff-
LA DESCRIPTION DES DONNES 19

rente. Une fois la banque de donnes construite, en se servant dun logiciel de


traitement de texte (comme le Bloc-notes) ou dun chiffrier (tel quExcel), il
est facile de limporter dans un logiciel danalyse statistique (tel que SPSS).

LES VARIABLES

Une variable est une caractristique que lon mesure et qui sera soumise
des analyses. On lappelle variable parce que les sujets danalyse peuvent
lui attribuer des valeurs diffrentes. Lge, le sexe, le quotient intellectuel
(QI) et la condition sociale, entre autres, sont des variables. Le QI est une
variable parce quil peut tre diffrent selon les personnes. Lanxit est une
variable puisque certains peuvent tre trs anxieux, dautres trs calmes et
dautres encore peuvent se situer quelque part entre ces deux extrmes. Le
genre homme versus femme est lui aussi une variable.
Lorsque toutes ces valeurs sont identiques, la variable prend le nom de
constante. Si la variable ne peut prendre quune valeur unique, cette varia-
ble devient une constante. Par exemple, lorsque nous mesurons le degr de
sociabilit des femmes, le sexe, qui est habituellement une variable, devient
une constante (toutes les personnes mesures tant des femmes).

Quiz rapide 1.1


Le site Internet du livre contient une banque de donnes sur les joueurs de la
Ligue nationale de hockey (les sujets de cette analyse). Prenez seulement
la partie des donnes qui porte sur les Canucks de Vancouver et identiez les
variables et les constantes. Si vous nutilisez pas le site WEB, rpondez au quiz
en vous rfrant au Tableau 1.1.

Les variables indpendantes et les variables dpendantes

Les chercheurs ou intervenants qui font de lexprimentation distinguent


les variables indpendantes des variables dpendantes. Lexprimentateur
contrle ou choisit la faon dont la variable indpendante varie afin de
dterminer le degr dimpact que cette variable indpendante a sur la varia-
ble dpendante. La variable dpendante est la raction du sujet danalyse
la variable indpendante. Par exemple, une professeure cherche dtermi-
ner si les tudiants russissent mieux leurs examens lorsquelle y convertit
20 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

des questions formules de faon habituelle en questions humoristiques.


Elle prpare alors deux examens, lun commence par 10 questions humo-
ristiques, et lautre, par 10 questions neutres. La forme dexamen (avec ou
sans questions humoristiques) est la variable indpendante (on peut remar-
quer quil sagit dune variable parce que nous avons deux valeurs possibles
pour lexamen : humoristique ou non). La note obtenue lexamen devient
la variable dpendante (cest une variable, parce que les tudiants peuvent
obtenir diffrentes notes, et elle est dpendante, parce que nous posons
lhypothse que la note obtenue dpend du type dexamen).

LES CHELLES DE MESURE

Il faut mesurer une variable afin den faire lanalyse. Cette mesure consiste
fournir une valeur numrique qui indique la position de lobservation sur la
ou les variables. Par exemple, pour mesurer le poids dune personne, on se
sert dun pse-personne qui indique une valeur numrique, et cette valeur
dcrit son poids (Jeanne pse 50 kg et Harold 70 kg : la variable poids
contient les valeurs 50 et 70 ). Pour les rsultats dune course de che-
vaux, la mesure numrique est dfinie par lordre darrive : on attribue la
valeur 1 au cheval le plus rapide, 2 au suivant, etc. Dans ce cas, la variable
course est compose dobservations qui indiquent lordre darrive. La
signification des valeurs numriques que nous attribuons aux diffrents
types de variables nest pas toujours la mme : obtenir 1 % un examen
nest pas la mme chose que dtre 1er de classe la variable rsultat ,
mme si le mme code numrique ( 1 ) est attribu aux deux valeurs !
Les variables peuvent contenir diffrents types dinformations. Nous
appelons le type dinformations l chelle de mesure. Il existe quatre
types dchelles de mesure : nominale, ordinale, intervalles et de rapport. Il
est important de reconnatre lchelle de mesure de chaque variable, car les
procdures statistiques utilisables en dpendent.

Les variables (chelles) nominales

Certaines variables ne peuvent quindiquer (nommer) la catgorie laquelle


chaque observation appartient. Ces variables sappellent ainsi des variables
LA DESCRIPTION DES DONNES 21

nominales (ou variables catgorielles). Le prnom est une variable nomi-


nale qui est elle-mme compose dun grand nombre de catgories, cha-
cune dcrivant un nom diffrent. La couleur des yeux est une autre variable
nominale. Puisquil nexiste quun nombre limit de couleurs, cette variable
nominale sera compose dun nombre moindre de catgories que la variable
nominale prnom . Lorigine ethnique, la ville de naissance ou le champ
dtudes sont dautres variables qui se mesurent sur des chelles nominales.
Chaque observation dune variable nominale nappartient obligatoire-
ment qu une seule catgorie : par exemple, pour la mesure du genre, une
variable nominale dichotomique (ayant deux catgories), chaque observa-
tion ne peut prendre que lune ou lautre de deux valeurs : femme ou
homme , mais pas les deux. Par contre, la religion est une variable nomi-
nale multichotomique (ayant plusieurs catgories), car elle peut conte-
nir beaucoup plus de catgories : on peut tre catholique, juif, protestant,
musulman, athe, etc.
Il est souvent pratique didentifier les catgories dune variable nominale
par des codes numriques (yeux bleus = 1, yeux verts = 2, etc.). La variable
nominale servant exclusivement identifier la catgorie laquelle chaque
observation appartient, ses diffrentes valeurs ne reprsentent que des
tiquettes, des codes numriques. Le chiffre qui code chaque valeur de la
variable nominale est arbitraire nous pourrions inscrire 17 et 145
pour catgoriser les personnes aux yeux bleus et celles aux yeux verts pour
la variable couleur des yeux . Par consquent, les informations conte-
nues dans les variables nominales nont aucune proprit mathmatique.
Ces valeurs ne peuvent tre ni soustraites ni additionnes et, bien sr, nous
ne pouvons pas calculer leur moyenne. Puisque les valeurs dune variable
nont pas de signification mathmatique particulire, nous ne pouvons que
compter le nombre de rpondants qui se situent dans chacune des catgo-
ries. Par exemple, la variable nominale intention de vote la prochaine
lection pourrait contenir quatre catgories : les partis politiques Rouge,
Vert, Jaune et Bleu. Rgle gnrale, lanalyse statistique pour cette varia-
ble consistera exclusivement compter le nombre (ou la proportion) de
rpondants qui entendent voter pour chaque parti.
Puisque la variable nominale identifie les catgories, il importe, lorsque
nous codons les valeurs dune variable nominale, dassocier les observa-
22 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

tions la bonne catgorie. Pour ce faire, il faut respecter les deux rgles sui-
vantes : a) la mme valeur numrique est attribue toutes les observations
qui appartiennent la mme catgorie nominale (les fumeurs reoivent
le code 1 et les non-fumeurs 2 ) ; b) une observation qui appartient
une catgorie de la variable ne peut appartenir une autre catgorie (une
personne qui fume occasionnellement nappartient ni la catgorie 1 ni
la catgorie 2 ; pour lanalyser, il nous faudra la dfinir par une autre ti-
quette, par exemple la valeur 3 ).

Quiz rapide 1.2


Vous devez coder la couleur des yeux de 1 000 personnes. Vous tablissez les
catgories bleus = 1 , bruns = 2 et verts = 3 . Une personne a un il bleu
et lautre vert. Comment allez-vous coder les yeux de cet individu ?

Les variables (chelles) ordinales

Les variables ordinales permettent de mesurer la position de chaque obser-


vation par rapport aux autres observations sur une variable. Cette position
se nomme le rang. Le rsultat obtenu une course de chevaux est mesur
sur une chelle ordinale, car ce qui importe est lordre darrive des che-
vaux, leurs rangs respectifs. Ainsi, la valeur 1 est attribue au cheval qui
traverse le premier la ligne darrive, la valeur 2 au suivant, etc. Dans une
course comprenant 8 chevaux, le dernier cheval obtient la valeur 8 sur la
mesure indiquant sa position (par rapport celles des autres chevaux) au
fil darrive. Contrairement aux variables nominales, le chiffre numrique
attribu chaque observation nest pas arbitraire, mais a une signification.
Cette signification reprsente la position de chaque observation relative
aux autres observations. Ainsi, aux Jeux olympiques, nous savons que le
nageur qui gagne la mdaille dor a nag plus vite que celui qui a obtenu
la mdaille dargent, et que le mdaill de bronze est moins rapide que les
deux autres. Les codes numriques que nous assignons (1, 2 et 3) repr-
sentent une diffrence relle : lathlte qui obtient la valeur 1 la variable
rsultat a nag plus vite que tous ses comptiteurs.
Les variables ordinales ne sont cependant pas en mesure de dterminer
lampleur des diffrences entre les observations. Ainsi, nous ne savons pas
LA DESCRIPTION DES DONNES 23

si le mdaill dor a gagn la course avec une longue ou une trs courte
avance sur les autres mdaills. Techniquement, nous disons que les varia-
bles ordinales indiquent le rang, mais elles nindiquent pas la magnitude des
diffrences entre les rangs. Par consquent, avec une mesure ordinale, la dif-
frence entre le rang 1 et le rang 2 nest pas ncessairement gale la diff-
rence entre le rang 2 et le rang 3.
Il existe de nombreuses situations o lutilisation de variables ordina-
les est ncessaire. Quand ils slectionnent des candidats, les employeurs les
mettent en rang : celui que lon considre le plus apte remplir le poste
reoit le rang 1, le suivant le rang 2, etc. On procde de la mme faon dans
les universits lorsquil faut slectionner les tudiants, particulirement
pour les programmes dtudes de deuxime et troisime cycles, qui sont trs
contingents. Les Nations Unies produisent un rapport annuel dcrivant la
qualit de vie dans diffrents pays. On mesure un ensemble de caractris-
tiques dans chaque pays, comme lesprance de vie, le revenu moyen et le
niveau de chmage, afin de produire une valeur globale indexant la qualit
de vie pour chaque pays. Le pays qui obtient la valeur la plus forte obtient le
rang 1, ce qui indique que ce pays offre la meilleure qualit de vie. Naturel-
lement, comme il sagit dune mesure ordinale, lorsque le Canada obtient le
premier rang, on ne sait pas si la qualit de vie au Canada est lgrement ou
fortement suprieure aux pays qui obtiennent les rangs 2, 3 ou 20 !

Quiz rapide 1.3


Trois tudiants obtiennent les rsultats suivants leur examen de statistique :
Paul = 50 %, Marie = 80 %, Julie = 80,4 %. Indiquez la performance de chacun sur
une chelle ordinale.

Les variables (chelles) intervalles

Les variables intervalles (ou variables relatives) sont souvent utilises pour
mesurer des phnomnes en sciences humaines. Le psychopdagogue qui
mesure le niveau dintelligence (le QI) des lves, le psychologue qui mesure
la personnalit, lentreprise qui mesure le degr de satisfaction de la clientle
ou le psychiatre qui tudie le stress se servent de variables intervalles. Les
variables intervalles mesurent non seulement la position relative de chaque
24 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

observation, mais indiquent aussi lampleur des diffrences entre elles. Ainsi,
les QI de Peter, Paul et Marie sont respectivement de 95, 100 et 120. Bien sr,
Marie occupe le rang 1, Paul le rang 2 et Peter le rang 3, mais parce que le QI
est une mesure intervalles, nous mesurons aussi la magnitude des diffren-
ces entre ces rangs. Ainsi, nous pouvons conclure que lcart entre le QI de
Marie et celui de Paul (20) est plus grand que celui entre Peter et Paul (5). Les
valeurs dune mesure intervalles contiennent plus dinformations que ne
le font les valeurs des chelles ordinales et des chelles nominales. La grande
majorit des variables psychologiques sont des variables intervalles : un
psychologue est en mesure dindiquer non seulement si quelquun est moins
anxieux que sa mre, mais sil lest beaucoup ou lgrement moins.
Les variables intervalles souffrent nanmoins dune limite importante :
elles nont pas de point zro. La valeur 0 existe lorsque labsence totale
de la caractristique mesure est possible. Labsence dun zro absolu pour
certaines mesures apparat lorsque cette valeur est impossible. Par exem-
ple, avec la mesure de la personnalit (intervalle), il nexiste pas de valeur
0 , car labsence totale de personnalit est inconcevable. Similairement,
labsence totale dintelligence nexiste pas (mme si vous avez cru la consta-
ter chez certains politiciens !). Comme nous navons pas de point zro, il
nest, par consquent, pas possible de calculer des ratios entre deux valeurs.
Ainsi, il est impossible de conclure quune personne ayant un QI de 120
est deux fois plus intelligente quune personne ayant un QI de 60 (bien
quarithmtiquement 120 soit dans un ratio de 2 pour 1 par rapport 60).
La mesure de la chaleur en degrs Celsius (C) ou Fahrenheit (F) est
une mesure intervalles. Sil fait 10 C lundi, 15 C mardi et 30 C mer-
credi, nous pouvons conclure que la temprature a davantage augment
de mardi mercredi quelle ne la fait entre lundi et mardi. Il serait faux de
conclure quil fait deux fois plus chaud mercredi que mardi, car une tem-
prature de zro ne signifie pas une absence totale de chaleur (sinon les
tempratures de 10 C ou 20 F nexisteraient pas). Lchelle de tempra-
ture Kelvin, en revanche, nest pas une mesure intervalles, car elle inclut
une valeur 0 qui indique une absence absolue de chaleur. Lorsquune
variable contient un vrai point zro, celui-ci indiquant labsence totale de la
caractristique, linformation quelle contient est mesure sur une chelle
de rapport (dont nous discutons plus loin).
LA DESCRIPTION DES DONNES 25

Les mesures psychologiques sont souvent prises avec des chelles linai-
res. Lencadr au dbut du chapitre en donne un exemple. Lorsque nous
demandons au rpondant dindiquer son degr daccord ou de dsaccord
avec une phrase dclarative, nous nommons ce type dchelle chelle
de Likert . Il existe diffrentes variantes de cette chelle. Par exemple, nous
pourrions poser la question suivante : Jusqu quel point tes-vous satisfait
de votre cours ? Le rpondant choisit la rponse qui correspond le mieux
son opinion : 1 = totalement satisfait ; 2 = satisfait ; 3 = ni satisfait ni insa-
tisfait ; 4 = insatisfait ; 5 = totalement insatisfait. strictement parler, ces
chelles sont des chelles ordinales. Mais les psychologues, entre autres,
traitent ces rponses comme si elles taient collectes sur des chelles
intervalles. La raison en est quils prsument que la caractristique mesu-
re (dans ce cas, il sagit de la satisfaction par rapport un cours) est une
mesure continue o il est possible davoir des degrs de satisfaction et non
seulement un ordre. Il devient donc possible de dire que Monsieur X est
beaucoup plus satisfait que ne lest Madame Y ; mais parce quil sagit dune
variable intervalles, il nest pas possible de dire que Monsieur X est deux
fois plus satisfait que Madame Y.

Les variables (chelles) de rapport

Les variables de rapport (ou chelles absolues) ont toutes les proprits des
chelles intervalles, mais, en plus, elles ont un point zro absolu. La plu-
part des caractristiques physiques sont des chelles de rapport : la taille et
le montant dargent en banque sont des chelles de rapport car il est conce-
vable davoir une absence totale de taille ou dargent. Les chelles de rap-
port nous permettent de dire que quelque chose est deux fois plus grand
ou plus petit que quelque chose dautre. Ainsi, si nous avons 1 000 $ et que
notre frre en a 2 000 $, il a deux fois plus dargent que nous. De manire
similaire, si votre quipe a gagn 30 parties lanne dernire et 45 parties
cette anne, elle a gagn 50 % plus de parties. Enfin, si vous avez obtenu
90 % votre examen de chimie et que votre copine a obtenu 45 %, vous
avez obtenu le double de ses points. Ces conclusions sont valides, car il
est possible de ne pas avoir dargent, de navoir gagn aucune partie ou de
navoir rpondu correctement aucune question un examen.
26 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Quiz rapide 1.4


Deux tudiants obtiennent les rsultats suivants lexamen de statistique :
Paul = 40 %, Marie = 80 %. Est-ce que vous pouvez conclure que Marie a russi
son examen deux fois mieux que Paul ?

Les relations entre les diverses chelles de mesure

Les chelles de mesure fournissent de linformation au sujet des observa-


tions et les quatre types dchelles sont organiss de manire hirarchique.
Ainsi, lchelle nominale nous indique exclusivement la catgorie laquelle
chaque observation appartient (A appartient la catgorie 1, B la catgo-
rie 2) ; lchelle ordinale nous indique lordre entre les observations (A est
plus grand que B) aussi bien que la catgorie (A est premier, les autres ne
le sont pas) ; lchelle intervalles nous donne la diffrence relative entre
les observations (la diffrence entre A et B est plus grande que la diffrence
entre B et C) en plus de la catgorie et de lordre ; et enfin, lchelle de rap-
port nous indique, en plus des trois autres niveaux dinformation, la dif-
frence absolue entre les mesures (A est deux fois plus grand que B). Le
Tableau 1.2 dcrit les relations entre les informations fournies par les qua-
tre types dchelles.
Les mesures nominales et ordinales prennent parfois le nom dchelles
de type I alors que les mesures intervalles et de rapport sont parfois appe-
les chelles de type II.

Tableau 1.2
Comparaison des chelles de mesure

Diffrence Diffrence
chelle de mesure Catgorie Ordre
relative absolue

nominale 9
Type I
ordinale 9 9

intervalles 9 9 9
Type II
de rapport 9 9 9 9
LA DESCRIPTION DES DONNES 27

Quiz rapide 1.5


Voici les rsultats obtenus un examen de statistique par trois tudiants :
Marie = 90 %, Paul = 71 %, Julie = 70 %. Tirez les conclusions nominales, ordinales,
intervalles et de rapport pour ces trois observations.

SOMMAIRE DU CHAPITRE

Les statistiques aident tirer des conclusions au sujet dinformations


quantitatives qui sont organises en banque de donnes. Une information
quantitative est une information numrique, et une banque de donnes est
un tableau double entre. La banque de donnes contient les informations
que les sujets danalyse fournissent pour une ou plusieurs variables. Les
variables sont les caractristiques qui sont mesures et pour lesquelles plu-
sieurs rponses sont possibles. Les rponses peuvent tre nominales (elles
indiquent si le sujet danalyse dtient ou ne dtient pas la caractristique
mesure), ordinales (elles indiquent le rang, la position relative, de chaque
observation), intervalles (elles indiquent la diffrence relative entre les
observations) ou de rapport (elles indiquent la diffrence absolue entre les
observations). Les techniques danalyse statistique utilisables ne sont pas
les mmes pour les diffrents types dchelles de mesure. La plupart des
techniques statistiques, y compris celles dcrites dans ce livre, exigent que
les variables soient intervalles ou de rapport. Mais il est aussi possible de
faire une analyse statistique valide lorsque les donnes sont de type I. Dans
ce cas, il faudra faire appel aux procdures non paramtriques qui, elles,
sont dcrites au chapitre 13 de ce livre.

EXERCICES DE COMPRHENSION

1. Une caractristique ou un phnomne pouvant prendre diffrentes


valeurs est
a) une constante
b) une donne brute
c) une population
d) une variable
28 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

2. Le but de linfrence statistique est de tirer une conclusion


________ partir dune information ________.
a) plus gnrale ; spcifique
b) juste ; fausse
c) spcifique ; gnrale
d) gnrale ; gnrale
3. Dterminer le type dchelle de ces mesures.
a) ge : ________
b) Ethnie : ________________
c) Rsultats dune course pied : ________________
d) Quotient intellectuel : ________________
4. Le regroupement dindividus dans des catgories telles que faible ,
moyen et fort implique quel type dchelle ?
a) chelle nominale
b) chelle ordinale
c) chelle intervalles
d) chelle de rapport
5. Une chelle dfinit la catgorie laquelle une personne appartient.
Il sagit alors dune chelle ____________.
a) nominale
b) ordinale
c) intervalles
d) de rapport
6. Transposer une mesure dune chelle une autre nest pas possible
dans le cas suivant :
a) dune chelle nominale une chelle intervalles
b) dune chelle intervalles une chelle ordinale
c) dune chelle de rapport une chelle nominale
d) dune chelle de rapport une chelle intervalles
7. Lorsque lon dit : Mario est plus beau que Simon , quel type
dchelle utilise-t-on ?
a) chelle nominale
b) chelle ordinale
c) chelle intervalles
d) chelle de rapport
LA DESCRIPTION DES DONNES 29

8. Laquelle de ces mesures nous donne le plus dinformations ?


a) Lordre des chevaux larrive
b) Le nombre dhommes et de femmes inscrits en pharmacologie
c) La temprature en degrs Celsius
d) La distance entre la Terre et les plantes du systme solaire
9. Dans une exprience, on augmente le salaire dun groupe dem-
ploys dune compagnie alors que le salaire dun autre groupe
demploys reste inchang. Ensuite, on examine le degr de produc-
tivit des deux groupes demploys afin de voir si le salaire affecte la
productivit. La variable indpendante est ________ et la variable
dpendante est _____________.
a) ceux qui reoivent laugmentation ; ceux qui ne la reoivent pas
b) la productivit ; le salaire
c) le salaire ; la productivit
d) le salaire ; la satisfaction de ceux qui ne reoivent pas
daugmentation
30 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Rponses

1. d
2. a
3. a. chelle de rapport ; b. chelle nominale ; c. chelle ordinale ;
d. chelle intervalles
4. c
5. a
6. a
7. b
8. d
9. c
CHAPITRE 2
LA DISTRIBUTION DES DONNES

La distribution simple des donnes.......................................................................... 34


La distribution groupe des donnes...................................................................... 35
Comment crer une distribution groupe des donnes.................. 36
La taille des catgories et leur nombre............................................................ 39
La distribution groupe des donnes : sommaire des tapes....... 39
La distribution relative des donnes........................................................................ 39
La distribution cumulative : proportions et pourcentages ............ 41
Les reprsentations graphiques de la distribution des donnes....... 42
Le graphique des histogrammes.......................................................................... 43
Le polygone des effectifs............................................................................................. 45
Les formes de distribution ............................................................................................... 47
La distribution unimodale........................................................................................ 47
La distribution bimodale (ou multimodale).............................................. 48
La distribution symtrique....................................................................................... 48
La distribution asymtrique .................................................................................... 49
Le degr daplatissement : leptocurtique et platycurtique.............. 49
La distribution des frquences : un exemple complet............................... 52
Sommaire du chapitre ......................................................................................................... 54
Exercices de comprhension ..................................................................................... 55
Page laisse blanche
CHAPITRE 2

LA DISTRIBUTION DES DONNES

La statistique consiste rduire une grande quantit dinformations une


expression plus simple, afin den tirer des renseignements utiles. Le point
de dpart de ce processus de simplification consiste simplement recen-
ser (compter) le nombre dobservations qui appartiennent chaque valeur
dune variable. Par exemple, pour examiner le poids dun groupe denfants
de dix ans, nous pourrions compter le nombre denfants qui psent 40 kg,
le nombre denfants qui psent 41 kg, etc. Cette simple procdure statisti-
que tablit leffectif, cest--dire la frquence laquelle chaque valeur de la
variable apparat dans la banque de donnes, indiquant ainsi la distribution
(cest--dire la rpartition) de ces valeurs. Par exemple, nous pourrions dire
que 20 % des enfants de dix ans psent 35 kg, 30 % en psent 40, etc.
Ltablissement de leffectif des donnes et leur distribution reprsen-
tent le point de dpart crucial de toutes les analyses statistiques abordes
dans ce livre. Dans le prsent chapitre, nous voyons les procdures suivre
pour tablir et reprsenter la distribution des donnes, numriquement et
visuellement, laide de graphiques. Ces procdures, puisquelles servent
dcrire linformation, sappellent les statistiques descriptives. Ces statisti-
ques sont le sujet des cinq premier chapitres.
34 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Le salaire des joueurs de hockey professionnels


Un dsaccord entre les athltes et les propritaires des quipes de hockey de la Ligue
nationale de hockey (LNH) a men lannulation complte de la saison de hockey en
2004-2005. Les propritaires soutenaient que les salaires des joueurs taient trop le-
vs, tandis que les joueurs, ce qui ne surprit personne, ne partageaient pas ce point de
vue. Qui avait raison, les propritaires ou les joueurs ? Le point de dpart pour rsoudre
cette question se trouve dans la simple description des salaires des joueurs : combien
gagnent-ils ?
Le chier NHLSalaire2002-2003 (voir le site Internet du livre : www.pum.umontreal.
ca/ca/ches/978-2-7606-2113-8.html) reproduit les salaires de chacun des 679 athltes
de la LNH en 2002-2003. La banque de donnes contient un trs grand nombre dinfor-
mations : on y trouve 679 lignes dinformations (une ligne par joueur) et 5 colonnes (une
colonne par variable : le nom du joueur, son prnom, son quipe, sa position au sein de
lquipe et son salaire en 2002-2003), ce qui correspond un total de 3 395 observa-
tions (679 5). Il faut reconnatre quavec autant dinformations, dcrire la situation
salariale au sein de la LNH pour sen faire une ide globale devient quasi impossible (sauf
peut-tre pour conclure que le salaire du commun des mortels semble, par comparai-
son, bien bas !). Comme pour toutes les analyses statistiques, nous commenons le
processus de simplication de linformation en compilant la distribution des effectifs,
cest--dire le nombre de joueurs de hockey qui se situe chaque niveau de salaire.

LA DISTRIBUTION SIMPLE DES DONNES

Une frquence est simplement le dcompte du nombre dobservations ayant


obtenu une certaine valeur. On appelle aussi cela un effectif. Par exemple,
en nous basant sur la banque de donnes des salaires de la LNH en 2002-
2003, nous notons que le plus bas salaire quelle a pay est de 165 000 $US
(dsormais, dans le prsent chapitre, le signe $ reprsentera des $US). Puis-
que aucun autre joueur ne gagne ce salaire, nous notons un effectif de 1
pour le niveau de salaire de 165 000 $. Le salaire suivant est de 280 000 $ et,
l encore, une seule personne dans la ligue reoit ce salaire. Par consquent,
leffectif pour la valeur 280 000 $ de la variable salaire est de 1. Nous
poursuivons cette procdure pour chaque valeur (chaque salaire) dans la
banque de donnes. Par exemple, 9 joueurs touchent 350 000 $. Leffectif
pour 350 000 $ est donc 9. Nous voyons aussi que le salaire maximal est la
modique somme de 11 000 000 $ que touchent deux joueurs. La frquence
du salaire de 11 000 000 $ est, par consquent, de 2. Nous pouvons mainte-
nant comprendre lavantage de la distribution des effectifs. Elle organise les
LA DISTRIBUTION DES D ONNES 35

informations que contient la banque de donnes en regroupant ensemble


celles qui sont identiques et permet ainsi den rduire le nombre.
Lutilisation de la distribution simple des effectifs est tout fait appro-
prie aux sondages sur les intentions de vote, dont on trouve les rsultats
dans les journaux. Prsents sous forme de tableaux, ces rsultats indi-
quent le nombre ou (plus gnralement) le pourcentage des rpondants
qui se disent prts voter pour lun ou lautre des partis politiques. Puisque
le nombre de partis politiques est relativement restreint, lutilisation de la
distribution simple reprsente une technique trs efficace pour saisir rapi-
dement le degr de popularit de chacun des partis.

Quiz rapide 2.1


partir des donnes disponibles sur le site Internet (www.pum.umontreal.ca/ca/
ches/978-2-7606-2113-8.html) : Quelle est la taille de leffectif lorsque le niveau
des salaires est de 2 000 000 $ ? Est-il facile de trouver
cette information dans la liste complte des salaires ?

LA DISTRIBUTION GROUPE DES DONNES

Souvenons-nous que les statistiques descriptives servent rduire la masse


dinformations afin de pouvoir sen faire une ide globale. La construction
dune distribution simple des effectifs nest pas toujours la manire la plus
pratique pour faire le sommaire dune banque de donnes. Lorsque les
valeurs diffrentes sont nombreuses, la description de la variable devient
trs dtaille, ce qui complexifie linterprtation que lon peut en faire. Il est
prfrable de simplifier et de rduire davantage la banque de donnes.
La LNH nous offre un bel exemple dune telle banque de donnes. Pour
dcrire la distribution des salaires de ses joueurs, nous avions comme point
de dpart une matrice contenant 679 ranges dobservations, ce qui est exces-
sif pour se faire une ide globale de la distribution des salaires. En calculant
les effectifs, nous avons rduit cette masse de donnes environ une centaine
de lignes, car il y a une centaine de salaires diffrents dans la LNH. Cest dj
mieux, mais cest encore trop. En gnral, pour avoir une ide globale dun
ensemble de donnes, celui-ci ne doit pas contenir plus dune vingtaine de
catgories. Il nous faut donc rduire le nombre de catgories dans la variable.
La distribution groupe des donnes est alors la procdure suivre.
36 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

La distribution groupe des donnes consiste regrouper dans la mme


catgorie les observations qui sont proches les unes des autres. Nous ta-
blissons maintenant les effectifs des observations qui se trouvent dans cha-
cune de ces catgories de valeurs de la variable. Par exemple, pour obtenir
le poids des enfants de dix ans, nous pourrions compter le nombre den-
fants qui psent entre 26 et 30 kg, entre 31 et 35 kg, etc. Dans une distribu-
tion groupe, chaque catgorie englobe plusieurs valeurs (similaires) de la
variable. Pour ce qui est de la LNH, nous pourrions placer dans la mme
catgorie les joueurs ayant des salaires similaires et tablir la frquence de
chaque catgorie. Par exemple, nous pourrions hypothtiquement tablir
les catgories suivantes : catgorie 1 = salaires se situant entre 0 et 499 999 $,
catgorie 2 = entre 500 000 et 999 999 $, etc. Si 20 joueurs gagnent entre 0
et 499 999 $ et si 50 touchent entre 500 000 et 999 999 $, les effectifs grou-
ps seraient respectivement de 20 et 50 pour ces deux catgories.
La distribution groupe des frquences contiendra moins de catgo-
ries que la distribution simple et, ce faisant, il sera plus facile den faire
une interprtation. On doit cependant noter quen utilisant la distribution
groupe, nous sacrifions de linformation : chaque catgorie contient main-
tenant plusieurs niveaux de salaires. Ainsi, pour ce qui est des salaires situs
entre 0 et 499 999 $, le joueur de hockey qui gagne 499 999 $ se retrouve
dans la mme catgorie que celui qui gagne 100 000 $, mais dans une cat-
gorie de salaires diffrente de celui qui gagne 500 000 $. La simplification
de la banque de donnes que permet une distribution groupe augmente
certes la clart de linformation, mais elle le fait en sacrifiant des dtails.

Comment crer une distribution groupe des donnes

Pour construire une distribution groupe des donnes, nous devons tablir
une srie de catgories, chacune tant dfinie par un intervalle de valeurs.
Un intervalle spcifie la valeur maximale et la valeur minimale des obser-
vations qui seront incluses dans la catgorie. La limite suprieure dfinit la
valeur la plus grande de lintervalle et la limite infrieure, la valeur la plus
petite. Par exemple, pour un intervalle regroupant tous les salaires entre
500 000 et 999 999 $, les limites infrieure et suprieure sont de 500 000 et
999 999 $ respectivement. On considre que tous les athltes qui gagnent
LA DISTRIBUTION DES D ONNES 37

entre 500 000 et 999 999 $ appartiennent la catgorie de salaire 500 000-
999 999 $. Lathlte qui gagne 499 999 $ appartient une autre catgo-
rie, soit entre 0 et 499 999 $. La dfinition de ces limites reprsente ltape
importante de la construction des distributions groupes des effectifs.
La faon de crer une distribution groupe des effectifs est trs simple :
1. On dcide dabord du nombre de catgories que lon veut. Gnrale-
ment, entre 10 et 20 catgories. Mais cette rgle nest pas coule dans
le bton. Pour certaines applications, il est appropri den crer plus
de 20 ou moins de 10.
2. Ensuite, on calcule la diffrence entre la plus petite et la plus grande
valeur dans la distribution (cette diffrence, ltendue de la distribu-
tion, est une statistique de base qui est dcrite au chapitre 3).
3. Enfin, on divise cette diffrence par le nombre de catgories. Le
rsultat obtenu indique la taille de chaque intervalle.
Prenons les salaires des joueurs de la LNH et tablissons une distribution
groupe des effectifs pour 10 intervalles.
1. La diffrence entre le salaire le plus lev et le plus bas est de
10 835 000 $ (11 000 000-165 000 $).
2. Puisque nous dsirons tablir les effectifs pour 10 catgories de salai-
res, nous divisons ltendue des salaires (10 835 000 $) par 10, et ainsi
chaque intervalle regroupera les salaires en tranches de 1 083 500 $.
3. Nous pouvons maintenant construire nos intervalles et tablir la
distribution groupe des donnes : la premire catgorie compte le
nombre de joueurs ayant un salaire situ entre 165 000 et 1 248 500 $
(165 000 $ + 1 083 500 $ = 1 248 500 $) et la deuxime inclut tous
les salaires entre 1 248 501 et 2 332 000 $. Le dernier intervalle com-
prend tous les salaires entre 9 916 501 et 11 000 000 $.
Dans lexemple des salaires des joueurs de la LNH, la taille de lintervalle
cr par cette faon de faire produit un chiffre peu usuel (1 083 500 $). Or, il
est gnralement prfrable darrondir la taille des intervalles. Ainsi, au lieu
dutiliser un intervalle de 1 083 500 $, il est plus commode de choisir un
intervalle de 1 100 000 $. Donc, le premier intervalle comprend les salaires
se situant entre 0 et 1 100 000 $ inclusivement, le deuxime intervalle, les
salaires suprieurs 1 100 000 $ et gaux ou infrieurs 2 200 000 $, le troi-
sime intervalle, les salaires suprieurs 2 200 000 $ et gaux ou infrieurs
38 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

3 300 000 $, etc. Le Tableau 2.1 montre les effectifs groups pour les salai-
res des joueurs de la LNH. On peut y remarquer deux aspects importants :
Chaque salaire appartient une seule catgorie.
Tous les salaires sont catgoriss.

Tableau 2.1
Distribution des donnes pour les salaires des joueurs de la LNH, 2002-2003,
avec intervalle de 1 100 000 $

Catgorie de salaires Pourcentage Pourcentage


Frquence
(intervalle) en M $ (proportion) cumulatif

Plus de 0 1,1 374 55,1 % (0,551) 55,1 %

Plus de 1,1 2,2 148 21,8 % (0,218) 76,9 %

Plus de 2,2 3,3 76 11,2 % (0,112) 88,1 %

Plus de 3,3 4,4 30 4,4 % (0,044) 92,5 %

Plus de 4,4 5,5 20 2,9 % (0,029) 95,4 %

Plus de 5,5 6,6 9 1,3 % (0,013) 96,8 %

Plus de 6,6 7,7 5 0,7 % (0,007) 97,5 %

Plus de 7,7 8,8 5 0,7 % (0,007) 98,2 %

Plus de 8,8 9,9 7 1,0 % (0,01) 99,3 %

Plus de 9,9 11 5 0,7 % (0,007) 100,0 %

TOTAL 679 100,0 % (1,0)

Le Tableau 2.1 permet maintenant dapprhender rapidement la dis-


tribution des salaires que ces athltes reoivent. Par exemple, la majo-
rit des joueurs (374 sur 679, ou 55,1 %) a un salaire gal ou infrieur
1 100 000 $ et seulement une minorit (5 sur 679, ou 0,7 %) touche plus de
9 900 000 $.

Quiz rapide 2.2


Un nouveau joueur arrive dans lquipe. Il gagne 12 000 000 $. Est-ce quon doit
refaire tout le Tableau 2.1 ou ajouter une nouvelle catgorie Plus de 11 000 000
12 100 000 $ ? Justiez votre rponse.
LA DISTRIBUTION DES D ONNES 39

La taille des catgories et leur nombre

Il est plus facile de faire une interprtation des distributions de donnes


lorsquelles contiennent peu de catgories. Mais, moins il y a de catgo-
ries, plus grands sont les intervalles, et moins prcise est linterprtation
qui pourra tre faite de la distribution.
Le principe peut tre illustr pour les salaires des hockeyeurs de la LNH.
Si nous crions un seul intervalle (le nombre minimal dintervalles possi-
ble), tous les salaires y seraient inclus et nous pourrions conclure que 100 %
des salaires des joueurs se situent entre 0 et 11 000 000 $ ! Ce rsultat ne
nous aiderait pas beaucoup ! linverse, nous pourrions reprsenter une
catgorie par salaire (soit le nombre maximal de catgories possibles), ce
qui produirait un tableau contenant 679 catgories, et cela ne nous avan-
cerait pas plus. En gnral, nous nous efforons de crer une distribution
groupe des frquences qui contient aussi peu de catgories que possible,
tout en restant utile. Dans la plupart des cas, nous essayons dtablir entre
10 20 catgories bien que, dans certains cas, nous puissions en crer plus
ou moins.

La distribution groupe des donnes : sommaire des tapes

La construction dune distribution groupe des donnes exige le respect de


trois rgles fondamentales.
1. Les intervalles dfinissant les catgories doivent tre tablis de manire
ce que chaque observation soit classe dans une seule catgorie.
2. Les catgories doivent tre de taille identique. Elles respectent toutes
la mme tendue de valeurs de la variable.
3. Les catgories doivent tre choisies de manire couvrir toutes les
valeurs possibles.

LA DISTRIBUTION RELATIVE DES DONNES

Le Tableau 2.1 est utile pour faire une reprsentation des salaires des joueurs
de hockey. Ainsi, on peut noter que 374 joueurs sont pays 1 100 000 $ ou
moins, tandis que seulement 5 gagnent 9 900 000 $ ou plus. Il va sans dire
40 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

quun salaire aux alentours de 1 000 000 $ est plus habituel dans la LNH
quun salaire de 10 000 000 $.
Pour mieux comprendre ces effectifs, il est souvent pratique dexpri-
mer, pour chaque valeur ou catgorie de valeurs, la frquence des observa-
tions qui sy trouvent relativement au nombre total dobservations. Cette
distribution prend un nom diffrent. On lappelle distribution relative des
effectifs, car la frquence des observations pour chaque valeur exprime le
nombre dobservations dans chaque valeur relative (par rapport) au nom-
bre total dobservations. Nous pouvons exprimer ce rapport en proportion
ou en pourcentage.
La proportion indique la frquence des observations se trouvant dans
chaque intervalle relatif au nombre total dobservations. Le calcul de la
proportion est facile : il sagit simplement de diviser la frquence obtenue
pour chaque intervalle (fi) par le nombre total dobservations (N) :
Proportion = fi/N Formule 2.1
La proportion est une valeur qui varie entre 0 et 1,0. Ainsi, dans une dis-
tribution qui contient 100 observations, si 50 dentre elles se trouvent dans
le mme intervalle, nous disons que la proportion des observations qui se
situent dans cet intervalle est de 0,5 (Proportion = fi/N = 50/100 = 0,5). Si
aucune observation nexiste pour un intervalle en particulier, la proportion
pour cet intervalle est de 0,0.
Il est galement facile, une fois que nous avons calcul la proportion des
observations, de les exprimer en pourcentage. Les pourcentages varient
entre 0 et 100. Lorsque nous multiplions la proportion par 100 %, nous
obtenons le pourcentage :
Pourcentage = (fi/N) 100 % Formule 2.2
Ainsi, lorsque nous obtenons une proportion de 0,50, cela indique que
50 % (donc la moiti) de toutes les observations tombent dans cet inter-
valle.
Le Tableau 2.1 prsente ( la troisime colonne) le pourcentage (et la
proportion qui est entre parenthses) de joueurs dont le salaire se trouve
dans chacune des catgories (intervalles). Calculons la proportion et le
pourcentage de joueurs de la LNH dont le salaire se situe dans le premier
intervalle (entre 0 et 1 100 000 $). Nous constatons quil y a 374 joueurs
LA DISTRIBUTION DES D ONNES 41

dans ce premier intervalle de la distribution groupe des frquences. Nous


savons quau total, la banque de donnes inclut le salaire de 679 athltes.
Ainsi f1 = 374 et N = 679. La proportion est donc reprsente par (f1/N) =
(374/679) = 0,5508 ou 0,551, en arrondissant. Pour trouver le pourcentage,
nous multiplions la proportion par 100 % = 0,5508 (100 % = 55,08 % ou
55,1 %, en arrondissant). Donc, nous constatons que 55,1 % (cest--dire la
majorit) des joueurs de hockey gagnent entre 0 et 1 100 000 $. Si nous
reprenons la mme dmarche pour les athltes les mieux pays (la dixime
et dernire catgorie), nous notons que moins de 1 % (0,7 %) des joueurs
de la LNH sont pays plus de 9 900 000 $ (N = 679 et f10 = 5 ; Proportion =
f10/N = 5/679 = 0,0074) ; ce qui quivaut au pourcentage 0,0074 100 % =
0,74 %, ou 0,7 %, en arrondissant.
Une premire conclusion simpose au sujet du diffrend entre les pro-
pritaires et les athltes de la LNH. Bien quil soit vrai que les salaires
des joueurs peuvent grandement varier (la diffrence entre le salaire du
joueur le mieux pay et celui du joueur le moins bien pay est de plus de
10 000 000 $) et que certains gagnent jusqu 11 000 000 $, il reste que la
majorit des joueurs (55,1 %) gagne 1 000 000 $ ou moins par anne. Est-ce
que les joueurs de hockey gagnent des salaires exorbitants ? La distribution
groupe des frquences nous offre une rponse prliminaire : il est clair que
certains athltes sont trs bien pays, mais la majorit obtient des salaires
qui semblent plutt ordinaires pour des athltes professionnels.

La distribution cumulative : proportions et pourcentages

Il est souvent fort utile dexprimer une distribution de frquence rela-


tive en la transformant en distribution de proportion (ou de pour-
centage) cumulative. Lide consiste ici tablir la proportion ou le
pourcentage des observations qui se situent chaque intervalle PLUS
celles qui se trouvent dans tous les intervalles infrieurs. On peut tu-
dier, titre illustratif, les deux premires lignes de la quatrime colonne
du Tableau 2.1. On note ( la premire range de la colonne 4) que la
proportion des joueurs qui gagne 1 100 000 $ ou moins est de 0,551
(55,1 %), et, la deuxime range, on voit quune proportion de 0,769
(76,9 %) des joueurs gagne moins de 2 200 000 $. Cette quantit (76,9 %)
42 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

est la somme de la frquence de la deuxime range (21,8 %) plus celle


de la premire range (55,1 %).
La distribution de frquence cumulative est informative, car mme sil
est vrai que les salaires des joueurs de hockey peuvent aller jusqu
11 000 000 $, nous voyons maintenant que plus des trois quarts des joueurs
(76,9 %) touchent une fraction de ce montant, en loccurrence 2 200 000 $
ou moins. Si lon pense que 2 200 000 $ nest pas un salaire exorbitant pour
un athlte professionnel, on va conclure que les trois quarts des joueurs
de hockey nont pas un salaire exorbitant ! Si, en revanche, vous pensez
que 2 200 000 $ est un salaire draisonnable, la conclusion ne sera pas la
mme.
On peut construire une distribution cumulative des proportions, des
pourcentages ou des frquences en additionnant la proportion, le pourcen-
tage ou la frquence des observations qui se situent dans un intervalle par-
ticulier la proportion, au pourcentage ou la frquence se trouvant dans
tous les intervalles infrieurs. Par exemple, le pourcentage cumulatif pour
lintervalle 4 400 000 5 500 000 $ est 95,4 % (55,1 % + 21,8 % + 11,2 %
+ 4,4 % + 2,9 %). La frquence cumulative pour ce mme intervalle serait
648 (374 + 148 + 76 + 30 + 20). Nous concluons que, des 679 athltes,
648 gagnent 5 500 000 $ ou moins.

Quiz rapide 2.3


Dans la banque de donnes du site Internet (www.pum.umontreal.ca/ca/
ches/978-2-7606-2113-8.html) : Quel est le pourcentage de joueurs de lquipe
de Tampa Bay qui gagnent 3 000 000 $ ou moins ?

LES REPRSENTATIONS GRAPHIQUES DE LA DISTRIBUTION


DES DONNES

Il est souvent fort pratique de dcrire graphiquement la distribution des


donnes. Bien que plusieurs types de graphiques puissent tre crs pour
reflter la distribution, les graphiques des histogrammes et les polygones de
frquences sont ceux que nous rencontrons le plus frquemment.
LA DISTRIBUTION DES D ONNES 43

Le graphique des histogrammes

La distribution des donnes du Tableau 2.1 est reprsente visuellement


la Figure 2.1 par un graphique des histogrammes. Un histogramme est
une barre verticale qui reprsente la taille dun effectif. Lorsque chacun des
effectifs dune distribution est identifi par un histogramme, on obtient
un diagramme des histogrammes. Plus la frquence dune valeur ou dune
catgorie est grande, plus long est lhistogramme.
Le graphique des histogrammes contient deux axes : laxe horizontal se
nomme labscisse (gnralement identifie par le code X) tandis que laxe
vertical prend le nom dordonne (gnralement identifie par le code Y).
Labscisse indique les catgories de rponses (les intervalles ou les catgo-
ries) et lordonne indique les frquences. La frquence obtenue pour cha-
que catgorie de rponses est signale par une barre verticale. Plus la barre
est longue, plus les effectifs associs cette catgorie sont grands. La plus
petite frquence possible tant zro, le point o lordonne coupe labscisse
se trouve, dans ce cas, la frquence 0.
Pour dessiner le graphique, on commence par la premire catgorie
(lintervalle 0 1 100 000 $) et on note sa frquence dans le tableau de la
distribution de frquences (leffectif de ce premier intervalle est de 374, car
374 joueurs touchent entre 0 et 1 100 000 $). Ensuite, on trouve le point, le
long de lordonne, qui correspond une frquence de 374 et lon trace une
barre qui va de labscisse jusqu ce point sur lordonne. On passe alors
au deuxime intervalle de salaire (1 100 000-2 200 000 $). Leffectif pour
cette deuxime catgorie est de 148. On trace alors une deuxime barre qui
part sur labscisse et qui se prolonge jusqu la frquence de 148, le long
de lordonne. On procde ainsi pour chaque intervalle jusquau dernier
(9 900 000-11 000 000 $, qui a un effectif de 5).
44 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

gure 2.1 Lhistogramme des salaires (en millions de dollars)

300
Frquences

200

100

0
1,1 2,2 3,3 4,4 5,5 6,6 7,7 8,8 9,9 11

Salaires

Quiz rapide 2.4


Lhistogramme de la Figure 2.1 qui reprsente les salaires des hockeyeurs a une
forme trs particulire (le gros des salaires est dans le bas de lchelle). Pensez-
vous que lon puisse retrouver cette mme forme en ce qui concerne les salaires
des joueurs de basket-ball de la National Basketball League ? ou le nombre de pois-
sons pchs dans une journe par des bateaux de pche ?

En examinant la Figure 2.1, la situation des salaires des joueurs de la


LNH se clarifie rapidement : la plupart dentre eux ne touchent pas plus
de 1 100 000 $ et seule une infime minorit de ces athltes touchent plus
de 5 500 000 $ ; dans la LNH, 10 000 000 $ ou plus est un salaire fort inha-
bituel. En fait, lhistogramme ne contient pas plus dinformations que la
distribution de frquences quil dcrit, mais il les prsente sous un format
plus facile et rapide saisir.
LA DISTRIBUTION DES D ONNES 45

Les rgles utiles pour construire des histogrammes

La construction des histogrammes exige le respect dun certain nombre


de rgles.
1. Les intervalles refltant les valeurs plus faibles de la variable se pla-
cent vers la partie gauche de labscisse, et les valeurs plus fortes, vers
la droite. Ainsi, la Figure 2.1, lintervalle dcrivant le salaire le plus
faible (0-1 100 000 $) est lextrme gauche de labscisse, et linter-
valle du salaire le plus fort (9 900 000-11 000 000 $) est lextrme
droite de labscisse.
2. Les frquences identifies sur lordonne sont ascendantes, cest-
-dire que la frquence minimale (souvent zro) est situe au point
o lordonne et labscisse se coupent (sinterceptent).
3. Ltiquette qui dfinit chaque intervalle est inscrite sous chaque
histogramme. Lorsque ces tiquettes sont trop longues, on peut
alors les identifier dans une lgende adjacente au graphique. Mais
lorsquon fait ce choix, il est important didentifier chaque barre
de lhistogramme par une couleur ou une texture diffrente afin de
pouvoir les distinguer rapidement.

Le polygone des effectifs

Lorsquon travaille avec des variables intervalles ou de rapport, on peut


aussi remplacer lhistogramme par une ligne liant les frquences ; on
appelle le rsultat un graphique des polygones, comme celui de la Figure 2.2.
Les polygones des effectifs sont souvent plus lisibles que les histogrammes
et, comme nous le verrons plus loin, ils sont pratiques lorsque utiliss pour
dcrire des distributions de frquences relatives.
La construction dun polygone des frquences est trs simple. Lorsquon
travaille avec des distributions simples, il sagit de mettre un point sur le
graphique se rapportant la frquence de chaque valeur de la variable, et de
relier ensuite chacun de ces points par une ligne. Lorsquon travaille avec
des distributions groupes, on met le point la valeur qui dfinit le centre
de lintervalle. Pour le polygone des salaires des hockeyeurs de la LNH, le
46 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

point qui dcrit la premire catgorie (0-1 100 000 $) est situ visuellement
au centre de lintervalle (550 000 $).
Le polygone des frquences utilise la mme information que lhisto-
gramme, et ces formes graphiques proviennent toutes deux de la distri-
bution. Lavantage du polygone sur lhistogramme est quil produit un
graphique visuellement plus simple. Si on tudie la Figure 2.2, on voit trs
bien que la frquence des salaires plus levs chute de faon marquante.

gure 2.2 Le polygone des salaires (en millions de dollars)

400

350

300

250
Frquences

200

150

100

50

0
0 1,1 2,2 3,3 4,4 5,5 6,6 7,7 8,8 9,9
1,1 2,2 3,3 4,4 5,5 6,6 7,7 8,8 9,9 11

Intervalles de salaires

Comme pour la distribution des frquences, il importe de construire les


graphiques en se proccupant du nombre total de catgories. Lobjectif est
daccentuer la lisibilit du graphique en limitant le nombre de catgories
sans pour autant le rduire trop. Par exemple, la Figure 2.3, on a deux dis-
tributions groupes pour le salaire des joueurs de la LNH. Le graphique de
gauche comprend seulement trois intervalles, alors que celui de droite en
contient beaucoup plus. Lequel de ces deux graphiques reprsente le mieux
les rsultats ? La Figure 2.1 est un graphique plus utile que les histogram-
mes, mais aucune des deux nest entirement satisfaisante.
LA DISTRIBUTION DES D ONNES 47

gure 2.3 Exemples dhistogrammes o le nombre de catgories


est inappropri

40 40

30 30
Frquences

Frquences
20 20

10 10

0 0
1,1
2,2
3,3
4,4
5,5
6,6
7,7
8,8
9,9
11

1,1
2,2
3,3
4,4
5,5
6,6
7,7
8,8
9,9
11
Salaires (en millions) Salaires (en millions)

Quiz rapide 2.5


Avec les graphiques de la Figure 2.3, peut-on avoir une ide (mme approxima-
tive) du nombre de joueurs gagnant environ 500 000 $ ? Avec la Figure 2.1, est-ce
plus facile ?

LES FORMES DE DISTRIBUTION

La distribution des frquences et les graphiques qui la reprsentent nous


permettent de connatre la forme que prend la distribution. Cette forme
gnrale est un important lment descriptif des distributions. La Figure 2.4
nous montre six formes possibles.

La distribution unimodale

La distribution unimodale a une seule bosse indiquant que leffectif


pour une des valeurs (ou un seul intervalle de valeurs dans le cas des dis-
tributions groupes des effectifs) est plus grande que leffectif de nimporte
quelle autre valeur (ou intervalle de valeurs). La valeur sur labscisse qui
est associe cette bosse sappelle le mode. Lorsquune distribution contient
48 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

une seule valeur, qui est la plus frquente, la distribution est unimodale.
Aussi, les effectifs pour les valeurs (ou intervalles) qui sloignent du mode
deviennent graduellement plus petits. La distribution normale (la fameuse
courbe en cloche que nous reverrons au chapitre 5) est une distribution
unimodale.

La distribution bimodale (ou multimodale)

Contrairement la distribution unimodale, la distribution bimodale contient


deux modes. Dans ce cas, nous avons deux valeurs de la distribution qui
sont la fois frquentes et les plus fortes de la distribution. Les distribu-
tions bimodales sont plus rares que les distributions unimodales. Une
distribution bimodale indique gnralement que nous avons deux sous-
groupes dobservations distinctes dans la distribution. Par exemple, un his-
togramme dcrivant la taille des joueurs de basket-ball et des jockeys sera
presque certainement bimodale. Mme si certains joueurs de basket-ball
sont plus petits que dautres, il y a fort parier que tous seront plus grands
que les jockeys. Lhistogramme de cette distribution hypothtique aurait
deux modes, lun dcrivant les jockeys, lautre les joueurs de basket-ball.
Lorsque nous avons plus de deux modes dans une distribution de frquen-
ces, la distribution prend le nom de distribution multimodale.

Quiz rapide 2.6


Tenez pour acquis quil existe une distribution des connaissances en mathmati-
ques. Vous testez les connaissances mathmatiques de deux groupes dtudiants,
lun provient du secondaire, et lautre de luniversit. Supposons que vous placiez
les connaissances en mathmatiques des deux groupes sur le mme polygone,
quelle sera la forme probable de cette distribution : unimodale ou bimodale ?

La distribution symtrique

Lorsque, dans une distribution, la frquence des valeurs se rpartit gale-


ment des deux cts de la valeur modale, nous disons que la distribution est
symtrique. Lorsque la frquence des valeurs ne se rpartit pas galement
des deux cts du mode, nous disons que la distribution est asymtrique.
LA DISTRIBUTION DES D ONNES 49

La distribution asymtrique

La distribution asymtrique se distingue dune distribution symtrique par


la position du mode. Les distributions unimodales qui sont asymtriques
ont des frquences trs diffrentes selon le ct o sont situs les effectifs
plus grands. Une distribution asymtrique positive indique que les valeurs
sont plus tires du ct positif de labscisse. Une distribution asymtrique
ngative a des valeurs plus tires du ct ngatif de labscisse1. La distribu-
tion des salaires des hockeyeurs de la LNH est extrmement asymtrique,
et lasymtrie est positive. La valeur la plus frquente (le mode) se trouve
lextrmit gauche de la distribution, et les valeurs stirent plus du ct
positif de lchelle. Quand la variable tudie est le salaire, il est trs fr-
quent dobtenir une distribution asymtrique positive puisque la plupart
des gens ont des salaires plus faibles que forts.
Une technique rapide pour distinguer une asymtrie positive dune asy-
mtrie ngative consiste examiner la forme du polygone (voir la Figure 2.4).
Nous identifions la forme de lasymtrie par la direction dans laquelle le
polygone pointe . Lorsque la distribution pointe vers les valeurs faibles
de la distribution (vers la gauche du graphique), nous disons que la distri-
bution est asymtrique ngative. Dans le cas contraire, la distribution est
asymtrique positive.

Le degr daplatissement : leptocurtique et platycurtique

Le degr daplatissement dune distribution indique avec quel degr la dis-


tribution de frquences est aplatie ou pointue. Par exemple, les deux der-
nires distributions de la Figure 2.4 reprsentent une distribution qui est
trs plate (distribution platycurtique) et une qui est trs pointue (distribu-
tion leptocurtique).

1. On se souviendra que, par convention, on met les valeurs faibles de la variable dans
la partie gauche de labscisse (la partie ngative de labscisse) et les valeurs fortes
(positives), droite.
50 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

gure 2.4 Diffrentes formes de distribution de frquences

Distribution unimodale Distribution bimodale

20 40 60 80 100 20 40 60 80 100

Distribution asymtrique positive Distribution asymtrique ngative

20 40 60 80 100 20 40 60 80 100

Distribution platycurtique Distribution leptocurtique

20 40 60 80 100 20 40 60 80 100

Dans une distribution platycurtique, les valeurs de la distribution sont


trs tales. La taille des effectifs est rpartie plus galement travers les dif-
frentes valeurs de la variable, indiquant que les catgories contiennent des
frquences plus similaires. linverse, pour la distribution leptocurtique,
les valeurs sont trs concentres autour du mode : ainsi, il existe beaucoup
dobservations proches du mode, et la frquence des observations diminue
rapidement au fur et mesure que lon sloigne de la valeur modale. La
distribution des salaires des joueurs de la LNH est leptocurtique (aussi
bien quasymtrique). Trois joueurs sur quatre (77 %) reoivent des salaires
LA DISTRIBUTION DES D ONNES 51

gaux ou infrieurs 2 200 000 $, tandis que les autres (23 %) ont des salai-
res se situant entre 2 200 000 et 11 000 000 $.

Quiz rapide 2.7


Vous avez une distribution des absences au travail des employs dune compagnie.
La grande majorit dentre eux sabsente entre 0 et 4 jours par anne. Mais une
minorit sabsente plus souvent, certains jusqu 50 jours. Quelle sera la forme
probable de cette distribution : symtrique, asymtrique positive, asymtrique
ngative ?

Tableau 2.2
Notes obtenues deux examens (en %)

Examen partiel Examen nal Examen partiel Examen nal

30 33 65 71

32 42 67 73

35 44 70 74

46 52 71 75

49 55 71 76

49 57 72 77

50 61 74 77

52 62 75 78

55 62 75 79

56 64 75 81

59 65 76 82

61 66 76 82

62 66 77 84

63 67 78 86

64 69 87 88

65 71 90 92
52 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

LA DISTRIBUTION DES FRQUENCES : UN EXEMPLE COMPLET

Le Tableau 2.2 prsente les notes obtenues par 32 tudiants des examens.
Les notes stalent entre 30 et 90 pour lexamen partiel, et entre 33 et 92
pour lexamen final.
Le Tableau 2.3 reprend les donnes du Tableau 2.2, quil prsente sous la
forme dune distribution groupe. La Figure 2.5 est lhistogramme group
pour ces rsultats. Nous pouvons voir que, bien que les notes de lexamen
partiel stalent de la catgorie 20 30 jusqu la catgorie 80 90, la majo-
rit des tudiants obtient des notes se situant entre 60 et 80. Quant lexa-
men final, la rpartition semble situe un peu plus droite (de la catgorie
30 40 jusqu la catgorie 90 100). Elle est aussi plus disperse puisque la
majorit des tudiants ont des notes entre 60 et 90.

Tableau 2.3
Distribution des frquences et des pourcentages groups et cumulatifs pour
deux examens

Intervalles Frquence Frquence Pourcen- Pourcen- Pourcen- Pourcen-


de notes examen examen tage tage tage tage
partiel nal examen examen cumulatif cumulatif
partiel nal examen examen
partiel nal

plus de 20 30 1 0 3,1 % 0,0 % 3,1 0,0


plus de 30 40 2 1 6,3 % 3,1 % 9,4 3,1

plus de 40 50 4 2 12,5 % 6,3 % 21,9 9,4


plus de 50 60 4 3 12,5 % 9,4 % 34,4 18,8

plus de 60 70 8 9 25,0 % 28,1 % 59,4 46,9


plus de 70 80 11 10 34,4 % 31,3 % 93,8 78,1
plus de 80 90 2 6 6,3 % 18,8 % 100,0 96,9

plus de 90 100 0 1 0,0 % 3,1 % 100,0 100,0


LA DISTRIBUTION DES D ONNES 53

gure 2.5 Distribution des notes pour les examens partiel et nal

10 10

8 8
Frquences

Frquences
6 6

4 4

2 2

0 0
10 20 30 40 50 60 70 80 90 100 10 20 30 40 50 60 70 80 90 100
Examen partiel Examen final

Le polygone est particulirement utile lorsquil sagit de placer plusieurs


distributions des effectifs sur le mme graphique afin de les comparer.
La Figure 2.6 est un exemple des polygones tracs partir de la distribu-
tion des notes obtenues par les tudiants aux deux examens. Elle prsente
simultanment (sur le mme graphique) deux polygones de frquences,
lun qui dcrit le rsultat lexamen final (en pointill) et lautre, les notes
obtenues lexamen partiel (la ligne solide). On trouvera les donnes pour
ces polygones au Tableau 2.3.

gure 2.6 Polygones pour les notes deux examens

40
35
30
Frquences

25
Examen partiel
20
Examen final
15
10
5
0
moins 40-49 50-59 60-69 70-79 80-89 plus
que 40 que 89

Intervalles de rsultats aux examens


54 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

La comparaison visuelle de ces deux polygones indique plus de simila-


rits que de diffrences entre les rsultats aux deux examens. La majorit
des tudiants obtient entre 50 et 90, et les notes trs fortes et trs faibles
sont rares dans les deux cas. De plus, dans les deux cas, la frquence la plus
forte se retrouve pour la mme catgorie de rsultats aux examens (70-80).
Par contre, les deux examens ne produisent pas des rsultats identiques.
On observe que plus dtudiants obtiennent des notes trs fortes (80-90 ;
90 et plus) lexamen final qu lexamen partiel et, linverse, plus dtu-
diants obtiennent des rsultats faibles lexamen partiel qu lexamen final
(40-50 ; 50-60). Lexamen final tait-il plus facile que lexamen partiel ? Les
distributions permettent de tirer rapidement une conclusion prliminaire.
En revanche, si lon est tent den tirer une conclusion dfinitive, il faut
attendre. Il faut dabord apprendre les procdures dinfrences statistiques
qui sont discutes dans les chapitres suivants.

SOMMAIRE DU CHAPITRE

La description statistique la plus simple consiste laborer une distribution


des effectifs. La distribution simple des effectifs prsente le nombre dobser-
vations pour chacune des valeurs dune variable. Lorsque lon a une grande
tendue de valeurs possibles dans une distribution, il est prfrable de
construire une distribution groupe des effectifs. Dans ce cas, les rponses
similaires sont mises dans une mme catgorie et lon compte le nombre
dobservations qui tombent dans chacune delles. partir de la distribution
simple ou groupe des effectifs, il est possible de calculer la proportion et le
pourcentage. Les distributions relatives expriment, pour chaque valeur de
la distribution, le nombre dobservations quelles contiennent par rapport
au nombre total dobservations. Lhistogramme et le polygone se servent de
la mme information (la distribution des effectifs et ses drivs, tels que les
distributions relatives) afin de produire une image visuelle de la rpar-
tition. Ainsi, la distribution aussi bien que ses reprsentations graphiques
permettent darriver aux mmes conclusions.
LA DISTRIBUTION DES D ONNES 55

EXERCICES DE COMPRHENSION

1. Lorsque nous organisons un ensemble de donnes par ordre crois-


sant et que nous indiquons ct de ces donnes la frquence qui y
est associe, nous construisons __________.
a) une distribution des effectifs
b) un histogramme
c) un graphique des effectifs
d) aucune de ces rponses
2. Gnralement, en combien de classes les donnes doivent-elles tre
regroupes ?
a) de 5 10
b) de 10 20
c) de 5 15
d) de 15 30
3. Vous avez une distribution dont la valeur la plus petite est 22 et la
valeur la plus leve est 86. Supposons que vous dcidiez de regrouper
ces donnes en 8 classes. Quelle sera ltendue de chaque intervalle
de classe ?
a) 8
b) 9
c) 10
d) 19
4. Parmi les 5 000 professeurs duniversit au Canada, 1 000 sont
des professeurs adjoints. Quelle est la proportion de professeurs
adjoints dans les universits canadiennes ?
a) 1 000
b) 20 %
c) 0,20
d) Impossible calculer, puisque lon ne connat pas le nombre de
professeurs dans les autres catgories.
5. Pour la question 4, le pourcentage de professeurs adjoints est
de __________.
56 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

6. Le premier intervalle compte toutes les valeurs entre 10 et 20, et


le deuxime compte toutes celles entre 20 et 30. Une personne
obtient 20. Dans quelle catgorie allez-vous la placer ?
a) La catgorie 1.
b) La catgorie 2.
c) la fois dans la catgorie 1 et dans la catgorie 2.
d) Dans ni lune ni lautre : les intervalles ne sont pas correctement
dfinis.
7. Une valeur est plus frquente que nimporte quelle autre dans une
certaine distribution.
a) La distribution est obligatoirement multimodale.
b) La distribution est obligatoirement unimodale.
c) La distribution est obligatoirement leptocurtique.
d) La distribution est obligatoirement symtrique.
8. Nous mesurons le nombre de questions de raisonnement math-
matique auxquelles un groupe dlves du primaire et un groupe de
professeurs de mathmatiques luniversit ont rpondu correcte-
ment. La distribution est probablement _________.
a) platycurtique
b) symtrique
c) ngativement asymtrique
d) bimodale
9. Dans cet examen, 90 % des tudiants obtiennent entre 70 et 72. La
distribution des notes est fort probablement ________________.
a) platycurtique
b) leptocurtique
c) ngativement asymtrique
d) positivement asymtrique
LA DISTRIBUTION DES D ONNES 57

Rponses

1. a
2. b
3. a
4. c
5. 20 %
6. d
7. b
8. d
9. b
Page laisse blanche
CHAPITRE 3
LES STATISTIQUES DESCRIPTIVES

Les statistiques de la tendance centrale.............................................................. 61


Le mode.............................................................................................................................. 62
La mdiane....................................................................................................................... 64
Critique de la mdiane comme statistique de la tendance centrale 67
La moyenne arithmtique..................................................................................... 69
Les mesures de dispersion............................................................................................ 77
Ltendue ........................................................................................................................... 78
Ltendue interquartile............................................................................................ 79
La variance autour de la moyenne......................................................................... 81
Le concept de lerreur autour de la moyenne revisit....................... 81
Critique de la somme des erreurs au carr comme
statistique de la dispersion............................................................................. 84
Le calcul de la variance autour de la moyenne ...................................... 85
Lcart-type ...................................................................................................................... 88
Autres statistiques descriptives ................................................................................ 89
Le degr daplatissement........................................................................................ 92
Le coefficient de variabilit................................................................................... 93
Sommaire du chapitre..................................................................................................... 94
Exercices de comprhension...................................................................................... 95
Page laisse blanche
CHAPITRE 3

LES STATISTIQUES DESCRIPTIVES

Dans les deux chapitres prcdents, nous avons appris dcrire un chan-
tillon en ordonnant ses valeurs et en comptabilisant ses frquences abso-
lues ou relatives. Ces distributions permettent dorganiser et de simplifier
la masse des observations afin de sen faire une image globale. Cependant,
ce nest l quun premier pas. Il faut ensuite obtenir des prises sur ces don-
nes brutes en excutant des calculs qui rduisent la distribution quelques
valeurs chiffres qui la synthtisent. Ces indicateurs chiffrs sappellent des
statistiques1 et lon nomme statistiques descriptives lensemble de ces indi-
cateurs. Elles vont servir simplifier et organiser les informations dans le
but den faciliter linterprtation.

LES STATISTIQUES DE LA TENDANCE CENTRALE

En premier lieu, il est important de dfinir le concept de tendance centrale


dune distribution. La tendance centrale est la valeur la plus typique de la
distribution, celle qui la rsume le mieux. Elle sert rpondre des ques-
tions telles que : quel est le salaire typique dun joueur de la LNH ? Quelle
est la note typique des tudiants un examen ? Quel est le taux dab-
sentisme typique dun employ en Italie ? Combien denfants la famille
nord-amricaine typique compte-t-elle ? La distribution des effectifs
(chapitre 2) nous donne toutes les informations que contient une banque

1. La dfinition formelle de la statistique est discute au chapitre 8.


62 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

de donnes ; la tendance centrale rduit cette masse la seule valeur qui la


dcrit le mieux.
Les joueurs de hockey nont pas tous le mme salaire, et les familles
nord-amricaines nont pas toutes le mme nombre denfants. Nanmoins,
la connaissance de la valeur typique est une faon trs pratique de se faire
une ide globale du salaire des joueurs de hockey ou du nombre denfants
des familles nord-amricaines. De manire gnrale, cest la statistique de
tendance centrale qui aura le plus dinfluence sur les dcisions prises par
chacun dans sa vie.
Il existe plusieurs statistiques de la tendance centrale. Nous en dcrirons
trois : le mode, la mdiane et la moyenne arithmtique.

Lhiver au Qubec : manteau ou non ?


En hiver, les tudiants qubcois nont jamais besoin dcouter la mto pour dcider
sils doivent ou non porter un manteau pour se rendre luniversit. Ils savent que, typi-
quement , il fait froid. Statistiquement, ces tudiants savent que la tendance centrale
de la distribution des tempratures hivernales leur indique qu il fait froid ! Pour com-
plter cette image, on pourrait essayer de dcrire la temprature Montral pendant le
mois de fvrier. Arms dune distribution des effectifs des tempratures pour le mois de
fvrier, on serait en mesure de rpondre quil fait 40 C pendant 5 % des jours, 20 C
pendant 15 % des jours, 0 C pendant 40 % des jours, etc. Cest une information trs pr-
cise. Cependant, il serait beaucoup plus pratique de rpondre, plus simplement, que la
temprature typique pour le mois de fvrier est par exemple de 5 C. Cest celle qui
dcrit le mieux la temprature au cours de ce mois. La mesure de la tendance centrale
est alors une manire simple et pratique de dcrire une distribution complte tout en
sachant, bien sr, que cette valeur nest quune reprsentation de la distribution et, par
consquent, quelle offre une information moins prcise que la distribution complte.

Le mode

Le mode (parfois not Mo) est la valeur de la distribution dont la frquence


est la plus grande. Le mode, dans le cas dune distribution groupe de
donnes, est lintervalle contenant le plus dobservations. Le Tableau 3.1
rapporte la distribution de frquence simple pour les notes obtenues par
32 tudiants un examen partiel. La note la plus frquente tant 75 (3 tu-
diants lobtiennent et cest la seule note aussi frquente), le mode est gal
75. Le mode se trouve en examinant la frquence des valeurs, mais cest la
valeur et non la frquence qui est le mode. Ainsi, au Tableau 3.1, le mode
LES STATISTIQUES DESCRIPTIVES 63

est 75 (la note sur la variable note lexamen ) et non pas 3 (qui est la
frquence de cette valeur, son effectif).
Une distribution qui contient une seule valeur dominante (la plus fr-
quente) est une distribution unimodale. Il est possible que deux valeurs
soient gales et les plus frquentes dans lchantillon, la distribution est
alors bimodale (il y a deux modes). Si la distribution contient plus de deux
valeurs qui sont les plus gales et frquentes, nous parlons alors dune dis-
tribution multimodale.

Quiz rapide 3.1


Au Tableau 3.1, liminez de la distribution les tudiants qui obtiennent une note
de 75. Dterminez ensuite le ou les modes pour la distribution des notes
restantes. Quelle est alors la forme de cette distribution ?

La prsence dune distribution bimodale indique parfois que deux grou-


pes distincts se trouvent lintrieur de la distribution. Par exemple, si on
mesure la taille dune centaine dhommes et dune centaine de femmes, il
y a de fortes chances pour que la distribution soit bimodale et comprenne
une taille typique (modale) pour les femmes et une autre, diffrente, pour
les hommes. Il en est ainsi, car la taille typique des femmes et des hommes
nest pas, en gnral, la mme.

Comment trouver le mode ?

Pour trouver le mode, il suffit dexaminer les effectifs pour chaque valeur
de la mesure. Le mode est la valeur qui est associe leffectif le plus grand.
Aucun calcul nest requis.

Critique du mode comme statistique de la tendance centrale

Le mode est une valeur de tendance centrale pratique, car il se trouve faci-
lement et il sagit invariablement dune valeur existant vritablement dans
une distribution. Dans le cas du Tableau 3.1, le mode est 75, et 75 est une
vritable note obtenue par des tudiants. Si lon dsire interviewer (pour
un article dans un journal, par exemple) ltudiant dont la connaissance
en statistique est typique , nous choisirons une personne ayant obtenu
64 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

le rsultat modal (cest--dire celle qui a obtenu 75), car nous savons que
nous allons effectivement trouver une telle personne. Cela nest pas nces-
sairement le cas avec la mdiane ou la moyenne (deux autres mesures de la
tendance centrale), comme nous le verrons un peu plus loin.
Cependant, le mode nest pas la mesure de tendance centrale par excel-
lence. Pour trouver le mode, nous navons besoin que dune seule infor-
mation, soit la valeur associe leffectif le plus grand. Aucune des autres
valeurs de la distribution ne laffecte. tant dfini par seulement une partie
de toute linformation disponible, le mode nest pas toujours la valeur qui
dcrit le mieux la distribution. Laddition ou le retrait de quelques obser-
vations (ou mme dune seule parfois) peut considrablement changer
le mode ou ne pas le modifier : en rpondant au Quiz rapide 3.1, on a pu
remarquer quen retirant les trois notes 75 de la distribution, la distribution
devenait multimodale (les autres modes tant 49, 65, 71, 76). Quelle serait
alors la vritable tendance centrale, la note qui dcrirait le mieux la per-
formance typique des tudiants lexamen : 49, 65, 71 ou 76 ? Le mode ne
peut pas nous aider trouver la rponse.
De plus, en ajoutant des observations lchantillon, il est possible que
le mode ne change pas. titre dillustration, si les quipes de la LNH enga-
geaient 100 joueurs de plus, et que chacun deux recevait 50 000 000 $ en
salaire, le mode ne changerait pas. Il serait toujours de 500 000 $ ! Le mode
est donc une mesure peu dmocratique puisque seulement une partie des
valeurs laffecte et que les autres ne comptent pas.

La mdiane

La mdiane (parfois note Md) est la mesure de la tendance centrale qui


permet de dfinir la valeur qui coupe la distribution en deux parties, cha-
cune ayant le mme nombre dobservations. La note mdiane pour la dis-
tribution du Tableau 3.1 est 65. Puisque nous avons 32 tudiants dans la
distribution, la valeur de la mdiane devrait tre celle qui coupe lchan-
tillon en deux, avec 16 tudiants dun ct et 16 tudiants de lautre. Si lon
compte 16 notes partir de la plus petite (29), sans oublier que la note 49
est obtenue par plus dun tudiant, on remarque que la note 65 coupe la
distribution en deux groupes gaux. Dans ce cas, la mdiane (Md) est 65.
LES STATISTIQUES DESCRIPTIVES 65

Tableau 3.1
Distribution des notes lexamen partiel

Notes Frquence % % cumulatif

29 1 3,1 % 3,1 %
30 1 3,1 % 6,3 %
35 1 3,1 % 9,4 %
46 1 3,1 % 12,5 %
49 2 6,3 % 18,8 %
50 1 3,1 % 21,9 %
52 1 3,1 % 25,0 %
55 1 3,1 % 28,1 %
56 1 3,1 % 31,3 %
59 1 3,1 % 34,4 %
61 1 3,1 % 37,5 %
62 1 3,1 % 40,6 %
63 1 3,1 % 43,8 %
64 1 3,1 % 46,9 %
65 2 6,3 % 53,1 %
67 1 3,1 % 56,3 %
70 1 3,1 % 59,4 %
71 2 6,3 % 65,6 %
72 1 3,1 % 68,8 %
74 1 3,1 % 71,9 %
75 3 9,4 % 81,3 %
76 2 6,3 % 87,5 %
77 1 3,1 % 90,6 %
78 1 3,1 % 93,8 %
87 1 3,1 % 96,9 %
90 1 3,1 % 100,0 %
Total 32 100,0 %

Mode (Mo) 75

Mdiane (Md) 65

Moyenne (M) 63,25


66 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Comment trouver la mdiane ?

La mdiane est correctement calcule lorsque la moiti des observations


se trouve au-dessus delle et lautre moiti en dessous. Lobservation qui se
trouve au milieu dune distribution est donc la mdiane. Pour la trouver,
il faut mettre les observations par ordre croissant. La procdure est lg-
rement diffrente selon que la distribution contient un nombre pair ou
impair dobservations.
Lorsque lchantillon contient un nombre impair dobservations,
a) on ajoute 1 au nombre total dobservations N ;
b) on divise ce total par 2 ;
c) la mdiane est la valeur de lobservation qui se trouve la position
calcule ltape b.
Illustration : prenons les rsultats obtenus par les sept premiers tudiants
lexamen (Tableau 3.1). Ces tudiants ont obtenu les notes suivantes : 29, 30,
35, 46, 49, 49 et 50. Quelle est la mdiane pour ces sept observations (N = 7) ?
a) 7 + 1 = 8 ;
b) 8/2 = 4 ;
c) La quatrime observation de la distribution est la mdiane. Le qua-
trime tudiant a obtenu 46 lexamen. La mdiane Md de cette dis-
tribution est donc 46.
Vrification des calculs : puisque la mdiane est la valeur qui spare la
distribution en deux groupes gaux, lorsquelle est correctement calcule,
il doit y avoir un nombre gal de personnes obtenant des notes au-dessus
et en dessous de la mdiane (Md = 46). Trois observations se trouvent au-
dessus de 46 (49, 49 et 50) et trois observations se trouvent en dessous (29,
30 et 35). La mdiane est donc la bonne place.
Lorsque lchantillon contient un nombre pair dobservations,
a) on ajoute 1 au nombre total dobservations N ;
b) on divise ce total par 2 (ce calcul donne un chiffre qui se termine
par 0,5) ;
c) la mdiane se situe entre la valeur de lobservation se trouvant la posi-
tion indique ltape b en enlevant 0,5 et lobservation se trouvant la
position indique ltape b en ajoutant 0,5. Par exemple, si N = 6 ; 6 +
1 = 7/2 = 3,5. La mdiane se situe entre la 3e et la 4e observation.
LES STATISTIQUES DESCRIPTIVES 67

Illustration : prenons les rsultats obtenus par les six premiers tudiants
lexamen (Tableau 3.1). Ces tudiants ont obtenu les notes suivantes : 29,
30, 35, 46, 49 et 49.
a) 6 + 1 = 7 ;
b) 7/2 = 3,5 ; la mdiane se trouve entre la note obtenue par le 3e et le
4e tudiant ;
c) Ltudiant la 3e position a obtenu 35 et celui la 4e position a
obtenu 46 ;
d) La valeur intermdiaire entre 35 et 46 est (35 + 46)/2 = 81/2 = 40,5.
La mdiane est 40,5.
Vrification des calculs : trois observations se trouvent au-dessus de
Md = 40,5 (46, 49 et 49) et trois observations se trouvent en dessous (29, 30
et 35). La mdiane est donc la bonne place.
Concernant les 32 tudiants dont les notes sont inscrites au Tableau 3.1,
la mdiane se situe entre les 16e et 17e tudiants. Puisque ces deux tudiants
(16e et 17e) obtiennent la mme note (65), la mdiane est la moyenne des
deux valeurs, cest--dire 65 [(65 + 65)/2 = 65].

Critique de la mdiane comme statistique de la tendance centrale

Linconvnient principal de la mdiane comme mesure de la tendance


centrale est quelle ne se sert que dune parcelle de linformation contenue
dans la distribution, soit la position relative des observations. Par exem-
ple, les deux distributions suivantes ont exactement la mme mdiane bien
quelles soient fort diffrentes :
chantillon X : 100, 110, 120, 130, 140
chantillon Y : 100, 110, 120, 130, 1 000 000
Nutilisant pas toute linformation contenue dans la distribution, la
mdiane est, en gnral, une indication moins utile pour dfinir la ten-
dance centrale.
En contrepartie, cette faiblesse est parfois un avantage. La mdiane est
une statistique de tendance centrale qui nest pas affecte par les valeurs qui
sont trs diffrentes des autres. Lorsquune distribution contient quelques
valeurs extrmement diffrentes des autres valeurs, il est souvent prfrable
68 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

de se servir de la mdiane pour dfinir la tendance centrale. En reprenant


lillustration des chantillons X et Y ci-dessus, nous voyons que la mdiane
est de 120 pour les deux distributions. Si on calcule les moyennes de ces
deux distributions (section suivante), celles-ci seront radicalement diff-
rentes. Dans un tel cas, la mdiane est une meilleure estimation de la valeur
typique que ne peut ltre la moyenne.
En science conomique par exemple, le revenu mdian est beaucoup
plus utilis que le revenu moyen, puisquune poigne de personnes ont
des revenus dpassant les milliards de dollars (ce qui reprsente des salai-
res extrmement diffrents de ceux que lon rencontre habituellement). Le
calcul de la moyenne dcrirait fort mal le salaire typique .
La mdiane est principalement utilise lorsque lon dsire diviser un
chantillon en deux groupes de taille identique, dans le but de faire une
comparaison entre les deux groupes sur une autre variable. Par exemple,
pour dterminer si le nombre dheures dtude affecte la note lexamen,
on cre deux groupes, lun compos des tudiants qui ont obtenu une note
sous la mdiane, lautre compos des tudiants qui ont obtenu une note
au-dessus de la mdiane. On peut maintenant comparer le temps dtude
pour chacun des deux groupes sparment.
La mdiane est utile quand on veut obtenir une statistique de la tendance
centrale, mais quil manque des observations. Par exemple, supposons que
les valeurs du Tableau 3.1 reprsentent non pas les notes un examen,
mais le nombre de minutes que chaque personne prend pour rsoudre un
problme. Nous voulons trouver le temps typique requis pour y parvenir.
Imaginons maintenant une 33e personne qui na jamais termin son pro-
blme. Pour dterminer la moyenne (ce que nous verrons plus loin), il faut
connatre le temps pris par chaque personne. Or, puisque nous ne connais-
sons pas le temps requis par cette 33e observation, il devient impossible de
calculer la moyenne, sauf si nous la retirons de la distribution. En se ser-
vant de la mdiane comme mesure de la tendance centrale, llimination
de cette observation nest plus ncessaire. Puisque nous avons 33 personnes, la
mdiane est le temps requis par la 17e personne car N = 33 et (33 + 1)/2 = 17,
et nous pouvons conclure, dans ce cas, que la moiti des personnes prend
moins de 65 minutes et lautre moiti prend plus de 65 minutes pour rsou-
dre le problme.
LES STATISTIQUES DESCRIPTIVES 69

Quiz rapide 3.2


Trouvez la mdiane pour les cinq et six dernires observations du Tableau 3.1.
Ajoutez dans les deux cas une dernire observation inconnue. Obtenez-vous un
rsultat diffrent de celui que vous aviez trouv ?

La moyenne arithmtique

La moyenne arithmtique (parfois note M) est probablement la statistique


la plus utile et la plus frquemment utilise, aussi bien dans la vie scientifi-
que et professionnelle que dans la vie de tous les jours2 . Il suffit de penser,
par exemple, une note scolaire moyenne. Facile calculer, la moyenne
possde un ensemble de proprits et de caractristiques qui en font la
valeur de la tendance centrale reprsentant le mieux la distribution et qui,
par consquent, est celle quon utilise gnralement le plus.

Comment trouver la moyenne ?

Pour trouver la moyenne, il suffit dadditionner la valeur de chaque obser-


vation et de diviser ce total par le nombre dobservations. La formule pour
trouver la moyenne M est :
N
M = ( X i)/N Formule 3.1
i=1

Xi est la valeur obtenue sur la variable X pour chaque observation i (i allant


de 1 N, la dernire personne), (sigma majuscule) est le symbole qui
indique une sommation et N est le nombre total dobservations.
La formule se lit de la manire suivante : la moyenne (M) de la variable
X est gale la somme () des observations (Xi) divise par le nombre (N)
dobservations. partir du Tableau 3.1, le Tableau 3.2 en donne un exemple
en calculant la moyenne obtenue lexamen partiel par 11 tudiants.

2. Nous dcrivons la moyenne arithmtique (ou la moyenne tout court), mais il existe
deux autres sortes de moyenne : la moyenne gomtrique et la moyenne harmoni-
que. Ces deux dernires formes de la moyenne sont expliques dans les textes statis-
tiques plus avancs.
70 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Tableau 3.2
Calcul de la moyenne

Notes lexamen 65 65 67 70 71 73 74 75 75 75 82

Somme Xi = 792
N = 11
M = 792/11 = 72

Critique de la moyenne comme statistique de la tendance centrale

Lorsquil sagit de trouver la valeur typique dune distribution, la moyenne


a beaucoup plus davantages que dinconvnients, mais, nanmoins, elle a
deux inconvnients principaux.
Dune part, la moyenne est souvent une valeur abstraite que lon ne
retrouvera pas ncessairement dans les donnes. Par exemple, la moyenne
de la note obtenue lexamen (Tableau 3.1) est 70,9. Si on tudie la distri-
bution des notes, on constate que personne na obtenu cette note lexa-
men. Si la femme canadienne moyenne a 1,24 enfant, et quun journaliste
souhaite faire un reportage sur elle, mme en cherchant longtemps, il aura
bien du mal la trouver !
Dautre part, lorsque la distribution des donnes est trs asymtrique,
la moyenne prsente une image qui peut tre trompeuse. Un bel exemple
nous est donn par les salaires des joueurs de hockey de la LNH. Le Tableau 3.3
montre leur salaire moyen, mdian et modal. Dans ce tableau, nous voyons
que le salaire moyen (1 700 000 $) reprsente plus que le triple du salaire
modal (500 000 $). Mme sil est indniable quen moyenne les joueurs
de hockey gagnent 1 700 000 $, le salaire le plus frquent (le mode) nest
quune fraction de ce montant, et le salaire mdian lui aussi est bien inf-
rieur (1 000 000 $) au salaire moyen. Dans ce cas, il serait plus raisonnable
de dire que le salaire typique des joueurs de la LNH se situe davantage aux
alentours de 500 000 que de 1 700 000 $.
Malgr ces inconvnients, la moyenne est nanmoins lestimation par
excellence de la tendance centrale dun chantillon. Voyons pourquoi.
LES STATISTIQUES DESCRIPTIVES 71

Tableau 3.3
Moyenne, mdiane et mode des salaires des joueurs de la LNH, 2002-2003

Statistiques de la tendance centrale Salaires

Moyenne 1 708 305,82 $

Mdiane 1 000 000,00 $

Mode 500 000,00 $

La moyenne utilise toutes les informations disponibles. La valeur de la


tendance centrale doit tre une reprsentation aussi parfaite que possible
de la distribution. Le mode ne se sert que dune parcelle des valeurs de la
distribution (seule la valeur la plus frquente est prise en considration). La
mdiane ne compte que la position des observations. La valeur des obser-
vations individuelles nest pas pertinente. Pour calculer la moyenne, par
contre, on a besoin de la totalit de linformation contenue dans la distri-
bution. Puisque chaque valeur de la distribution contribue la moyenne,
cest elle qui dcrit le mieux la distribution complte. Chaque valeur de la
distribution, sans exception, a son mot dire lorsquil sagit de calculer
la moyenne. La moyenne est donc la statistique de la tendance centrale qui
est la plus dmocratique !
La moyenne est la statistique de la tendance centrale qui fait le moins
derreurs. Le second avantage de la moyenne provient du fait quelle fait
le moins derreurs lorsquelle est utilise pour prdire chaque valeur de
la distribution. On se rappellera que la tendance centrale doit indiquer la
valeur typique, cest--dire la valeur qui dcrit le mieux toutes les autres
valeurs de la distribution. Reprenons les notes du Tableau 3.2 dans le
Tableau 3.4.
72 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Tableau 3.4
Erreur moyenne : comparaison des valeurs de la tendance centrale : M, Md, Mo

Xi M Xi Md
Xi Mo
Numro de Notes Erreur la Erreur la
Erreur au mode
lobservation lexamen moyenne mdiane
(Mo = 75)
(M = 72) (Md = 73)

1 65 65 72 = 7 65 73 = 8 65 75 = 10

2 65 65 72 = 7 65 73 = 8 65 75 = 10

3 67 67 72 = 5 67 73 = 6 67 75 = 8

4 70 70 72 = 2 70 73 = 3 70 75 = 5

5 71 71 72 = 1 71 73 = 2 71 75 = 4

6 73 73 72 = +1 73 73 = 0 73 75 = 2

7 74 74 72 = +2 74 73 = +1 74 75 = 1

8 75 75 72 = +3 75 73 = +2 75 75 = 0

9 75 75 72 = +3 75 73 = +2 75 75 = 0

10 75 75 72 = +3 75 73 = +2 75 75 = 0

11 82 82 72 = +10 82 73 = +9 82 75 = +7

Total 792 0 11 27

N 11 11 11 11

Moyenne 792/11 = 72

Dans le Tableau 3.4, la moyenne est M = 72, la mdiane est Md = 73 et le


mode est Mo = 75 ; N = 11. Laquelle de ces trois statistiques de la tendance
centrale est la plus reprsentative de toutes les valeurs de la distribution ?
Pour rpondre cette question, il faut dfinir lexpression la plus repr-
sentative . Dans ce dessein, on choisit lcart par rapport la mesure de
tendance centrale, cest--dire la diffrence entre la valeur relle de chaque
observation et la valeur de la tendance centrale. Cette diffrence sappelle
lerreur. Ainsi, la meilleure mesure de tendance centrale devrait tre celle
qui fait le moins derreurs lorsque lon sen sert pour prdire chaque valeur
de la distribution. On peut faire lexercice avec les donnes reproduites
LES STATISTIQUES DESCRIPTIVES 73

au Tableau 3.4. On prend chaque valeur de la distribution, de laquelle on


soustrait respectivement la moyenne, la mdiane et le mode. Plus grande
est cette diffrence, plus grande est lerreur produite par cette statistique.
Au Tableau 3.4, nous observons que la premire observation obtient
une valeur relle de 65 alors que la moyenne, la mdiane et le mode sont
respectivement de 72, 73 et 75. Si la moyenne reprsente parfaitement cette
observation, elle devrait avoir la mme valeur (65) que lobservation. Puis-
que la moyenne est gale 72, il est clair que la moyenne fait une erreur
de 7 (65 72 = 7). Le signe ngatif signifie que la moyenne surestime la
donne (la vritable valeur de lobservation est plus faible que la moyenne).
Lorsque la diffrence produit un signe positif, cela signifie que la moyenne
sous-estime la donne (la valeur de lobservation est plus grande).
Comparons maintenant lerreur faite par la mdiane, le mode et la
moyenne lorsquon les utilise pour prdire la premire observation du
Tableau 3.4. Lerreur faite par la moyenne, dans ce premier cas (7) est plus
petite que les erreurs occasionnes par la mdiane et le mode (8 et 10
respectivement). Cela nest pas toujours le cas pour toutes les observations :
pour lobservation 7, par exemple, les erreurs faites par la moyenne sont
plus fortes (+2) que celles faites respectivement par la mdiane et le mode
(+1 et 1).
Le Tableau 3.4 montre les erreurs pour toutes les observations. Nous
pouvons alors dterminer lerreur produite par chaque mesure de la ten-
dance centrale. Nous faisons la somme des erreurs et nous observons que
lerreur totale faite par la moyenne vaut 0 alors que celles du mode et de
la mdiane valent respectivement 11 et 27. Si nous calculons lerreur
moyenne faite par la moyenne, la mdiane et le mode, nous trouvons res-
pectivement 0, 1 et 2,47.
La mesure de tendance centrale qui produit le moins derreur totale ou
la plus petite erreur moyenne est celle qui dcrit le mieux la distribution
et, clairement, la moyenne en fait le moins. Ce rsultat nest pas un acci-
dent : invariablement, lerreur totale (et lerreur moyenne) produite par la
moyenne est gale zro et, sauf pour le cas o la moyenne, la mdiane et
le mode sont identiques, lerreur faite par le mode et la mdiane sera plus
grande. Il sensuit que la moyenne est la mesure de tendance centrale qui
74 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

reprsente le mieux les donnes dun chantillon. Pour ceux qui aiment
lalgbre, lencadr en fait la preuve mathmatique.

Lerreur moyenne autour de la moyenne est gale zro :


une preuve mathmatique
Il est possible de dmontrer en termes mathmatiques que, peu importe lchantillon,
la somme des erreurs entre chaque donne (Xi) et sa moyenne (MX) est toujours nulle.

1 1
----- (Xi MX) = ----- X i M X
N i N i i
1
= X M X
----- NM
N i
1
= ----- ( NM X NM X )
N
1
= ----- 0 = 0
N

Invariablement, lerreur moyenne sera, elle aussi, gale zro.

Quiz rapide 3.3


Gnrez une distribution contenant 5 donnes et vriez que la moyenne ne fait
aucune erreur de prdiction en moyenne. Le mode et la mdiane en font-ils plus ?

La moyenne est le point dquilibre dune distribution. Lerreur de pr-


diction moyenne est toujours gale zro quand on utilise la moyenne
pour prdire chaque valeur de la distribution. Pour que cela soit vrai,
il faut que la somme des erreurs suprieures la moyenne et la somme
des erreurs infrieures la moyenne soient gales. Par consquent, la
moyenne est souvent interprte comme tant le point dquilibre dune
distribution. La Figure 3.1 propose une reprsentation graphique de la
situation. Imaginons que les cubes sont des enfants de mme poids assis
sur une balanoire bascule. Le triangle reprsente le point dquilibre
de la balanoire et les enfants sont disposs des deux cts de ce point
dquilibre. Dans la situation A, nous voyons que la barre est en quilibre
lorsque les deux groupes denfants sont exactement la mme distance du
point dquilibre (le triangle). Dans la situation B, nous dplaons un des
enfants prs de lextrmit gauche de la balanoire bascule. Pour garder
LES STATISTIQUES DESCRIPTIVES 75

la barre horizontale, il devient ncessaire de dplacer le point dquilibre


vers la gauche, plus prs de lenfant que nous avons dplac. La moyenne
agit comme le triangle de la Figure 3.1 : elle a tendance se dplacer vers les
valeurs les plus extrmes de la distribution.

gure 3.1 L a moyenne comme point dquilibre dune distribution

La Figure 3.2 reprend la mme ide, mais, cette fois, en montrant la


faon dont la moyenne, la mdiane et le mode sont influencs par trois for-
mes de distribution (voir le chapitre 2) : une distribution symtrique, une
distribution asymtrique ngative et une distribution asymtrique positive.
Dans la situation A, on remarque que la moyenne, la mdiane et le mode
concident tous exactement. Lorsque les trois valeurs de la tendance cen-
trale dune distribution concident, la distribution est symtrique.
La situation B montre une distribution asymtrique. La moyenne est
maintenant dplace vers la droite, vers les observations extrmes qui se
trouvent du ct positif de labscisse. Lorsque la moyenne est dcale vers
la droite de labscisse par rapport la mdiane, la distribution est asym-
trique positive.
Dans la situation C, lasymtrie est ngative parce que la moyenne est
dcale vers la gauche (la partie ayant des valeurs plus faibles) de labscisse.
Ainsi, lasymtrie fait rfrence la position de la moyenne par rapport
la mdiane. Lorsque lasymtrie est positive, la moyenne se trouve la
76 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

droite de la mdiane, et elle se trouve sa gauche lorsque la distribution est


asymtrique ngative. Ainsi, lorsque la moyenne est numriquement sup-
rieure la mdiane, la distribution est asymtrique positive.
linverse, lorsque la moyenne est numriquement infrieure la
mdiane, la distribution est asymtrique ngative.

gure 3.2 Mode, mdiane et moyenne pour diffrentes formes


de distribution

Mode Mdiane Moyenne

Quiz rapide 3.4


La distribution des salaires des joueurs de hockey est asymtrique. Est-elle
positivement ou ngativement asymtrique ? Pouvez-vous dduire, partir de
lasymtrie, si la moyenne est plus ou moins forte que la mdiane ?
LES STATISTIQUES DESCRIPTIVES 77

LES MESURES DE DISPERSION

La moyenne est certes une des statistiques les plus importantes que lon
puisse calculer afin de comprendre une distribution. Cest une synthse
qui donne la meilleure reprsentation dune distribution. Mais ce nest pas
parce quelle produit la meilleure estimation de toutes les valeurs dune
distribution quelle est une bonne estimation de la distribution (le salaire
des joueurs de la LNH est un exemple de ce concept).

Lhiver au Qubec : autobus ou mtro ?


Supposons que, pour se rendre un cours, on ait le choix entre lautobus et le mtro.
Lequel prendre ? Tout dpend du temps de trajet moyen de lun et lautre mode de
transport. Sil faut en moyenne 30 minutes en mtro et 45 minutes en autobus, alors on
prend certainement le mtro. Imaginons par contre que les deux modes de transport
prennent en moyenne 30 minutes. Doit-on en prfrer un ? Supposons que lautobus
met entre 10 et 50 minutes pour parcourir le trajet, alors que le mtro met entre 25 et
35 minutes. Puisquil est impratif dtre lheure tous ses cours, il vaut mieux viter
lautobus qui peut rserver de mauvaises surprises. Dans cet exemple, la abilit dans
la dure du trajet est indique par la variabilit : plus la dure est variable, moins on a de
chances que la dure moyenne soit la dure relle du trajet.

Prenons un deuxime exemple : comptons le nombre de nez (oui !) sur


le visage de chaque tudiant dans une classe et calculons la moyenne du
nombre de nez. Il nest pas ncessaire davoir un ordinateur pour savoir
que la moyenne de la variable nombre de nez sera gale 1. Mainte-
nant, utilisons cette moyenne pour prdire le nombre de nez quun tu-
diant, alatoirement choisi, possde. Dans ce cas, il est quasi certain que la
moyenne sera une estimation parfaite du nombre de nez de cette personne
(nous navons tous habituellement quun nez). Rptons lexprience, mais
cette fois, analysons non pas le nombre de nez, mais la taille des tudiants.
Calculons la moyenne (disons quon obtient 1,70 m) et essayons de prdire
la taille dun tudiant choisi au hasard. Puisque la moyenne est la meilleure
estimation, nous allons prdire que cette personne mesure 1,70 m. Mais,
moins davoir beaucoup de chance, il est probable que ltudiant choisi
aura une taille diffrente. Dans ce dernier cas, la moyenne est une moins
bonne estimation de la taille, mme si elle reste la meilleure estimation
disponible.
78 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Quest-ce qui fait la diffrence entre une bonne et une moins bonne
estimation ? Si la distribution contient des valeurs trs similaires (voire
identiques, comme le nombre de nez), la moyenne est une bonne (et la
limite, une parfaite) estimation des valeurs de lchantillon. Si la distribu-
tion contient des valeurs qui diffrent beaucoup entre elles, la moyenne est
une moins bonne estimation. Pour dcrire adquatement une distribution,
il faut par consquent trouver un moyen de quantifier non seulement sa
moyenne, mais aussi le degr de diffrence entre les observations.

Ltendue

Nous avons vu, en construisant la distribution des salaires des joueurs de


hockey que, mme si la moyenne des salaires est denviron 1 700 000 $,
certains joueurs gagnent moins de 200 000 $ et dautres reoivent jusqu
11 000 000 $. laide de la construction dune distribution des effectifs, il
est facile de dterminer le salaire le plus lev et le salaire le plus faible. En
comparant ces deux extrmes (165 000 et 11 000 000 $), il est clair que les
salaires peuvent tre trs diffrents.
La diffrence entre les deux extrmes dune distribution produit une pre-
mire statistique qui reflte le degr de dispersion (de diffrence). Cette statis-
tique, la diffrence entre la valeur maximale et minimale, sappelle ltendue.

Comment calculer ltendue ?

Ltendue se calcule en soustrayant la valeur la plus faible de la valeur la


plus forte dune distribution. Il est remarquer que la frquence des obser-
vations nest pas pertinente pour ce calcul.
tendue = X(max) X(min) Formule 3.2
o X(max) est la valeur la plus grande observe dans la distribution et X(min) la
plus petite.
Puisque le joueur le mieux pay de la LNH reoit la somme de
11 000 000 $ et que le moins bien pay reoit 165 000 $, ltendue est X(max)
X(min) = 11 000 000 $ 165 000 $ = 10 835 000 $. Les salaires pays aux
LES STATISTIQUES DESCRIPTIVES 79

joueurs de la LNH varient et la diffrence entre le mieux pay et le moins


bien pay est trs grande.

Quiz rapide 3.5


Quelle est ltendue des salaires pour les joueurs de Montral ? Pour les joueurs
dAtlanta ? Si vous nutilisez pas le site Internet (www.pum.umontreal.ca/ca/ches/
978-2-7606-2113-8.html), quelle est ltendue pour la distribution du Tableau 3.2 ?

Critique de ltendue comme statistique de la dispersion

La principale force de ltendue comme mesure de la dispersion est sa faci-


lit de calcul. En revanche, ltendue est une mesure grossire de la disper-
sion, car elle nutilise quune infime partie des informations contenues dans
la distribution, en loccurrence seulement les deux observations extrmes.
Ainsi, si tous les joueurs de la LNH recevaient un salaire de 165 000 $, sauf
un qui recevrait 11 000 000 $, ltendue serait identique celle que nous
venons de calculer. Pourtant, les deux distributions ne seraient vraiment
pas les mmes. De plus, ltendue est une valeur relativement instable.
En fait, une observation elle seule peut faire changer considrablement
ltendue. Par exemple, si nous ajoutons un joueur dont le salaire est de
20 000 000 $, ltendue serait maintenant le double (passant de 10 835 000
19 835 000 $). Ainsi, si ltendue est utile pour nous fournir une statistique
rapide pour valuer le niveau de diffrence qui existe dans la distribution, il
faut savoir que cette statistique a de fortes chances dtre instable. Lorsque
nous travaillons avec des distributions construites avec un petit nombre
dobservations, ltendue sera presque certainement instable.

Ltendue interquartile

Puisque ltendue est toujours sensible aux valeurs extrmes dun chan-
tillon, nous pouvons amliorer la technique en calculant une tendue dif-
frente qui prend le nom dtendue interquartile. Au lieu de comparer la
valeur la plus grande et la valeur la plus petite de lchantillon, ltendue
interquartile compare la diffrence entre deux autres valeurs, qui, elles,
80 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

sont plus stables. Nous savons que les observations tendent tre plus rares
aux extrmits de la distribution et quelles sont plus frquentes autour de
la moyenne. Alors si nous calculons les tendues partir des valeurs plus
proches de la moyenne, le rsultat obtenu aura tendance tre plus stable.
Par convention, on dfinit plus proche de la moyenne 50 % des observa-
tions qui se situent autour de la mdiane (+25 % et 25 %).

Comment trouver ltendue interquartile ?

Nous verrons la dfinition exacte du quartile au prochain chapitre. En


principe, ltendue interquartile se calcule en retirant de la distribution
25 % des scores les plus faibles, 25 % des scores les plus levs, puis en cal-
culant ltendue sur les donnes restantes. En examinant les pourcentages
cumulatifs au Tableau 3.1, nous voyons que 25 % des tudiants obtiennent
une note gale ou infrieure 52 et que 72 % des tudiants obtiennent une
note gale ou infrieure 74 (72 % est le pourcentage le plus proche de 75 %
dans le tableau). Nous pouvons maintenant calculer ltendue interquartile,
la diffrence entre ces deux quantits. Ltendue interquartile est proche de
22 (74 52 = 22).

Critique de ltendue interquartile comme statistique de la dispersion

Ltendue interquartile est plus stable que ltendue. Elle est particulire-
ment utile lorsque nous travaillons avec des distributions trs asymtriques
o quelques observations peuvent se trouver trs loin de la moyenne. Par
exemple, pour les salaires des joueurs de hockey, ltendue est suprieure
10 000 000 $, mais ltendue interquartile est de 1 500 000 $. De l, nous
pouvons conclure que, mme si les salaires couvrent un trs large ven-
tail, la diffrence entre les salaires de la majorit des joueurs nest pas aussi
grande (tendue interquartile).
Ltendue interquartile est plus stable que ltendue, car lajout dun
joueur avec un salaire trs lev ou trs faible ne la changera pas. Nan-
moins, ltendue interquartile nest pas la statistique de dispersion la plus
stable, car elle nutilise quune petite partie de linformation disponible
(seulement les deux valeurs qui dfinissent 50 % des observations). Il faut
LES STATISTIQUES DESCRIPTIVES 81

trouver une faon de mesurer la dispersion des valeurs qui prenne en


considration toutes les valeurs de la distribution. La variance autour de la
moyenne est la statistique qui remplit cette condition.

LA VARIANCE AUTOUR DE LA MOYENNE

La variance est lie, sous une forme ou une autre, la quasi-totalit des
rgles et des techniques statistiques. Il importe de bien la comprendre, car
cette statistique revient constamment dans ce livre, de mme que dans tous
les livres de statistiques. Pour intgrer ce concept, il faut pralablement
comprendre le concept de lerreur autour de la moyenne.

Le concept de lerreur autour de la moyenne revisit

Bien que la moyenne soit la meilleure estimation des valeurs dune distribu-
tion, nous voulons savoir quel point la moyenne dtermine avec prcision
chaque observation individuelle. La moyenne est bonne lorsque lerreur,
autrement dit lcart entre chaque observation et la moyenne, est petite. Si
les carts entre les observations et la moyenne sont petits, cela implique
que la diffrence entre les observations est petite. Lorsque les carts entre
les observations et la moyenne sont grands, la diffrence entre les obser-
vations est plus grande et la moyenne est une moins bonne estimation des
valeurs individuelles de la variable.
Le Tableau 3.5 prsente les donnes pour deux chantillons nots X et
Y, chacun compos de trois observations. Ces deux chantillons ont une
mme moyenne de 60. Cependant, il est clair que les valeurs de la distribu-
tion X (59, 60, 61) sont trs similaires alors que les valeurs de la distribution
Y sont trs diffrentes (40, 60, 80). Il est donc certain que la moyenne sera
une bonne estimation pour X et une estimation beaucoup moins bonne
pour Y. Essayons maintenant de concevoir une approche qui pourra
confirmer quantitativement notre intuition.
82 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Tableau 3.5
Le concept de lerreur la moyenne

Distribution X

Erreur quadratique
Score Erreur (Xi MX)
(Xi MX)2

59 1 1

60 0 0

61 +1 1

Somme 180 0 2

N 3 3 3

Moyenne 180/3 = 60 0

cart moyen 0/3 = 0 2/3 = 0,67

Variance
(Xi MX)2/(N-1)
0/2 = 0 2/2 = 1

Distribution Y

Erreur quadratique
Score Erreur Yi MY
(Xi MX)2

40 20 400

60 0 0

80 +20 400

Somme 180 0 800

N 3 3 3

Moyenne 60 0

cart moyen 0/3 = 0 800/3 = 266,67

Variance
0/2 = 0 800/2 = 400
(Xi MX)2/(N-1)

Calculons lerreur produite lorsquon se sert de la moyenne pour esti-


mer chaque donne du Tableau 3.5. Comme nous lavons vu plus tt,
lerreur est la diffrence entre chaque valeur et la moyenne ; les erreurs
apparaissent dans la colonne Erreur , que nous notons (XiMX), o Xi
LES STATISTIQUES DESCRIPTIVES 83

reprsente chaque observation i et MX la moyenne de la distribution.


Notez que les carts sont positifs lorsque la valeur Xi est plus grande que
la moyenne, et ngatifs dans le cas contraire (par exemple 5960 = 1, alors
que 6160 = +1).
En tudiant les erreurs dans le Tableau 3.5, on voit quelles sont plus
grandes pour lchantillon Y (20,0 et +20) que pour lchantillon X (1,0
et +1). On peut donc conclure que la moyenne de la distribution X (MX)
fait moins derreurs lorsquelle est utilise pour reproduire les valeurs indi-
viduelles alors que la moyenne pour la distribution Y (MY) en fait plus.
Pour synthtiser les carts un seul nombre, on peut calculer lcart
moyen : on additionne les carts et on calcule leur moyenne avec la For-
mule 3.1. Or, nous tombons sur un obstacle : la somme des carts la
moyenne est toujours zro et une division par le nombre dobservations
aboutit invariablement un cart moyen de zro !
N
SC = (Xi MX) = 0 Formule 3.3
i=1

En effet, comme nous lavons vu plus tt, la moyenne tant le point


dquilibre dune distribution, la somme des carts positifs (sous-estimation)
est invariablement gale la somme des carts ngatifs (surestimation). La
somme des carts positifs et ngatifs est obligatoirement gale zro. Cal-
culons la somme des carts pour la distribution X du Tableau 3.5 : +1 + 0 +
(1)= 0. Cette somme est bien zro.
Puisque lcart moyen la moyenne est toujours gal zro, il sagit
dune statistique inutile. Nous devons trouver une faon dliminer ce
problme. Une solution possible est denlever le signe des carts avant de
calculer la moyenne. Enlever le signe est une opration mathmatique qui
sappelle prendre la valeur absolue , note par des barres verticales | |. Si
on recalcule lcart moyen au Tableau 3.5 en ignorant le signe de chaque
diffrence, on voit que lcart absolu moyen pour la distribution X (cest-
-dire 0,67) est moins grand que lcart pour la distribution Y (13,33). Nous
pouvons donc conclure que la moyenne est une meilleure estimation pour
lchantillon X quelle ne lest pour lchantillon Y, ce qui est conforme
avec notre intuition dans ce cas. Cependant, les valeurs absolues ont des
proprits mathmatiques peu pratiques. Examinons une autre solution.
84 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

On sait que la multiplication de deux valeurs ngatives donne un pro-


duit positif. Ainsi, (2) X (2) = +4. Aussi, mettre une valeur au carr
donne toujours une valeur positive, que la valeur originale soit ngative
ou positive. Ainsi, (2)2 = (2) X (2) = +4. Ce fait ouvre la porte une
manire pratique de sassurer que la somme des carts nest pas obligatoi-
rement zro. Il suffit de mettre chaque cart au carr. Cette quantit est
appele lcart quadratique ou, plus simplement, lcart au carr. Si nous
additionnons ensemble tous les carts au carr, nous obtenons une statis-
tique qui prend le nom de somme des carts quadratiques ou, plus simple-
ment, somme des carrs (SC). Cette statistique reflte le degr de diffrence
entre les valeurs. La Formule 3.4 formalise cette statistique.
N
SC = (Xi MX)2 Formule 3.4
i=1

Il faut noter, au Tableau 3.5, que la somme des carts au carr est plus
grande pour la distribution Y (SCY = 800) que pour la distribution X (SCX = 2).
Cela indique quil existe plus de diffrence (au carr) entre la moyenne et
les observations de la distribution Y quil nen existe pour la distribution X,
ce qui correspond, encore une fois, notre intuition initiale. La somme des
carts au carr est toujours plus grande que zro, sauf dans un cas. Le Quiz
rapide 3.6 invite dduire ce cas particulier.

Quiz rapide 3.6


Il existe un cas particulier o la somme des carts quadratiques dune distribution
est gale zro. Lequel ?

Critique de la somme des erreurs au carr comme statistique de la dispersion

La somme des carts au carr a des caractristiques utiles :


a) elle est facile calculer ;
b) plus les observations sont diffrentes, plus la somme des erreurs au
carr est grande, ce qui indique que les valeurs de la distribution sont
plus disperses.
En calculant la somme des erreurs au carr (SC), on obtient en ralit
deux informations. Dune part, elle indique le degr avec lequel la moyenne
est une bonne ou une moins bonne estimation de chaque valeur de lchan-
LES STATISTIQUES DESCRIPTIVES 85

tillon : plus grande est la quantit SC, moins bonne est la moyenne. Par
ailleurs, et cette information est peut-tre encore plus importante, ce calcul
indique dans quelle mesure la variable mesure produit des observations
qui ont des valeurs diffrentes, cest--dire le degr de variabilit qui existe
au sein dune variable.
Mais la somme des erreurs au carr souffre dun inconvnient impor-
tant qui fait delle une mesure sous-optimale de la dispersion des valeurs
dune distribution : sa taille est simultanment influence par
a) la taille des diffrences entre les observations et la moyenne ;
b) le nombre dobservations. Plus on a dobservations, plus la somme
des carts au carr est grande.
Il faut sparer ces deux influences. La variance autour de la moyenne,
qui se nomme habituellement la variance, est la procdure statistique qui
corrige le problme.

Le calcul de la variance autour de la moyenne

La variance dune distribution, gnralement note par le symbole s2, est


dfinie par la Formule 3.5 :
N
s2 = (Xi MX)2 / N 1 Formule 3.5
i=1
N
o (Xi MX)2 est la somme des carrs, et N est le nombre dobservations.
i=1
La variance est la somme des carrs divise par le nombre dobserva-
tions moins 1. En divisant par le nombre dobservations (moins 1), nous
obtenons la diffrence moyenne (au carr), ce qui a pour effet de sparer
les deux influences sur la somme des carrs : la taille des diffrences et le
nombre dobservations3. La variance est la statistique qui indique le degr
moyen de prcision (au carr) de la moyenne pour estimer chaque valeur
de lchantillon. Plus grande est la dispersion des valeurs dune distribu-

3. La variance est presque toujours obtenue en divisant par N 1, mais parfois il faut la
calculer en divisant par N. Ces deux faons de calculer la moyenne seront expliques
plus en dtail au chapitre 8. Le choix de diviseur N ou N 1 exige une comprhen-
sion des concepts de lchantillon et de la population, concepts qui sont abords aux
chapitres 8 et 9.
86 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

tion, plus grande est la variance et, par consquent, moins bonne est la
moyenne comme estimateur de chaque observation.
Le calcul de la variance pour chacun des chantillons X et Y est donn
au Tableau 3.5.

Quiz rapide 3.7


Ajoutez la distribution X du Tableau 3.5 un nouveau score de 60. La variance
augmente-t-elle ? Pourquoi ? Ensuite, ajoutez X un score de 20. La variance
augmente-t-elle ? Pourquoi ?

Critique de la variance comme statistique de la dispersion

Cette faon de conceptualiser la dispersion des observations, cest--dire


la variance, comporte plusieurs avantages.
La variance prend en considration toutes les valeurs de la distribu-
tion, pas seulement ses extrmes (comme le fait ltendue ou ltendue
interquartile).
Elle ne prend jamais de valeur ngative (il est impossible que la dif-
frence soit plus petite que zro) et elle est gnralement plus grande
que zro (sauf, naturellement, si la variable est une constante).
La variance est une statistique stable. Lorsque la distribution est
compose dune trentaine dobservations ou plus, lajout de valeurs
supplmentaires ne changera pas beaucoup la variance, et ce, dans la
majorit des situations.
La variance, comme mesure de dispersion, souffre dun inconvnient
majeur. Elle rapporte lerreur moyenne au carr. Nous navons pas lhabi-
tude de penser en termes derreurs au carr, ce qui rend son interprtation
plutt difficile. Si lon prend, par exemple, le Tableau 3.6 qui prsente les
notes un examen valu sur 100. Le calcul de la variance donne s2 = 219,75.
Puisque les valeurs possibles pour les notes lexamen sont habituellement
entre 0 et 100, le chiffre 219,75 est difficile interprter. Nous ne pouvons
certainement pas dire que la diffrence moyenne entre les notes obtenues
lexamen est 219,75 ! Pour arriver une conclusion plus raisonnable, il faut
exprimer la diffrence moyenne avec un chiffre qui reflte la variable ori-
ginale avec plus de ralisme (dans le cas de la performance lexamen, les
chiffres qui dcrivent la dispersion des notes devraient tre entre 0 et 100).
Lcart-type est la statistique qui rpond ce besoin.
LES STATISTIQUES DESCRIPTIVES 87

Tableau 3.6
Distribution des notes lexamen partiel (bis)

Notes (Xi M) (Xi M)2

29 34,25 1173,06
30 33,25 1105,56
35 28,25 798,06
46 17,25 297,56
49 14,25 203,06
49 14,25 203,06
50 13,25 175,56
52 11,25 126,56
55 8,25 68,06
56 7,25 52,56
59 4,25 18,06
61 2,25 5,06
62 1,25 1,56
63 0,25 0,06
64 0,75 0,56
65 1,75 3,06
65 1,75 3,06
67 3,75 14,06
70 6,75 45,56
71 7,75 60,06
71 7,75 60,06
72 8,75 76,56
74 10,75 115,56
75 11,75 138,06
75 11,75 138,06
75 11,75 138,06
76 12,75 162,56
76 12,75 162,56
77 13,75 189,06
78 14,75 217,56
87 23,75 564,06
90 26,75 715,56
Somme 2 024 0 7 032,00
N 32 32 31
Rsultat 63,25 0 219,75
Nom de la statistique Moyenne cart moyen Variance
88 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Lcart-type

La variance se calcule avec la Formule 3.5. La formule fait la somme des carts
au carr qui est divise par le nombre dobservations (moins 1). Ainsi, la
variance dcrit la diffrence moyenne au carr , une quantit quil est diffi-
cile de se reprsenter. Pour liminer cette difficult, il sagit simplement dex-
traire la racine carre de la variance (Formule 3.6). Ce calcul limine la mise
au carr initiale. Ce faisant, nous obtenons la vritable diffrence moyenne
entre les observations et la moyenne, une nouvelle statistique qui se nomme
lcart-type. Il sagit dune statistique qui est extrmement importante car elle
dcrit la diffrence typique entre les observations et la moyenne.
N
s = s
2
= ( Xi M )
i=1
2
/ N1 Formule 3.6

Si on examine la distribution X du Tableau 3.5, N = 3, la moyenne est


60 et la diffrence typique entre la moyenne et les autres rsultats (lcart-
type s) est gale 1. Ainsi, au Tableau 3.5, nous concluons que la diffrence
moyenne entre les notes et la moyenne nest que de 1 point. Par contre,
dans la distribution Y, les scores sont trs diffrents les uns des autres. La
variance tant s2 = 400, lcart-type est la racine carre de 400, soit s = 20.
Pour la distribution Y, la diffrence typique entre les notes des tudiants
et la moyenne de la classe est de 20 points. Il est clair que la diffrence
moyenne entre les observations et la moyenne est plus petite pour la distri-
bution des notes X que pour la distribution Y. Autrement dit, la variance
lexamen X est plus petite que la variance lexamen Y. Mais dans les deux
cas, le calcul de lcart-type donne une valeur qui se situe entre 0 et 100, ce
qui correspond aux valeurs vritables de la distribution des notes.
Il faut remarquer que nous avons utilis le mot variance , mme si
lcart-type est la valeur que nous avons utilise pour la justifier . Ce dtour
est permis, car la variance et lcart-type relvent essentiellement du mme
concept : un grand cart-type ne peut provenir que dune grande variance,
et si lon connat lune de ces statistiques, on connat lautre.

Quiz rapide 3.8


La variance dune variable est gale s2 = 1. Quel sera son cart-type ?
Et si lcart-type est gal 2, quel sera sa variance ?
LES STATISTIQUES DESCRIPTIVES 89

La variance dun phnomne comme indicateur de son intrt


Le concept de la variance est central non seulement en statistique, mais pour lensem-
ble de lexercice scientique aussi bien que dans la vie de tous les jours. Pourquoi ?
Avez-vous dj vcu dans le dsert pendant lt ? On aura sans doute remarqu
quon coute rarement les bulletins de mto. Pourquoi ? Parce quon sait que le len-
demain sera chaud et sec ! Les bulletins de mto ne sont pas importants dans ce cas
puisquils diffusent invariablement la mme information jour aprs jour. Statistique-
ment, il y a peu (pas ?) de variance dans la temprature en t dans le dsert, et parce
quil ny a pas de variance, linformation au sujet de la temprature perd de son impor-
tance.
Dans ce chapitre, nous avons utilis lexemple farfelu du nombre de nez que les indi-
vidus ont. Un article scientique portant sur le nombre de nez que les humains poss-
dent a-t-il jamais t publi ? Jamais, nest-ce pas ? Pourquoi ? Parce quil ny a pas de
variance la variable nombre de nez que les gens ont . linverse, pourquoi est-ce
quon attend avec une certaine apprhension lafchage des notes aux examens ? On
le fait parce quil est possible dobtenir la meilleure note, la pire note ou une note entre
ces deux extrmes. Les notes aux examens ont de la variance. Si on savait que les notes
aux examens sont invariablement identiques, on ne se prcipiterait pas pour les vrier.
Le principe gnral est le suivant : plus un phnomne (la temprature, le nombre de
nez, les notes aux examens, etc.) dmontre de la variance, plus il est intressant.
Cela conduit un paradoxe apparent. Moins un phnomne dmontre de la
variance, meilleure est la moyenne comme indicateur de chaque observation. Mais plus
la moyenne est bonne (plus lcart-type est petit), moins intressant est le phno-
mne quelle dcrit !

AUTRES STATISTIQUES DESCRIPTIVES

Pour bien dcrire une distribution, il faut examiner sa moyenne et sa


variance (ou cart-type). Rgle gnrale, ces deux statistiques sont les plus
intuitives. Mais il faut aussi prendre en considration la forme de la distri-
bution : son degr dasymtrie et son degr daplatissement (voir le chapitre 2).
Commenons par lasymtrie.
La plupart des tests statistiques comparent les moyennes parce que la
moyenne est la valeur unique qui reprsente le mieux la distribution com-
plte. Mais ces mmes statistiques prsument que la moyenne est une
estimation galement adquate pour toutes les valeurs de la distribution,
quelles se trouvent au-dessus ou en dessous de la moyenne. Cest--dire
que la plupart des tests statistiques prsument que la distribution est
symtrique. Lorsque la distribution est asymtrique, le nombre dobserva-
90 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

tions se situant des deux cots de la moyenne et leurs distances relatives


la moyenne ne sont pas gaux. Cela implique que la moyenne est une
meilleure estimation des valeurs se situant dun ct de la moyenne et une
moins bonne estimation des valeurs se situant de lautre cot.
tudions la Figure 3.3 qui prsente une distribution asymtrique (nga-
tive). Les valeurs possibles de la variable dcrite varient entre 1 et 12, et sa
moyenne est de 9. Calculons lerreur maximale possible lorsque lon uti-
lise la moyenne comme estimateur de chaque valeur de la distribution. La
valeur minimale est de 1, ce qui implique que lerreur maximale possible
est de 8 (1 9 = 8) pour les valeurs se situant en dessous de la moyenne.
La valeur suprieure maximale est de 12. Lerreur maximale possible pour
les valeurs situes au-dessus de la moyenne est alors de +3 (12 9 = +3).
La distribution ntant pas symtrique, la moyenne de cette distribution ne
fait pas une surestimation ou une sous-estimation gale des valeurs de la
distribution, ce qui viole une des prsomptions de la plupart des tests sta-
tistiques.

gure 3.3 Moyenne et erreurs possibles pour une distribution


asymtrique

1 2 3 4 5 6 7 8 9 10 11 12

Mais les tests statistiques sont suffisamment robustes pour demeurer


valides dans un cas dasymtrie condition que celle-ci ne soit pas trop
LES STATISTIQUES DESCRIPTIVES 91

exagre. Il nous faut donc une manire de calculer numriquement le


niveau dasymtrie. La Formule 3.7 tablit le degr (aussi bien que le signe)
de lasymtrie (symbolis par Sk en rfrence au terme anglais skewness).
Nous prsentons la formule, mais les logiciels danalyses statistiques font
les calculs requis automatiquement.
3
( Xi MX ) N
i ------------------------------------
SkX = ---------------------------------
3 (N 1)(N 2) Formule 3.7
s X

o Xi est la ie donne, sX3 est lcart-type la puissance 3, MX est la moyenne


et N est le nombre dobservations dans la distribution.
Le rsultat nous indique la direction de lasymtrie. Il existe trois cas
possibles : une asymtrie positive, ngative ou nulle.
Si SkX > 0, sa valeur aura un signe positif, indiquant que lasymtrie
est positive (la distribution stale davantage vers les valeurs plus le-
ves de la variable).
Si SkX = 0, la distribution est parfaitement symtrique (les valeurs
stalent uniformment et galement vers les valeurs plus leves et
les valeurs plus faibles de la variable).
Si SkX < 0, sa valeur aura un signe ngatif, indiquant que lasymtrie
est ngative (la distribution stale davantage vers les valeurs plus
faibles de la variable).
La Formule 3.7 produira un chiffre allant de zro (lorsque la distribu-
tion est parfaitement symtrique), un chiffre plus grand (positif) ou plus
petit que zro (ngatif) lorsquelle est asymtrique. Certains tests statisti-
ques peuvent tre utiliss afin de dterminer si la valeur de lasymtrie est
plus ou moins loigne de zro. Lorsque ces tests rvlent un niveau trop
fort dasymtrie, certaines corrections mathmatiques doivent tre mises
en uvre afin de maintenir la validit des conclusions.

Quiz rapide 3.9


Revenez la distribution des salaires des joueurs de la LNH (chapitre 2).
Quel signe prendra la statistique de lasymtrie : positif, ngatif ou nul ?
92 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Le degr daplatissement

Le degr daplatissement dune distribution est une autre statistique utilise


pour la dcrire. Laplatissement rfre au degr de concentration prs de
la moyenne des valeurs de la distribution versus leur talement plus loin
de la moyenne. Comme pour lasymtrie, la plupart des tests statistiques
prsument que le degr daplatissement dune distribution nest ni trop fort
ni trop faible et, comme pour lasymtrie, la violation de cette prsomption
dclenchera des procdures mathmatiques additionnelles qui sont expli-
ques dans des textes plus avancs.
La description dune distribution devra donc inclure, minimalement,
une estimation du degr daplatissement (Ku, de langlais Kurtosis), ce qui
se calcule avec la formule (carrment folle) qui suit :
4
( Xi M ) N(N + 1) (N 1)
i ------------------------------------------------------ 3 ------------------------------------
KuX = ------------------------------
4 (N 1)(N 2)(N 3) (N 2)(N 3) Formule 3.8
s X

Cette statistique Ku nous indique le coefficient daplatissement dune


distribution.
Dans la pratique, et comme pour le calcul de lasymtrie, nous confions
le calcul du degr daplatissement aux ordinateurs. Un degr daplatis-
sement de 0 indique une distribution ayant une rondeur typique (quon
appelle msocurtique). Si KuX est suprieur 0, cela indique une distribu-
tion plus pointue (quon appelle leptocurtique) : les valeurs sont plus for-
tement concentres autour de la valeur de la tendance centrale. Dans le
cas contraire, quon appelle platycurtique, la valeur prend un signe ngatif
indiquant que les extrmits de la distribution sont plus paisses, conte-
nant plus dobservations qu la normale.
Comme pour la statistique de lasymtrie, le degr daplatissement
ncessite, lorsquil atteint une taille suffisante, des procdures correctives
qui sont expliques dans des textes plus avancs4.

4. Il faudra se rfrer des textes plus avancs tels que celui de Tabachnick et Fidell
(2007) pour interprter et corriger les problmes occasionns par lasymtrie ou
la curtose.
LES STATISTIQUES DESCRIPTIVES 93

Quiz rapide 3.10


Certaines distributions, que lon nomme des distributions carres , ont des
effectifs de la mme taille pour chaque valeur de la variable. Quel serait le signe
de lasymtrie et du degr daplatissement pour ces distributions : positif, ngatif
ou nul ?

Le coefcient de variabilit

Il est souvent trs utile de dterminer si deux variables dtiennent des


niveaux de variabilit quivalents ou diffrents. Prenons un exemple hypo-
thtique : on a une distribution qui dcrit la taille en mtre dun groupe
de femmes. On construit alors une deuxime distribution qui dcrit elle
aussi la taille de ce mme groupe de femmes, mais cette fois en centim-
tres. On sait que 1 m = 100 cm. En calculant la moyenne et lcart-type
pour ces deux distributions, on obtient les rsultats suivants : Mmtre = 1,6 ;
smtre = 0,20 ; Mcentimtre = 160,0 ; scentimtre = 20,0. Comparons maintenant les
deux carts-types afin de dterminer si la taille mesure en mtre varie plus
que la taille mesure en centimtres. (Bien sr cela nest pas le cas mais
cest un jeu.) lexamen des chiffres dcrivant les carts-types, on pourrait
conclure que la taille mesure en centimtres a plus de variabilit (s = 20)
que la taille mesure en mtre (s = 0,20), ce qui nest pas trs sens. Bien
entendu, la diffrence entre ces deux carts types provient du simple fait
que les chelles de mesure (mtre et centimtres) ne sont pas numrique-
ment les mmes. Mais comment pouvons-nous prouver que cela est le
cas ? Une statistique utile pour y parvenir se nomme le coefficient de varia-
bilit. Ce coefficient se trouve en calculant le rapport entre lcart-type et la
moyenne. La Formule 3.9 suit :
CV = s/M Formule 3.9
Aprs avoir calcul le coefficient de variabilit, on peut maintenant
comparer les deux rsultats. Pour les rsultats exprims en mtre, le coeffi-
cient de variabilit devient : 0,2/1,6 = 0,125. Pour les rsultats exprims en
centimtres, le coefficient de variabilit devient : 20/160 = 0,125. Les coef-
ficients de variabilit tant identiques, nous pouvons maintenant faire la
preuve que les deux mesures (mtre et centimtres) ont le mme niveau de
variabilit.
94 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Quiz rapide 3.11


La moyenne de lexamen A est M = 50 et sa variance est de 100. Quel est son
coefcient de variabilit ? Pour lexamen B, la moyenne est M = 60 et son cart-type
est s = 15. La variabilit des rsultats pour lexamen A est-elle plus grande, moins
grande ou gale celle des rsultats pour lexamen B ?

Ainsi, le coefficient de variabilit nous permet de dterminer si des


variables diffrentes ont le mme degr de variabilit, et si la moyenne de
chacune des variables est une reprsentation galement ou ingalement
adquate de chacune des distributions.

SOMMAIRE DU CHAPITRE

Dans ce chapitre, nous avons tudi trois mesures de la tendance centrale


dune distribution. Le mode est la valeur de la distribution qui est la plus fr-
quente. La mdiane est la valeur de la distribution qui la coupe en deux par-
ties, chacune comprenant un nombre gal dobservations. La moyenne est
le point dquilibre dune distribution. Comparativement aux deux autres
mesures de tendance centrale, la moyenne est la seule qui utilise toute lin-
formation de la distribution et elle est celle qui estime toutes les valeurs
de la distribution en faisant le moins derreurs. La moyenne est gnrale-
ment la statistique la plus utile et la plus pratique pour tirer des conclusions
au sujet dune distribution. La moyenne permet aussi de saisir le concept
dasymtrie (positive et ngative). Nous avons aussi examin les statistiques
qui mesurent le degr de diffrence entre les observations. Ltendue et
ltendue interquartile sont deux mesures qui fournissent une information
grossire de ces diffrences. Le calcul des erreurs la moyenne est la base
de statistiques beaucoup plus convaincantes : la variance et lcart-type. La
variance indique dans quelle mesure la moyenne est une bonne ou une
mauvaise estimation de chacune des valeurs dune distribution. Lcart-
type fait la mme chose, sauf que les valeurs numriques quil prend sont
plus faciles interprter. Les distributions peuvent aussi tre dcrites par
leur degr dasymtrie et par leur degr daplatissement et, enfin, par leur
coefficient de variabilit.
LES STATISTIQUES DESCRIPTIVES 95

EXERCICES DE COMPRHENSION

1. La moyenne dun chantillon est :


a) une statistique descriptive
b) une statistique dinfrence
c) une constante
d) une variable
2. Parmi les expressions suivantes, laquelle prsente une statistique
correctement utilise ?
a) Sur le plan des statistiques des ventes, le mois dernier, nous
avons vendu un manteau de 1 000 $.
b) lUniversit de Montral, Jeanne nest quune statistique de
plus.
c) Le cot moyen pour instruire un tudiant ou une tudiante est
de 10 000 $.
d) Toutes ces rponses.
3. Nous calculons la moyenne pour une distribution trs asymtrique
ngative :
a) La moyenne sera numriquement plus faible que la mdiane.
b) La moyenne nest pas la meilleure estimation de la tendance cen-
trale dans ce cas.
c) Dans ce cas, la moyenne nest pas calculable.
d) La somme des carts tant zro, la moyenne sera gale zro.
4. Nous calculons lcart qui existe entre chaque observation et la
moyenne de la distribution laquelle lobservation appartient.
Nous faisons la somme de tous les carts dans la distribution. Cette
somme sera ___________.
a) positive (plus grande que zro)
b) ngative (moins grande que zro)
c) zro
d) positive, ngative ou zro, selon lasymtrie de la distribution.
96 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

5. La distribution X est symtrique alors que la distribution Y est


asymtrique. Nous dsirons couper chaque distribution en deux
groupes gaux. La mesure de tendance centrale qui est approprie
pour la distribution X est _______________, alors que pour la
distribution Y, il sagirait __________________.
a) la moyenne ; du mode
b) la mdiane ; de la mdiane
c) la moyenne ; du mode ou de la mdiane
d) la mdiane ; du mode si lasymtrie est positive, de la mdiane si
lasymtrie est ngative
6. La distribution est trs leptocurtique. Par consquent, la moyenne
de cette distribution sera __________.
a) une trs mauvaise estimation de chaque valeur de la distribution
b) une trs bonne estimation de chaque valeur de la distribution
c) adquate, mais la mdiane sera une meilleure estimation
d) impossible dterminer
7. La distribution est trs platycurtique. Par consquent, la moyenne
de cette distribution sera __________.
a) une trs mauvaise estimation de chaque valeur de la distribution
b) une trs bonne estimation de chaque valeur de la distribution
c) adquate, mais la mdiane sera une meilleure estimation
d) impossible dterminer
8. La diffrence typique qui existe entre chaque observation et la
moyenne de la distribution sappelle :
a) ltendue
b) la variance
c) lcart-type
d) lcart
9. La variable X a une moyenne de 10 et un cart-type de 2. Pour la
variable Y, la moyenne est de 100 et lcart-type est de 20. Laquelle
de ces deux variables dmontre le plus de variabilit ?
a) La variable X.
b) La variable Y.
c) Les deux sont gales.
d) Impossible dterminer, vu les informations fournies.
LES STATISTIQUES DESCRIPTIVES 97

Rponses

1. a
2. c
3. a
4. c
5. b
6. b
7. a
8. c
9. c
Page laisse blanche
CHAPITRE 4
LA POSITION RELATIVE DES OBSERVATIONS

Le rang absolu......................................................................................... 103


Comment calculer le rang............................................................... 103
Critique du rang comme mesure de la position.......................... 104
Le rang percentile................................................................................... 105
Comment calculer le rang percentile ............................................ 105
Illustration du rang percentile........................................................ 108
Lutilisation des percentiles pour interprter des mesures ....... 110
Critique du rang percentile comme mesure
de positionnement ...................................................................... 112
La valeur talon Z .................................................................................. 114
Comment calculer la valeur talon Z............................................ 115
Deux particularits des valeurs talons Z..................................... 118
Comment ramener une valeur talon sa valeur initiale
brute .............................................................................................. 120
Autres valeurs talons ........................................................................... 120
Comment calculer la valeur talon T............................................ 121
Crer sa propre valeur talon ......................................................... 122
Un dernier mot sur les valeurs talons ......................................... 123
Sommaire du chapitre .......................................................................... 123
Exercices de comprhension ............................................................... 124
Page laisse blanche
CHAPITRE 4

LA POSITION RELATIVE
DES OBSERVATIONS

Au chapitre 2, nous avons vu comment obtenir une distribution partir


dun ensemble dobservations. Dans ce chapitre, nous faisons linverse : nous
allons dcrire les observations partir de la distribution. Ces nouvelles sta-
tistiques permettent de situer une observation par rapport la distribution
ou par rapport la moyenne. Les procdures statistiques qui positionnent
les observations sont utiles en particulier dans les cas o il faut faire une
interprtation ou prendre une dcision au sujet dune personne.
Supposons que nous voyons une personne qui mesure 2,50 m. Il est vi-
dent que cette personne est trs grande. Comment sommes-nous arrivs
cette conclusion ? Nous savons que la trs grande majorit des gens mesure
peu prs 1,70 m. Implicitement, nous avons compar la taille de cette per-
sonne la taille des autres personnes que nous voyons quotidiennement.
Autrement dit, linterprtation (la personne est grande ) que nous fai-
sons dune observation (mesure : 2,50 m) est labore partir dune com-
paraison avec les autres observations que nous avons notre disposition.
Les statistiques de positionnement que nous allons voir dans ce chapitre
nous permettent de faire ces comparaisons.
Ces statistiques de positionnement peuvent jouer un rle dans la vie de
chacun. Par exemple, il est fort probable quun tudiant a t admis luni-
versit parce que son dossier scolaire a t jug bon, cest--dire meilleur
que celui dun autre tudiant qui, lui, na pas t admis. Si on a lambition
de poursuivre des tudes suprieures, ou quon espre tre admis dans une
102 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

cole de mdecine ou dans nimporte quel autre programme contingent,


ou encore quon a pour objectif dobtenir un poste dans une entreprise
prestigieuse, il est certain que notre dossier et nos comptences seront ana-
lyss et compars ceux dautres personnes qui ont les mmes aspirations.
Les procdures statistiques que nous allons maintenant tudier sont appli-
ques dans de telles situations.

Une blague
Nous surprenons une conversation entre Jean et Paul, deux entraneurs dathltes.
Jean : Mon athlte a termin sa course en moins dune minute.
Paul : Wow ! tu dois tre er de lui.
Jean : Oui, mais ctait une course de 100 mtres !
Paul : Hum... Cest effectivement moins bon.
Jean : Et il est arriv deuxime.
Paul : Magnique !
Jean : Mais il ny avait que deux athltes dans la course !
Une anecdote
Quelques semaines aprs avoir commenc sa scolarit de doctorat, un des auteurs de
ce livre a subi son premier examen de statistiques avances. Lexamen tait compos
de cinq questions complexes. Aprs trois heures dacharnement, il na russi rpondre
qu deux dentre elles. Sattendant au pire, il apprhendait lafchage des notes et son
anxit allait croissant. sa stupfaction, la note afche ct de son nom tait un
providentiel A+ ! Croyant que cette note ne pouvait tre que le fruit dune blague ou
dune erreur, et prenant son courage deux mains, il prit rendez-vous avec le profes-
seur pour en avoir le cur net. Le professeur lui conrma sa note en ajoutant quil avait
obtenu cette excellente note parce que les autres tudiants navaient mme pas russi
rpondre une seule question ! Comparativement celle des autres tudiants, sa per-
formance avait t exceptionnelle.

Souvent, cest la position dune observation par rapport aux autres observa-
tions (et non pas lobservation prise isolment) qui dtermine linterprta-
tion qui pourra en tre faite. Bien quil existe plusieurs faons de dterminer
la position dune observation par rapport aux autres, le rang, le rang percen-
tile et les valeurs talons sont celles qui sont le plus souvent utilises.
Le rang, une mesure ordinale, indique la position de chaque obser-
vation sur une chelle allant de 1 N, o N indique le nombre total
dobservations.
L A P O S I T I O N R E L AT I V E D E S O B S E RVAT I O N S 103

Le rang percentile indique la position dune observation en la com-


parant la proportion, ou le pourcentage, des observations qui lui
sont gales ou infrieures.
La valeur talon indique la position de chaque observation par rap-
port la moyenne. Est-elle en dessous ou au-dessus de la moyenne ?
Est-elle prs ou loigne de la moyenne ?
Le rang percentile et la valeur talon sont des statistiques trs utiles, en
particulier lorsquil sagit de faire des comparaisons entre plusieurs person-
nes sur la mme variable (telle personne est-elle plus forte en mathmati-
ques que telle autre ?), ou pour la mme personne sur plusieurs variables
(X est-elle plus forte en chimie ou en gographie ?).

LE RANG ABSOLU

Le rang absolu, ou plus simplement le rang, est la position dune obser-


vation par rapport aux autres observations de la distribution. Le rang
donne la position par rapport au meilleur (ou au pire), mais comme dans
la conversation entre les deux entraneurs de la blague ci-dessus, si on nin-
dique pas combien il y a dobservations dans la liste, linformation obtenue
peut tre trompeuse.

Comment calculer le rang

Il faut trier les observations (par ordre croissant ou par ordre dcroissant)
puis les numroter de 1 jusqu N. Le numro assign chaque observation
est le rang. En gnral, nous attribuons le rang 1 la meilleure perfor-
mance, mais, selon le problme, nous pouvons choisir dattribuer le rang 1
la valeur la plus petite ou encore la valeur la plus grande. Pour les com-
ptitions de vitesse, nous attribuons le rang 1 (et la mdaille dor) lathlte
qui prend le moins de temps pour terminer lpreuve. Dans ce cas, cest la
valeur la plus petite de la variable temps qui occupe le rang 1 et, par cons-
quent, lathlte qui prend le plus de temps pour terminer sa course obtient
le dernier rang. Mais, en athltisme, le rang 1 est attribu celui ou celle
qui a obtenu le plus de points et le dernier rang est attribu lathlte en
ayant reu le moins. Il y a autant de rangs quil y a dobservations dans une
104 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

distribution et, en principe, on attribue un rang diffrent chaque observa-


tion. Ainsi, en prsence de 100 observations, la dernire obtient le rang 100
et la premire, le rang 1.
Un cas particulier se produit lorsque plusieurs observations sont iden-
tiques. On ne peut pas attribuer des rangs diffrents ces observations
puisquelles sont identiques. Dans ce cas, il faut attribuer le rang mitoyen
ces observations. Le Tableau 4.1 prsente les notes obtenues un exa-
men par 32 tudiants. Dans ce cas, nous avons choisi dattribuer le rang 1
la note la plus faible (29) et le dernier rang (32, puisque nous avons un
total de 32 tudiants) la personne ayant obtenu la meilleure note (90)1.
On remarque que les personnes 5 et 6 obtiennent la mme note (49)
lexamen. Puisque ces deux tudiants obtiennent la mme note, ils doivent
dtenir le mme rang absolu. Dans ce cas, on attribue le rang mitoyen
chacune de ces deux valeurs, soit le rang 5,5 : (5 + 6)/2 = 5,5. Le Tableau 4.1
prsente les rangs de tous les tudiants lexamen.

Quiz rapide 4.1


Nous connaissons le salaire des 679 joueurs de hockey. M. X touche 11 millions et
il est le joueur de hockey le mieux pay. En prsumant que tous les salaires sont
diffrents, quel sera le rang associ au salaire de cet athlte (le rang 1 est celui du
joueur ayant le plus bas salaire) ? Des gens daffaires amricains ont des salaires
suprieurs 11 000 000 $. Si nous construisons une distribution qui comprend le
salaire des joueurs de hockey ainsi que celui des gens daffaires, est-ce que le rang
attribu M. X changera ?

Critique du rang comme mesure de la position

Lutilisation du rang absolu comme mesure de positionnement est lacunaire


pour deux raisons. Dune part, on doit indiquer la taille de lchantillon
pour que cette information soit signifiante. Une deuxime place sur 100
nest pas une deuxime place sur 2 ! Dautre part, en calculant le rang
absolu, on a traduit une variable mesure avec une chelle intervalles ou
une chelle de rapport en variable mesure sur une chelle ordinale. En

1. Nous choisissons le rang 1 pour la note la plus faible ici, car il sagit didentifier les
tudiants qui ont le plus besoin daide. Dans ce cas, le rang dtermine lordre de
priorit.
L A P O S I T I O N R E L AT I V E D E S O B S E RVAT I O N S 105

convertissant en variable ordinale des variables intervalles ou de rapport,


on sacrifie beaucoup dinformations. Avec les variables ordinales, comme
nous lavons vu au chapitre 1, il est impossible de savoir si les rangs attri-
bus deux personnes refltent une grande ou une petite diffrence entre
la performance de ces deux personnes.
Le calcul du rang percentile permettra de rsoudre partiellement ces
problmes.

LE RANG PERCENTILE

Les rangs percentiles (ou plus simplement les percentiles) font partie des
statistiques les plus utilises lorsquil sagit de rapporter des rsultats obte-
nus un test standardis, comme les mesures dintelligence ou daptitude.
Le percentile situe une valeur par rapport toutes les autres valeurs. Il indi-
que la proportion (ou le pourcentage) des observations qui sont gales ou
infrieures chaque valeur dune distribution. Par exemple, si quelquun
obtient 70 % un examen et que cette note se situe au 50e percentile, cela
indique que 50 % des tudiants ont obtenu une note gale ou infrieure
la sienne et que 50 % des notes lexamen lui sont suprieures. Si sa note
se situe au 99e percentile, 99 % de la classe a obtenu une note gale ou inf-
rieure la sienne et seulement 1 % des tudiants ont obtenu une note qui
lui est suprieure.

Comment calculer le rang percentile

Formellement, le rang percentile dune valeur se dfinit par le pourcentage


de personnes qui tombent sous cette valeur, plus la moiti du pourcentage
de personnes qui tombent exactement sur cette valeur. Pour construire un
tableau des percentiles, quatre tapes sont ncessaires. Les trois premires
tapes consistent crer des distributions (de frquences ou de pourcenta-
ges) cumulatives comme nous lavons vu au chapitre 2. La quatrime tape
consiste effectuer une correction arithmtique. Le Tableau 4.1 prsente
la distribution des notes obtenues un examen par les tudiants et le rang
absolu aussi bien que le rang percentile associs chaque note.
106 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Tableau 4.1
Rang absolu et rang percentile pour les notes un examen

Notes Pourcen-
Pour-
un Frquence Rang absolu tage Rang percentile
centage
examen cumulatif

29 1 1 3,1 % 3,1 % 0 + (0,5 3,1) = 2


30 1 2 3,1 % 6,3 % 3,1 + (0,5 3,1) = 5
35 1 3 3,1 % 9,4 % 6,3 + (0,5 3,1) = 8
46 1 4 3,1 % 12,5 % 9,4 + (0,5 3,1) = 11

49 2 (5 + 6) 6,3 % 18,8 % 12,5 + (0,5 6,3) = 16


2 = 5,5
50 1 7 3,1 % 21,9 % 18,8 + (0,5 3,1) = 20
52 1 8 3,1 % 25 % 21,9 + (0,5 3,1) = 23
55 1 9 3,1 % 28,1 % 25 + (0,5 3,1) = 27
56 1 10 3,1 % 31,3 % 28,1 + (0,5 3,1) = 30
59 1 11 3,1 % 34,4 % 31,3 + (0,5 3,1) = 33
61 1 12 3,1 % 37,5 % 34,4 + (0,5 3,1) = 36
62 1 13 3,1 % 40,6 % 37,5 + (0,5 3,1) = 39
63 1 14 3,1 % 43,8 % 40,6 + (0,5 3,1) = 42
64 1 15 3,1 % 46,9 % 43,8 + (0,5 3,1) = 45

65 2 (16 + 17) 6,3 % 53,1 % 46,9 + (0,5 6,3) = 50


2 = 16,5
67 1 18 3,1 % 56,3 % 53,1 + (0,5 3,1) = 55
70 1 19 3,1 % 59,4 % 56,3 + (0,5 3,1) = 58

71 2 (20 + 21) 6,3 % 65,6 % 59,4 + (0,5 6,3) = 63


= 20,5
2
72 1 22 3,1 % 68,8 % 65,6 + (0,5 3,1) = 67
74 1 23 3,1 % 71,9 % 68,8 + (0,5 3,1) = 70

75 3 (24 + 25 + 26) 9,4 % 81,3 % 71,9 + (0,5 9,4) = 77


= 25
2
76 2 (27 + 28) 6,3 % 87,5 % 81,3 + (0,5 6,3) = 84
= 27,5
2
77 1 29 3,1 % 90,6 % 87,5 + (0,5 3,1) = 89
78 1 30 3,1 % 93,8 % 90,6 + (0,5 3,1) = 92
87 1 31 3,1 % 96,9 % 93,8 + (0,5 3,1) = 95
90 1 32 3,1 % 100 % 96,9 + (0,5 3,1) = 98
L A P O S I T I O N R E L AT I V E D E S O B S E RVAT I O N S 107

1. On compile la frquence des notes. Au Tableau 4.1, colonne 2, on


voit quune personne a obtenu 29 lexamen, quune autre a obtenu
une note de 30, que deux tudiants ont obtenu 49, etc.
2. On convertit la distribution des effectifs en pourcentage (quatrime
colonne). En convertissant chacune de ces frquences en pourcen-
tage, on voit quun tudiant reprsente 3,1 % des observations (on a
un total de 32 tudiants et 1/32 = 0,03125, ou 3,1 %). Par exemple,
les notes de 29 et de 30 sont obtenues respectivement par 3,1 % des
tudiants alors que 2 tudiants (2/32 = 0,0625, ou 6,3 % du total) ont
obtenu 49.
3. On cumule les pourcentages pour obtenir le pourcentage cumula-
tif (cinquime colonne). Ainsi, on voit que 3,1 % des tudiants ont
obtenu 29 et que 6,3 % des tudiants ont obtenu 30 ou moins leur
examen, et que 18,8 % des tudiants ont une note de 49 ou moins.
la dernire ligne du Tableau 4.1, on voit que 100 % des tudiants
ont obtenu 90 ou moins lexamen.
4. On applique maintenant la correction arithmtique qui produit le
rang percentile final pour chaque observation. Le rang percentile se
dfinit comme le pourcentage cumulatif des observations se situant
sous chaque valeur, plus la moiti du pourcentage des observations
qui se situent exactement cette valeur. La Formule 4.1 dcrit la
procdure et la sixime colonne du Tableau 4.1 indique le rsultat
des calculs.
Rang percentile de X = pourcentage cumulatif infrieur
X + 1/2 pourcentage X Formule 4.1
Le dernier terme de la Formule 4.1 est la correction arithmtique quil
est ncessaire de faire pour estimer le pourcentage de personnes se situant
la valeur X ou en dessous. Puisque les observations se situent exactement
cette valeur, on suppose que si la mesure avait t plus prcise (quelques
dcimales de plus), la moiti des observations auraient obtenu un score
lgrement suprieur, et lautre moiti, un score lgrement infrieur.
108 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Illustration du rang percentile

La dernire colonne du Tableau 4.1 donne le rang percentile pour chaque


valeur de la distribution. tablissons le percentile associ la note la plus
faible de la distribution (29). Nous voyons que 3,1 % des tudiants ont
obtenu 29, et quaucun na obtenu de note plus basse. En nous servant de
la Formule 4.1, nous pouvons calculer le rang percentile pour la note de
29. Puisque nous navons aucune valeur infrieure 29, le pourcentage des
valeurs sous 29 est gal 0. Mais 3,1 % des tudiants obtiennent une note
de 29. Le rang percentile tel quil est dfini par la Formule 4.1 devient alors
0 + (0,5 3,1) = 1,55 %. Le rang percentile est donc 1,55. En arrondissant, le
rang percentile sera approximativement 2. Ltudiant qui a eu 29 son exa-
men obtient une note gale ou suprieure seulement 2 % des tudiants.
Par consquent, 98 % des tudiants ont obtenu une note suprieure 29.
Pour la note de 30, nous additionnons la quantit 3,1 % (le pourcen-
tage cumulatif dobservations se situant en bas de 30) plus la moiti de
3,1 % (la moiti du pourcentage de personnes ayant obtenu 30 lexamen) :
3,1 % + 0,5 (3,1 %) = 4,56 %, que nous arrondissons au rang percentile 5.
Nous rptons cette opration pour chacune des valeurs de la banque de
donnes. Nous constatons dabord que 31 tudiants sur 32 (96,9 %) ont
obtenu lexamen une note infrieure la note la plus forte, soit 90. Un
seul tudiant (3,1 % du total) a obtenu la meilleure note (90). Nous appli-
quons la formule pour trouver le rang percentile de la note 90 : 96,9 % + 0,5
(3,1 %) = 96,9 % + 1,55 % = 98,45, que nous arrondissons 98. Ltudiant
qui a mrit la note de 90 lexamen a obtenu une note gale ou suprieure
celle obtenue par environ 98 % des tudiants du cours.
Le rang percentile maximal est moins grand que 100. Cela vient du fait
quil est logiquement impossible quune observation dune distribution soit
suprieure 100 % des observations (cela voudrait dire que cette note est
plus forte quelle-mme !). Par ailleurs, on remarque que le calcul du rang
percentile donne des valeurs approximatives : la description quil fait de la
position dune observation inclut un certain niveau dimprcision. Nous y
reviendrons plus tard dans ce chapitre. Lorsque les percentiles sont construits
sur un grand chantillon, ces imprcisions deviennent ngligeables.
L A P O S I T I O N R E L AT I V E D E S O B S E RVAT I O N S 109

Trois autres faons destimer les rangs percentiles


Il existe un raccourci pour calculer le rang percentile qui consiste enlever 0,5 au rang
absolu occup par lobservation puis diviser par N :
Rang X 0,5
Rang percentile de X = > 100 % Formule 4.1b
N
Les logiciels Excel et SPSS utilisent des mthodes lgrement diffrentes :
Rang X 1
(Excel) Rang percentile de X = 100 % Formule 4.1c
N1
Rang X
(SPSS) Rang percentile de X = 100 % Formule 4.1d
N+1
Par exemple, pour la note de 90, le rang absolu est 32. Le percentile devient donc,
selon notre approche, 31,5/32 100 % = 98,4 %
selon Excel, 31/31 100 % = 100 %
selon SPSS, 32/33 100 % = 96,97 %.
Lapproche dExcel est dconseiller, puisquelle donne des rangs percentiles de 100 % ;
lapproche de SPSS tend sous-estimer lgrement le rang percentile.

Quiz rapide 4.2


Calculez avec la Formule 4.1b le rang percentile de la note 65 du Tableau 4.1.
Trouvez-vous le mme rsultat ?

Il est possible de se servir des percentiles pour dterminer rebours


une valeur critre. Par exemple, si nous voulons que 40 % des tudiants
aient la mention chec et 60 %, la mention succs , il faut trouver
la note dont le rang percentile serait 40. Dans le Tableau 4.1, cette note
serait entre 62 et 63 (disons 62,5). Un autre exemple : nous pouvons nous
rfrer au Tableau 4.1 pour dterminer la note qui correspond au 50e per-
centile. Nous cherchons la ligne qui identifie le 50e percentile. Dans ce
cas, la note est 65. Nous pouvons alors affirmer que la moiti des tu-
diants a obtenu une note gale ou infrieure 65.
Les rangs percentiles souvent requis sont les 25e, 50e et 75e. On les
appelle aussi les quartiles, car ils dfinissent 4 zones : les scores se situant
chacun des rangs percentiles 25, 50 et 75 ou en dessous, et les autres.
Les quartiles servent aussi pour calculer ltendue interquartile (voir le
chapitre 3). Il est parfois galement utile de diviser la distribution en 10
zones. Nous appelons chaque zone un dcile. Comme avec les quartiles, les
dciles dfinissent les valeurs de la variable associes 10 %, 20 %, etc., des
observations de la distribution.
110 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Par exemple, 50 % des joueurs de hockey ont un salaire gal ou infrieur


quel salaire ? En dautres termes, quel salaire se situe au 50e centile des salaires
des joueurs de la LNH ? Dans la base de donnes NHLSalaire20022003 du
site Internet (www.pum.umontreal.ca/ca/fiches/978-2-7606-2113-8.html), cest
le salaire de 1 000 000 $. Mais on sait aussi que la mdiane est la valeur de
tendance centrale qui coupe la distribution en deux parts gales : 50 % des
observations se situant en dessous ou au-dessus delle, ce qui revient dire
que la mdiane et le percentile 50 ont exactement la mme valeur. Ainsi, le
joueur de hockey dont le salaire le situe au 50e centile est au moins aussi bien
pay que la moiti des joueurs. En revanche, 50 % de ses collgues sont mieux
pays. Le Tableau 4.2 donne les quartiles et les dciles pour les joueurs de la
LNH. Ainsi, 10 % des joueurs gagnent 450 000 $ ou moins, 20 % gagnent
550 000 $ ou moins, et 90 % des hockeyeurs gagnent 3 600 000 $ ou moins.
Par soustraction, seulement 10 % des joueurs gagnent plus de 3 600 000 $.
Souvent, il est pratique de se servir des percentiles afin de dterminer la
valeur originale qui correspond un percentile donn. Par exemple, nous
pourrions faire appel au Tableau 4.1 pour dterminer la note lexamen
qui correspond au 75e percentile. Au Tableau 4.1, le percentile 75 nexiste
pas et le percentile le plus proche de la valeur recherche est 77 qui, lui, cor-
respond la note de 75 % lexamen. Nous pouvons alors conclure que la
note de 75 % correspond approximativement au percentile 75. Il est aussi
possible de faire une interpolation pour calculer une valeur plus prcise.
Mais sauf dans des situations exceptionnelles, cette prcision mathmati-
que nest pas requise.

Quiz rapide 4.3


partir des donnes du Tableau 4.1, quels seraient les quartiles ? Pourquoi les
quartiles (quart signiant quatre ) nont que trois nombres ?

Lutilisation des percentiles pour interprter des mesures

La plupart des rsultats individuels que lon obtient sur des mesures psy-
chologiques, telles que les tests de personnalit, dhabilet cognitive et
daptitude, ne sont interprtables que lorsquils sont compars un tableau
normatif. Une fois tablis, ces tableaux normatifs sont gnralement int-
grs aux manuels techniques qui accompagnent les tests normaliss.
L A P O S I T I O N R E L AT I V E D E S O B S E RVAT I O N S 111

Tableau 4.2
Dciles et quartiles pour les salaires des joueurs de la LNH

Dciles Quartiles

10 % 450 000

20 % 550 000
25 % 600 000
30 % 667 435

40 % 800 000

50 % 1 000 000 50 % 1 000 000

60 % 1 300 000

70 % 1 800 000
75 % 2 100 000
80 % 2 500 000

90 % 3 600 000

Les tableaux normatifs sont des tableaux double entre indiquant


dans une premire colonne chaque score quil est possible dobtenir sur la
mesure et, dans une deuxime colonne, le percentile associ ce score, tel
quil est tabli partir de grands chantillons.
Chaque performance au test peut maintenant tre interprte en se rf-
rant directement au tableau normatif. Si la personne obtient le score X et
que celui-ci est associ au 10e percentile dans le tableau normatif, on dit
que sa performance la situe au 10e percentile sur la mesure. Cette perfor-
mance est plutt faible, car 90 % des gens obtiennent un rsultat plus fort.
Si la performance X se situe au 90e percentile, on tire la conclusion inverse.
Les tableaux normatifs sont souvent segments en fonction du sexe, de
lge ou dautres caractristiques importantes pour la comprhension et
linterprtation dun rsultat individuel. Par exemple, les tests qui mesurent
certaines habilets physiques, telle la force, sont accompagns de tableaux
normatifs spars selon le sexe, ce qui permet une interprtation plus rai-
sonnable. Un homme capable de soulever 50 kg pourrait se trouver au
50e percentile (il est aussi fort que lhomme mdian) alors que cette mme
performance pourrait situer une femme au 80e percentile (elle dtient une
force gale ou suprieure celle de 80 % des femmes).
112 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Critique du rang percentile comme mesure de positionnement

Le rang percentile possde deux avantages. Il sagit dune statistique facile


calculer et facilement comprise par les non-spcialistes. Pour cette raison,
les tableaux normatifs sont souvent exprims en percentiles. Par exemple,
la taille des bbs et leur poids sont souvent exprims en rangs percentiles :
lorsquun parent apprend que son nouveau-n pse 6 kg et que cela le situe
au 99e percentile, il comprend facilement que seulement quelques bbs
psent plus que son nouveau-n.
Par contre, le rang percentile a aussi des inconvnients. Un inconv-
nient majeur provient du fait quil peut mener des interprtations trom-
peuses lorsquil est bas sur des distributions qui ne sont pas symtriques
ou sur des distributions qui comprennent un faible nombre dobservations.
Dans ces cas, il faut interprter les percentiles avec prudence. Si on tudie le
Tableau 4.3, on repre les trois notes suivantes : 74, 75, 76. Objectivement
parlant, les performances lexamen de ces trois tudiants sont trs sem-
blables. Pourtant, les percentiles associs ces notes sont trs diffrents.
Avec une note de 74, la performance de cet tudiant le situe au 50e centile :
une performance sans grand clat. Mais sil avait obtenu seulement 1 ou 2
points de plus, nous aurions conclu (rangs percentiles de 75 et 84 respec-
tivement) que sa performance tait trs bonne ou mme excellente. Une
petite diffrence dans les valeurs brutes peut donc mener de grandes dif-
frences dans les percentiles.
De la mme faon, un salaire de joueur de hockey dans la LNH de
400 000 $ diffre peu dun salaire de 500 000 $. Or, le rang percentile du
premier est de 4,5 alors que le rang percentile du second est de 18,3. En
fait, presque 15 % des salaires sont agglutins dans cette zone troite, ce qui
rend linterprtation plus difficile. Pour les salaires des joueurs de la LNH,
cela nest pas un rsultat surprenant puisque cette distribution est trs
asymtrique.
Ce genre dasymtrie dans les distributions survient plus frquemment
lorsque les distributions sont construites avec un faible nombre dobser-
vations. Par consquent, le rang percentile est une statistique qui doit tre
interprte avec beaucoup de prudence lorsquelle est construite sur de
petits chantillons.
L A P O S I T I O N R E L AT I V E D E S O B S E RVAT I O N S 113

Heureusement, la plupart des tests standardiss (tests dintelligence ou


de personnalit, par exemple) sont utiliss avec des tableaux normatifs qui
analysent les performances de grands groupes de rpondants (souvent des
milliers, et rarement moins que des centaines). Par consquent, les percen-
tiles qui sont associs ces tableaux peuvent tre interprts sans grand ris-
que de distorsion.
Comme nous venons de le voir, les rangs percentiles peuvent mener
des interprtations douteuses. Cette difficult est partiellement attribuable
au fait que les percentiles ne se servent que dune portion de linformation
provenant de la distribution, soit la frquence relative des observations. La
moyenne et la variance des observations ne sont pas directement prises en
considration. En mettant profit ces informations supplmentaires pour
tablir la position des observations, les rsultats obtenus seront beaucoup
plus intressants. Nous nous tournons maintenant vers les valeurs talons
qui permettent de positionner les valeurs, peu importe la forme de la distri-
bution dont elles proviennent.

Tableau 4.3
Les percentiles pour une distribution asymtrique

Notes Frquence Rang absolu Rang percentile

30 1 1 1,6
50 1 2 4,7
62 1 3 7,8
63 5 4 8: 6 18,8
64 1 9 26,6
70 1 10 29,7
74 12 11 22 : 16,5 50,0
75 4 23 26 : 24,5 75,0
76 2 27 28 : 27,5 84,3
77 1 29 89,1
78 1 30 92,2
87 1 31 95,3
90 1 32 98,4
114 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

LA VALEUR TALON Z

Le rang percentile indique la position de nimporte quelle observation par


rapport aux autres observations de la distribution. La valeur talon indi-
que aussi la position dune observation, mais, cette fois, par rapport la
moyenne de la distribution. La valeur talon Z (parfois appele la cote Z)
est probablement la valeur de positionnement la plus frquemment utili-
se. Nous lappelons une valeur standardise.
La valeur talon Z convertit les valeurs initiales en valeurs standardi-
ses. Ces valeurs standardises peuvent tre ngatives, positives ou gales
zro. Lorsquune valeur talon Z est positive, cela indique que lobservation
se trouve au-dessus de la moyenne. Lorsquelle est ngative, lobservation est
infrieure la moyenne et lorsque la valeur talon Z est gale zro, lobser-
vation se trouve exactement la moyenne. Ainsi, si trois tudiants obtien-
nent respectivement 60, 70 et 80 un examen ayant 70 pour moyenne et
que nous convertissons ces notes en valeurs talons Z, la note 60 pren-
dra un signe ngatif (sous la moyenne), la note 70 sera de zro (gale la
moyenne) et la note 80 sera positive (suprieure la moyenne).
La valeur talon Z peut varier entre moins linfini et plus linfini. Plus
une valeur talon Z est loin de zro, plus la valeur brute qui lui correspond
est distante de la moyenne. Ainsi, si le salaire de Jules, converti en valeur
talon Z, est gal +2, mais que le salaire de Marie est de +1 (en valeur
Z), cela indique non seulement que les deux salaires sont plus levs que
le salaire moyen (parce que les deux valeurs Z sont positives), mais que le
salaire de Jules (Z = +2) est, lui, plus lev que le salaire de Marie (Z = +1).
Comme pour le percentile, la caractristique la plus importante dune
valeur talon est quelle permet de faire des comparaisons directes entre la
performance dune personne sur plusieurs variables et la performance de
plusieurs personnes sur une mme variable. Ainsi, si quelquun veut savoir
sil est plus fort en mathmatiques quen chimie, il lui serait possible de
convertir ses notes dans ces deux cours en valeurs talons (par exemple Z).
Si le Z pour les mathmatiques est gal +1 et que sa note en chimie est de
Z = 1, cela indique : a) quil est plus fort en mathmatiques quen chimie ;
et b) quil se situe au-dessus de la moyenne en mathmatiques et sous la
L A P O S I T I O N R E L AT I V E D E S O B S E RVAT I O N S 115

moyenne en chimie. La valeur talon positionne linformation en prenant


en considration la moyenne et lcart-type de la distribution.

Comment calculer la valeur talon Z

La valeur talon Z compare chaque observation initiale la moyenne.


Donc, pour convertir une valeur dune distribution en valeur talon Z, il
nous faut connatre cette valeur aussi bien que la moyenne de la distribu-
tion. Le point de dpart est lcart entre la donne, par exemple Xi, et la
moyenne (Xi MX). Lcart sera plus grand pour les valeurs Xi situes loin
de la moyenne et il sera plus petit pour les observations situes plus prs de
la moyenne. Naturellement, lcart sera de zro pour les observations qui se
trouvent directement la moyenne.

Tableau 4.4
Tempratures en degrs Celsius, en degrs Fahrenheit et en valeurs talons Z
pour un pays ctif

Mois X C X MX ZX Y F Y MY ZY

Fvrier 0 15 1,39 32 27 1,39

Mars 5 10 0,93 41 18 0,93

Avril 10 5 0,46 50 9 0,46

Mai 15 0 0,00 59 0 0,00

Juin 20 5 0,46 68 9 0,46

Juillet 25 10 0,93 77 18 0,93

Aot 30 15 1,39 86 27 1,39

Somme 105 0 413 0

N 7 7 7 7

Moyenne 15,0 0,0 59,0 0,0

cart-type 10,8 1,0 19,4 1,0

Le Tableau 4.4 prsente les tempratures en Celsius et en Fahrenheit


pour un pays fictif. En fvrier, il fait 0 C, soit 32 F. Il sagit de la mme
116 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

temprature (le mme degr de chaleur), mais le chiffre la dcrivant en


degrs Celsius est diffrent de celui qui la dcrit en degrs Fahrenheit,
puisque les chelles de mesure en Celsius et en Fahrenheit sont diffrentes.
(Pour convertir les degrs Celsius en degrs Fahrenheit, on multiplie les
degrs Celsius par 9/5 et on ajoute 32.) Le Tableau 4.4 prsente la tempra-
ture moyenne et lcart-type des tempratures pour les sept mois qui sont
mentionns.
Pour dterminer la position de chaque temprature par rapport la
temprature moyenne, on calcule dabord lcart entre chaque tempra-
ture et sa moyenne (X MX pour les degrs Celsius et Y MY pour les
degrs Fahrenheit). En observant la taille de ces diffrences, on voit que
la temprature en fvrier est sous la moyenne [Xfvrier MX = 0 15 = 15
et Yfvrier MY = 3259 = 27]. Pouvons-nous conclure que, comparati-
vement la moyenne, le mois de fvrier est moins froid en degrs Cel-
sius quil ne lest en degrs Fahrenheit ? Bien sr que non. Il faut corriger
ces valeurs afin de prendre en considration les deux chelles de mesure.
La correction se fait en divisant lcart obtenu (Xi MX ; et Yi MY) par
lcart-type de la distribution dont lobservation provient.
La valeur talon se construit en exprimant la diffrence observe (entre
chaque observation et la moyenne) par rapport la diffrence typique, que
nous connaissons comme tant lcart-type (voir le chapitre 3). La distance
entre une observation et la moyenne est-elle plus grande, moins grande ou
aussi grande que lcart-type ? La Formule 4.2 dcrit le calcul de la valeur
talon Z :
(X Mx)
ZX = i Formule 4.2
Ssx
o (Xi MX) est lcart entre une observation et la moyenne, et sX est lcart-
type de la distribution X.
Calculons la valeur talon Z pour la temprature du mois davril en
degrs Celsius (qui est Xavril = 10 au Tableau 4.4). Nous connaissons la
temprature moyenne (MCelsius = 15) et son cart-type (sCelsius = 10,8). Nous
entrons les chiffres dans la Formule 4.2.
(10 15)
Zavril = = 5 /10,8 = 0,46.
10,8
L A P O S I T I O N R E L AT I V E D E S O B S E RVAT I O N S 117

La temprature du mois davril, exprime sous une forme standardise


(valeur talon Z), est donc Z = 0,46. Puisque la valeur Z est ngative, nous
savons que la temprature en avril se situe au-dessous de la temprature
moyenne pour tous les mois de lanne.
Le Tableau 4.4 indique la temprature en valeurs talons Z. On peut
remarquer que lorsquelles sont traduites en valeurs talons Z, les tempra-
tures en degrs Celsius et en degrs Fahrenheit sont identiques. Nous disons
que la valeur talon est standardise parce que chaque valeur est exprime
par rapport un dnominateur commun, en loccurrence lcart-type.
La valeur talon Z rpond la question suivante : lobservation X1 est-
elle aussi diffrente de la moyenne que lest lobservation X2 ? Si la rponse
est affirmative (les valeurs Z calcules pour X1 et pour X2 sont identiques),
on conclut alors que les deux observations occupent exactement la mme
position relative sur les deux chelles de mesure. Cette caractristique des
valeurs talons Z est particulirement utile lorsquil sagit de comparer plu-
sieurs performances produites par la mme personne.
Supposons quun tudiant a obtenu 70 % lexamen danthropologie
et 80 % en littrature. Est-il meilleur en littrature quen anthropologie ?
Convertissons ces deux performances en valeurs talons Z. La moyenne et
lcart-type de lexamen danthropologie sont M = 50 et s = 10. La valeur
Z pour cette performance est (70 50)/10 = +2. Sa note tant trs sup-
rieure la moyenne, nous concluons que cet tudiant est bon (mme trs
bon) en anthropologie. La moyenne et lcart-type pour lexamen de lit-
trature sont 65 et s = 15. Encore une fois, nous calculons la valeur ta-
lon Z = (70 65)/15 = +0,33. Sa note en littrature est plutt proche de la
moyenne en littrature (Z = +0,33). La note en anthropologie tant beau-
coup plus forte que la note moyenne de sa classe et la note en littrature,
tant proche de la moyenne, nous pouvons alors conclure que ltudiant
est plus fort en anthropologie quil ne lest en littrature.
Nous pouvons aussi faire appel aux valeurs talons pour comparer deux
observations sur la mme variable. Revenons lexamen danthropologie.
Ltudiant en question a donc obtenu 70 % et une amie lui a obtenu 80%.
Si nous standardisons les deux performances (M = 50, s = 10) et calculons
leur valeur talon Z, nous voyons que la note de lamie se situe Z = +3,
alors que la note de ltudiant se situe Z = +2. Tous les deux ont obtenu
118 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

des notes au-dessus de la moyenne (les Z obtiennent des signes positifs),


mais lamie a mieux russi parce que sa performance se situe plus loin de la
moyenne que celle de ltudiant.
Au Tableau 4.4, la temprature exprime en valeur talon Z est identi-
que, quelle soit originellement mesure en Fahrenheit ou en Celsius. La
temprature du mois de fvrier, exprime en Celsius ou en Fahrenheit, est
exactement la mme distance de la temprature moyenne (le score Z
est 1,39 dans les deux cas). Que lon pense Celsius ou Fahrenheit, lorsquil
fait froid, il fait froid !

Deux particularits des valeurs talons Z

Deux particularits des valeurs talons Z rendent cette statistique fort utile.
1. La moyenne dune distribution exprime en valeur talon Z est tou-
jours gale 0.
Z
MZ = ----------------i = 0 Formule 4.3
Nz
Prenons une observation qui se trouve exactement la moyenne de sa dis-
tribution. Calculons la valeur talon Z pour cette observation. La moyenne
de la distribution et la valeur de lobservation tant identiques, la diffrence
entre les deux (X= -M) est gale zro. Puisquelle est zro, la valeur talon
Z qui lui correspond devient, elle aussi, zro. La moyenne tant le point
dquilibre dune distribution, il y aura autant de valeurs sous la moyenne
que de valeurs au-dessus de la moyenne, si bien quelles sannulent. Expri-
ms en scores Z, les ngatifs et les positifs sannulent, produisant un Z
moyen de zro.

Quiz rapide 4.4


Calculez la moyenne des valeurs talons Z pour la distribution de tempratures en
degrs Fahrenheit et pour la distribution en degrs Celsius. Les moyennes
diffrent-elles ?

2. Lcart-type dune distribution exprime en valeurs talons Z est tou-


jours gal 1.
L A P O S I T I O N R E L AT I V E D E S O B S E RVAT I O N S 119

Calculons lcart-type des valeurs talons Z pour les tempratures mesu-


res en Fahrenheit. Faisons appel la formule habituelle pour le calcul
de lcart-type. Comme pour nimporte quelle variable, lcart-type des
valeurs talons Z reprsente la diffrence moyenne entre les observations et
la moyenne de leur distribution. Or, la moyenne des valeurs talons MZ est
invariablement gale 0. Il est donc inutile de soustraire MZ, et la formule
devient :
N N
2 2
sz=
(Z M )
i z =
Z
i
Formule 4.4
i--------------------------------------
=1 - i = 1
-------------------
N1 N1
Il ny a donc qu mettre au carr chaque valeur Z, en faire la somme,
puis diviser par N 1. Finalement, nous calculons alors la racine carre
du rsultat pour obtenir lcart-type. Pour les donnes du Tableau 4.4, ceci
donne :

 1,39  +  0,93  +  0,46  +  0  +  0,46  +  0,93  +  1,39 


sz = ---------------------------------------------------------------------------------------------------------------------------------------------------------------
7 1

1,932 + 0,864 + 0,212 + 0,212 + 0,864 + 1,932


= -------------------------------------------------------------------------------------------------------------------------
6
6
= -- = 1 = 1
6

Quiz rapide 4.5


Supposons une distribution X o M = 100 et s = 20, et une distribution Y o
M = 100 et s = 10. Les deux variables dtiennent-elles le mme niveau de varia-
bilit ? Transformons chaque valeur de chaque distribution en valeur talon Z et
calculons le coefcient de variabilit pour chacune des deux distributions X et Y. Le
coefcient de variabilit sera-t-il le mme ou diffrent pour les distributions X et Y
lorsque ces dernires seront exprimes en valeurs talons Z ?

Nous voyons maintenant pourquoi la valeur talon Z est une valeur si


populaire : tous les chantillons, lorsquils sont exprims en valeurs ta-
lons Z, dtiennent la mme moyenne (0) et le mme cart-type (1). Grce
cette transformation, les valeurs obtenues par une personne sur nim-
porte quelles variables sont directement comparables condition quelles
120 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

soient toutes standardises. Si cette personne obtient des valeurs talons


Z de 0 sur deux variables, elle se situe la moyenne des deux variables.
Si elle obtient 1 sur la variable X et +1 sur la variable Y, elle se situe
un cart-type sous la moyenne sur X et un cart-type au-dessus de la
moyenne sur Y.

Comment ramener une valeur talon sa valeur initiale brute

partir dune valeur talon Zi, il est possible de trouver sa valeur brute Xi,
si on connat la moyenne MX et lcart-type sX. Il sagit dune simple trans-
formation algbrique de la Formule 4.2 qui devient la Formule 4.5. Isolons
Xi partir de la formule de calcul de la cote Z :
Zi = (Xi MX) / sX Formule 4.2

Xi = (Zi sX) + MX Formule 4.5


Au Tableau 4.4, prenons la valeur talon Z pour le mois davril (Zavril =
0,46) et calculons sa temprature en Celsius. Nous savons que la tempra-
ture moyenne en Celsius est de 15 degrs et que son cart-type est de 10,8,
ce qui donne
Xavril= (0,46 10,8) + 15
= 10

AUTRES VALEURS TALONS

Bien que la valeur talon Z soit trs souvent utilise pour faire des compa-
raisons, elle souffre dun inconvnient politique . Supposons quun psy-
chologue scolaire prsente un parent le rsultat du test de QI administr
son enfant. La performance au test de lenfant le place la moyenne (qui
est 100 pour ce test de QI), et par consquent lenfant obtient une cote Z
de 0. Si le parent comprenait les statistiques et les tests de QI, il ny aurait
aucun problme lui dire que son enfant a obtenu une performance de
Z = 0, car il comprendrait que son enfant est dot dun niveau dintelli-
gence moyen .
L A P O S I T I O N R E L AT I V E D E S O B S E RVAT I O N S 121

Mais supposons que le parent est un nophyte en statistique. Si le psy-


chologue lui dit que son enfant a un QI Z = 0, il pourrait croire que son
enfant nest pas intelligent ! Pour cette raison, lorsquil sagit de prsenter
des rsultats aux non-spcialistes, il est prfrable de les prsenter avec
des chiffres qui sont moins susceptibles dtre mal interprts. Puisque la
grande majorit des gens sont habitus aux rsultats nots sur 100, il est
prfrable de prsenter les rsultats obtenus avec des chiffres qui refl-
tent cette chelle. La valeur talon T correspond cette reprsentation des
observations. Cette valeur est utilise trs frquemment pour positionner
les rsultats sur les tests de personnalit, et les spcialistes en valuation
psychologique y ont souvent recours.
La valeur talon T a une moyenne de 50 et un cart-type de 10. Tous les
chantillons, lorsquils sont exprims en valeurs T, ont cette moyenne et cet
cart-type. Ce mme principe est identique avec la valeur talon Z (MZ = 0,
sZ = 1). Donc, un enfant qui a un QI le situant la moyenne obtient une
performance de T = 50 (et de Z = 0) sur son test de QI. Les gens reconnais-
sant facilement quun rsultat de 50 indique un rsultat moyen, le parent
non statisticien sera moins prompt faire une interprtation errone du
rsultat. Les valeurs T infrieures ou suprieures 50 sont respectivement
en dessous ou au-dessus de la moyenne.

Comment calculer la valeur talon T

Pour calculer les valeurs talons T partir des valeurs brutes, il est plus
facile de pralablement convertir ces valeurs brutes en valeurs talons Z.
La Formule 4.6 convertit une valeur talon Z en valeur talon T.
T = (10 Z) + 50 Formule 4.6
Z est la performance exprime en valeur talon Z, 10 est lcart-type des
valeurs T et 50 est la moyenne des valeurs T. Calculons la valeur talon T
pour la temprature du mois de mars inscrite au Tableau 4.4. La tempra-
ture en Fahrenheit est 41, ce qui se traduit en valeur talon Zmars = 0,93.
Tmars = (10 0,93) + 50
= (9,30 + 50)
= 40,7
122 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Quiz rapide 4.6


Calculez la valeur talon T pour la temprature du mois davril partir de sa
temprature en Celsius et en Fahrenheit.

Crer sa propre valeur talon

Il ny a rien de magique dans les valeurs talons T ou Z. En fait, selon la


situation, on peut crer sa propre valeur talon. Dans tous les cas, il sagit
de dterminer la moyenne et lcart-type dsirs. Dabord, on convertit les
valeurs relles en valeurs talons Z, puis on exprime ces valeurs en fonction
de la moyenne et de lcart-type choisis.
Illustration : un chef dentreprise en Allemagne veut informer chaque
membre du personnel sur son salaire par rapport aux autres salaires offerts
par la compagnie. Puisque les salaires sont exprims en milliers deuros, il
risque des ennuis en indiquant au salari moyen que son salaire est de 0
(sil choisit la valeur talon Z) ou 50 (sil choisit T). Il faut donc crer une
nouvelle valeur talon nomme E. On dcide arbitrairement que cette nou-
velle statistique a une moyenne de 30 000 et un cart-type de 10 000. Quel
est maintenant le salaire de trois employs ? Gerhart a un salaire moyen,
Rudolf a un salaire le situant deux carts-types au-dessus de la moyenne,
et Willie a un salaire un cart-type sous la moyenne. Exprimons ces trois
salaires en valeurs talons E. Dabord, nous convertissons les salaires en
valeurs talons Z. Pour Gerhart Z = 0 ; pour Rudolf Z = +2, pour Willie
Z = 1. Nous calculons maintenant les observations en valeurs talons E.
Gerhart : E = 10 000 0 + 30 000 = 30 000
Rudolf : E = 10 000 +2 + 30 000 = 50 000
Willie : E = 10 000 1 + 30 000 = 20 000
Nous venons dinventer une nouvelle statistique, la valeur talon E. On
ne la retrouvera dans aucun autre livre de statistiques ; nanmoins, elle est
tout aussi valide que les valeurs talons Z et T.

Quiz rapide 4.7


Quel serait le salaire dIngrid en valeur talon E si son salaire se trouvait
Z = +1,5 ?
L A P O S I T I O N R E L AT I V E D E S O B S E RVAT I O N S 123

Un dernier mot sur les valeurs talons

La transformation dune observation en une valeur talon est une trans-


formation linaire. Cela implique que le fait de convertir une distribution
dobservations en valeurs talons naura aucun impact sur la forme de la
distribution. Si la distribution originale est asymtrique, la distribution des
valeurs Z le sera autant. La transformation des valeurs brutes en valeurs
talons ne peut en aucun cas rendre normale (voir le chapitre 5) une
distribution qui ne lest pas. Pour cette raison, lorsque nous travaillons avec
une distribution qui est convertie en valeurs talons Z ou T, on ne doit pas
parler de normalisation , mais de standardisation . Il est impossible de
se servir du processus de standardisation (Z ou T) pour produire une dis-
tribution symtrique partir dune distribution qui ne lest pas.

SOMMAIRE DU CHAPITRE

Le positionnement dune observation permet de faire des comparaisons


entre plusieurs personnes sur la mme variable ou la position dune per-
sonne sur plusieurs variables. Le rang, le rang percentile et la valeur talon
sont trois techniques qui permettent de trouver la position dune observa-
tion. Le rang percentile positionne une observation par rapport aux autres
observations de la distribution. La valeur talon (Z, T ou autre) positionne
chaque observation par rapport la moyenne. Le percentile est particu-
lirement utile lorsquil sagit de prsenter les rsultats aux personnes qui
ne connaissent pas les statistiques. Cependant, dans certaines situations,
il peut mener des interprtations et des conclusions problmatiques. La
valeur talon, en particulier la statistique Z, bien quun peu plus difficile
calculer et comprendre, est plus polyvalente. Ces mesures de position-
nement sont trs souvent utilises en pratique lorsquil sagit dvaluer un
individu sur le plan psychologique ou pour laborer un diagnostic dans le
domaine de lducation.
124 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

EXERCICES DE COMPRHENSION

1. Pour tre admis dans une universit, les tudiants doivent passer un
examen dadmission. Cette universit naccepte que les tudiants
qui se classent parmi les 10 % des tudiants qui ont eu les meilleurs
rsultats. Jeanne est admise. Nous pouvons alors dduire que son
percentile pour lexamen dadmission est ________.
a) au minimum 10
b) plus de 10 et moins de 90
c) au moins 90
d) plus de 90
2. La meilleure note obtenue lexamen est 98 et la pire note est 12.
Le rang absolu pour la personne qui obtient la meilleure note est
________, alors que le rang absolu dtenu par la personne ayant
obtenu la pire note est ________.
a) 1 ; 100
b) 12 ; 98
c) 98 ; 12
d) 1 ; impossible dterminer
3. Nous avons une distribution dcrivant les degrs de pauvret dans
plusieurs villes nord-amricaines. Nous voulons positionner chaque
ville relativement aux autres sur le plan de la pauvret. Quelle serait
la technique qui sacrifierait le plus dinformations ?
a) La moyenne de la distribution.
b) La valeur talon Z.
c) Le percentile.
d) Le rang absolu.
4. Le salaire de Jules est de 25 000 ; or, la moyenne des salaires en
France est de 25 000 . La distribution des salaires est normale.
Compte tenu de ces informations, quelle est la position du salaire de
Jules en valeur talon Z, en percentile, en valeur talon T ?
a) Z = 0 ; percentile = 50 ; T = 50.
b) Z = 0 ; le percentile ne peut pas tre dtermin ; T = 25 000.
c) Z ne peut pas tre dtermin ; le percentile ne peut pas tre
dtermin ; T ne peut pas tre dtermin.
d) Z ne peut pas tre dtermin ; percentile = 50 ; T = 0.
L A P O S I T I O N R E L AT I V E D E S O B S E RVAT I O N S 125

5. On calcule les valeurs talons Z pour toute une distribution de


valeurs. On calcule la somme des valeurs talons Z qui sont positives
et la somme des valeurs talons Z qui sont ngatives. On additionne
une somme lautre et le rsultat est ______.
a) 1
b) 0
c) 1
d) impossible determiner
6. Des 10 tudiantes qui suivent ce cours, 9 obtiennent une note entre
70 et 72, et 1 tudiante, Florence, obtient 90. Nous convertissons
chacun de ces rsultats en valeur talon Z. En valeur talon Z, la
performance de Florence est ______.
a) Z ngatif proche de zro
b) Z positif proche de zro
c) Z ngatif loin de zro
d) Z positif loin de zro
7. Nous examinons le taux de criminalit dans une trentaine de
pays. Le taux de criminalit moyen est de 1 000 crimes/1 million
dhabitants. Nous convertissons ces taux de criminalit en valeur
talon Z. Le pays A obtient un taux de criminalit de Z = 0, alors
que le pays B obtient un Z = 2. Le taux de criminalit du pays
A est __________, alors que le taux de criminalit du pays B est
__________.
a) essentiellement zro ; trs fort
b) essentiellement zro ; trs faible
c) de 1 000 crimes/1 million dhabitants ; moins de 1 000 crimes/
1 million dhabitants
d) de 1 000 crimes/1 million dhabitants ; de plus de 1 000 crimes/
1 million dhabitants
8. Dans une compagnie, chaque mois, le vendeur qui ralise le plus
de ventes mrite un voyage Tahiti. Vous tes le directeur de cette
compagnie et vous devez choisir la personne qui ira Tahiti. Quelle
est la statistique de positionnement la plus approprie dans ce cas ?
a) Le rang absolu.
b) Le percentile.
126 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

c) La valeur talon Z.
d) Aucun de ces choix.
9. Nous comptabilisons le nombre de livres publis par les professeurs
de 10 grandes universits de recherche au Canada. LUniversit
de Montral se situe au deuxime rang de cette distribution, dont
nous ignorons la forme. Si nous convertissons toutes les valeurs
de cette distribution en valeurs talons Z et en percentiles, la cote
Z de lUniversit de Montral sera ________ et son percentile sera
__________.
a) positive ; plus grand que 50
b) ngative ; plus petit que 50
c) positive ou ngative ; au-dessus ou au-dessous de 50
d) de zro ; au-dessus ou au-dessous de 50

Rponses

1. c
2. d
3. d (le nombre total dtudiants nest pas indiqu)
4. a
5. b
6. d
7. c
8. a
9. c (N. B. Lnonc nindique pas si le rang 2 dfinit un nombre lev
ou faible de livres publis.)
CHAPITRE 5
LA DISTRIBUTION NORMALE

Quelques conseils de prudence en guise de prambule .................. 130


Dfinition de la distribution normale ................................................ 131
La densit sous la courbe...................................................................... 133
La conversion des valeurs talons Z en rangs percentiles ............... 138
Comment trouver la densit des observations se situant
entre deux valeurs........................................................................ 140
La conversion des rangs percentiles en valeurs talons Z ............... 140
Le tableau de la proportion sous la courbe
normale standardise.................................................................. 141
Sommaire du chapitre........................................................................... 143
Exercices de comprhension................................................................ 144
Page laisse blanche
CHAPITRE 5

LA DISTRIBUTION NORMALE

La distribution normale joue un rle central en statistiques. Dune part, la


forme de cette distribution dcrit un grand nombre de caractristiques phy-
siques, sociologiques et psychologiques. Nous lappelons normale puisque,
daprs Qutelet (voir le texte ci-dessous), il sagit de la distribution habituelle .
Dautre part, la distribution normale est importante parce que nous en savons
beaucoup son sujet. Notre connaissance des caractristiques de la distribution
normale a permis llaboration dun ensemble de tests statistiques sophistiqus
(que nous verrons dans les chapitres ultrieurs). La comprhension de la distri-
bution normale et de ses caractristiques est essentielle pour ltude des statisti-
ques, en particulier les statistiques qui nous permettent de faire des infrences.

Adolphe Qutelet et Carl Friedrich Gauss


Au xix sicle, le mathmaticien Adolphe Qutelet fait une dcouverte importante : en
e

examinant la distribution des effectifs de la taille des recrues de larme franaise, il


remarque que quelques soldats sont trs petits et quelques-uns trs grands, les autres
se situant entre ces deux extrmes. Le graphique de polygone de la taille produit une
courbe en forme de cloche. Mais plus important encore, Qutelet remarque que la dis-
tribution de la taille des soldats franais ressemble comme deux gouttes deau la dis-
tribution du tour de poitrine des soldats cossais ! Pourtant, il sagit de deux mesures
diffrentes (une longueur et une circonfrence) et de deux groupes diffrents (des Fran-
ais et des cossais). Qutelet ne trouve pas de raisons pouvant raisonnablement expli-
quer cette concidence et en dduit quil sagit de la distribution habituelle laquelle on
pourrait normalement sattendre. Par consquent, nous donnons le nom de distri-
bution normale cette distribution dont le polygone prend la forme dune cloche.
Cest le trs clbre mathmaticien Carl Friedrich Gauss qui a expliqu pourquoi la dis-
tribution normale est si habituelle. En son honneur, nous donnons un second nom la
distribution normale : la distribution gaussienne.
130 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Lorsquune population est normale, il est possible de dterminer :


le rang percentile dune observation partir dune valeur talon Z et
vice-versa ;
la proportion des observations qui se situent au-dessus ou en dessous
dune valeur ou entre deux valeurs ;
si le rsultat dune exprience est probable ou improbable (ce quon
appelle un rsultat statistiquement significatif ; voir chapitres 8 et 9).

QUELQUES CONSEILS DE PRUDENCE EN GUISE DE PRAMBULE

Bien quun nombre important de phnomnes soient normalement dis-


tribus, tous ne le sont pas. Les temps de rponse et les salaires sont des
cas o la distribution nest pas normale. Lorsque nous travaillons avec des
variables qui, clairement, ne sont pas normalement distribues, les pro-
cdures dcrites aux chapitres 8 12 ne peuvent pas tre utilises. Dans
ce cas, il faut prfrer les analyses non paramtriques (qui sont traites au
chapitre 13). Heureusement, la normalit est une prsomption raisonna-
ble pour la vaste majorit des phnomnes, en particulier ceux que lon
trouve en sciences sociales.
Une distribution parfaitement normale est une conception thorique
que nous ne retrouvons dans la nature que lorsque nous analysons des
populations entires. Puisquil nous est gnralement impossible de mesu-
rer une population entire, nous nanalysons, en gnral, quune partie de
ces informations, que nous appelons un chantillon1. Lorsque lchan-
tillon est trs petit, sa distribution a peu de ressemblance avec la distri-
bution normale. Mais au fur et mesure que le nombre dobservations
augmente, la distribution de lchantillon ressemble de plus en plus la
distribution parfaitement normale. Un chantillon comprenant plusieurs
millions dobservations ne sera pas parfaitement normal, mais il sera plus
proche de la normalit quun chantillon comprenant des milliers dob-
servations. Cependant, la ressemblance avec la distribution normale sera
dans ces deux cas excellente. La Figure 5.1 prsente quatre chantillons
comprenant des nombres diffrents dobservations (N).

1. Les concepts de population et dchantillon sont approfondis dans les chapitres 8 et 9.


LA DISTRIBUTION NORMALE 131

gure 5.1 Exemples dchantillons de tailles variables tirs


dune population normale

chantillon de taille 10 chantillon de taille 100


4
25
3 20
2 15
10
1 5

1 0 1 2 1 0 1 2 3

chantillon de taille 1 000 chantillon de taille 10 000

400
80
300
60
40 200

20 100

3 2 1 0 1 2 2 0 2 4

Chacun de ces chantillons est extrait alatoirement dune population


dobservations qui est normalement distribue. Dans la Figure 5.1, la courbe
en forme de cloche est beaucoup plus clairement identifiable pour les dis-
tributions comprenant des effectifs plus grands (N = 1 000, N = 10 000) que
celles ayant des effectifs plus petits (N = 10, N = 100). Mais mme lorsque
le nombre dobservations est trs petit (N = 10), nous commenons, nan-
moins, y reconnatre une forme normale . Enfin, on peut noter que la
diffrence dans la forme de la courbe entre N = 10 et N = 100 est plus mar-
que que la diffrence entre les courbes N = 1 000 et N = 10 000. Lorsque
les distributions contiennent dj beaucoup de donnes, lajout dobserva-
tions additionnelles affectera peu la forme de la distribution.

DFINITION DE LA DISTRIBUTION NORMALE

Une distribution est normale lorsquelle rpond trois critres :


1. elle est construite sur une variable continue ;
2. elle est unimodale ;
132 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

3. elle est symtrique ; les effectifs se rduisant au fur et mesure que


lon sloigne de la moyenne sans jamais arriver zro. Par cons-
quent, la moyenne, la mdiane et le mode concident tous (sont
identiques) dans une distribution normale.
La Figure 5.2 prsente une distribution normale. On remarque quelle est
unimodale et que la ligne verticale reprsente la position des trois statis-
tiques de valeurs centrales (la moyenne, le mode et la mdiane). Les trois
valeurs tant identiques, elles sont reprsentes par la mme ligne verticale.
Dans la Figure 5.3, plusieurs distributions sont reprsentes.

gure 5.2 Distribution de frquences normale (et son polygone)

Pensons un cercle. Il existe un nombre infini de cercles possibles


certains tant plus grands que dautres. Nanmoins, tous les cercles parta-
gent obligatoirement une caractristique : ils sont ronds. Analogiquement,
il existe un nombre infini de courbes normales qui diffrent toutes, mais
qui partagent nanmoins les caractristiques qui dfinissent la normalit
(unimodale, continue, symtrique, M = Md = Mo). la Figure 5.3, on
remarque trois distributions (les traits noirs pleins) qui sont toutes norma-
les, mme si elles ne sont pas identiques. Les moyennes de ces trois distri-
butions sont diffrentes et leurs carts types le sont aussi. La distribution en
pointill, par contre, nest pas une distribution normale. Le Quiz rapide 5.1
LA DISTRIBUTION NORMALE 133

invite le lecteur dire en quoi la courbe en pointill de la Figure 5.3 nest pas
normale.

gure 5.3 Quelques exemples de distributions

Quiz rapide 5.1


Pourquoi la courbe en pointill de la Figure 5.3 nest-elle pas une distribution
normale ?

LA DENSIT SOUS LA COURBE

Le polygone des frquences et lhistogramme sont des reprsentations gra-


phiques de la frquence (ou de la proportion) des observations se situant
chaque valeur dune variable. Les statisticiens utilisent le terme de den-
sit pour dcrire la proportion des observations pour les diffrentes valeurs
dune distribution. Lorsquune distribution est normale, il est possible de
dduire seulement partir de sa moyenne et de son cart-type la propor-
tion ou la densit des observations qui se trouvent entre chaque valeur de
la variable et sa moyenne. Il est aussi possible de dterminer la densit des
observations qui sont infrieures ou suprieures nimporte quelle valeur
aussi bien que la densit des observations qui se trouvent entre deux
valeurs.
134 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Si le poids des enfants de six ans suit une distribution normale et quon
connat sa moyenne et son cart-type, il est possible de dduire la propor-
tion (la densit) des enfants qui psent plus de 40 kg, moins de 30 kg, ou la
proportion des enfants qui psent entre 30 et 40 kg. De plus, connaissant la
densit, il devient possible de dterminer la probabilit dobtenir nimporte
quelle valeur : par exemple, si les notes en chimie sont distribues norma-
lement, nous pouvons tablir la probabilit dobtenir 90 % au prochain exa-
men. Enfin, grce la distribution normale, il nous est possible de convertir
les valeurs talons Z attribues chaque observation en percentiles et vice-
versa. Examinons dabord le concept de la densit des observations.
La mdiane est la valeur qui divise la distribution en deux groupes gaux.
Il y a autant dobservations au-dessus quen dessous de la mdiane. Pour
les distributions normales, la mdiane et la moyenne sont gales. Parce que
la mdiane et la moyenne concident, la proportion des observations se
trouvant au-dessus et en dessous de la moyenne est gale aussi. Ainsi, pour
les distributions normales, la proportion (la densit) des observations se
situant au-dessus et en dessous de la moyenne est gale 0,50.
Par ailleurs, lorsquon observe une distribution normale comme celle de
la Figure 5.2, on voit que, plus on sloigne de la moyenne, moins il y a
dobservations. La proportion (densit) des observations se rduit au fur
et mesure que lon sloigne de la valeur centrale. Grce aux travaux de
Gauss, nous connaissons la proportion exacte des observations qui se trou-
vent diffrents points de la distribution lorsque celle-ci est parfaitement
normale.

Quiz rapide 5.2


Imaginez une distribution unimodale, symtrique, mais leptocurtique. Est-ce que la
densit sous cette courbe serait la mme que celle que lon trouve la Figure 5.4 ?

La Figure 5.4 montre la rpartition de la densit des observations de la


distribution normale. On voit que 34,13 % des observations se situent entre la
moyenne et les valeurs se trouvant un cart-type au-dessus de la moyenne ;
13,59 % des observations se situent entre +1 et +2 carts types de la moyenne ;
2,15 % des observations sont entre +2 et +3 carts types ; enfin, trs peu dob-
servations (0,13 %) se situent au-del de +3 carts types de la moyenne.
LA DISTRIBUTION NORMALE 135

gure 5.4 La densit (proportion) des observations sous


la courbe normale

50 % 50 %

0,13 % 2,15 % 2,15 % 0,13 %

13,59 % 34,13 % 34,13 % 13,59 %

3 2 1 0 +1 +2 +3

Mais ces proportions ne sont pas inventes ! Indpendamment de la


moyenne ou de lcart-type, pour toutes les distributions normales, 34,13 %
des observations se trouvent entre la moyenne et 1 cart-type, etc.
On peut, par exemple, supposer que la taille des hommes adultes suit
une distribution normale avec une moyenne de 170 cm et un cart-type de
10 cm. partir de ces deux seules informations, nous pouvons affirmer que
34,13 % des hommes mesurent entre 160 et 169,999 cm et 34,13 % mesu-
rent entre 170 et 179,999 cm ; que 13,59 % des hommes mesurent entre 180
et 189,999 cm (ainsi quentre 150 et 159,999 cm), etc.
Puisque nous connaissons la densit dune distribution normale, nous
pouvons alors estimer la probabilit dobtenir une observation se trouvant
dans une certaine rgion. Prenons une observation alatoire de la popula-
tion. Cette observation pourrait provenir de nimporte quelle partie de la
distribution : elle pourrait tre au-dessus ou au-dessous de la moyenne et elle
pourrait en tre proche ou distante. Nous savons que 50 % des observations
se situent au-dessus et 50 % se situent en dessous de la moyenne pour toutes
les distributions normales. Ainsi nous pouvons affirmer quune observation
tire alatoirement dune distribution normale aura une chance sur deux
136 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

(p = 0,50) de se situer au-dessus (ou au-dessous) de la moyenne mais quelle


aura une trs faible chance de se retrouver trs loin de la moyenne. tu-
dions ceci de plus prs.
Nous savons que 34,13 % des observations dune distribution se situent
entre la moyenne et +1 cart-type (voir la Figure 5.4). Par consquent, la
probabilit que notre observation se situe entre la moyenne et +1 cart-
type est p = 0,3413. Pour la distribution hypothtique de la taille, ayant une
moyenne M = 170 cm et un cart-type s = 10 cm, il existe une probabilit
p = 0,3413 quune observation prise au hasard soit entre 170 (M = 170) et
180 cm (s = 10 ; 170 +10 = 180). De la mme manire, on sait que 34,13 %
(p = 0,3413) des observations se retrouvent entre la moyenne et un cart-
type en dessous delle. Par consquent, il y a une probabilit p = 0,3413
quune observation tire au hasard de cette distribution de la taille se situe
entre 160 et 170 cm.

Quiz rapide 5.3


La moyenne dune distribution normale est M = 100 et son cart-type s = 20. Nous
tirons alatoirement une observation de cette distribution. En vous rfrant la
Figure 5.4, quelle est la probabilit que cette observation soit plus grande que 140 ?

De plus, comme la distribution normale est symtrique, les mmes


proportions se retrouvent pour les valeurs au-dessus et en dessous de
la moyenne. En additionnant les observations qui sont en dessous de la
moyenne et celles qui se trouvent au-dessus de la moyenne, nous voyons
que 68,26 % des observations se trouvent entre 1 et +1 cart-type de la
moyenne (34,13 % + 34,13 % = 68,26 %) ; que 27,18 % des observations se
trouvent entre 2 et 1 et entre +1 et +2 carts types (13,59 % +13,59 %) ; et
que 4,30 % des observations (2,15 %+2,15 %) sont entre 2 et 3 et entre +2
et +3 carts types. Enfin, seulement une trs petite proportion des observa-
tions (0,13 %+0,13 %=0,26 %) se situe en de de 3 et au-del de +3 carts
types de la moyenne. La somme de ces proportions (68,26 + 27,18 + 4,30
+ 0,26) = 100 %, ce qui confirme quelles incluent toutes les observations de
cette distribution normale.
Ce mme constat peut tre formul en termes probabilistes. Ainsi, si
nous revenons la distribution de la taille, dont la moyenne est de 170 cm
LA DISTRIBUTION NORMALE 137

avec un cart-type de 10, nous pouvons tablir que la probabilit davoir


une taille entre 160 et 180 cm est p = (0,3413 + 0,3413) = 0,6826, davoir
une taille entre 150 et 160 cm et entre 180 et 190 cm est p=(0,1359 +
0,1359) = 0,2718, et que la probabilit davoir une taille de moins de 150 cm
et de plus de 190 cm est p = (0,0215 + 0,0215 + 0,0013 + 0,0013) = 0,0456.
La probabilit quun homme soit trs grand (plus de 190 cm) ou trs petit
(moins de 150 cm) est clairement petite. Si lon additionne ces trois proba-
bilits (0,6826 + 0,2718 + 0,0456), nous trouvons une probabilit p = 1,0,
indiquant quun homme choisi alatoirement aura certainement une taille !
Supposons une distribution normale pour un test de QI administr 1 000
lves. Supposons aussi que la moyenne du QI est de 100 et que lcart-type
des QI est de 15. Que pouvons-nous conclure au sujet du QI de ces lves ?
1. Environ 500 lves ont un QI suprieur 100 et 500 lves ont un QI
infrieur 100. Ainsi, la probabilit que ltudiante X possde un QI
suprieur la moyenne est p = 0,50.
2. Environ 341 lves ont un QI entre 100 et 115, et 341 lves ont un
QI entre 85 et 100. (La moyenne plus 1 cart-type est gale 100
+ 15 = 115 et la moyenne moins 1 cart-type vaut 100 15 = 85.)
Puisque 34,13 % des QI se situent entre la moyenne et +1 cart-type,
nous savons alors que 341 (34,13 % de 1 000 lves = 341 approxi-
mativement) lves ont un QI entre 100 et 115. Puisque 68,26 %
des observations se situent entre -1 et +1 cart-type de la moyenne,
un total denviron 682 lves ont un QI entre 85 et 115 (68,26 % de
1 000 = 682 approximativement).
3. Environ 136 (13,6 %) lves ont un QI entre 115 et 130 (13,6 % de
1 000), et 136 ont un QI entre 70 et 85.
4. Environ 22 lves ont un QI entre 130 et 145 (2,15 % de 1 000, soit
21,5), et 22 ont un QI entre 55 et 70.
5. Seulement 1 lve a un QI suprieur 145 (0,13 % de 1 000 = 1,3) et
seulement 1 lve a un QI infrieur 55 (0,13 % de 1 000 = 1,3).

Quiz rapide 5.4


Supposons que pour une distribution normale, M = 10 et s = 2. Supposons que
vous avez 100 observations. Combien de ces observations sont suprieures la
moyenne ? Combien se situent entre 10 et 14 ? Combien obtiennent une valeur
infrieure 8 ?
138 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

LA CONVERSION DES VALEURS TALONS Z EN RANGS PERCENTILES

On se souvient que les valeurs talons Z (ou T, etc.) et les percentiles sont
utiliss pour trouver la position relative des observations. Lorsque les dis-
tributions sont normales, nous pouvons facilement traduire les valeurs
talons Z en percentiles et vice-versa. Certains tests psychologiques stan-
dardiss expriment les rsultats en valeurs T ou, plus rarement, en valeurs
talons Z. Il est souvent prfrable dexpliquer ces rsultats une personne
en faisant appel aux percentiles, une information qui est plus facilement
comprise. Lorsque les rsultats sont exprims en valeurs talons T, il faut
pralablement les convertir en valeurs talons Z avant de les traduire en
percentiles (voir le chapitre 4).
La logique de base se comprend facilement. Le percentile indique la
proportion des observations gales ou infrieures nimporte quelle valeur
dune distribution. La mdiane indique la valeur qui coupe la distribution en
deux parties gales. Puisquil sagit dune distribution normale, la moyenne
et la mdiane sont identiques. Donc, pour une distribution normale, 50 %
des observations sont gales ou infrieures la moyenne. Quel serait alors le
percentile associ une valeur se trouvant exactement la moyenne ? Trou-
vons dabord la valeur de cette observation en valeur talon Z. Puisquelle se
trouve la moyenne, sa valeur Z est gale zro (voir le chapitre 4). Nous
pouvons alors conclure que 50 % des valeurs de la distribution seront gales
ou infrieures Z = 0, ce qui dfinit un percentile de 50 pour cette observa-
tion. partir de la cote Z, nous avons dduit le percentile !
Prenons maintenant une observation se situant +1 cart-type de la
moyenne (par exemple 115 lorsque la moyenne M = 100 et lcart-type
s = 15). Cette observation se traduit par une valeur talon Z de +1 [Z = (115
100)/15 = +1]. Nous savons, daprs la Figure 5.4 que 34,13 % des observa-
tions se trouvent entre la moyenne et +1 cart-type. Nous savons aussi que
50 % des observations se trouvent en dessous de la moyenne. Nous faisons la
somme pour trouver que 50 % + 34,13 % = 84,13 %. Ce nombre reprsente
la proportion des observations se trouvant ou en dessous de +1 cart-type
(Z = +1) de la moyenne. Puisque 84,13 % des observations se trouvent
cette valeur ou en dessous, il sagit donc du rang percentile 84,13 ou, plus
simplement, 84.
LA DISTRIBUTION NORMALE 139

Procdons de la mme faon pour une valeur se trouvant +2 carts


types de la moyenne (cest--dire 130 lorsque M = 100 et s = 15). Une
observation se situant 2 carts types au-dessus de la moyenne a une cte
Z de +2 [(130-100)/15 = +2]. Puisque la valeur est +2 carts types, elle
doit tre suprieure la moyenne, et donc son rang percentile suprieur
50. Nous savons, daprs la Figure 5.4, que 50 % des observations se trou-
vent en dessous de la moyenne, que 34,13 % se situent entre la moyenne
et +1 cart-type et que 13,59 % des observations se trouvent entre +1 et +2
carts types. Nous additionnons alors ces trois proportions : 50 % + 34,13 %
+ 13,59 % = 97,72 %. Nous concluons alors que 97,72 % des observations
sont gales ou infrieures 130. En arrondissant, cette observation se situe
au rang percentile 98. Lorsque nous avons un QI de 130, il est gal ou sup-
rieur 97,72 % des QI de la population, et par soustraction (100 %-97,72 %),
seulement 2,28 % des personnes dtiennent un QI plus lev.

Quiz rapide 5.5


Quel sera le rang percentile pour une observation se trouvant plus de +3 carts
types de la moyenne ?

Souvenons-nous que, pour les distributions normales, 50 % des obser-


vations se situent de chaque ct de la moyenne. Trouvons maintenant le
rang percentile dune observation se situant un cart-type en dessous de
la moyenne. Puisque cette observation est infrieure la moyenne, son
rang percentile devra tre plus petit que 50. Nous savons que 34,13 % des
observations se trouvent entre la moyenne et cette observation. Donc, cette
observation se situera 50 % 34,13 % = 15,87 % ou (en arrondissant) au
rang percentile 16. La position en percentile dune observation se situant
2 carts types de la moyenne sera de 2,28 %, puisque 13,59 % des obser-
vations sont entre 1 et 2 carts types, le calcul est simple : 50 34,13
13,59 = 2,28 (percentile 2).

Quiz rapide 5.6


Quel sera le rang percentile de lobservation se trouvant 3 carts types de
la moyenne ? En supposant quelle est normale, quelle est la proportion des
observations se situant entre 3 carts types de la moyenne ?
140 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Comment trouver la densit des observations se situant entre deux valeurs ?

On peut dterminer la proportion des observations se trouvant entre deux


valeurs de la distribution normale, condition que les observations soient
ou puissent tre converties en valeurs talons Z (parce que la moyenne et
lcart-type de la distribution sont connus). Il sagit de trouver la densit
sous la courbe pour les deux valeurs et de les soustraire. Prenons comme
illustration deux performances un examen, lune se situant la moyenne
de la classe (Z = 0) et lautre se situant +1 cart-type (Z = +1). Les densits
pour ces deux valeurs sont respectivement de 0,50 et de 0,8413. La diff-
rence entre les deux est de 0,3413, indiquant que 34,13 % des tudiants ont
obtenu une note entre la moyenne et +1 cart-type. Par consquent, la
probabilit dobtenir un rsultat entre la moyenne et +1 cart-type est
p = 0,3413.

LA CONVERSION DES RANGS PERCENTILES EN VALEURS TALONS Z

Faisons linverse maintenant, en prsumant toujours la normalit. On sup-


pose quune observation se trouve au rang percentile 84. Quelle est sa posi-
tion en valeur talon Z ? Le rang percentile tant plus grand que 50, il est
certain quelle se situe au-dessus de la moyenne et que, par consquent, sa
valeur talon Z sera positive (suprieure Z = 0). partir de la Figure 5.4,
on sait quapproximativement 34 % des observations se trouvent entre la
moyenne et une valeur qui est +1 cart-type de la moyenne. Donc, lors-
que le rang percentile est gal 84, la valeur talon Z est gale +1. Au
rang percentile 98, nous sommes la valeur talon +2. linverse, un rang
percentile de 15,87 (ou 16) implique que Z = 1, et un rang percentile de 2
implique que Z = 2. Le Tableau 5.1 rsume ces relations. Dans la colonne
de gauche, on lit la valeur talon Z, et dans la colonne de droite, on lit la pro-
portion des observations gales ou infrieures cette valeur Z. Par exemple,
0,13 % des observations dune distribution normale sont gales ou infrieu-
res une valeur situe Z = 3, et 99,87 % des observations sont gales ou
infrieures une observation dont la position en valeur talon Z = +3.
Ces calculs sont plutt simples lorsquon travaille avec des valeurs qui se
situent exactement 1, 2 ou 3 carts types de la moyenne, une fois ces
LA DISTRIBUTION NORMALE 141

valeurs converties en scores Z. Mais que fait-on lorsquil sagit dobservations


qui ne tombent pas exactement sur ces valeurs ? Quel est le percentile pour
une observation qui se situe Z = +0,83 ou Z = 1,48 ? Lidal serait davoir
un tableau comme le Tableau 5.1, mais qui inclurait toutes les valeurs ta-
lons Z possibles et la densit associe chacune. Le tableau de la proportion
sous la courbe normale standardise, qui est reproduit intgralement dans
lannexe (Tableau A.1), a t construit pour rpondre ce besoin.

Tableau 5.1
Valeur talon Z et rang percentile correspondant

Z 3 2 1 0 +1 +2 +3

Rang
0,13 % 2,28 % 15,87 % 50,00 % 84,13 % 97,72 % 99,87 %
percentile

Le tableau de la proportion sous la courbe normale standardise

Il importe de savoir comment lire et interprter le tableau de la proportion


sous la courbe normale standardise se trouvant en annexe. Le Tableau 5.2
en donne un extrait. Il comprend deux colonnes et un grand nombre de
ranges. La colonne de gauche indique une suite de valeurs talons Z allant
de 0,00 +3, alors que celle de droite indique la proportion des observa-
tions qui se trouvent cette valeur ou en dessous2.
Supposons quon veuille estimer la proportion des observations qui
se situent la moyenne ou qui sont plus petites que la moyenne. On sait
quune observation la moyenne se situe Z = 0. On trouve la valeur Z = 0
dans la colonne de gauche du Tableau 5.2, et de celle de droite, on lit la pro-
portion des observations qui se trouvent cette valeur Z = 0 ou en dessous
de cette valeur. Dans ce cas, il sagit de 0,50, indiquant que 50 % des obser-
vations se trouvent la moyenne ou au-dessous delle. On pouvait sattendre
ce rsultat puisque, avec les distributions normales, 50 % des observations
se trouvent de chaque ct de la moyenne. On peut alors affirmer que la
densit des observations sous Z = 0,0 est 0,50 ou 50 %.

2. La plupart des tableaux de la densit sous la courbe normale vont de 0 +4. Mais
cela ne veut pas dire que le Z maximal est +4. Pour la distribution normale thori-
que, il ny a pas de limite aux valeurs possibles.
142 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Supposons que lon dsire connatre la densit des observations se situant


Z = 1,0 ou en dessous delle. Au Tableau 5.2, on trouve gauche la valeur
Z = 1, et droite, 0,8413, indiquant que 84,13 % des observations se trouvent
Z = 1 ou en dessous delle. Si lon dsire connatre la densit des observations
Z = 0,06 ou en dessous, on peut trouver, au Tableau 5.2 et dans lappendice,
quil sagit dune proportion de 0,5239 ou de 52,39 % des observations.
On peut aussi faire appel au tableau de la densit sous la courbe normale
pour dterminer le rang percentile pour nimporte quelle valeur Z. Quel
serait le rang percentile pour la personne se situant Z = 0,06 ? Puisque
52,39 % des observations se situent Z = 0,06 ou moins, nous savons alors
que le percentile associ cette valeur est 52,39 ou, plus simplement, 52.

Tableau 5.2
Extrait du tableau de la proportion sous la courbe normale standardise

Fx(z)

z FX(z)

0,00 0,5000
0,06 0,5239
0,26 0,6026
0,50 0,6915
0,70 0,7580
0,76 0,7764
0,90 0,8159
1,00 0,8413
1,26 0,8962
1,50 0,9332
1,74 0,9591
2,00 0,9772
3,00 0,9987
LA DISTRIBUTION NORMALE 143

On peut faire appel ce tableau de la densit sous la courbe normale


pour les valeurs qui se situent en dessous de la moyenne. Puisquelles se
situent en dessous de la moyenne, leurs valeurs talons Z prendront un
signe ngatif. Supposons que lon dsire dterminer la proportion des
observations se situant ou sous Z = 0,26. Pour linstant, on peut ignorer
le signe de cette valeur Z et trouver dabord la densit qui y correspond (au
Tableau 5.2 et lappendice, cette densit est de 0,6026). On sait que la dis-
tribution contient 100 % des observations. Il ne reste alors qu soustraire
la densit rpertorie dans le tableau du total de la distribution ; la valeur
100 % (ou p = 1,0). Dans ce cas, on aurait 1,0 0,6026 = 0,3974. Ainsi, avec
une performance de Z = 0,26, cette observation est gale ou plus forte que
39,74 % des performances et le percentile associ cette performance est
39,74, ou simplement 40.
Pour une valeur Z = 2, la densit qui y correspond dans le Tableau 5.2
est 0,9772. On soustrait cette valeur de 1,00 et on trouve 0,028. Ainsi, on
peut conclure que 2,28 % des observations se trouveront la valeur Z = 2
ou en dessous. On peut ainsi conclure que cette observation (Z = 2) se
situe au centile 2,28 (ou 2).

SOMMAIRE DU CHAPITRE

La distribution normale est la forme habituelle que prend la distribution


de plusieurs variables continues. Une distribution est normale lorsquelle
est construite sur une variable continue qui est unimodale et qui dtient
une moyenne, un mode et une mdiane identiques, ce qui lui garantit une
forme symtrique. Lorsquune distribution est normale, nous pouvons
savoir la proportion (la densit) des observations qui se trouvent en des-
sous ou au-dessus de la moyenne, la proportion qui se trouve entre nim-
porte quelle valeur et la moyenne, la proportion des observations qui y sont
suprieures et, enfin, la proportion des observations se trouvant entre deux
valeurs. Tant que nous connaissons la moyenne et lcart-type dune distri-
bution normale, il est possible de dterminer pour nimporte quelle valeur
exprime en valeur talon Z son rang percentile et, partir du rang per-
centile, de dterminer sa valeur Z en faisant appel au tableau de la densit
sous la courbe normale. Enfin, toutes ces valeurs peuvent tre exprimes en
termes probabilistes.
144 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

EXERCICES DE COMPRHENSION

1. Concernant la distribution normale, laquelle de ces affirmations est


fausse ?
a) Elle est la base de plusieurs analyses statistiques.
b) Elle stend maximalement entre 4 et +4 carts types.
c) Laire sous la courbe (la densit) correspond la probabilit.
d) Plus dobservations seront proches de la moyenne que loin delle.
2. Dans cette distribution, la moyenne, la mdiane et le mode sont
tous identiques. La distribution __________.
a) nest pas normale
b) pourrait tre normale
c) est tout fait normale
d) impossible dterminer
3. Nous convertissons toutes les donnes de cette distribution normale
en valeurs talons Z et nous examinons la distribution rsultante.
a) Sa moyenne est gale 0.
b) Sa variance est de 1.
c) Elle est en forme de cloche.
d) Toutes ces rponses sont justes.
4. Nous convertissons chaque valeur dune distribution asymtrique
ngative en valeur talon Z. Quelle sera la forme de la distribution
de ces valeurs Z ?
a) Normale
b) Asymtrique ngative
c) Asymtrique positive
d) Toutes ces rponses sont possibles.
Pour les questions 5 9, vous devez faire appel au tableau de la densit sous
la courbe normale.
5. Cent tudiants ont subi un examen o la moyenne du groupe est de
75 % avec un cart-type de 10. Les rsultats se distribuent normale-
ment. Combien dtudiants ont obtenu 75 % ou moins lexamen ?
6. Combien dtudiants ont obtenu entre 75 et 85 % lexamen ?
7. Quelle est la probabilit quun tudiant ait une note suprieure
95 % ?
LA DISTRIBUTION NORMALE 145

8. Un tudiant obtient la note de 55 % son examen. combien


dcarts types de la moyenne est-ce que cette note se situe ?
9. Quel est le percentile pour ltudiant qui a obtenu 55 % son
examen ?
146 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Rponses

1. b
2. b (Notez que lnonc du problme ninclut quun seul des trois
critres qui dfinissent une distribution normale.)
3. d
4. b
5. 50
6. 34
7. (1 0,9772) = 0,0228
8. 2
9. 2 (2,28)
CHAPITRE 6
LA CORRLATION

La corrlation de Pearson ..................................................................... 150


La logique qui sous-tend le calcul de la corrlation ......................... 151
Comment calculer la corrlation de Pearson entre
deux variables ?............................................................................. 154
La corrlation positive parfaite (rxy = +1,00)................................. 154
La corrlation ngative parfaite (rxy = 1,00)................................ 157
La corrlation nulle (rxy = 0,00)....................................................... 159
Les corrlations qui ne sont pas parfaites
(rxy entre 1,00 et +1,00) ............................................................. 161
Le coefficient de dtermination ..................................................... 164
Le coefficient de non-dtermination............................................. 165
Le coefficient de dtermination, de non-dtermination
et la rduction de lincertitude relative .................................... 165
Reprsentation schmatique de la corrlation
et du coefficient de dtermination............................................ 167
Remarques supplmentaires ................................................................ 168
Corrlation et causalit .................................................................... 168
Corrlation de Pearson et variance des variables ........................ 169
Corrlation et observations loin de la moyenne.......................... 170
Corrlation de Pearson et relation linaire................................... 171
Une faon pratique de prsenter une corrlation :
le tableau des attentes.................................................................. 172
Sommaire du chapitre........................................................................... 176
Exercices de comprhension................................................................ 177
Page laisse blanche
CHAPITRE 6

LA CORRLATION

Jusqu prsent, nous avons appris dcrire les variables, les distributions
et les observations lintrieur des variables. Nous abordons maintenant la
relation qui existe entre les variables, et que lon nomme la corrlation. La
corrlation est une mthode qui permet de dterminer le degr de conci-
dence entre deux variables.
Les corrlations jouent un rle important dans la vie quotidienne. On
peut remarquer quil pleut parfois lorsque le ciel est ennuag, tandis quil ne
pleut jamais en labsence de nuages. On se rend compte quon tousse sou-
vent lorsquon a un rhume, alors que cela narrive que rarement lorsquon
na pas de rhume. Peut-tre a-t-on aussi remarqu que les rsultats aux exa-
mens samliorent lorsquon leur a consacr plus de temps dtude ? En fait,
on vient de noter quil existe une corrlation entre la prsence de nuages et
la pluie, le rhume et la toux ainsi que lassiduit ltude et les rsultats sco-
laires. Y a-t-il plus de pauvret dans les plus grandes villes ? Le nombre de
meurtres est-il plus grand dans les socits o les citoyens ont plus darmes
feu ? On peut rpondre toutes ces questions par le biais de la corrla-
tion. La corrlation est une procdure statistique qui permet de quantifier
le degr avec lequel deux vnements tendent tre relis (la prsence de
nuages et la pluie ; le rhume et la toux ; les notes et le temps dtude ; les
meurtres et les armes feu ; la pauvret et la taille des villes). Pour tablir
cette relation, il est ncessaire davoir deux mesures pour chaque observa-
tion. Ainsi, si nous voulons calculer la corrlation entre le QI et les notes
scolaires, nous devons avoir accs un groupe de personnes pour lesquelles
150 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

nous possdons la fois le QI et les notes scolaires. Si nous voulons tablir


la relation entre la taille des villes et le degr de pauvret, nous devons avoir,
pour chaque ville de la distribution, sa taille et son degr de pauvret. Quel
quil soit, le sujet danalyse (une personne, une ville, une classe, etc.) doit
fournir deux informations, lune se rapportant une variable, lautre une
deuxime variable. Il existe plusieurs types de corrlations, mais celle que
Karl Pearson a dveloppe et quon appelle corrlation simple, corrlation
dordre zro, corrlation bivarie ou corrlation linaire est celle qui, dans
la pratique, est la plus utilise.

LA CORRLATION DE PEARSON

La corrlation de Pearson est une procdure statistique qui produit un coef-


ficient de corrlation, un index du degr de relation linaire qui existe entre
deux mesures (nous verrons plus tard ce quon entend par linaire ). Il
y a plusieurs types de corrlations, mais celle dont nous discutons ici, la
corrlation de Pearson, est utilise lorsque nous dsirons tablir la relation
qui existe entre des variables mesures sur des chelles intervalles ou des
chelles de rapport. La corrlation de Pearson prend des valeurs variant
entre 1 et +1. Nous disons que la corrlation est parfaite lorsquelle atteint
des valeurs numriques extrmes (+1 ou 1) et quelle est nulle quand le
coefficient prend la valeur de 0. La relation peut tre positive ou ngative.
Par exemple, la corrlation entre la prsence de nuages et la pluie est posi-
tive, car plus il y a de nuages, plus grandes sont les chances quil pleuve.
Souvent, comme dans le cas de la relation nuages-pluie, la relation nest pas
parfaite (il ne pleut pas toujours lorsque le ciel est couvert). Par exemple,
bien quil existe une corrlation entre le niveau dintelligence et le succs
scolaire, la relation est loin dtre parfaite. Souvent, des tudiants intelli-
gents ne russissent pas aussi bien que des tudiants moins dous et vice-
versa. Dans ce cas, la corrlation de Pearson prendra des valeurs positives,
mais moins grandes que +1 (par exemple +0,50 ou +0,12).
Y a-t-il une relation entre la satisfaction au travail et labsentisme ? Oui,
mais la corrlation est ngative (par exemple 0,20). Dans ce cas, plus
les gens sont satisfaits, moins ils sabsentent. La valeur 0,20 (la relation
satisfaction-absence) est non seulement ngative, mais elle est aussi moins
L A C O R R L AT I O N 151

grande que la relation entre les nuages et la pluie (0,50), car trs souvent,
nous allons au travail mme lorsque nous naimons pas cela et, parfois,
nous nous absentons mme lorsque nous adorons notre travail. Enfin, cer-
tains phnomnes ne sont pas lis. Y a-t-il une relation entre la quantit
de crme glace vendue New York chaque jour de lt et le nombre de
naissances Montral ayant lieu les mmes jours ? Il y a fort parier quune
telle relation nexiste pas. La corrlation entre la consommation de crme
glace et le taux de natalit sera alors proche de 0,0. De manire similaire,
lhabilet sociale et lintelligence ne sont pas en corrlation.
La corrlation de Pearson est un indice pratique qui nous renseigne simul-
tanment sur deux aspects de la relation (linaire) entre deux variables :
1. La magnitude de la relation : plus la corrlation est proche de +1 ou
de 1, plus elle est forte.
2. La direction de la relation : une corrlation positive indique que plus
les valeurs dune variable sont grandes, plus les valeurs de lautre
variable seront grandes aussi. Une corrlation ngative implique que
plus les valeurs dune variable augmentent, plus elles se rduisent
pour la deuxime variable.
La corrlation de Pearson est reprsente par le symbole rxy. Elle se cal-
cule entre seulement deux variables la fois, que nous reprsentons gnra-
lement par les symboles X et Y. Pour cette raison, nous lui donnons parfois
le nom de corrlation bivarie : la relation entre deux variables. Si la corrla-
tion entre deux variables X et Y est gale 0,5, nous crivons : rxy = 0,50.

LA LOGIQUE QUI SOUS-TEND LE CALCUL DE LA CORRLATION

La corrlation quantifie le niveau de similarit entre deux variables. Le pro-


blme consiste donc trouver une faon de dfinir mathmatiquement la
similarit. Une manire vidente serait de vrifier si les sujets produisent la
mme rponse (numrique) pour deux variables. Lorsque les valeurs obte-
nues pour une variable tendent tre reproduites sur une autre, il y a une
relation forte entre les variables. Une solution au calcul de la corrlation
serait alors de calculer la diffrence entre les valeurs de chaque variable. Sil
nexistait pas de diffrence entre les valeurs des deux variables pour chaque
observation, nous pourrions dire que la corrlation est parfaite.
152 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Par exemple, supposons que nous avons la note obtenue par un groupe
dtudiants deux examens. Si les tudiants obtiennent exactement la
mme note aux deux examens, il est facile de conclure que la relation (la
corrlation) entre les deux examens est parfaite.
Supposons maintenant que nous dsirons calculer la corrlation entre
deux examens, mais quun examen est not sur 100 et lautre sur 20. Le
Tableau 6.1 prsente les donnes.

Tableau 6.1
Notes obtenues deux examens par les mmes tudiants

tudiant Note sur 100 Note sur 20

A 95 19,0

B 87 17,4

C 74 14,8

D 56 11,2

E 43 8,6

Aucun tudiant nobtient la mme note aux deux examens parce que
lchelle de mesure nest pas la mme pour les deux variables : les notes
au premier examen (notes sur 100) peuvent varier entre 0 et 100 tandis
que ltendue pour la deuxime variable est de 0 20. Si nous comparons
les deux sries de rsultats en les soustrayant, la diffrence entre les notes
obtenues aux deux examens ne sera jamais zro. Par consquent, nous
devrions conclure quil nexiste pas de similitude (de corrlation ) entre
les notes aux deux examens.

Quiz rapide 6.1


Quelle est la coordonne de ltudiant B au Tableau 6.1 ?

Prenons un autre exemple. On se doute bien quil existe une relation


entre lanciennet et le salaire : les employs dtenant plus dexprience
reoivent gnralement un salaire plus lev. Or, le salaire est chiffr en mil-
liers de dollars alors que les annes dexprience sont mesures en quelques
L A C O R R L AT I O N 153

annes. La simple diffrence entre anne et salaire ne sera jamais gale


zro, et nous devrions conclure quil ny a pas de relation entre ces deux
variables, ce qui nest pas sens.
Donc, si nous basons le calcul de la corrlation sur la simple diffrence
numrique obtenue entre deux mesures, la conclusion sera errone,
moins que les deux mesures ne soient sur la mme chelle de mesure (ayant
la mme moyenne et la mme variance). Puisque nous voulons souvent cal-
culer la corrlation entre deux variables qui ne sont pas mesures sur la
mme chelle, il faut trouver une approche plus gnrale.
La mthode la plus gnrale et la plus satisfaisante pour dcrire la simi-
litude entre deux variables est celle choisie par Pearson. La corrlation entre
deux variables est dfinie comme tant le degr avec lequel la position relative
des observations est la mme sur deux variables. Si nous utilisons cette dfi-
nition pour le Tableau 6.1, nous voyons quil existe effectivement une rela-
tion entre la performance aux examens. Par exemple, ltudiant A obtient
la meilleure note aux deux examens, ltudiant B obtient la note juste en
dessous aux deux examens, ainsi de suite jusqu ltudiant E qui obtient la
note la plus faible aux examens. Les tudiants maintiennent exactement la
mme position relative dans chacun des examens.
Nous avons dj abord le concept de position relative au chapitre 4. La
position dune observation sur une mesure se dfinit comme lcart stan-
dardis qui existe entre la valeur obtenue sur une variable par une observa-
tion et la moyenne de cette variable. La valeur talon Z est justement une
manire pratique de calculer cette position. Ainsi, la corrlation de Pearson
mesure le degr de concidence entre les valeurs talons Z, obtenues sur deux
mesures : la corrlation est forte lorsque les valeurs Z obtenues par chaque
personne sur les deux variables sont similaires et, dans le cas contraire, la
corrlation est plus faible.
Lorsque les valeurs Z obtenues par un ensemble de personnes sur deux
variables concident, la corrlation est parfaite (rxy = +1,0) : les valeurs Z
pour les deux variables sont simultanment positives, ngatives ou nulles.
Lorsque les valeurs Z des deux variables concident, mais quelles sont de
signes inverss (lune positive, lautre ngative), la corrlation est parfaite,
mais ngative (rxy = 1,0). Lorsque les deux valeurs Z obtenues sont moins
semblables (elles concident approximativement ou seulement quelquefois),
154 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

la corrlation obtenue ne sera pas exactement 1 ni +1, mais elle sera entre
ces deux extrmes. Lorsquelles ne concident pas du tout, la corrlation est
gale zro.

Comment calculer la corrlation de Pearson entre deux variables ?

On se souvient que la corrlation se dfinit par le degr avec lequel la posi-


tion des observations sur deux variables se maintient. La formule suivante
dfinit formellement la corrlation1.
N

ZXi ZYi
i=1
rxy = ------------------------------- Formule 6.1
N1
o ZXi et ZYi correspondent la position relative de chaque observation sur les
variables X et Y exprimes en valeurs talons Z, et N 1 est le nombre de sujets
moins 1. Nous verrons plus tard la signification du N 1 (voir le chapitre 9).
Les quatre tapes pour obtenir la corrlation de Pearson sont :
1. Convertir chaque valeur en valeur talon Z.
2. Multiplier les paires de valeurs talons Z de chaque sujet de lchan-
tillon.
3. Faire la somme de ces produits.
4. Diviser cette somme par le nombre dobservations moins un.
Le numrateur de la Formule 6.1 donne le degr total de similarit
entre les deux mesures. En divisant cette quantit par N 1, on obtient la
moyenne de la similarit. La corrlation est donc un indice de la similarit
moyenne dans la position quoccupent les observations sur les deux variables.

La corrlation positive parfaite (rxy = + 1,00)

La corrlation positive parfaite indique que les valeurs des deux variables
augmentent ou diminuent ensemble pour toutes les observations. Les

1. Il existe plusieurs formules pour calculer la corrlation de Pearson, dont :


N( XY ) ( X ) ( Y )
rxy = -------------------------------------------------------------------------------------------------------------
2 2 2 2
(N X )( X) (N Y )( Y)
Les amateurs dalgbre dcouvriront que toutes ces formules sont identiques.
L A C O R R L AT I O N 155

observations qui sont fortes sur une variable le sont aussi sur lautre, et cel-
les qui sont faibles sur lune sont faibles sur lautre. Puisque la corrlation
indique le degr avec lequel les observations maintiennent la mme posi-
tion sur les deux variables, cela implique que les valeurs talons Z associes
chaque observation seront positives ou ngatives sur les deux variables
et identiques lorsque la corrlation sera parfaite et positive. Lorsque les
valeurs Zx et Zy ne sont pas identiques, mais que lordre des observations est
identique sur les deux variables, les corrlations seront trs proches (mais
pas ncessairement tout fait) +1,00.
Le Tableau 6.2 reprend les donnes du Tableau 6.1 et inclut la valeur ta-
lon Z de chaque observation afin de produire le coefficient de corrlation
de Pearson par lentremise de la Formule 6.1.
La corrlation positive parfaite obtenue au Tableau 6.2 (rxy = +1,00)
confirme que la position relative de chaque tudiant demeure exactement la
mme aux deux examens. Remarquez que la note obtenue par les tudiants
D et E est au-dessous de la moyenne pour les deux examens. Mais, puisque
le produit de deux quantits ngatives est toujours positif, la somme finale
sera elle aussi positive. De manire similaire, les tudiants A et B obtiennent
tous deux des valeurs Z positives aux deux examens, et le produit de ces
deux valeurs sera positif, lui aussi. Dans ce cas, le rsultat final sera une cor-
rlation parfaite (rxy = +1,00).

Le graphique de dispersion pour dcrire la corrlation

Traons un graphique qui reprsente la relation entre la variable X et la


variable Y. Ce type de graphique se nomme graphique de dispersion ou
encore nuage de points. Lordonne du graphique reprsente la valeur pro-
duite par chacun des sujets sur la variable Y et labscisse reprsente la valeur
de ces mmes sujets sur la variable X. En gnral, les coordonnes se dfi-
nissent par la valeur de la variable initiale, mais il est aussi possible de la
reprsenter en valeur talon Z. Dans le cas prsent, les notes lexamen X
sont indiques sur labscisse alors que les notes lexamen Y sont places
le long de lordonne. lintersection de chaque valeur X et de sa valeur
Y correspondante, nous plaons une marque qui indique la position de
cette observation. Ce point se nomme la coordonne pour cette observa
156 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Tableau 6.2
Corrlation entre les notes obtenues deux examens
par les mmes tudiants

Examen 1 Examen 2
Note sur 100 Note sur 20

tudiant Score brut X ZX Score brut Y ZY ZXi ZYi

A 95,0 1,12 19,0 1,12 1,25

B 87,0 0,74 17,4 0,74 0,55

C 74,0 0,14 14,8 0,14 0,02

D 56,0 0,70 11,2 0,70 0,49

E 43,0 1,30 8,6 1,30 1,70

Somme 355,0 71,0 4,00

N 5 5 5

Rsultat 71,0 14,2 1,00

Nom de la
MX MY rXY
statistique

rxy = (ZXi ZYi) / (N 1) = 4 / (5 1) = 4 / 4 = 1,00

tion. Par exemple, la position de ltudiant E est le point qui se trouve


la coordonne {X, Y} = {43,0 ; 8,6}. La Figure 6.1 indique les coordonnes
pour chaque tudiant (habituellement, nous nindiquons pas les coordon-
nes des points sur le graphique). Nous rptons cette procdure et, la fin
du processus, la position de toutes les observations sera reprsente par cet
ensemble de points.
On remarquera que les deux axes du graphique dcrivant le nuage de
points ne commencent pas zro, car personne na obtenu une telle note.
Les notes les plus basses tant 43,0 pour ltudiant E lexamen 1 (X) et 8,6
pour ce mme tudiant lexamen 2 (Y), le graphique commence la num-
rotation des axes un peu au-dessous des valeurs minimales des donnes.
Dans ce cas, labscisse part de la valeur 40 , et lordonne, de la valeur
8 . Cette stratgie produit un graphique plus lisible.
L A C O R R L AT I O N 157

Le graphique de dispersion est utilis pour reprsenter visuellement la


relation qui existe entre les X et les Y. La Figure 6.1 montre que les tudiants
qui tendent avoir des notes fortes lexamen X tendent aussi avoir des
notes fortes lexamen Y et que les performances qui sont faibles sur X sont
associes des performances faibles sur Y. La relation est positive.

gure 6.1 Les coordonnes : la relation entre les notes aux


deux examens

20
95; 19
18
87; 17,4
Notes lexamen 2

16
74; 14,8
14 71; 14,2

12
56; 11,2
10
43; 8,6
8
40 50 60 70 80 90 100

Notes lexamen 1

La corrlation ngative parfaite (rxy = 1,00)

Prenons maintenant la srie de donnes du Tableau 6.3 illustre la Figure 6.2.


Cette fois, nous voulons calculer la corrlation qui existe entre le nombre de
couches de vtements que cinq personnes portent et la temprature ext-
rieure. On sattend ce que ces cinq personnes portent progressivement
plus de vtements au fur et mesure que la temprature baisse : une tem-
prature plus leve devrait donc tre associe moins de couches de vte-
ments. Statistiquement, on sattend obtenir une corrlation ngative entre
les deux variables (X est la temprature extrieure et Y est le nombre de
couches de vtements).
Au Tableau 6.3, nous trouvons que lorsque les valeurs talons ZX sont
positives pour la temprature (il fait plus chaud que la moyenne qui est de
10 C pour nos donnes), les valeurs talons (ZY) pour le nombre de cou-
158 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

ches de vtements sont ngatives (les personnes portent moins de couches


de vtements que la moyenne, qui est de 3). Les produits Zxi Zyi sont tous
ngatifs, car nous multiplions une valeur ZX, positive, avec une valeur ZY
ngative, ou vice-versa. La somme de toutes ces valeurs ngatives est elle
aussi ngative (4). Par consquent, lorsque nous divisons par N 1, le
calcul indique une corrlation ngative (rxy = 1,00).

Tableau 6.3
Corrlation entre la temprature et le nombre de couches de vtements portes

Nombre de couches
Temprature en C
de vtements portes

Personne Score brut X ZX Score brut Y ZY ZXi ZYi

A 30 1,26 1 1,26 1,60

B 20 0,63 2 0,63 0,40

C 10 0,00 3 0,00 0,00

D 0 0,63 4 +0,63 0,40

E 10 1,26 5 +1,26 1,60

Somme 50 15 4,00

N 5 5 5

Rsultat 10 3 1,00

Nom de la
MX MY rXY
statistique

rxy = ( ZXi ZYi) / N 1 = -4 / (5 1) = 4 / 4 = -1,00

La corrlation ngative indique quau fur et mesure que la temprature


augmente, le nombre de couches de vtements que lon porte se rduit, ce
qui est raisonnable.
L A C O R R L AT I O N 159

gure 6.2 La relation entre la temprature et le nombre de couches


de vtements portes

6
Couches de vtements

0
20 10 0 10 20 30 40

Temprature

La corrlation nulle (rxy = 0,00)

Les donnes du Tableau 6.4, illustres la Figure 6.3, indiquent le nom-


bre de cigarettes que cinq personnes fument par jour (X) et le nombre de
nez (Y) que ces personnes ont ! Nous voyons quil ny a aucune tendance
laugmentation ou la rduction des valeurs de Y (nez) au fur et mesure
que les valeurs de X (cigarettes fumes) augmentent. Naturellement, on ne
sattendait pas dtecter une relation entre ces deux variables. Si on calcule
la corrlation, on verra quelle est gale zro : il ny a aucune relation entre
le tabagisme et le nombre de nez. Ce rsultat nest pas une grande surprise,
mais on vient de le dmontrer statistiquement.
On peut remarquer au Tableau 6.4 que la moyenne pour le nombre de
nez est gale 1 et que toutes les observations portant sur le nombre de
nez sont, elles aussi, gales 1. Par consquent, toutes les observations se
situent exactement la moyenne (1). La valeur talon Z pour une observa-
tion se trouvant la moyenne tant 0, toutes les valeurs ZY sont gales 0.
Le produit de nimporte quelle valeur par 0 est gal 0. Donc, pour chaque
observation, le numrateur de la Formule 6.1, la quantit ZXi ZYi , est gal
0. Par consquent, la somme (ZXi ZYi) est, elle aussi, gale 0, et en
160 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

divisant par N 1, on constate que la corrlation entre le tabagisme et le


nombre de nez est rxy = 0.
On peut conclure que le tabagisme (mme sil est une mauvaise chose)
ne provoque pas la perte du nez. Si on relit cette conclusion, on comprend
quil sagit dune conclusion causale (le tabagisme ne cause pas la perte du
nez). Cette conclusion est tire dune corrlation et, dans ce cas, cest une
conclusion valide. Mais cela nest pas toujours le cas. Nous y reviendrons
la fin de ce chapitre, lorsque nous aborderons la question de la causalit et
de la corrlation.

Tableau 6.4
Corrlation entre X (nombre de cigarettes fumes/jour) et Y
(nombre de nez de chaque fumeur)

Nombre de cigarettes
Nombre de nez
fumes/jour

Fumeur Score brut X ZX Score brut Y ZY ZXi ZYi

A 40,0 1,26 1,00 0,00 0,00

B 30,0 0,63 1,00 0,00 0,00

C 20,0 0,00 1,00 0,00 0,00

D 10,0 0,63 1,00 0,00 0,00

E 0,0 1,26 1,00 0,00 0,00

Somme 100,0 5,00 0,00

N 5 5 5

Rsultat 20 1,00 0,00

Nom de la
MX MY rXY
statistique

rxy = (ZXi ZYi) / (N 1) = 0 / (5 1) = 0 / 4 = 0,00

Quiz rapide 6.2


Selon vous, existe-t-il une relation entre la taille dune boule de quilles et son
poids ? Cette relation est-elle positive ou ngative ? Rpondez la mme question
pour le prix dun CD et largent quil vous reste aprs lavoir achet.
L A C O R R L AT I O N 161

gure 6.3 La relation entre le nombre de cigarettes fumes


et le nombre de nez

2
Le nombre de nez

0
0 18 38

Le nombre de cigarettes fumes

Les corrlations qui ne sont pas parfaites (rxy entre 1,00 et +1,00)

Jusquici, nous avons vu des corrlations parfaites ou nulles (+1, 1 ou 0).


Mais en ralit, ces types de corrlations sont plutt rares. Les corrlations,
particulirement en sciences sociales, tendent se situer entre 0,15 et
0,60, bien quelles puissent tre plus faibles ou plus fortes dans certains
cas. En sciences cognitives ou en sciences conomiques, les corrlations
sont plus fortes (souvent suprieures 0,85).
Le Tableau 6.5 prsente le salaire et le niveau de scolarit dun chantillon
de 30 personnes. La corrlation entre ces deux mesures est rxy = + 0, 56. Le
graphique de dispersion qui dcrit ces donnes (Figure 6.4) indique visuel-
lement que les personnes plus scolarises tendent obtenir de meilleurs
salaires. Ainsi, les personnes qui sont relativement peu scolarises (la partie
infrieure de labscisse) tendent avoir des salaires qui sont plus concentrs
vers la partie infrieure de lordonne, et les personnes plus scolarises (la
partie suprieure de labscisse) tendent avoir des salaires plus levs. On
remarque cependant que la corrlation nest pas parfaite : le salaire nest
pas forcment plus lev pour toutes les personnes plus scolarises.
162 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Tableau 6.5
Relation entre salaire et scolarit

Annes de scolarit Salaire ($) Annes de scolarit Salaire ($)

8 21 900 15 27 900

8 28 350 15 27 750

12 21 450 15 35 100

12 21 900 15 46 000

12 24 000 15 24 000

12 27 300 15 21 150

12 40 800 15 31 050

12 42 300 15 32 550

12 26 250 15 31 200

12 21 750 16 40 200

12 16 950 16 30 300

15 57 000 16 103 750

15 45 000 16 38 850

15 32 100 19 60 375

15 36 000 19 135 000

rxy = +0, 56

Examinons les observations qui sont encercles la Figure 6.4. Deux


personnes ayant le mme niveau de scolarisation (19 annes) nont pas le
mme salaire : le salaire de lune est plus que le double du salaire de lautre
(135 000 et 60 375 $). Les observations encadres par un rectangle mon-
trent un cas o plusieurs personnes ont le mme salaire, bien quelles naient
pas un nombre gal dannes de scolarit. Par exemple, les cinq personnes
dont le salaire se situe entre 21 000 et 22 000 $ ont entre 8 et 12 annes
de scolarit. Nous voyons maintenant ce que la corrlation imparfaite nous
dit : il existe effectivement une certaine similarit entre les valeurs Z obte-
nues entre les deux variables, mais il y a aussi des exceptions.
L A C O R R L AT I O N 163

Quiz rapide 6.3


Supposons que la position de toutes les observations sur la variable X ne se
reproduit jamais sur la variable Y. Quelle sera la corrlation entre X et Y ?

La corrlation est un indice de lampleur de la relation entre deux varia-


bles. Par consquent, elle permet la comparaison entre les relations. Est-ce
que la relation entre X et Y est plus forte que celle qui existe entre A et B ?
Par exemple, la corrlation entre la russite professionnelle (mesure par
le salaire) et le QI pourrait se situer autour de 0,20. La corrlation entre les
notes scolaires et le QI pourrait tre plus forte, se situant aux alentours de
0,80. Par consquent, nous pourrions conclure que le QI est plus li aux
notes scolaires qu la russite professionnelle2. Ce type dinformation est
trs prcieux en recherche comme dans la pratique.

gure 6.4 Le nuage de points de la corrlation salaire-scolarit

160 K

140 K
X
120 K

100 K X
Salaire ($)

80 K

60 K X X
X
40 K X X
X
X
X X X X
20 K X X X
X

0
6 8 10 12 14 16 18 20
Annes de scolarit

2. Il faudra ventuellement faire des tests statistiques additionnels. Ces tests sont
esquisss dans les chapitres portant sur linfrence statistique (chapitres 8 et 9).
164 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Quiz rapide 6.4


La relation entre le nombre dheures de travail dans une journe et le nombre de
minutes de travail dans cette journe est-elle parfaite ? Rpondez la mme ques-
tion pour le nombre dheures de travail dans une journe et le nombre de dossiers
rsolus dans cette journe ?

Le coefcient de dtermination

Le coefficient de dtermination est une statistique trs simple calculer et


trs utile pour linterprtation des corrlations. Le coefficient de dtermi-
nation se calcule en mettant le coefficient de corrlation au carr puis en
pourcentage. Les valeurs minimale et maximale du coefficient de dtermi-
nation sont 0 et 100 %. Cest une statistique pratique qui indique, en pour-
centage, le degr de relation existant entre deux variables.
Coefficient de dtermination = rxy2 100 % Formule 6.2
Si :
rxy = 1, alors le coefficient de dtermination = 12 100 % = 100 % ;
rxy = 0, alors le coefficient de dtermination = 02 100 % = 0 % ;
rxy = 0,50, alors le coefficient de dtermination = 0,52 100 % = 25 %.
On peut remarquer quune corrlation de 0,50 ou +0,50 produit le
mme coefficient de dtermination : 25 %. Le coefficient de dtermination
sappelle aussi le pourcentage de variance explique ou le pourcentage de
variance partage. Le pourcentage de variance explique indique le degr
avec lequel la connaissance de la variable X permet de rduire lincertitude
sur la variable Y.
Lorsque la corrlation est parfaite, le coefficient de dtermination est
de 100 %, et indique que la connaissance de la position relative de chaque
observation sur X nous renseigne totalement sur la position relative de cha-
que observation sur Y. Lorsque la corrlation est gale 0, le coefficient de
dtermination sera lui aussi gal 0 %, et indique que la connaissance de X
ne nous apprend rien au sujet de la variable Y.
Le coefficient de dtermination est particulirement utile dans le cas de
corrlations imparfaites. Si la relation entre les annes de scolarit et le salaire
est de 0,56, alors le coefficient de dtermination est de 0,562 100 % = 31 %.
L A C O R R L AT I O N 165

Ainsi, la connaissance du niveau de scolarit explique ou rduit lincertitude


au sujet du salaire de 31 %. Ce coefficient nous offre donc une faon prati-
que dinterprter lampleur de la relation entre les variables. Nous basant sur
le coefficient de dtermination pour la relation scolarit-salaire, nous pou-
vons ainsi conclure quavoir plus dannes de scolarit est reli un meilleur
salaire, mais que ce nest pas le seul lment qui explique ce salaire.

Le coefcient de non-dtermination

Prenons une corrlation de 0,50. Le coefficient de dtermination est de


25 %, ce qui veut dire que la variable Y est explique 25 % par lautre
variable (X). Mais quel est le niveau de non-relation entre les variables ?
Dans ce cas, il existe 75 % de fluctuation dans une variable qui nest
pas li lautre variable, et cest ce quon appelle le coefficient de non-
dtermination :
Coefficient de non-dtermination = (1 rxy2) 100 % Formule 6.3
Si :
rxy = 1,00, le coefficient de non-dtermination = (1 12) 100 % =
0%;
rxy = 0,00, le coefficient de non-dtermination = (1 02) 100 % =
100 % ;
rxy = 0,50, le coefficient de non-dtermination = (1 0,52) 100 % =
75 %.
Si le coefficient de dtermination indique dans quelle mesure la variable X
explique la variable Y, le coefficient de non-dtermination indique ce que
nous nexpliquons pas.

Le coefcient de dtermination, de non-dtermination et la rduction


de lincertitude relative

Supposons quune personne est lintrieur dun contenant scell et cli-


matis et que ce contenant est dpos quelque part dans le monde. On
demande cette personne de deviner la temprature externe en degrs
Celsius. Elle na aucune base rationnelle pour rpondre, le contenant pou-
166 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

vant se trouver en Antarctique ou au milieu du Sahara. Nous pouvons alors


dire que lincertitude de cette personne quant la temprature externe est
au maximum, en loccurrence 100 %.
Dans lespoir de rduire son incertitude (sur la temprature lextrieur
du contenant), on lui indique la note obtenue un examen de statistiques
par un tudiant ! Nous savons que la relation entre les tempratures ext-
rieures et les notes aux examens est rxy = 0,0 et, par consquent, que le coef-
ficient de dtermination est de 0 % et le coefficient de non-dtermination
est de 100 %. O se situe maintenant le degr dincertitude au sujet de la
temprature ? Linformation concernant la note de ltudiant naide aucune-
ment la personne deviner la temprature externe. Cette information na
pas russi rduire son incertitude. Le principe est : lorsque la corrlation
est nulle, une variable est incapable de rduire le degr dincertitude au sujet
dune autre variable.
Le coefficient de dtermination et le concept de la rduction de lincer-
titude sont trs importants dans plusieurs situations concrtes. Supposons
que nous savons quil existe une relation ngative entre le niveau de soutien
familial et le risque de suicide chez les jeunes (plus le soutien familial est
fort, moins le risque de suicide est grand). Si nous voulions valuer le ris-
que de suicide chez une personne, nous pourrions examiner le niveau de
soutien quelle reoit ; ainsi, nous aurions une meilleure base pour valuer
son risque de suicide. Si la personne reoit trs peu de soutien, il y a lieu
dtre plus inquiet que si le degr de soutien quelle reoit est trs fort.
Revenons maintenant cette personne toujours dans le contenant scell
qui on demande de deviner la temprature en degrs Celsius. Mais, cette
fois, on lui indique la temprature externe en Fahrenheit. Elle sait que
la corrlation entre les degrs Fahrenheit et les degrs Celsius est parfaite :
rFC = +1,0. Quel serait maintenant son degr dincertitude quant la tem-
prature en degrs Celsius ? La corrlation parfaite produit un coefficient de
dtermination de 100 % et, par consquent, le coefficient de non-dtermi-
nation est de 0 %. Dans ce cas, la connaissance de la temprature en Fahren-
heit rduit lincertitude au sujet de la temprature en degrs Celsius 0 %.
Cette personne peut maintenant sans erreur indiquer, en degrs Fahrenheit,
la temprature quil fait lextrieur du contenant. Si on lui dit que la tem-
prature externe est de 32 F, elle sait sans le moindre risque derreur quil
L A C O R R L AT I O N 167

fait 0 en degrs Celsius. Lorsque la corrlation est parfaite, le coefficient de


dtermination est gal 100 %, rduisant le coefficient de non-dtermination
(et le degr dincertitude) 0 %. Le principe est donc quau fur et mesure
que la corrlation (et le coefficient de dtermination) augmente, lincertitude
se rduit.

Reprsentation schmatique de la corrlation et du coefcient


de dtermination

Le coefficient de dtermination est un indice de la quantit de variances


partages par deux variables. Quand rxy = 0, rxy2 = 0 %, nous pouvons dire
que X et Y nont aucune variance en commun. loppos, lorsque rxy = 1,0
rxy2 = 100 %, cela implique que ce que nous savons de X nous renseigne par-
faitement sur Y. La Figure 6.5 schmatise ce concept laide dun diagramme
de Ballantine. La variance de chaque variable X ou Y prend la forme dun
cercle tandis que le coefficient de dtermination est illustr par le degr de
chevauchement des cercles. Le degr de chevauchement des deux variables
(le coefficient de dtermination) est plus fort (78 %) pour les cercles droite
dans la figure que pour ceux gauche dans la figure (31 %).

gure 6.5 Diagramme de Ballantine reprsentant schmatiquement le


pourcentage de variance partage (rxy2)

La variance partage
entre X et Y = rxy2

rxy2 = 31 % rxy2 = 78 %

X Y X Y
168 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

REMARQUES SUPPLMENTAIRES

Corrlation et causalit

Lexistence dune corrlation entre X et Y nindique pas un lien de causalit


entre X et Y. tudions la recherche suivante : tous les trois ans, une immense
tude (Programme for International Student Assessment) examine la com-
ptence dans plusieurs matires scolaires dlves gs de 15 ans et rsi-
dant dans plus de 40 pays. Dans chaque pays, entre 4 500 et 10 000 lves
passent lexamen. Voici un des rsultats obtenus par cette tude en 2003 :
il existe une corrlation positive entre la prsence dun lave-vaisselle la
maison (la variable X) et la comptence en lecture, en mathmatiques et en
sciences (la variable Y). Les lves qui ont un lave-vaisselle chez eux obtien-
nent de meilleures notes aux tests standardiss que ceux qui nen ont pas !
Il existe au moins cinq explications pour ce rsultat. Laquelle est exacte ?
Peut-on en imaginer dautres ?
1. La possession dun lave-vaisselle entrane la comptence dans ces
matires (X cause Y).
2. Lobtention de meilleurs rsultats dans ces matires cause lachat dun
lave-vaisselle (Y cause X).
3. Il ny a pas de relle relation entre la prsence dun lave-vaisselle et la
comptence des lves, ce rsultat ntant quun accident statistique.
4. Les lves qui ont un lave-vaisselle nont pas besoin de laver la vais-
selle et, par consquent, ils ont plus de temps (variable W) consa-
crer ltude (X cause W qui, son tour, cause Y).
5. Les lves qui ont un lave-vaisselle vivent dans des familles plus
riches (variable W) et, parce quelles sont plus riches, elles sont plus
en mesure doffrir leurs enfants une meilleure ducation et de
sacheter un lave-vaisselle. Leur richesse se reflte dans leur perfor-
mance scolaire et leurs lectromnagers (W cause X et Y).
Bases simplement sur la corrlation, toutes ces explications sont pos-
sibles. Il est donc impossible dapporter une conclusion sur la causalit
partir de la seule corrlation.
Cependant, supposons que les chercheurs nont trouv aucune cor-
rlation entre ces deux variables. Dans ce cas, nous pourrions affirmer
que le fait de possder un lave-vaisselle ne cause pas une amlioration des
L A C O R R L AT I O N 169

rsultats scolaires. Ainsi, la prsence dune corrlation nest pas forcment


le signe dun lien causal, mais labsence de corrlation confirme labsence de
causalit !

Corrlation de Pearson et variance des variables

La corrlation entre deux variables sera toujours de zro lorsque la variance


de lune ou lautre des variables est gale zro. Retournons au Tableau 6.4
et la Figure 6.3. Toutes les personnes de la banque de donnes ont exac-
tement la mme valeur pour la variable nombre de nez et, par cons-
quent (voir le chapitre 3), la variance du nombre de nez est gale zro.
Puisque la variance est gale zro, chaque personne de la distribution
occupe exactement la mme position sur la variable nombre de nez
(cest--dire Z = 0).

Quiz rapide 6.5


Calculez la variance de la variable nombre de nez du Tableau 6.5 en vous servant
de la formule vue au chapitre 3. Expliquez pourquoi la corrlation entre nombre
de nez et tabagisme est gale zro.

La corrlation indique le degr de similitude entre la position relative


des observations sur une variable et la position relative de ces mmes
observations sur une autre variable. Au Tableau 6.4, la variable X (nom-
bre de cigarettes fumes) prsente de la variance alors que la variable Y
(nombre de nez) nen prsente pas. Voyons maintenant si les personnes
maintiennent la mme position sur les deux variables. La personne A se
situe Z = +1,26 sur la variable X (tabagisme), mais elle se situe Z = 0
sur la variable Y (nez). Sa position sur la variable X nest pas maintenue
sur la variable Y. La mme conclusion simpose pour presque toutes les
observations. Puisque les personnes ne maintiennent pas la mme posi-
tion relative sur les deux variables, la corrlation est zro. Autrement dit,
si une des variables est constante (aucune variance), lautre variable ne
peut rien expliquer, et donc, il nexiste aucune corrlation. On peut aussi
en arriver la mme conclusion en appliquant la formule pour la corrla-
tion (Formule 6.1).
170 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

Nous pouvons maintenant laborer un principe gnral. Plus la variance


de lune ou lautre des deux variables est petite, plus la corrlation obser-
ve sera faible. la limite, lorsque lune ou lautre des variables na pas de
variance, la corrlation est invariablement gale zro.

Quiz rapide 6.6


On veut calculer la corrlation entre la taille des enfants et leur ge. On calcule
cette corrlation sur deux groupes denfants. Le groupe A : les enfants gs de 1
8 ans. Le groupe B : les enfants gs de 6 et 7 ans. Pour quel groupe la corrlation
a-t-elle le plus de chances dtre grande ?

Corrlation et observations loin de la moyenne

Les observations nont pas toutes la mme influence sur la corrlation. La


corrlation est plus influence par les observations se trouvant loin de la
moyenne que par celles qui lui sont proches. Au Tableau 6.5, nous avons
obtenu une corrlation entre salaire et scolarit de rxy = +0,56 (rxy2 = 31 %).
Retirons les deux observations encercles et recalculons la corrlation. Ces
deux observations identifient des personnes qui ont une longue scolarit
(19 annes). Ces deux personnes se situent loin de la moyenne (pour la
variable scolarit ). La corrlation entre le salaire et la scolarit pour les
observations restantes est rxy = 0, 40 (rxy2 = 16 %). Le coefficient de dtermi-
nation est presque moiti moindre. Le retrait des deux seules observations
loin de la moyenne a considrablement rduit la corrlation. En labsence
de ces deux observations, la rduction de lincertitude chez Y (le salaire)
partir de X (la scolarit) est plus faible et il devient beaucoup plus difficile
de prdire les salaires partir du nombre dannes de scolarit. Remettons
ces deux observations dans lchantillon et, cette fois, retirons deux obser-
vations qui se trouvent prs de la moyenne. La corrlation est maintenant
rxy = +0,58 (rxy2 = 33 %). Elle a trs peu chang !
En somme, les observations se situant loin de la moyenne ont plus din-
fluence sur la corrlation que les observations se situant prs de la moyenne.
Voyons pourquoi. La corrlation se calcule partir de (ZXi ZYi) / N 1.
Ainsi, plus la quantit (ZXi ZYi) est grande, plus la corrlation sera forte.
Or, les valeurs qui se situent plus loin de la moyenne produisent des valeurs
talons Z qui sont plus grandes. Si on les retire, la quantit (ZXi ZYi) sera
L A C O R R L AT I O N 171

nettement plus petite. En consquence, la corrlation chutera. linverse, si


on limine deux observations proches de la moyenne, leurs valeurs Z tant
proches de zro, ce retrait ne rduira que lgrement (ZXi ZYi) et, par
consquent, la corrlation changera peu.

Quiz rapide 6.7


La corrlation entre X et Y est forte. Supposons que lon retire une observation
qui se situe exactement la moyenne de la variable X. Quadviendra-t-il de la
corrlation XY ? Et si la corrlation XY tait zro, quarriverait-il si nous retirions
une observation qui se trouve la moyenne de X ?

Limpact des observations loin de la moyenne sur la corrlation nest


rien dautre quun cas particulier du principe prcdent selon lequel la
corrlation est plus faible lorsque la variance des observations est plus
petite. En effet, lorsque nous retirons des observations qui sont loin de la
moyenne, les observations qui restent sont plus prs les unes les autres. Par
consquent, la variance diminue.

Corrlation de Pearson et relation linaire

La corrlation de Pearson mesure le degr de linarit dans la relation entre


deux variables. Une relation linaire implique que la taille de laccroisse-
ment ou de la dcroissance des valeurs Y est la mme pour chaque accrois-
sement ou dcroissance de la variable X. La Figure 6.6 clarifie cette ide.
Dans le graphique de gauche, nous avons quatre observations. La distance
sur laxe X entre les observations B et C et entre les observations C et D est
la mme. Voyons maintenant les distances pour ces mmes observations le
long de laxe Y. Ici encore, la distance B-C est gale la distance C-D. Cha-
que accroissement le long de la variable X est accompagn dun accroisse-
ment constant sur la variable Y. La relation est linaire.
Le graphique de droite de la Figure 6.6 prsente, par contraste, une rela-
tion non linaire. Les distances entre les observations sur la variable X sont
gales. Cela nest pas le cas pour les mmes observations le long de laxe Y.
Ainsi, sur laxe Y, la distance entre B et C est plus grande que celle entre C et
D. Chaque accroissement le long de la laxe X est accompagn dun accrois-
sement qui nest pas constant sur laxe Y. La relation nest pas linaire.
172 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

La corrlation de Pearson nest pas une statistique approprie lorsque les


relations sont non linaires. Pour cela, il faut faire appel dautres types de
corrlations (par exemple au ratio de corrlation, la statistique , ta).

gure 6.6 Reprsentation graphique dune relation linaire et


dune relation non linaire

La relation linaire La relation non linaire

D D
X X
C C
X X
B
X
A B
A X
X X

Une faon pratique de prsenter une corrlation : le tableau des attentes.

La corrlation est un indicateur statistique qui nest pas toujours facilement


compris par les non-statisticiens. Il importe, dans certaines situations, de
prsenter les rsultats dune analyse de corrlation de manire plus simple.
Le tableau des attentes savre loutil idal pour ce faire.
Examinons la situation suivante : dans un grand centre dappel, la per-
formance au travail des employs est dtermine par le nombre de clients
quils servent dans une journe. Le centre dsire amliorer le systme quil
utilise pour faire la slection des futurs employs, cest--dire choisir ceux
qui pourront servir plus de clients..
La vice-prsidente du centre demande un chercheur de dvelopper un
nouveau systme de slection des candidats, ce quil fait en laborant un test
pour mesurer laptitude au travail. La mesure de laptitude est la variable X. La
performance au travail est la variable Y. Le chercheur met lhypothse que
les personnes qui obtiendront les valeurs les plus leves au test savreront
les plus productives au travail. Il entend la vrifier en calculant la corrlation
existant entre la mesure de laptitude (X) et la performance au travail (Y).
L A C O R R L AT I O N 173

Pour vrifier son hypothse, il choisit alatoirement 180 personnes dj


en poste. Les dossiers de la compagnie lui fournissent leur performance au
travail : le nombre moyen de clients que chacune a servis, chaque jour, au
cours du dernier mois. Cette mesure varie entre 20 et 80. Il administre le
test de laptitude au travail ces 180 employs. Il obtient donc, pour cha-
cun, deux informations : sa performance au travail (Y) et sa performance
au test daptitude (X). Il vrifie lhypothse en calculant la corrlation XY et
trouve quelle est positive et substantielle : rxy = 0,58. Le chercheur dtient
maintenant une preuve que la performance au test daptitude est positive-
ment lie la performance au travail. Ainsi, ceux qui dmontrent la plus
grande aptitude (telle que mesure par le test) tendent tre plus produc-
tifs. On peut aussi affirmer que le fait de connatre laptitude au travail (X)
rduit lincertitude quant lventuelle performance au travail (Y).
Techniquement, le chercheur a excut une tude de validit conco-
mitante. Pour ce genre dtude, une corrlation de 0,58 est considre trs
substantielle et les psychomtriciens diraient que le test est une mesure
valide de la performance au travail.
Il lui faut maintenant communiquer le rsultat de son tude la vice-
prsidente du centre. Elle nest pas statisticienne et une corrlation de 0,58
ne lui dira pas grand-chose. Le chercheur choisit alors de lui prsenter la
corrlation XY quil a obtenue dans un tableau des attentes.
Un tableau des attentes est une matrice double entre que le chercheur
construit de la manire suivante : il divise les employs qui ont particip
son tude en trois groupes de 60 personnes chacun. Dans le groupe 1, quil
tiquette Performance faible , il place les personnes qui se situent dans le
tiers infrieur de la distribution de la performance au travail. Il place dans
le groupe 3, Performance leve , les personnes qui se situent dans le tiers
suprieur de la performance au travail. Toutes les autres, le tiers de son
chantillon qui se situe au milieu de la distribution de la performance au
travail, sont places dans le groupe 2, Performance moyenne .
Les notes obtenues au test daptitude varient entre 20 et 80. Le chercheur
divise alors les performances au test en trois groupes : le groupe 1, Apti-
tude faible , inclut les employs qui ont obtenu 39 ou moins au test. Ceux
qui obtiennent 60 ou plus forment le groupe 3 : Aptitude leve . Les
autres, ceux qui ont obtenu entre 40 et 59, forment le groupe 2 : Aptitude
174 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

moyenne . Le Tableau 6.7 montre les donnes observes. Notons que, dans
ce tableau, 60 employs se classent dans le groupe Aptitude faible , et 56
et 64 employs, respectivement, dans les groupes Aptitude moyenne et
Aptitude leve .
Ensuite, le chercheur identifie pour chaque groupe de performance au
test daptitude le nombre de personnes qui ont une performance au travail
faible, moyenne ou leve. Nous notons au Tableau 6.7 que, des 60 person-
nes qui ont obtenu un faible rsultat au test daptitude, 45, 14 et 1 font res-
pectivement partie des groupes de performance faible, moyenne et leve
(range 1 du tableau). Nous pouvons maintenant exprimer ces rsultats en
pourcentages (indiqus sous une forme probabiliste entre parenthses dans
le tableau). Ainsi, nous voyons que 75 % des personnes qui ont obtenu un
faible rsultat au test dmontrent une faible performance au travail, et que
seulement 2 % des personnes qui dmontrent un faible niveau daptitude
prsentent un niveau lev de performance au travail. Environ le quart
(23 %) des personnes qui ont obtenu un faible rsultat au test fournissent
une performance moyenne au travail. En interprtant ces pourcentages en
termes probabilistes, nous pouvons conclure que celles qui ont obtenu un
rsultat faible au test ont une trs faible probabilit (p = 0,02 ) de fournir
une forte performance au travail, une probabilit intermdiaire (p = 0,23)
dtre moyennement productives et une trs forte probabilit de fournir
une pitre performance au travail (p = 0,75).

Tableau 6.7
Le tableau des attentes

Performance au travail (Y)

Aptitude (X) Grp 1 (Faible) Grp 2 (Moyenne) Grp 3 (leve) Total

Faible 45 (0,75) 14 (0,23) 1 (0,02) 60

Moyen 13 (0,23) 29 (0,52) 14 (0,25) 56

lev 2 (0,03) 17 (0,27) 45 (0,70) 64

TOTAL 60 60 60 180
L A C O R R L AT I O N 175

Nous procdons ces analyses pour chaque range du tableau des atten-
tes. Prenons la troisime range de donnes du Tableau 6.7 par exemple : des
64 personnes qui ont dmontr une forte performance au test, 3 % (2/64)
sont peu productives, 27 % (17/64) sont moyennement productives et 70 %
(45/64) sont trs productives. En exprimant ces pourcentages en termes
probabilistes, nous pouvons conclure que les personnes qui russissent trs
bien le test (aptitude leve ; 60 et plus) prsentent une trs forte probabilit
(p = 0,70) dtre des employs trs productifs (groupe 3) et une trs faible
probabilit (p = 0,03) de fournir une pitre performance au travail.
Si la vice-prsidente dcide dadministrer ce test daptitude aux postu-
lants, nous pourrons constater, en consultant le tableau des attentes, quil
serait prfrable de ne pas embaucher le candidat qui obtiendra un score
faible (< 40) au test car il prsentera une faible probabilit de fournir une
prestation de travail exceptionnelle (p = 0,02) et une trs forte probabilit
(p = 0,75) de ne pas tre performant. Mais sil obtenait plus de 59, sa pro-
babilit de devenir un employ trs productif serait trs forte (p = 70) et il
serait alors pertinent de lembaucher.
De fait, le tableau des attentes ne sert qu reproduire, en termes quil est
plus facile de comprendre et de mettre en pratique, linformation dj ta-
blie par la corrlation : plus grande est laptitude dune personne, plus leve
sera sa performance au travail.
Une question pourrait maintenant vous venir en tte : si le tableau des
attentes est une faon pratique et simple de montrer la corrlation entre
deux variables, pourquoi avons-nous calcul la corrlation (et vous avoir
fait tudier un chapitre complet sur le sujet) ? La rponse nous ramne la
discussion du chapitre 1 portant sur les chelles de mesures. La mesure de
laptitude et celle de la performance au travail du Tableau 6.7 sont des chel-
les intervalles. Le tableau des attentes a traduit ces variables en chelles
catgorielles (nominales).
Comme nous lavons vu au chapitre 1, la conversion dune chelle
intervalles en une chelle nominale rduit la prcision des donnes. Ainsi,
la catgorie Aptitude faible englobe, la fois, la personne qui a obtenu
20 au test et celle qui a obtenu 39, et considre que cette dernire a fourni
une performance trs diffrente dune autre personne qui aurait obtenu 40,
seulement un point de plus. Ainsi, la catgorisation occasionne une perte
176 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

dinformation importante. Dans le chapitre suivant, nous allons tudier une


autre technique, la rgression simple, qui nous permet de faire le mme
genre de prdiction sans convertir les donnes en variables nominales.
Mais, pour cela, il vous faudra apprendre et comprendre dautres techni-
ques statistiques !

SOMMAIRE DU CHAPITRE

La corrlation de Pearson est un indice statistique qui indique le degr de


similitude entre la position des observations sur une variable et la position
de ces mmes observations sur une deuxime variable. Elle se limite indi-
quer le degr de relation linaire qui existe entre deux variables qui sont
mesures avec des chelles intervalles ou des chelles de rapport. La corr-
lation prend des valeurs allant de 0 1,0. La relation est parfaite lorsquelle
est gale 1,0 et elle se rduit au fur et mesure quelle se rapproche de
0. Le signe de la corrlation indique la direction de la corrlation. La cor-
rlation et ses coefficients de dtermination et de non-dtermination sont
utiliss pour interprter dans quelle mesure la connaissance dune variable
rduit lincertitude face une deuxime variable. La corrlation de Pearson
est influence par les valeurs se situant loin de la moyenne, et est relative-
ment peu influence par les observations se situant prs delle. Enfin, la pr-
sence dune corrlation nindique pas ncessairement la prsence dun lien
causal entre les variables. Mais labsence de corrlation indique une absence
de causalit.
La corrlation fait partie de statistiques descriptives trs utilises en
sciences humaines et en sciences sociales, principalement parce quelle indi-
que dans quelle mesure la connaissance dune variable nous renseigne au
sujet dune seconde variable. Enfin, il est possible de prsenter la corrlation
entre deux variables sous une forme plus simple, le tableau des attentes.
L A C O R R L AT I O N 177

EXERCICES DE COMPRHENSION

1. Nous calculons la corrlation entre deux variables X et Y. La variable


X est une constante. La corrlation sera alors de ________ .
a) +1,0
b) 1,0
c) 0,0
d) nimporte quelle valeur entre 1 et +1
2. Les personnes qui se situent au-dessus de la moyenne sur la variable X
se situent au-dessus de la moyenne sur la variable Y. Nous voyons
aussi que toutes les personnes qui se situent au-dessous de la
moyenne sur X se situent au-dessous de la moyenne sur Y.
La corrlation entre X et Y sera __________.
a) positive
b) ngative
c) aux alentours de zro
d) impossible dterminer avec les informations fournies
3. Nous trouvons une corrlation de zro entre X et Y. Pourquoi ?
a) La variable X ou la variable Y est une constante.
b) La position relative des observations sur X ne correspond en rien
leur position sur Y.
c) La relation nest pas linaire.
d) Toutes ces rponses peuvent tre justes.
4. La corrlation entre le nombre denfants par famille et la richesse
des parents est fortement ngative. Dans un parc, nous observons
deux familles ; la famille A a 6 enfants, alors que la famille B nen a
quun seul. Il est probable que ________________.
a) la famille A soit plus riche que la famille B
b) la famille B soit plus riche que la famille A
c) la famille A soit aussi riche que la famille B
d) Toutes ces rponses sont galement probables.
5. Nous remarquons une corrlation positive trs leve entre le nombre
de voitures dans les villes et le nombre de citoyens de ces villes qui
sont atteints de troubles respiratoires. Laquelle de ces affirmations
est vraie ?
178 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S

a) Les gens qui ont des troubles respiratoires achtent plus de voitures.
b) Les voitures tant une source de pollution, elles causent
beaucoup de troubles respiratoires.
c) Les personnes qui ont des voitures font moins dactivit
physique, ce qui leur occasionne des troubles respiratoires.
d) Toutes ces rponses sont possibles.
6. Nous tudions la relation entre le stress et la performance au travail.
Nous observons que les personnes qui sont trs peu stresses
performent trs mal, mais au fur et mesure que leur degr de
stress augmente, leur performance samliore jusqu un certain
point. Par contre, partir du moment o leur stress dpasse ce
point, leur performance se dgrade rapidement. La relation entre
stress et performance est ________, et la corrlation de Pearson sera
____________.
a) linaire ; positive
b) linaire ; positive
c) non linaire ; proche de zro
d) non linaire ; soit positive, soit ngative, mais pas zro
7. Pour le mme groupe denfants, nous mesurons le quotient intel-
lectuel aussi bien que la performance scolaire. Nous exprimons les
valeurs pour ces deux variables en valeurs talons Z. Pour chacun
des lves, nous calculons la diffrence entre la valeur Z de son QI et
la valeur Z de sa performance scolaire. Pour chacun des lves, cette
diffrence est gale zro. Nous calculons la corrlation entre les
deux variables, QI et succs scolaire. La corrlation rxy = _______.
a) +1
b) -1
c) 0
d) nimporte quelle valeur entre 1 et +1
8. Nous crons un diagramme de dispersion pour la relation entre les
variables X et Y. Une personne se trouve la coordonne (100 ; 3,7).
Cette personne a obtenu la valeur _______ pour X et la valeur
___________ pour Y.
9. La corrlation entre X et Y est de 0,60. En connaissant X, nous pou-
vons rduire lincertitude sur la variable Y de __________ %.
L A C O R R L AT I O N 179

Rponses

1. c
2. a
3. d
4. b
5. d
6. c
7. a
8. 100 et 3,7
9. 36
Page laisse blanche
CHAPITRE 7
LA RGRESSION LINAIRE SIMPLE

Le graphique de dispersion et la droite de rgression...................... 184


Quelques conventions...................................................................... 186
Les statistiques de la rgression linaire........................................ 187
Dterminer la position de la droite de rgression ...................... 190
Lexplication du coefficient de rgression b................................. 192
Lexplication de lordonne lorigine et sa relation avec b...... 194
Lerreur de prdiction en rgression linaire............................... 196
Exemple de prdiction de la note un examen final....................... 204
La diffrence entre le coefficient b et le coefficient .................. 207
Lordonne lorigine pour la rgression standardise ............. 208
La rgression simple et la rgression multiple............................. 208
Sommaire du chapitre........................................................................... 209
Exercices de comprhension................................................................ 209
Page laisse blanche
CHAPITRE 7

LA RGRESSION LINAIRE SIMPLE

La corrlation est un indice de la relation gnrale qui existe entre deux


variables. Son calcul indique dans quelle mesure la connaissance dune
variable rduit lincertitude que nous avons au sujet dune deuxime varia-
ble. Nous nous tournons maintenant vers une application pratique de la
corrlation : la rgression linaire simple.
La rgression simple est une technique statistique qui se sert de la cor-
rlation entre X et Y pour prdire ou estimer la position inconnue dune
observation spcifique sur la variable Y partir de la connaissance que
nous avons de sa position sur la variable X. Cette technique est fort utile
par exemple lorsquil sagit de prdire la performance au travail dune per-
sonne partir de notre connaissance de ses expriences antrieures, la tem-
prature du lendemain partir de notre connaissance des courants dair ou
les probabilits de russite dun tudiant son examen dans une matire
prcise partir de sa russite scolaire gnrale.
Supposons quon sache que la note moyenne obtenue un cours de sta-
tistiques est de 70 %, en se basant sur les rsultats obtenus dans ce cours les
annes prcdentes. On veut prdire la note que deux tudiants, Jean et
Jeanne, obtiendront dans ce cours et ce, avant mme quils ne le suivent.
En labsence dautres informations, la meilleure estimation quon a de la
note de Jean et de celle de Jeanne est la moyenne gnralement attribue
dans ce cours, en loccurrence 70 % (la moyenne tant la meilleure esti-
mation de chacune des valeurs dune distribution ; voir le chapitre 3). En
nous basant sur cette moyenne gnrale au cours (70 %), nous prdisons
que Jean et Jeanne obtiendront la mme note, soit la moyenne historique,
184 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

70 %. Supposons maintenant que nous dtenons une information suppl-


mentaire : les tudiants qui ont une moyenne gnrale leve ont tendance
obtenir des notes suprieures la moyenne dans le cours de statistique
et ceux qui ont une moyenne gnrale faible obtiennent gnralement des
notes faibles dans ce cours. Autrement dit, il existe une corrlation positive
entre la moyenne gnrale et la note dans le cours de statistiques.
Jeanne a une trs forte moyenne gnrale alors que Jean a une moyenne
gnrale trs faible. Allons-nous prdire la mme note de 70 % (la moyenne
historique) pour les deux tudiants ? Sachant que les tudiants qui sont plus
forts en gnral, comme lest Jeanne, tendent mieux russir leur cours de
statistiques, on aurait raison danticiper (de prdire) que cette tudiante
obtiendra plus que 70 % dans son cours. Quant Jean, qui obtient des notes
gnrales beaucoup plus faibles, nous pouvons prdire quil obtiendra pro-
bablement une note plus faible que 70 %.
Au lieu de prdire la mme note (70 %) pour les deux tudiants, la pr-
diction est maintenant diffrencie et plus prcise. Nous nous sommes
servis de la relation historique qui existe entre une premire variable (la
moyenne gnrale, la variable X) et une deuxime variable (la note dans le
cours de statistiques, la variable Y) afin de faire une prdiction de la varia-
ble Y, alors que nous connaissons la position de ces personnes seulement
sur la variable X. La rgression linaire est la technique statistique qui per-
met de faire ce genre de prdictions.

LE GRAPHIQUE DE DISPERSION ET LA DROITE DE RGRESSION

On se souvient, tel quil a t vu partir du chapitre 6, que le graphique de


dispersion ou le nuage de points prsente pour chaque observation
sa position simultane sur deux variables, cest--dire ses coordonnes. La
Figure 7.1 prsente un tel graphique de dispersion avec des donnes ficti-
ves. On y remarque que la position des points rvle une tendance dans les
observations : celles qui sont plus fortes sur X (plus proches du ct positif
de labscisse) tendent aussi tre plus fortes sur Y (plus proches du ct
positif de lordonne). Ainsi (voir chapitre 6), lorsque les valeurs tendent
tre similaires (plus positives ou plus ngatives) sur les deux variables, la
LA RGRESSION LINAIRE SIMPLE 185

corrlation entre les deux variables sera positive. Dans le cas de la Figure 7.1,
la corrlation de Pearson est, par consquent, positive. Elle est rxy = +0,60.
Traons une ligne droite qui reprsente cette tendance. Cette ligne, indi-
que en noir, est la droite de rgression. La droite de rgression dcrit la
tendance gnrale indique par le graphique de dispersion. Puisque la cor-
rlation est la tendance gnrale, nous disons alors que la droite de rgres-
sion est une reprsentation graphique de la corrlation qui existe entre X
et Y. On remarque la position de cette droite de rgression par rapport au
nuage de points. Elle est trs importante et nous allons y revenir.

gure 7.1 Graphique de dispersion reprsent par un ovale et


la corrlation positive par une droite de rgression


x +

tudions maintenant la Figure 7.2. Les graphiques montrent les nuages


de points et leurs droites de rgression. Le Graphique A montre une rela-
tion ngative (rxy = 0,60) alors que le Graphique B montre une relation
nulle (rxy = 0).
Graphique A : les valeurs fortes sur X tendent tre associes avec
des valeurs faibles sur Y et les valeurs faibles sur X tendent tre
associes avec des valeurs fortes sur Y. La droite de rgression mon-
tre cette tendance ngative. La corrlation XY est ngative (environ
rxy = 0,60).
186 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

gure 7.2 Nuages de points et droites de rgression pour deux relations

+ +

y y


x + x +

A: Une relation ngative B: Une relation nulle

Graphique B : les valeurs fortes sur la variable X ne semblent pas tre


systmatiquement associes ni avec des valeurs fortes ni avec des
valeurs faibles sur Y ; cela semble aussi tre le cas pour les valeurs
faibles sur X. La droite de rgression ne montre ni une tendance
ngative ni une tendance positive. La corrlation XY est proche de
zro.
En comparant les Figures 7.1 et 7.2, on remarque langle entre la droite
de rgression et labscisse. On appelle cet angle la pente. Lorsque la corr-
lation sapproche de zro, la droite de rgression sapproche dune ligne
horizontale, parallle labscisse : sa pente, par rapport labscisse, est gale
zro. Mais lorsque la corrlation augmente, la pente sloigne de lhori-
zontale. Langle de la droite de rgression correspond la magnitude de la
corrlation.
La droite de rgression indique aussi et simultanment la direction de
la relation. Avec une relation ngative, la droite de rgression tombe avec
un accroissement des valeurs sur X tandis quavec une relation positive, la
droite de rgression augmente avec un accroissement des valeurs sur X.

Quelques conventions

En rgression linaire, on utilise une variable pour en prdire une autre.


Par convention, la variable que lon veut prdire est la variable dpendante
qui est gnralement identifie par la lettre Y. La variable utilise pour faire
LA RGRESSION LINAIRE SIMPLE 187

cette prdiction, la variable indpendante, est gnralement identifie par


la lettre X. Lorsquon veut prdire la distance parcourue en kilomtres
partir de la distance parcourue en milles, la variable dpendante Y est le
nombre de kilomtres parcourus et la variable indpendante X est le nom-
bre de milles parcourus. Si lon veut faire linverse, la distance en kilomtres
devient la variable indpendante X et la distance en milles devient la varia-
ble dpendante Y. Ainsi, la notion de variable indpendante ou dpendante
est totalement dtermine par lanalyste.

Quiz rapide 7.1


Vous dsirez prdire le degr de pollution dans les villes nord-amricaines en
fonction du nombre de voitures enregistres dans chaque ville. Quelle est la
variable indpendante et quelle est la variable dpendante ? Et si vous vouliez
prdire le nombre de voitures partir du degr de pollution, quelle serait
chacune de ces deux variables ?

Les statistiques de la rgression linaire

Le Tableau 7.1 prsente plusieurs tempratures mesures en Celsius (varia-


ble X) et en Fahrenheit (variable Y). La corrlation entre les tempratures
mesures en Fahrenheit et en Celsius (rxy = 1,0) est parfaite et positive, et
le coefficient de dtermination est de 100 %. Si lon a comme information
la temprature en Celsius, on est en mesure destimer la temprature en
Fahrenheit avec une prcision totale parce que la corrlation entre ces deux
chelles de temprature est parfaite.

Tableau 7.1
Tempratures en Celsius et en Fahrenheit

Celsius 40 30 20 10 0 10 20 30 40

Fahrenheit 40 22 4 14 32 50 68 86 104

La Figure 7.3 dcrit le nuage de points pour la relation entre Celsius et


Fahrenheit ainsi que sa droite de rgression. prsent, regardons le point
situ le long de labscisse qui dcrit 0 C. On peut tracer une ligne verti-
cale qui part de 0 Celsius sur labscisse et qui se prolonge jusqu la droite
188 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

de rgression. partir du point o cette ligne verticale coupe la droite de


rgression, on trace une ligne horizontale que lon prolonge jusqu lor-
donne, qui reprsente les tempratures en Fahrenheit. La temprature
en Fahrenheit indique par cette ligne verticale est 32. Cela nous indique
quune valeur de 0 C correspond 32 F. On sest donc servis de la droite
de rgression pour faire une prdiction de la temprature (inconnue)
en Fahrenheit partir dune temprature connue (dans ce cas 0 C). En
consultant les donnes du Tableau 7.1, on voit queffectivement 0 C cor-
respond 32 F.

Quiz rapide 7.2


Faites une autre prdiction en utilisant la droite de rgression de la Figure 7.3.
Prdisez la temprature en Fahrenheit lorsquil fait 30 C. Vriez le rsultat que
vous obtenez au Tableau 7.1.

Supposons que lon dsire prdire la temprature en Fahrenheit pour


25 C. Cette temprature nest pas dans la banque de donnes (voir
Tableau 7.1). On utilise donc la Figure 7.3 pour estimer la rponse. Nous
trouvons 25 C le long de labscisse et nous traons la ligne verticale
jusqu la droite de rgression. partir de lintersection de cette ligne
et de la droite de rgression, nous traons une ligne horizontale et nous
lisons le point o lordonne est coupe. Cette valeur est 77 F. Ainsi,
nous avons prdit une valeur inconnue (77 F) partir dune valeur
connue (25 C) grce notre connaissance de la corrlation gnrale
entre degrs Celsius et degrs Fahrenheit et en faisant appel la droite de
rgression. Nous venons de mettre en pratique la rgression linaire.
Comme on peut lavoir remarqu en travaillant avec la Figure 7.3, la
validit de la prdiction dpend totalement de la droite de rgression.
Cette ligne doit tre la bonne place. Mettons-la la mauvaise place :
on dcale la droite de rgression de la Figure 7.3 en la faisant glisser un
ou deux centimtres plus bas de manire ce quelle coupe lordonne
la valeur de 10 plutt qu la valeur de +32. On remarque alors que
les prdictions deviennent compltement fausses. Par exemple, pour une
temprature de 0 C, nous prdisons une temprature de 10 F, ce qui
est faux.
LA RGRESSION LINAIRE SIMPLE 189

gure 7.3 Droite de rgression : temprature en degrs Fahrenheit en


fonction de la temprature en degrs Celsius (rxy = +1,0)

110

90

70
Y = Degrs Fahrenheit

50

30

10

50 40 30 20 10 0 10 20 30 40 50
10

30

50

X = Degrs Celsius

Quiz rapide 7.3


Utilisez la Figure 7.3 pour dterminer quelle est la temprature en Celsius
pour une temprature de 30 F. Si votre rponse nest pas celle inscrite au
Tableau 7.1, pouvez-vous en expliquer la raison ?

Donc, un des dfis consiste ici nous assurer que la droite de rgression
coupe lordonne la bonne place. Le point dintersection entre la droite
de rgression et lordonne se nomme ordonne lorigine. Comme nous
le verrons bientt, nous aurons besoin dune formule statistique pour dfi-
nir correctement cette valeur. Pour linstant, il est suffisant de noter que
lordonne lorigine est dfinie par la valeur que la variable dpendante
Y atteint lorsque la valeur de la variable dpendante X est de 0. Dans la
Figure 7.3, lordonne lorigine est +32, car il sagit de la temprature (Y)
en Fahrenheit lorsque la temprature en Celsius (X) est gale 0. Mais ce
nest pas tout. Il faut aussi dterminer correctement la pente de la droite de
rgression pour produire des prdictions justes.
190 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Lorsque la corrlation XY est nulle, la droite de rgression est parallle


labscisse. Au fur et mesure que la corrlation XY sloigne de zro,
langle que la droite de rgression fait avec labscisse augmente. Lorsque la
corrlation est parfaite, la droite de rgression coupe labscisse un angle
de 45 degrs. La pente de la droite de rgression prend le nom particulier
de coefficient de rgression non standardis ou, plus simplement, de coeffi-
cient de rgression que, par convention, nous reprsentons par la lettre b. Le
coefficient de rgression et la corrlation bivarie (voir le chapitre 6) sont
troitement lis, les deux reprsentant le degr et la direction de la relation
entre les variables X et Y. Ainsi, le positionnement de la droite de rgres-
sion exige que deux calculs soient excuts : un pour dterminer lordonne
lorigine, lautre pour dterminer le coefficient de rgression, ce dernier se
calculant partir de la corrlation qui existe entre X et Y.
Revenons la Figure 7.2. On remarque que la pente de la droite de
rgression est 0 pour la relation nulle (Graphique B), ce qui indique que
son coefficient de rgression est b = 0. Le coefficient de rgression b est
plus grand que 0 dans le Graphique A parce que la corrlation est plus
grande que 0. Au fur et mesure que la corrlation se rduit, la pente de la
droite de rgression et sa valeur numrique (le coefficient b) se rduisent
pour atteindre 0 lorsque la corrlation est nulle. Le coefficient de rgres-
sion prend toujours le signe de la corrlation. Lorsque la corrlation est
ngative, le coefficient de rgression est ngatif aussi. Nous pouvons donc
prvoir que lorsque la corrlation entre X et Y est gale 0, le coefficient
de rgression b sera lui aussi gal 0. Mais, comme nous le verrons bien-
tt, la valeur maximale du coefficient de rgression b nest pas 1,0, comme
cest le cas pour la corrlation. La taille maximale du coefficient dpend de
lchelle de mesure des variables originales.

Dterminer la position de la droite de rgression

Le problme central en rgression consiste dterminer correctement la


position de la droite de rgression. Une droite de rgression est dtermine
par deux lments : son ordonne lorigine et son coefficient de rgres-
sion. Il nous faudra donc calculer ces deux statistiques. Par convention, les
statisticiens identifient lordonne lorigine par le symbole a (parfois aussi
LA RGRESSION LINAIRE SIMPLE 191

0) et ils utilisent le symbole b (ou la lettre grecque bta) pour identifier


le coefficient de rgression1 .
Comment quantifier les coefficients b et a ? Cest ce que nous allons voir
en prsentant les formules de calcul dans un premier temps puis en les
expliquant afin de saisir leur signification.

Le calcul du coefcient de rgression b

La Formule 7.1 indique comment calculer la statistique du coefficient de


rgression linaire b. Ce coefficient de rgression reflte la relation qui
existe entre X et Y.
s
b = rxy Y Formule 7.1
sX
o b est le coefficient de rgression, rxy est la corrlation entre X et Y, sY est
lcart-type de la variable Y et sX est lcart-type de la variable X.
Pour les donnes du Tableau 7.1, la corrlation entre la variable X (degrs
Celsius) et la variable Y (degrs Fahrenheit) est rxy = 1,0. Lcart-type pour
la variable X est 27,4 et 49,3 pour la variable Y.
Le calcul du coefficient b donne
s
b = rxy Y
sX
= +1,0 49,3 / 27,4
= +1,0 1,8
= +1,8
Le coefficient de rgression b indique dans quelle mesure les valeurs de
la variable Y changent en fonction de chaque changement de valeurs chez
X. Pour les donnes du Tableau 7.1, nous avons trouv b=+1,8, indiquant
que chaque augmentation de 1 C quivaut une augmentation de 1,8 F.
On peut remarquer que le coefficient de rgression est toujours du mme
signe que le coefficient de corrlation. Si le coefficient b avait t 1,8, nous
aurions conclu que chaque augmentation de 1 C correspondrait une
rduction de 1,8 F.

1. la fin du chapitre, nous verrons la diffrence entre le coefficient b et le coefficient


(bta).
192 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

La Formule 7.1 permet deux constats supplmentaires :


a) Lorsque la corrlation est gale zro, le coefficient b est lui aussi
gal zro.
b) Lorsque les carts types de Y et de X sont gaux, le coefficient de
rgression b se rduit au coefficient de corrlation.
Mais, avant de produire une prdiction valide de la valeur Y partir de
la valeur X, il faut prendre en considration lordonne lorigine. Pour
linstant, explorons le coefficient de rgression b.

Lexplication du coefcient de rgression b

Le coefficient de rgression se calcule partir de deux lments : la corrla-


tion (rxy) et le rapport entre les carts types des deux variables (sY/sX).
1) La corrlation indique le degr avec lequel les valeurs de X et cel-
les de Y correspondent lorsque les deux valeurs sont exprimes en
valeurs talons Z. Puisque les valeurs talons Z sont des valeurs stan-
dardises, la corrlation est une statistique qui exprime la relation
entre les variables X et Y en valeurs standardises. Lorsque la cor-
rlation est parfaite (par exemple +1), chaque valeur talon ZX cor-
respond exactement la valeur talon ZY pour chaque observation.
Lorsque la corrlation est gale 0,0, chaque valeur Zx peut corres-
pondre nimporte quelle valeur Zy . La droite de rgression indique
la relation entre X et Y. Donc, la droite de rgression doit prendre en
considration la corrlation X et Y.
Puisque la corrlation est construite avec des valeurs standardises, les
conclusions auxquelles elle conduit ne peuvent tre que des conclusions en
valeurs standardises. Mais en rgression linaire, nous voulons prdire la
valeur de la variable Y ( partir de X) en valeur brute et non pas en valeur
standardise. Si un Californien (qui ne comprend pas les degrs Celsius)
demande la temprature quil fait Montral (20 C), il ne serait pas trs
utile de lui dire quil fait Z = +0,73 ou b = 1,8 ! On voudra lui rpondre en
degrs Fahrenheit, lchelle quil comprend. Pour en arriver la rponse, il
faut calculer lquivalent en Fahrenheit de la temprature en Celsius. Cest
pour rsoudre ce problme que la deuxime partie (sY/sX) de la formule
pour le coefficient de rgression b existe.
LA RGRESSION LINAIRE SIMPLE 193

2) Le rapport sY/sX est une correction arithmtique qui permet dexpri-


mer la corrlation en valeurs brutes (non standardises). Les valeurs
brutes correspondent aux chiffres qui sont utiliss pour mesurer les
variables X et Y.
Lcart-type est construit partir des valeurs brutes dune variable. Le
rapport entre les deux carts types (sY/sX) reflte donc le rapport entre les
valeurs brutes pour les deux variables, X et Y. La taille de lcart-type est
directement tributaire de la taille des chiffres qui sont utiliss pour mesurer
les variables. Par exemple, si on mesure un salaire (qui peut varier entre 0
et 200 000 $), lcart-type prendra une valeur numrique chiffre en mil-
liers. Mais si on mesure des annes de scolarit (qui varient entre 0 et 24),
lcart-type prendra des valeurs numriques chiffres en dizaines. Si nous
calculons lcart-type des valeurs X (10, 20, 30), on verra que cet cart-type
est 10 fois plus grand que lcart-type lorsque X se mesure avec les chiffres
1, 2, 3.
Supposons la corrlation rxy =+1,0, que la variable X prend les valeurs 1,
2, 3 et que les valeurs correspondantes pour Y sont 2, 4 et 6. Nous voyons
alors que chaque changement de 1 unit sur X (de 1 2 et de 2 3) corres-
pond un changement de 2 units sur Y (de 2 4 et de 4 6). Le coefficient
de rgression b le reflte et prend la valeur b = 2 : chaque changement de
1 unit sur X correspond un changement de 2 units sur Y. Si les chan-
gements sur X sont de 1 unit (1 2, 2 3) et les changements correspon-
dants sur Y sont de 10 units (de 10 20 et de 20 30), le coefficient b est de
10. Mais si on suppose quil nexiste pas de variance sur la variable Y : tous
obtiennent la mme valeur sur Y (la corrlation rxy = 0, voir le chapitre 6), les
changements sur X ne sont associs aucun changement sur Y. Le coefficient
b est alors gal zro. Ainsi, le rapport (sY/sX) est une correction qui permet
dexprimer les valeurs de la corrlation en valeurs non standardises.

Le calcul de lordonne lorigine

Lordonne lorigine est utilise, en rgression, pour dterminer le point


exact o la droite de rgression coupe lordonne. Il se dfinit par la For-
mule 7.2.
a = MY b MX Formule 7.2
194 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

o a est lordonne lorigine, MY est la moyenne de la variable Y, MX est la


moyenne de la variable X et b est le coefficient de rgression.
partir des donnes du Tableau 7.1, nous calculons la moyenne de Y
(la temprature en Fahrenheit : MY = 32), la moyenne de X (la tempra-
ture moyenne en Celsius : MX = 0) et le coefficient b que nous avons dj
calcul, b = 1,8. Nous utilisons maintenant la Formule 7.2 afin de calculer
lordonne lorigine et nous trouvons a = 32.
a = MY b MX
= 32 1,8 0
= 32
Ainsi nous voyons que la droite de rgression coupe lordonne la
valeur +32.
Lordonne lorigine peut prendre des valeurs positives, ngatives ou
nulles.
Une valeur positive implique que, lorsque X est zro, la valeur de Y
est plus grande que zro.
Une valeur ngative implique que, lorsque X est zro, la valeur de Y
est plus petite que zro (cest--dire quelle prend un signe ngatif).
Une valeur nulle implique que, lorsque X est zro, la valeur de Y
est elle aussi gale zro.

Lexplication de lordonne lorigine et sa relation avec b.

Lordonne lorigine est la valeur de Y lorsque la droite de rgression


coupe lordonne. Si on tudie la Figure 7.3, on voit que la droite de rgres-
sion indique la valeur de 32 sur lordonne (la temprature en degrs
Fahrenheit) lorsque la valeur de labscisse (la temprature en degrs Cel-
sius) est gale zro. Lordonne lorigine est donc 32.
Lorsque le coefficient de rgression est gal zro (ce qui implique quil
ny a pas de corrlation entre X et Y), lordonne lorigine est gale la
moyenne de Y : la connaissance de X ne rduit pas lincertitude de Y (voir
le chapitre 6). On peut noter que lorsque la corrlation XY est zro (ce qui
produira b = 0), la meilleure estimation quon ait de Y est la moyenne de sa
distribution (voir le chapitre 3 qui explique pourquoi, en labsence de toute
autre information, la moyenne est la meilleure estimation de nimporte
LA RGRESSION LINAIRE SIMPLE 195

quelle valeur dune distribution). La droite de rgression, lorsque b est gal


zro, est une ligne horizontale qui coupe lordonne (la variable Y) sa
moyenne. Ainsi, pour chaque valeur de X, la valeur prdite de Y sera tou-
jours la mme valeur de Y, en loccurrence la moyenne de Y.

Lquation de rgression linaire

Mme si on travaille avec des nuages de points et la droite de rgression, et


quil est possible de prdire les valeurs Y pour chaque valeur de X, cela nest
pas particulirement pratique. En rpondant au Quiz rapide 7.2, on remar-
quera sans doute la difficult de trouver la rponse exacte. Puisque main-
tenant cette droite de rgression est dfinie mathmatiquement, pourquoi
ne pas se servir directement dune quation, sans passer par la tche fasti-
dieuse de construire un diagramme de dispersion ? Pour cela, il faudra faire
appel lquation utilise pour construire une ligne droite,
Y = a + (b X) Formule 7.3
o Y est la valeur de la variable dpendante que nous voulons estimer
partir de X, qui est la valeur (connue) de la variable indpendante, et a et b
sont respectivement lordonne lorigine et le coefficient de rgression.
Nous pouvons, grce la Formule 7.3, prdire nimporte quelle valeur
dpendante Y en fonction de nimporte quelle valeur indpendante X. Le
Tableau 7.2 indique les valeurs en Fahrenheit partir des valeurs en Cel-
sius du Tableau 7.1. La procdure de calcul est simple. Nous savons dj
parce que nous les avons calculs que les coefficients a et b sont res-
pectivement +32 et +1,8.
Par exemple, quelle est la temprature en Fahrenheit (Y) lorsquil fait
100 C (X) ? Y = 32 + 1,8 100 = 212. Lorsquil fait 100 C, il fait 212 F.

Quiz rapide 7.4


Quelle est la temprature en Fahrenheit lorsquil fait 22 C ?
196 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Tableau 7.2
quation de rgression pour prdire la temprature en Fahrenheit pour
une temprature mesure en Celsius

Variable indpendante quation de rgression Valeurs prdites de la


X Y = 32 + 1,8 X variable dpendante Y

Celsius Fahrenheit

40 = 32 + 1,8 40 40

30 = 32 + 1,8 30 22

20 = 32 + 1,8 20 4

10 = 32 + 1,8 10 14

0 = 32 + 1,8 00 32

10 = 32 + 1,8 10 50

20 = 32 + 1,8 20 68

30 = 32 + 1,8 30 86

40 = 32 + 1,8 40 104

Lerreur de prdiction en rgression linaire

Jusqu prsent, nous avons expliqu la rgression linaire en utilisant


lexemple de la corrlation entre les chelles de temprature en Fahrenheit
et en Celsius, parce quelles sont en parfaite corrlation, ce qui facilite la
comprhension. Mais les corrlations parfaites sont trs rares en ralit. Il
est donc temps de passer au concept de la rgression lorsque la corrlation
nest pas parfaite.
Dans le cas des corrlations imparfaites, il faut introduire le concept de
lerreur de prdiction, que lon appelle aussi lerreur destimation. Lerreur
destimation est utilise pour calculer une statistique qui porte le nom der-
reur type destimation. Les formules vues prcdemment font une prdic-
tion de la valeur probable de Y pour une valeur de X donne, et lerreur
type destimation indique le degr derreur possible pour cette prdiction.
LA RGRESSION LINAIRE SIMPLE 197

Lerreur de prdiction

Lorsque nous faisons une rgression, nous avons un ensemble de valeurs


pour X et Y. Nous avons la corrlation entre ces deux sries de valeurs
plus les informations descriptives des deux variables (leurs carts types et
leurs moyennes). Nous utilisons ces informations pour dfinir la droite de
rgression (les coefficients a et b). En appliquant la Formule 7.3, nous obte-
nons les valeurs prdites de Y pour chaque valeur de X. En consquence,
nous avons pour chaque X deux informations : la vritable valeur Y qui
lui correspond ainsi que la valeur prdite, que nous noterons maintenant
. Nous pouvons aussi calculer la diffrence entre Y et , Cette diffrence
sappelle lerreur de prdiction.
Au Tableau 7.2, la colonne gauche contient un ensemble de valeurs X
(les tempratures en degrs Celsius), la colonne centrale applique lquation
de rgression et la colonne droite donne le rsultat du calcul, cest--dire
les valeurs : les valeurs prdites (de la temprature en degrs Fahrenheit)
pour chacune des valeurs X. La corrlation entre X et Y est 1,00 dans ce cas.
Maintenant, si on compare les valeurs de du Tableau 7.2 aux valeurs Y
initiales inscrites au Tableau 7.1, on voit que ces valeurs sont identiques,
ce qui indique que la prdiction est parfaite, ne produisant aucune erreur.
Cette prdiction est parfaite parce que la corrlation entre ces deux varia-
bles est parfaite.
Lorsque la corrlation entre deux variables nest pas gale 1,00, les pr-
dictions ne sont pas parfaites. Nous faisons des erreurs de prdiction. Lors-
que nous prdisons que ltudiant qui consacre trois heures dtude pour
chaque heure de cours obtient 90 % son examen de statistiques, alors,
quen ralit, cet tudiant obtient 100 %, nous avons fait une erreur de pr-
diction. Appelons e la quantit derreurs pour une prdiction. Il sagit de
la diffrence entre la valeur prdite pour une observation et sa vritable
valeur Y.
e = ( Y) Formule 7.4
o e est lerreur de prdiction, Y est la valeur vritable obtenue par lobserva-
tion et est la valeur prdite pour cette mme observation sur la variable Y.
On remarque que e peut prendre des valeurs positives, ngatives ou nul-
les. Lorsque la prdiction est parfaitement juste, e est gale zro. Lorsque
198 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

e est positive, nous avons fait une erreur de surestimation (nous avons pr-
dit une valeur pour Y qui est suprieure sa vraie valeur). Lorsque e est
ngative, nous avons fait une erreur de sous-estimation (nous avons prdit
une valeur pour Y qui est infrieure sa valeur relle).
Le Graphique A de la Figure 7.4 prsente une partie du nuage de points
extraite de la Figure 7.1. Supposons que nous dsirons prdire la valeur de
Y partir dune observation ayant comme X la valeur X1. Nous traons une
ligne verticale de X1 jusqu la droite de rgression, puis une ligne horizon-
tale jusqu lordonne, ce qui donne la valeur prdite 1 correspondant
X1. Or, le Y rel, dans ce cas, est plus bas. Si nous traons une ligne hori-
zontale de cette observation vers lordonne, nous trouvons le Y1 rel. Nous
avons fait, pour cette premire observation, une erreur de prdiction que
nous notons e1 et qui nest que la diffrence entre la valeur relle Y1 et la
valeur prdite 1.

gure 7.4

Graphique A Graphique B
Y Y
+ +

^
Y
Erreur
de prdiction
Y
x1 x1 x2 x3 x4

Quiz rapide 7.5


la Figure 7.4, nous avons une valeur prdite () et une valeur observe (Y) pour
lobservation qui se situe X1 sur la variable X. La valeur prdite est-elle
surestime, sous-estime ou exacte ?

Gnralisons la situation. On voit dans le Graphique B de la Figure 7.4


des erreurs de prdiction qui sont plus ou moins grandes pour toutes les
observations. Pour faciliter la lecture de ce graphique, les erreurs de sous-
estimation sont dcrites avec des flches ples et les erreurs de surestima-
tion, avec des flches fonces.
LA RGRESSION LINAIRE SIMPLE 199

Puisque nous voulons les prdictions les plus exactes possible, nous vou-
lons une droite de rgression qui minimise lerreur moyenne de prdiction.
Nous avons vu au chapitre 3 que la moyenne est la valeur qui dcrit chaque
observation de la distribution avec une erreur moyenne minimale (cest-
-dire zro, car la somme des carts entre la moyenne et les observations
est toujours gale zro). Dans le cas de la rgression linaire, la droite de
rgression est exactement la bonne place lorsquelle fait autant de suresti-
mations que de sous-estimations des valeurs prdites. En dautres termes, la
droite de rgression est la bonne place lorsque la somme des surestima-
tions est gale la somme des sous-estimations. Nous savons (voir le
chapitre 3) que la moyenne est calcule correctement lorsque la somme
des carts positifs et gale la somme des carts ngatifs. La pente de la
rgression est par consquent la bonne place lorsquelle est la moyenne
des erreurs destimation. Cependant, comme on la vu avec la moyenne,
ce nest pas parce que la droite de rgression fait les meilleures prdictions
possibles que celles-ci sont excellentes. Il faut trouver une faon destimer
la taille de ces erreurs de prdiction.

Lerreur type destimation

Nous pouvons calculer lerreur faite pour chaque prdiction afin den cal-
culer la moyenne en utilisant la Formule 7.5 que lon connat dj (il sagit
de la formule habituelle pour le calcul dune moyenne).

ei / N Formule 7.5
i=1
N
o ei est la somme des erreurs de prdiction pour chaque observation
i=1
Yi.
Or, cette procdure pose un problme. On se souvient que la droite de
rgression a t cre de manire ce que la somme des sous-estimations
gale la somme des surestimations : elle se situe la moyenne des erreurs.
Donc, lorsquon fait la somme des erreurs de prdiction, on a autant de
valeurs positives (surestimation) que de valeurs ngatives (sous-estimation),
200 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

N
et cest ce qui va crer un problme. La quantit e i / N sera invariable-
ment gale zro ! i=1

Pour solutionner ce problme, on utilise la stratgie laquelle on a dj


eu recours pour calculer la variance. Ainsi, chacune des diffrences entre
la vritable valeur de Y et sa valeur prdite sera mise au carr, puis lon
prendra la moyenne de ces erreurs de prdiction au carr. Lerreur de pr-
diction moyenne au carr sera toujours plus grande que zro (sauf lorsque
la prdiction est parfaite). Cette procdure donnera la variance des erreurs.
Enfin, en calculant la racine carre de la variance des erreurs, on obtient
lcart-type des erreurs.
Pour viter la confusion, on donne un nom particulier lcart-type des
erreurs de prdiction, lerreur type destimation, dont le symbole statistique
est se.
Nous savons dj comment calculer lcart-type des observations autour
de la moyenne (s = [(Xi-M)2/N1]). Lerreur type destimation (lcart-
type des erreurs) se calcule de la mme faon : on calcule la diffrence entre
chaque erreur et la moyenne des erreurs que nous mettons au carr ; nous
faisons la somme de ces quantits ; puis nous divisons cette quantit par les
degrs de libert (N-1), et enfin, nous tirons la racine carre du rsultat. La
Formule 7.6a explicite le concept.
N
2
( ei Me )
i=1
se = ---------------------------------- Formule 7.6a
N1

La cl, ici, consiste bien comprendre que lerreur (e = Y) est une


vritable variable et, comme telle, il est facile de calculer son cart-type.
Mais on se souvient que lerreur moyenne (Me) est toujours gale zro,
ce qui permet de simplifier la formule et de produire la Formule 7.6b qui
donne le calcul de lerreur type destimation.
N N
2
( ei 0 ) e2
i=1
- = i-----------------------------
se = ----------------------------- =1
- Formule 7.6b
N1 N1

o se est lerreur type destimation (faite par la rgression), ei est lerreur (i Yi)
de prdiction pour chaque observation i et N est le nombre dobservations.
LA RGRESSION LINAIRE SIMPLE 201

Les tapes suivre pour calculer lerreur type destimation sont les sui-
vantes :
1. On calcule, pour chaque prdiction, lerreur quelle fait (e = i Yi).
2. On ne peut pas prendre la somme de ces diffrences, car elle sera
gale zro. Alors on utilise la technique habituelle pour se dbarras-
ser du problme, on met chaque erreur e au carr [e2 = (i Yi) 2].
3. On fait la somme de ces diffrences au carr (e2 = [(i Yi] 2).
4. On calcule la moyenne de cette somme en divisant, comme pour
lcart-type, par N 1 : (se2 = [(i Yi] 2 / N1). On a maintenant
calcul la variance des erreurs destimation.
5. Enfin, on prend la racine carre de cette sommation et on obtient
lerreur type destimation : (se = se2).
Pour chaque prdiction, nous pouvons maintenant tablir la valeur pr-
dite et, par le bais de lerreur type, nous pouvons galement connatre ler-
reur typique de cette prdiction. On va bientt voir lutilit de lerreur type
destimation lorsquil sagit de tirer des conclusions pratiques. Avant dy
venir, il convient dadmettre que cette technique pour le calcul de lerreur
type destimation peut tre plutt fastidieuse. Il vaudrait mieux trouver un
procd plus simple.
Il existe une relation importante entre lerreur destimation et la corr-
lation. Lorsque la corrlation est leve, les erreurs destimation sont plus
petites que lorsque la corrlation est faible. la Figure 7.5, le diagramme
de dispersion A est trac partir dune corrlation leve (ce qui produira
un coefficient de rgression lev). Par contre, le diagramme de dispersion
B reprsente une corrlation (et un coefficient de rgression) plus faible.
La taille des erreurs de prdiction (donc la diffrence entre la valeur vri-
table Yi et la valeur prdite i) est reprsente, dans chaque graphique, par
la longueur des flches. Il est donc clair quune relation plus faible entre la
variable indpendante X et la variable dpendante Y engendre des erreurs
de prdiction plus grandes que lorsque la relation XY est plus leve.
202 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

gure 7.5 Relation entre la corrlation et lerreur destimation

A : Corrlation (et b) leve B : Corrlation (et b) faible

erreurs

La Formule 7.7 prsente une approche plus simple pour calculer ler-
reur type destimation. Elle mise sur le fait que la taille de la corrlation et
la taille des erreurs de prdiction sont en troite relation. La Formule 7.7
est une approximation, mais son rsultat est trs proche de celui que nous
pourrions obtenir en utilisant le procd plus complexe dcrit ci-dessus :

se = sY 1 r2xy Formule 7.7
o se est lerreur type destimation, sY est lcart-type de la variable dpen-
dante et r2xy est la corrlation au carr (le coefficient de dtermination) pour
la corrlation entre X et Y.
Il est facile de comprendre logiquement pourquoi la Formule 7.7 produit
une estimation fort prcise de lerreur type destimation : lorsque la corr-
lation est parfaite (le coefficient de dtermination est gal 1), la prdiction
de Y partir de X ne peut faire aucune erreur. Lorsque aucune erreur nest
possible, lerreur type destimation doit ncessairement tre zro. Calculons
lerreur type destimation lorsque rxy = 1,0 et sy = 10. Nous connaissons dj
la rponse. Puisque la corrlation est parfaite, la prdiction sera parfaite, et
lerreur typique lerreur type destimation devra obligatoirement tre
gale zro, si notre Formule 7.7 est la bonne.

se = sY 1 r2xy

= 10 1 12
= 10 (0) = 0
LA RGRESSION LINAIRE SIMPLE 203

Lorsque la corrlation entre X et Y nest pas parfaite, la possibilit existe de


faire des erreurs de prdiction. La Figure 7.6 prsente ce type de situations o
nous voyons plusieurs vritables valeurs Y associes la mme valeur X4 de la
variable indpendante. La ligne pointille de la Figure 7.6 indique la valeur 4,
qui est celle prdite pour toutes les observations qui se situent la valeur X4,
ce qui implique que nous allons faire des erreurs de prdictions. Prsumons
que ces erreurs sont distribues normalement2. Lerreur type destimation est
lcart-type de cette distribution. Nous savons, en nous rfrant aux caract-
ristiques de la distribution normale (voir le chapitre 5) quenviron 68 % des
observations dune distribution normale se situent entre 1 et +1 cart-type
de la moyenne. Par consquent, 68 % des erreurs de prdictions associes
X4 se situent entre 1 erreur type destimation de la moyenne de cette distri-
bution, qui, elle, est 4. Nous pouvons alors conclure que la meilleure estima-
tion que nous ayons de la valeur X4 est 4, mais quil y a 68 % des chances que
la vritable valeur qui correspond X4 se situe plus ou moins une erreur
type destimation de la valeur prdite 4.
Par exemple, si la valeur prdite est i = 10 et que lerreur type destimation
est gale 1, il y a 68 % de chances que la vraie valeur Yi se situe en ralit entre
9 et 11. Ainsi, lerreur type destimation fournit une fourchette de valeurs o la
valeur relle de Yi correspondant la valeur Xi a 68 % de chances de se trouver.

Lutilit de lerreur type destimation

Prsumons que les valeurs X et Y mises en relation sont distribues norma-


lement. En consquence, les prdictions faites par la rgression sont, elles
aussi, distribues normalement. Et puisque les prdictions sont normale-
ment distribues, les erreurs de prdiction le seront aussi.
Pour tablir cette fourchette de valeurs, il faut suivre les tapes suivantes.
1. On calcule une valeur prdite pour chaque valeur X qui nous int-
resse (Formule 7.3).
2. On calcule lerreur type destimation de la rgression (Formule 7.6
ou 7.7).
3. On ajoute lerreur type destimation la valeur prdite. Cela indique
la valeur maximale de la fourchette de valeurs.

2. Les analyses des rsiduelles sont des procdures statistiques qui servent vrifier
cette prsomption. Ces procdures sont dcrites dans des manuels plus avancs.
204 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

gure 7.6 Reprsentation et utilisation de lerreur type destimation


pour les relations XY qui ne sont pas parfaites

^
Y4 + 1Se

^
Y4

^
Y4 1Se

x1 x2 x3 x4

4. On soustrait lerreur type destimation de la valeur prdite. Cela


indique la valeur minimale de la fourchette de valeurs.
5. Il y 68 % de chances que la valeur de Y pour chaque observation X
se trouve entre les deux extrmits de cette fourchette de valeurs.

EXEMPLE DE PRDICTION DE LA NOTE UN EXAMEN FINAL

Dans un cours, les tudiants ont deux examens : un examen partiel et un


examen final. Lexamen partiel a lieu et il est corrig avant la date limite
dabandon des cours. La note de passage est de 50 %. En gnral les tu-
diants qui pensent ne pas russir le cours prfrent labandonner plutt
que davoir un chec inscrit leur bulletin.
Il arrive chaque anne qu la suite des rsultats lexamen partiel, au
moins un tudiant consulte son professeur pour savoir sil devrait aban-
donner le cours. Ce dernier, partir de la note de ltudiant lexamen
LA RGRESSION LINAIRE SIMPLE 205

partiel, estime sa note probable lexamen final. Techniquement, le pro-


fesseur prdit la note finale de ltudiant (qui est inconnue) partir de sa
note partielle (qui, elle, est connue). On se trouve face un problme pour
lequel la rgression linaire fournit la solution.
La corrlation entre les notes lexamen partiel et lexamen final telle
quelle est tablie partir des rsultats obtenus au cours des cinq derni-
res annes est de 0,825, soit une trs forte corrlation. On peut prsumer
que cette relation se maintiendra3. On excute donc une rgression linaire
partir de ces donnes. Les rsultats de cette analyse sont prsents aux
Tableaux 7.3 7.5. Les calculs sont excuts par le logiciel SPSS.
Dabord, on calcule les statistiques descriptives des variables, les moyen-
nes et les carts types (Tableau 7.3), et la corrlation entre les rsultats aux
examens partiel et final observe dans les annes antrieures (Tableau 7.4).
partir de cette corrlation et de lcart-type de la variable (Y), on estime
lerreur type destimation (Tableau 7.4).

Tableau 7.3
Statistiques descriptives pour les deux examens

Moyenne cart-type N

Examen nal (Y) 66,9 13,6 131

Examen partiel (X) 57,6 9,74 131

Tableau 7.4
Corrlation, coefcient de dtermination et erreur type destimation pour
la relation entre lexamen partiel et lexamen nal

Erreur type destimation value


r r2
avec la Formule 7.7

0,825 0,681 7,7

3. Si nous ne pouvons pas faire cette prsomption, la rgression linaire nest daucune
utilit.
206 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Au Tableau 7.5, on utilise les informations provenant des Tableaux 7.3


et 7.4 pour calculer le coefficient de rgression aussi bien que lordonne
lorigine.

Tableau 7.5
Coefcients pour la rgression du Tableau 7.3

Ordonne lorigine a 0,55

Coefcient de rgression b 1,15

On a dj calcul lordonne lorigine (a = 0,548) ainsi que le coeffi-


cient de rgression (b = 1,15).
Trois tudiants dsirent faire une estimation de leur note lexamen
final en fonction de leur note lexamen partiel. Les tudiants A, B et C ont
respectivement obtenus 40, 60 et 80 lexamen partiel. Arm de ces statisti-
ques, on fera appel lquation de la rgression linaire (Y = a + b X, For-
mule 7.3) afin destimer la note de chacun lexamen final. Par exemple,
pour ltudiant A qui a obtenu 40 son examen partiel, nous prdisons une
note de 46,55 lexamen final : Yi = 0,55 + (1,15 40) = 46,55 = 46,6.
Le Tableau 7.6 montre la prdiction de la note finale pour ces trois
tudiants.

Tableau 7.6
Prdiction de la note lexamen nal () pour trois tudiants partir de leur
note lexamen partiel (X)

Fourchette de
valeurs (erreur type
destimation)

Note Note
Note Note
minimale maximale
tudiant lexamen a b se prdite
prdite prdite
partiel X =a+bX
(68 %) (68 %)

A 40 0,55 1,15 7,7 46,6 38,9 54,4

B 60 0,55 1,15 7,7 69,7 62 77,4

C 80 0,55 1,15 7,7 92,7 85 100,4


LA RGRESSION LINAIRE SIMPLE 207

Mais ce nest pas tout. On veut aussi connatre la fourchette de valeurs


lintrieur de laquelle la note prdite pour chaque tudiant pourrait se
trouver. Pour raliser ce projet, on calcule lerreur type destimation ; dans

ce cas, avec la Formule approximative 7.7 : se = sY 1 r2xy= 13,6 (1 0,6812) =
7,69 = 7,7. En additionnant lerreur type destimation la note prdite pour
ltudiant A, on obtient 46,66 + 7,7 = 54,36. En soustrayant lerreur type
destimation de la valeur prdite, on obtient 38,96. Ainsi, on peut prdire
que la note lexamen final pour ltudiant A sera 46,6, mais quil y a de
fortes possibilits pour quelle se trouve entre 39 et 54.
partir de ces rsultats, voici quelques conseils donner aux trois tu-
diants.
Pour ltudiant A : on peut lui prdire une performance de 46,6 lexa-
men final, ce qui lui vaudra un chec. Mais en considrant lerreur type
destimation, on dira (en arrondissant) quil y a deux chances sur trois
pour que sa note soit aussi faible que 39 mais pas plus forte que 54. Sil
choisit de rester dans le cours, cet tudiant risque lchec sil ne change rien
ses habitudes dtude ou sil ne rattrape pas la matire quil na pas encore
comprise. Pour les tudiants B et C, la rgression linaire prdit quils vont,
tous deux, obtenir plus de 50 % lexamen final (69,66 et 92,66 respective-
ment). En prenant en considration lerreur type destimation, nous sugg-
rons aux tudiants B et C de rester dans le cours : ils ont tous deux de trs
bonnes chances de le russir.

Quiz rapide 7.6


Supposons que les tudiants A, B et C choisissent dabandonner le cours si leur
note nale risque dtre infrieure 75 %. Quelle serait votre recommandation
pour ces tudiants ?

La diffrence entre le coefcient b et le coefcient

Le coefficient a la mme signification et il est calcul de la mme faon


que le coefficient b. La diffrence entre eux est que le coefficient se cal-
cule lorsque les variables X et Y sont standardises en valeurs talons Z.
Reprenons la Formule 7.1 qui est utilise pour calculer le coefficient b. Il
sagit de la corrlation multiplie par le rapport entre les carts types de la
208 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

variable dpendante et de la variable indpendante. On se souviendra que


la moyenne et lcart-type de toutes les distributions de valeurs talons Z
sont 0 et 1 respectivement. Par consquent, la Formule 7.1, sX = 1 = sY,
et le rapport sY/sX sera lui aussi gal 1,0. Le calcul du coefficient b exige
la multiplication de la corrlation par le rapport entre les deux carts types
(X et Y). Puisque le rapport sY/sX est invariablement gal 1,0 lorsque les
distributions X et Y sont standardises, le coefficient de rgression se
rduit obligatoirement au coefficient de corrlation, ce que la Formule 7.8
nous indique. Puisque les variables X et Y sont standardises, le coefficient
de rgression le sera aussi et cest pour cette raison quon lui donne le
nom de coefficient de rgression standardis. Ainsi, dans le cas de la rgres-
sion linaire simple, le coefficient est invariablement identique la cor-
rlation.
s
b = rxy Y = =rxy lorsque sy = sx Formule 7.8
sX

Lordonne lorigine pour la rgression standardise

Lordonne lorigine, lorsque nous travaillons avec la rgression linaire


standardise, est invariablement zro. Dans ce cas, nous utilisons le sym-
bole 0 pour le diffrencier de a, le symbole que nous utilisons pour la
rgression non standardise. tudiez la formule pour le calcul de lordon-
ne lorigine
a = MY b MX
Puisque nous travaillons avec des donnes standardises, nous savons
que la moyenne des deux variables sera zro. Mettons ces chiffres dans la
formule.
0 = 0 0
Lordonne lorigine standardise est invariablement zro.

La rgression simple et la rgression multiple

Ce chapitre traite exclusivement de la rgression linaire simple. Elle prend


le nom de rgression simple parce quelle permet la prdiction dune valeur
LA RGRESSION LINAIRE SIMPLE 209

dpendante partir dune seule variable indpendante. Il est possible de


faire la prdiction dune variable dpendante partir de plusieurs varia-
bles indpendantes. Par exemple, nous pourrions prdire la note finale
un examen en prenant en considration simultanment le degr dintrt
de ltudiant pour la matire, le nombre dheures dtude quil y consacre
et lapproche pdagogique du professeur. Cette forme de rgression est
connue sous le nom de rgression linaire multiple. Celle-ci fait appel aux
mmes concepts que ceux qui ont t abords dans ce chapitre, mais les
formulations sont plus complexes, impliquant des calculs additionnels. Les
textes plus avancs traitent de la rgression multiple.

SOMMAIRE DU CHAPITRE

La rgression linaire est la statistique que lon utilise le plus souvent dans
les domaines appliqus. Cest une procdure statistique qui permet de pr-
dire une valeur prcise (sur une variable Y) condition que lon connaisse
sa valeur sur une deuxime variable (X) et la relation gnrale (la corrla-
tion) entre les deux variables X et Y. Pour prdire cette valeur, on calcule
deux statistiques : le coefficient de rgression b et lordonn lorigine a.
Ces deux coefficients se calculent partir de la corrlation, des moyennes
de X et de Y et des carts types de ces deux variables. Le rsultat est une
prdiction , la valeur probable que la personne obtiendra sur la variable
dpendante Y, partir de sa performance sur la variable indpendante X.
Une fois cette valeur prdite, on peut calculer lerreur type destimation. La
combinaison de la valeur prdite et de lerreur type destimation permet
destimer une valeur inconnue avec un degr de certitude dtermin.

EXERCICES DE COMPRHENSION

1. La corrlation entre deux variables (X et Y) est gale +1,0 alors


que la corrlation entre deux autres variables (A et B) est gale
0,0. Si nous utilisons X pour prdire Y et si nous utilisons A pour
prdire B, le coefficient de rgression standardis () pour X sera
________ et le coefficient de rgression standardis pour A sera
______________.
210 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

a) entre 1 et +1 ; entre 1 et +1
b) entre 1 et +1 ; 1,0
c) + 1 ; 0
d) + ou 1 ; + ou 1,0
2. Nous faisons une rgression pour prdire Y partir de X. Le coef-
ficient de rgression standardis est gal +1,0. La position de Julie
sur la variable X est gale Z = + 1,2. Quelle sera la position de Julie
sur la variable Y ?
a) +Z = 1,0
b) Z = +1,2
c) Z entre 0 et +1,0
d) Impossible dterminer puisque nous ne connaissons pas
lordonne lorigine.
3. Lquation de rgression pour prdire Y partir de X nous donne le
rsultat suivant : Y = 12 + 2,4X. La valeur de lordonne lorigine
est ________ ; le coefficient b est __________.
a) 12 ; 2,4
b) 2,4 ; 12
c) 12 ou 2,4 ; 12 ou 2,4
d) impossible dterminer car nous ne connaissons pas lcart type
4. On nous apprend que le lien entre les variables Y et X est : Y = 3 +
49X. Une personne obtient 1 la variable X. Nous prdisons alors
que la valeur Y pour cette personne sera _________________.
5. En analysant le graphique de dispersion pour une relation entre X
et Y, nous voyons que toutes les coordonnes du graphique se trou-
vent exactement sur la droite de rgression. Il est alors certain que le
coefficient standardis _____________________.
a) peut prendre nimporte quelle valeur entre 1 et +1
b) est obligatoirement +1
c) est obligatoirement 1
d) est obligatoirement +1 ou 1
6. La corrlation entre X et Y est gale zro, et nous construisons
une quation de rgression pour cette relation. Quelle sera la valeur
standardise prdite Yp, pour chacune de ces trois valeurs standardi-
ses de X : ZX1 = 1 ; ZX2 = 0 ; ZX3 = +2 ?
LA RGRESSION LINAIRE SIMPLE 211

a) ZY1 = 1 ; ZY2 = 0 ; ZY3 = +2


b) ZY1 = 0 ; ZY2 = 0 ; ZY3 = 0
c) ZY1 = 1 +1 ; ZY2 = 1 +1 ; ZY3 = 1 +1
d) La corrlation XY tant zro, il est impossible de construire une
rgression.
7. Dans cette distribution, lcart qui existe entre chaque coordonne
XY et la droite de rgression est invariablement gal zro.
a) Par consquent, chaque valeur de Y sera parfaitement prdite
par la valeur de X qui lui est associe.
b) Par consquent, chaque valeur de Y ne pourra pas tre prdite
par la valeur de X qui lui est associe.
c) Par consquent, lerreur type destimation sera moins grande
que 1,0.
d) Toutes ces rponses sont fausses.
8. Nous calculons lcart qui existe entre chaque coordonne et la
droite de rgression. Nous faisons la somme de ces carts, prenant
bien en considration le signe (positif ou ngatif) de chaque diff-
rence. La somme de ces carts ____________________.
a) sera gale la moyenne des carts types de X et de Y
b) sera gale au coefficient de rgression b
c) sera gale lerreur dchantillonnage
d) sera gale zro
9. la suite de cette rgression, nous voyons que le coefficient stan-
dardis est gal 1,0. Quel sera le coefficient non standardis b ?
a) 1,0
b) +1 ou 1
c) 0
d) Impossible dterminer avec les informations fournies.
212 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Rponses

1. c
2. b
3. a
4. 52
5. d
6. b
7. a
8. d
9. d
CHAPITRE 8
LES CONCEPTS DE LINFRENCE STATISTIQUE

Lchantillon et la population : les deux concepts


fondamentaux de linfrence.......................................................... 215
La population .................................................................................... 216
Lchantillon...................................................................................... 217
La population, lchantillon et linfrence ......................................... 218
Lchantillon reprsentatif et lchantillon alatoire........................ 220
Lchantillon alatoire : les deux principes fondamentaux........ 221
Statistiques et paramtres..................................................................... 223
La relation entre les statistiques et les paramtres ...................... 225
Le calcul des paramtres de la population ................................... 225
Le concept de degr de libert........................................................ 226
La thorie, lhypothse et la vrification de lhypothse nulle........ 229
Exemples dhypothses et dhypothses nulles............................ 233
La fluctuation dans les chantillons alatoires............................. 236
Les erreurs dinfrence..................................................................... 239
Une ou plusieurs populations ?....................................................... 240
Les hommes viennent de Mars, les femmes viennent
de Vnus ....................................................................................... 243
Sommaire du chapitre........................................................................... 245
Exercices de comprhension................................................................ 246
Page laisse blanche
CHAPITRE 8

LES CONCEPTS DE LINFRENCE


STATISTIQUE

Ce chapitre prsente les notions fondamentales de linfrence statistique,


cest--dire lensemble des rgles qui permettent linterprtation que lon
peut faire et les conclusions qui peuvent tre tires des rsultats dune
enqute ou dune recherche, rsultats qui sont analyss statistiquement.
Ces rgles sont organises en tests statistiques qui vont servir donner des
rponses affirmatives ou ngatives des questions formules sous forme
dhypothses. Ces tests statistiques peuvent aider comprendre un phno-
mne ou prendre une dcision. Par exemple, pour savoir si une nouvelle
thrapie est meilleure que lancienne (oui/non), ou si le fonctionnement
crbral des criminels diffre de celui des non-criminels (oui/non).
Les concepts que nous abordons maintenant sont comme des legos.
Une fois embots, ils donnent les tests statistiques que nous verrons dans
les autres chapitres. Nous allons ici tudier les principes qui sous-tendent
le concept dune infrence statistique. Tout dabord, voyons les diffrences
entre le concept de lchantillon et le concept de la population.

LCHANTILLON ET LA POPULATION : LES DEUX CONCEPTS


FONDAMENTAUX DE LINFRENCE

Rien nest plus important pour linfrence statistique que les concepts
dchantillon et de population. Le texte ci-dessous prsente la conclusion
216 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

tire de ltude dun chantillon dlves et qui portait sur la population


dlves qubcois.

LEnqute internationale sur les mathmatiques et les sciences


On mne priodiquement une vaste tude internationale an dvaluer le degr de com-
ptence des coliers en mathmatiques et en sciences. Des milliers de jeunes enfants
dans plus de 40 pays vont ainsi passer le mme examen. Et on a constat ceci : [E]n
maths, les lves qubcois de quatrime anne du primaire ont obtenu 550 points en
1995. Huit ans plus tard, leur score tait de 506 points. La chute : 44 points. partir de
ce constat, les chercheurs peuvent afrmer ceci : On peut conclure sans grand risque
de se tromper que les rsultats de 2003 sont la baisse ; cest--dire que les lves
qubcois sont moins forts dans ces matires quauparavant.
Mais les coliers de quatrime anne du Qubec (la population) nont pas tous fait
partie de ltude. Seule une partie des enfants, un chantillon, y a particip. Ainsi, on
a tir une conclusion au sujet de la population ( tous les lves de quatrime anne
du Qubec) partir des informations provenant dun chantillon (seulement un groupe
dlves). Cela est lessence mme de linfrence statistique.
Source : Adaptation autorise dun article de Marie Allard, La Presse, 9 dcembre 2005.

La population

En statistique, le terme population est utilis dans un sens gnral, et pas


seulement dmographique. Le concept de population fait rfrence toutes
les observations possibles au sujet dun phnomne. Voici quelques illustra-
tions de ce concept :
Le tour de taille de tous les Amricains vivant New York.
Le revenu de tous les Italiens.
Le salaire de tous les joueurs de la Ligue nationale de hockey.
Les notes obtenues dans un cours de statistique par tous les tudiants
qui y sont inscrits.
Lattitude de tous les Canadiens envers la lgalisation du cannabis.
Lorsquon sintresse une population, nous parlons de toutes les obser-
vations qui existent au sujet dun phnomne (lobsit des New-Yorkais,
le revenu des Italiens, etc.). Par consquent, cela implique souvent un nom-
bre immense dobservations. Si on sintresse aux attitudes politiques des
pauvres en Europe, nous parlons des attitudes de millions dindividus.
LES CONCEPTS DE LINFRENCE STATISTIQUE 217

Les populations sont souvent de taille infiniment grande (par exemple


la population des lectrons ou la population des toiles dans le ciel), mais
cela nest pas ncessairement le cas. Si nous voulons connatre lattitude
envers les statistiques des 150 tudiants qui suivent un cours en particu-
lier, la population est alors de 150 personnes. Si nous nous intressons au
salaire des joueurs de la LNH en 2002-2003, la population est compose de
679 athltes. Mais si nous nous intressons au salaire des joueurs de hoc-
key professionnels en gnral, ce nombre sera beaucoup plus grand, car il
existe plusieurs ligues professionnelles de hockey en Amrique du Nord, en
Europe et en Asie. Le mot cl est tout. Lorsque nous avons accs lensem-
ble des informations, nous travaillons directement avec une population. La
population rfre donc toutes les observations possibles qui existent au
sujet dun phnomne.
Dans la grande majorit des cas, nous voulons tirer des conclusions au
sujet de la population. Par exemple, la comptence en sciences des enfants
qubcois sest-elle dtriore entre 1995 et 2003 ? Le problme est que
nous navons gnralement pas accs toute la population et cela cause
de contraintes pratiques : il est gnralement trop coteux et trop compli-
qu de mesurer une population entire1 . Par consquent, nos observations
proviennent dun chantillon, un sous-ensemble de tous les membres de la
population, mais les conclusions que lon en tire sappliquent, elles, len-
semble de la population et, dans lexemple propos, tous les coliers qu-
bcois de quatrime anne.

Lchantillon

Lchantillon fait rfrence un sous-ensemble des observations extrait


dune population. Un chantillon contient moins dobservations quune

1. Les recensements que les gouvernements font priodiquement en 2006 pour


le Canada constituent une exception. Lors dun recensement, toute la popula-
tion dun pays fournit des informations. Bien que dans plusieurs pays, y compris
le Canada, il soit illgal de ne pas rpondre aux questions du recensement, il reste
nanmoins que ces tudes nincluent pas vritablement 100 % des membres de la
population : certaines personnes sont absentes du pays au moment de ltude,
dautres sont malades, dautres encore nont pas de domicile fixe, etc. Mais puis-
que la grande majorit des habitants y rpond, les recensements sont gnralement
considrs comme incluant toute la population.
218 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

population (sinon lchantillon serait la population), et souvent mme


considrablement moins. Le Tableau 8.1 illustre la distinction entre popu-
lation et chantillon pour une diversit de phnomnes.

Tableau 8.1
Exemples des concepts de populations et dchantillons

Population chantillon

Lattitude de tous les Canadiens envers Lattitude de 1 000 Canadiens envers la


la lgalisation du cannabis. lgalisation du cannabis.

Le tour de taille de tous les Amricains


Le tour de taille de 500 New-Yorkais.
New York.

Le revenu de tous les Italiens. Le revenu de 200 Italiens.

Le salaire pay tous les joueurs de Le salaire des joueurs de la LNH lors de
la LNH. la saison 2002-2003.

Les notes obtenues par tous les tu- Les notes obtenues par 15 tudiants
diants inscrits ce cours de statistique. inscrits ce cours de statistique.

Tous les coliers sudois ayant Un groupe dcoliers ayant des difcul-
des difcults en lecture. ts en lecture dans une cole sudoise.

LA POPULATION, LCHANTILLON ET LINFRENCE

Dans presque toutes les situations, nous cherchons apprendre quel-


que chose ou tirer une conclusion au sujet dune population. Ainsi, les
politiciens dsirent connatre leurs chances dtre lus ou la popularit de
leurs programmes lectoraux. Les sociologues dsirent examiner lattitude
des immigrants envers lintgration sociale. Les grands magasins dsi-
rent savoir si les produits placs proximit des caisses enregistreuses se
vendent mieux. Les compagnies pharmaceutiques dsirent savoir si leurs
nouveaux mdicaments sont efficaces. Dans tous les cas, les conclusions
importantes sont celles qui se rapportent la population en gnral (les
lecteurs, les immigrants, les ventes, lefficacit des mdicaments).
En mesurant la population (tous les lecteurs ou tous les immigrants, par
exemple), nous pourrions alors tirer nos conclusions. Lorsque les popula-
tions sont relativement petites (tous les tudiants dune classe ou le salaire
LES CONCEPTS DE LINFRENCE STATISTIQUE 219

de chaque joueur de hockey dune ligue en particulier pour une anne pr-
cise, par exemple), cette solution est tout fait envisageable. Cependant,
on comprendra facilement que cette solution nest pas praticable dans la
majorit des situations. Il serait beaucoup trop coteux et peu pratique de
sonder tous les lecteurs ou dinterviewer tous les immigrants.
Dans de telles situations, nous faisons appel un chantillon. Ainsi, un
groupe relativement restreint dobservations est extrait de cette population
et les mesures sont prises exclusivement sur celui-ci. Les rsultats que nous
obtenons partir de cet chantillon sont ensuite appliqus la population,
cest--dire que les rsultats obtenus dans lchantillon sont utiliss pour
raliser une infrence au sujet de la population. Ainsi, nous nous servons
dune information connue (les informations produites par lchantillon)
afin de tirer une conclusion sur quelque chose dinconnu (les informations
qui dcrivent la population). Le processus dinfrence sert donc tirer une
conclusion gnrale (la population) qui, elle, nest pas mesure, partir
dune information prcise (lchantillon) que nous avons effectivement
mesure.
La distinction entre la population et lchantillon ne dpend pas du nom-
bre dobservations : si on tudie toutes les personnes atteintes dune mala-
die rare, cette population pourrait ntre compose que de 200 personnes.
En revanche, un sondage sur les intentions de vote inclut habituellement
1 000 personnes. Ce nest pas parce que la population nest compose que
de 200 personnes quil sagit dun chantillon et ce nest pas parce quon
a interview 1 000 lecteurs que ces derniers constituent pour autant une
population.
Ainsi, si on veut examiner le niveau de stress des vendeurs dans une
compagnie dtermine afin de tirer une conclusion au sujet de la person-
nalit des vendeurs en gnral, les 1 000 vendeurs de cette tude forment
un chantillon de vendeurs tir de la population de vendeurs. Mais si on ne
veut dcrire que ces 1 000 vendeurs, ces 1 000 vendeurs reprsentent alors
une population, et non un chantillon, de vendeurs.
Lorsquune compagnie pharmaceutique fait une tude pour valuer
lefficacit dun nouveau mdicament, elle administre ce mdicament un
chantillon de patients et compare le taux de gurison de cet chantillon
un autre chantillon de patients qui, lui, na pas reu le mdicament ou
220 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

qui reoit un placebo. Si on constate des effets bnfiques sur le premier


groupe, ce rsultat devient intressant pour la compagnie, car il lui per-
met potentiellement de tirer une conclusion gnrale : le mdicament a des
effets bnfiques sur la population de patients.

Quiz rapide 8.1


Vous avez votre disposition les donnes du recensement de Statistique Canada
ralis en 2006. Vous devez dterminer le salaire mdian pay au Canada cette
mme anne. Travaillez-vous en utilisant un grand chantillon ou une population ?
Justiez votre rponse.

LCHANTILLON REPRSENTATIF ET LCHANTILLON ALATOIRE

Pour parvenir une conclusion au sujet de la population, il est essentiel


de bien choisir lchantillon. Si lon dsire analyser lattitude des coliers
envers lcole, il est vident que lchantillon doit tre compos dcoliers.
Mais il faut aussi remplir une autre condition : lchantillon doit tre un
miroir fidle de la population. Lorsque la constitution de lchantillon res-
semble beaucoup la population, on dit que cet chantillon est reprsenta-
tif de la population. Le texte suivant dcrit un processus dchantillonnage
qui, lui, nest pas reprsentatif.

Une trange histoire dchantillonnage : lescroquerie Bre-X


Au milieu des annes 1990, une compagnie minire canadienne, Bre-X, explore une
rgion de lIndonsie dans lespoir dy trouver des dpts dor. La compagnie prtend
quelle a dcouvert un site prometteur et elle demande aux investisseurs de lappuyer
dans ses efforts dextraction et de commercialisation du minerai.
Bre-X prsente aux investisseurs des chantillons de terre provenant de cette rgion.
Ils ont t extraits alatoirement du site, afrme-t-elle. Les rsultats obtenus par lanalyse
des chantillons sont utiles puisquils permettent dinfrer la concentration dor qui existe
dans la population, en loccurrence le site dcouvert par Bre-X. Les chimistes et ingnieurs
miniers valuent donc la concentration dor lintrieur de ces chantillons.
Lanalyse de ces chantillons rvlant une forte concentration dor, les chimistes inf-
rent alors que le site (la population), reprsent par les chantillons, doit, lui aussi, conte-
nir de lor. En fait, la concentration dor dans les chantillons est telle quils concluent
que le site dcouvert par Bre-X est une immense mine dor, peut-tre mme la plus riche
du monde. Du jour au lendemain, les actions en bourse de Bre-X grimpent de 2 238 $
laction. La personne qui investit 10 000 $ un jour devient millionnaire le lendemain.
LES CONCEPTS DE LINFRENCE STATISTIQUE 221

Hlas, des milliers de petits investisseurs ont cru en vain au miracle. En ralit, le
site ne contenait pas plus dor quun jardin montralais. La compagnie avait trich en
ajoutant volontairement de lor dans les chantillons. La concentration dor que les
chantillons contenaient ntait donc pas du tout reprsentative de la population,
cest--dire de la concentration dor existant dans le site. Par consquent, la conclusion
au sujet du site indonsien tait fausse.
Cette escroquerie mne deux constats :
1) Lanalyse statistique dun chantillon nest utile que lorsque nous voulons tirer
une conclusion au sujet dune population.
2) Lanalyse dun chantillon nous renseigne sur la population que si lchantillon
reprsente adquatement la population.

Dans lexemple color suivant, nous voulons tudier lattitude des


femmes lgard des salons de coiffure. Nous pensons que la couleur de
cheveux des femmes peut avoir un impact sur cette attitude. Si, dans cette
population, 30 % des femmes sont blondes, 60 % brunes et 10 % rousses,
un chantillon reprsentatif serait compos de proportions identiques de
blondes, de brunes et de rousses (30 %, 60 %, et 10 % respectivement).
On remarque que ce contrle dans la constitution dun chantillon ne
peut fonctionner que si lon connat la distribution de cette caractristique
(la couleur des cheveux) dans la population. Dans la majorit des cas, la
distribution dans la population est inconnue ou nest que trs approxima-
tivement connue. Pour combler cette lacune, il est habituel de procder
autrement. On extrait de la population un chantillon alatoire. Si nous
choisissons un chantillon vritablement alatoire de femmes pour notre
tude, il sera compos naturellement denviron 30 %, 60 % et 10 % de fem-
mes respectivement blondes, brunes et rousses. Un chantillon alatoire-
ment choisi sera une reprsentation fidle de la population de laquelle il est
extrait.

Lchantillon alatoire : les deux principes fondamentaux

Dans leur application, les techniques requises pour produire des chan-
tillons alatoires peuvent tre fort complexes (on trouvera une explication
de celles-ci dans des ouvrages spcialiss). Cependant, ces techniques repo-
sent sur deux principes relativement simples qui produiront, sils sont res-
pects, une slection alatoire des chantillons.
222 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Le critre de la chance gale

Le critre de la chance gale est respect lorsque chaque membre de la popu-


lation de laquelle lchantillon est tir a une chance gale dtre choisi. Si on
excute un sondage sur lattitude des tudiants duniversit envers le gou-
vernement, on met le nom de tous les tudiants dans un chapeau et on tire
au hasard 1 000 personnes. Lchantillon sera alors alatoirement choisi, car
chaque tudiant universitaire a une chance gale dtre choisi. Supposons
quon utilise une autre technique : des intervieweurs se placent lentre de
la caftria et posent leurs questions aux 1 000 premiers tudiants qui sy
prsentent. Les chances dtre choisi ne sont plus gales, car les tudiants qui
ne mangent pas la caftria et ceux qui se prsentent la caftria aprs le
dpart des intervieweurs nont aucune chance dtre choisis. Cet chantillon
ne sera pas reprsentatif de tous les tudiants, mais seulement de ceux qui
mangent la caftria et qui mangent plus tt que les autres.

Llection prsidentielle aux tats-Unis en 1948


Lors de la campagne lectorale de 1948, Harris Truman briguait les suffrages pour le
renouvellement de son mandat prsidentiel contre son adversaire Thomas Dewey. Son-
dage aprs sondage, Truman tait donn perdant, et cela, par une marge considrable.
lpoque, les journaux du matin devaient tre imprims la veille et le dpouillement
des suffrages tait trs lent. Au lendemain de llection, plusieurs grands quotidiens
amricains, conants dans les rsultats indiqus par les sondages et incapables datten-
dre le rsultat ofciel, annonaient la une de leur dition matinale lcrasante victoire
de Dewey. Mais, leur stupfaction et leur grande honte, Truman tait le vainqueur !
Linfrence qui avait t faite partir des sondages tait tout simplement errone.
En 1949, le Social Science Research Council ralisa une tude pour comprendre
pourquoi les sondages avaient t dans lerreur. Parmi les problmes identis, les pro-
cdures de slection des chantillons ont t mises en cause. Entre autres, les sonda-
ges avaient t souvent raliss au tlphone. lpoque, presque tous les Amricains
urbains avaient le tlphone, mais cela ntait pas vrai dans les milieux ruraux. Or, Harry
Truman tait beaucoup plus populaire en milieu rural que son adversaire. Ces chan-
tillons alatoirement choisis violaient le concept de la chance gale en excluant de
nombreux lecteurs ruraux qui navaient pas le tlphone et qui taient des lecteurs
qui appuyaient Truman. Les chances que les lecteurs soient inclus dans les sondages
ntant pas gales, linfrence la population fut errone, la grande joie de Truman.
Il est clair que la slection des chantillons est essentielle la validit des infrences
que les sondages permettent. Mais il serait faux de conclure, partir de cette anecdote,
que les sondages ne veulent rien dire. Empiriquement, mme lorsquil existe certaines
divergences dans les rsultats des sondages, en gnral ceux-ci prdisent fort bien
lissue des lections.
LES CONCEPTS DE LINFRENCE STATISTIQUE 223

Le critre de lindpendance des rponses

Le principe de lindpendance implique que la rponse fournie par une


personne (une observation) nest pas influence par la rponse fournie par
une autre. Voici deux exemples illustrant ce principe et dans lesquels lin-
dpendance des rponses nest pas maintenue :
Lorsquun dictateur demande un vote de soutien main leve, il peut
tre dangereux de dvoiler son opinion lorsque celle-ci est mino-
ritaire. Les votes ne sont donc pas indpendants, car le vote dune
personne est influenc par celui des autres. Lchantillon de votes
(lopinion exprime) fournit une estimation biaise de la population
(lopinion relle). Dans ce cas, la vraie attitude des lecteurs ne sera
pas bien reprsente et linfrence vers la population sera errone.
Si on voulait examiner le temps dcoute de la tlvision des enfants,
on pourrait choisir un chantillon compos denfants provenant de la
mme famille. Or, cet chantillon viole le concept de lindpendance,
car le temps dcoute dun enfant sera influenc par le temps dcoute
des autres enfants de sa famille.

Quiz rapide 8.2


Expliquez en quoi lchantillon tir par Bre-X viole le critre de la chance gale,
celui de lindpendance ou ces deux critres.

Quiz rapide 8.3


On dsire tudier lcoute de la tlvision des familles avec enfants. Quel va tre
maintenant le sujet dtude ? Est-ce que la procdure dchantillonnage dcrite
ci-dessus va lencontre du principe de lindpendance dans ce cas-ci ?

STATISTIQUES ET PARAMTRES

Supposons que nous avons notre disposition la taille de toutes les femmes
du Canada (la population). Nous savons, par ailleurs, que certaines fem-
mes sont plus grandes que dautres. En supposant que la distribution de la
taille est normalement rpartie, nous pouvons dcrire cette population de
tailles en calculant sa moyenne et son cart-type. Lorsquon travaille avec
des populations, ces informations prennent le nom de paramtres auxquels,
224 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

par convention, on attribue des lettres de lalphabet grec. La moyenne est


identifie par (mu), lcart-type par (sigma). De mme, la corrlation
est dcrite par le symbole (rho).
Lorsquon travaille avec un chantillon, on a aussi la distribution de
lchantillon et, comme pour toutes les distributions, celle-ci peut tre
dcrite par sa moyenne et son cart-type. Les descripteurs des chantillons
prennent le nom de statistiques. Comme on la sans doute remarqu dans les
chapitres antrieurs, elles sont identifies, par convention, par des lettres de
lalphabet latin (M, s, rxy). Le Tableau 8.2 prsente les noms et les symboles
qui dcrivent les caractristiques des populations et des chantillons.

Tableau 8.2
Descripteurs des populations et des chantillons

Caractristiques Caractristiques
de la population de lchantillon

Paramtres Statistiques

Moyenne (mu) M

cart-type (sigma) s

Corrlation xy (rho) rxy

Quiz rapide 8.4


Le test de QI dvelopp par Weschler est tel que le QI moyen est de 100. Est-ce
une statistique ou un paramtre ? Doit-on crire MQI = 100 ou QI = 100 ?

En bref, les paramtres font rfrence la description des populations


et les statistiques font rfrence la description des chantillons. Ainsi, les
paramtres dcrivent ce qui est vrai, alors que les statistiques produisent,
partir dchantillons, la meilleure estimation de la mme ralit.
Nous abordons maintenant le lien entre les statistiques et les param-
tres, et ces liens vont servir tirer des conclusions. Tout ce que nous allons
maintenant tudier est vrai si les chantillons sont alatoires et sils sont tirs
de populations normalement distribues. Sinon, rien nest ncessairement
vrai. Heureusement, la normalit est une prsomption acceptable dans la
LES CONCEPTS DE LINFRENCE STATISTIQUE 225

majorit des situations et, tant que les deux critres pour leur slection sont
respects scrupuleusement, les chantillons sont alatoires2 .

La relation entre les statistiques et les paramtres

Aux chapitres 3 5, nous avons vu que nous pouvons dcrire une distribu-
tion normale si on connat sa moyenne et son cart-type3 . Par consquent,
la description de nimporte quelle population normalement distribue
implique une connaissance de ces paramtres (, ). Nous avons galement
vu que les chantillons sont utiles lorsquils reprsentent la population de
laquelle ils sont extraits. Si lchantillon est reprsentatif de la population,
cela quivaut dire que les statistiques qui dcrivent lchantillon dcrivent
aussi les paramtres de la population. En pratique, cela veut dire qu partir
de la description que nous avons de lchantillon, il est possible de faire une
description de la population. En jargon statistique, cela implique que :
La meilleure estimation de est M. Formule 8.1a

La meilleure estimation de est s. Formule 8.1b


Ces galits reprsentent un axiome fondamental pour linfrence sta-
tistique : la meilleure estimation des paramtres dune population normale-
ment distribue est les statistiques de lchantillon alatoirement tir de cette
population. Puisque nous voulons toujours infrer quelque chose au sujet
de la population (les paramtres), cet axiome revient confirmer qu par-
tir des statistiques, nous pouvons infrer les paramtres de la population.

Le calcul des paramtres de la population

Le Tableau 8.3 dcrit les formules statistiques qui dfinissent le calcul des
paramtres et des statistiques (la moyenne et la dispersion). En pratique,

2. Jusqu prsent, nous avons fait abstraction de N, le nombre dobservations. En


gnral, plus un chantillon contient dobservations, plus il sera en mesure de
reprsenter adquatement la population de laquelle il est extrait, condition, bien
entendu, que soient respects les deux critres pour la slection alatoire.
3. Nous prsumons, ne loublions pas, la normalit de la population. Par consquent,
les paramtres de lasymtrie ou de la modalit ne sont pas pertinents : la distribu-
tion est, par dfinition, unimodale et symtrique.
226 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

il est rarement possible de connatre les paramtres dune population, car


on a rarement accs aux informations provenant dune population entire.
Les calculs prsents ici sont donc essentiellement abstraits. On compare
dans ce tableau les deux jeux de formules.
La formule pour calculer la moyenne est identique celle que lon uti-
lise pour calculer la moyenne de lchantillon (M), la somme des obser-
vations divise par le nombre dobservations. Mais lcart-type de la
population () est calcul partir dune formule qui diffre lgrement de
celle utilise pour calculer la statistique correspondante (s).

Tableau 8.3
Formules de calcul des paramtres et des statistiques

Formules : paramtres Formules : statistiques

N N
= X i /N M= X i/N
i=1 i=1

n n
2 2
= ( Xi ) N s= ( Xi M ) (N 1)
i=1 i=1

Le calcul du paramtre de dispersion (lcart-type ) exige que la somme


des carts la moyenne au carr ([Xi ]2) soit divise par N, le nombre
dobservations. Pour la statistique quivalente (lcart-type s), nous divi-
sons la somme des carrs par N 1, le nombre de degrs de libert.

Le concept de degr de libert

Le concept de degr de libert est cependant parfois difficile comprendre.


Les deux explications suivantes pourraient tre utiles pour surmonter cet
obstacle.
Explication A. La variance (ou lcart-type) dun chantillon est invaria-
blement calcule en divisant la somme des carrs par les degrs de libert,
dans ce cas N 1. En effet, calculer la variance en divisant par N aura
LES CONCEPTS DE LINFRENCE STATISTIQUE 227

tendance donner une estimation de la variance de la population trop


petite puisque, probablement, certains scores extrmes ne seront pas dans
lchantillon (alors quils sont dans la population). On dit quen divisant
par N, le calcul de la variance est biais, car il donne une rponse gn-
ralement trop petite. Pour viter cela, on agrandit lgrement lcart-type
de lchantillon, ce qui se fait en rduisant son diviseur. Au lieu de N, on
utilise N 1. Mais pourquoi retirer une observation (N 1) ? Pourquoi pas
deux (N 2) ou plus (N 3) ? Lexplication B nous donne la rponse.
Explication B. Lcart-type dcrit la diffrence moyenne entre cha-
que observation et la moyenne de la distribution. Lchantillon extrait de
la population la reprsente bien condition quil soit alatoirement tir.
La slection alatoire implique lindpendance des observations. Aucune
observation ne doit tre influence par une autre, elles doivent toutes tre
indpendantes. Donc, lcart-type de lchantillon reprsente bien lcart-
type de la population si toutes les diffrences qui proviennent de lchan-
tillon sont indpendantes. Or, lorsquon calcule la variance des chantillons,
une des diffrences nest jamais indpendante !
Les donnes du Tableau 8.4 prsentent le problme. On y trouve la
moyenne dun chantillon compos de trois observations. La moyenne de
ces trois valeurs est M = 2. Le tableau indique la valeur obtenue pour les
observations A et B (1 et 2 respectivement), mais la valeur de lobservation
C nest pas indique. Quest-ce que cette dernire valeur doit ncessaire-
ment tre ?
Si vous tes capable de dduire la valeur de lobservation C partir des
autres informations disponibles (la moyenne plus les deux autres valeurs
dans lchantillon), cela implique que cette dernire information (C) nest
pas indpendante : sa valeur est dtermine par les autres informations.
Ntant pas indpendante, cette observation ne respecte pas lun des deux
principes fondamentaux pour la slection alatoire des chantillons. Avant
de lire le prochain paragraphe, le lecteur devrait tenter de dduire la valeur
que doit prendre lobservation C du Tableau 8.4.
Pour trouver cette valeur, il faut calculer les carts entre chaque obser-
vation disponible et la moyenne des observations. La troisime colonne du
tableau montre que les carts entre les deux premires observations et la
moyenne sont respectivement de 1 et 0. Au chapitre 3, nous avons vu que
228 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

la somme des carts entre la moyenne et les valeurs est toujours gale
zro. La somme des deux premiers carts tant 1 + 0 = 1, il faut que
lcart de lobservation C soit gal + 1 ( 1 + 0 + 1 = 0). Si nous ajoutons
+ 1 la moyenne, nous obtenons 3, ce qui est, dans ce cas, la valeur que
lobservation C prend obligatoirement. Puisque nous avons t capables de
dduire la valeur manquante pour lobservation C partir des autres obser-
vations et de la moyenne, cette observation ne peut prendre nimporte
quelle valeur et, par consquent, elle nest pas indpendante. Cette dernire
observation C ne respecte pas le critre de la slection alatoire.
Lorsque nous calculons la variance de lchantillon, nous divisons la
somme des carts au carr par N 1 afin dliminer statistiquement lin-
fluence dune observation qui nest pas alatoire. La correction doit se faire
en rduisant la taille de lchantillon N par une seule observation : N 1
(et non pas N 2, ou N 3) car seule une observation est non indpen-
dante. Cette correction la division par le degr de libert maintient
la caractristique compltement alatoire de lchantillon, ce qui est essen-
tiel puisque linfrence la population nest valide que lorsque toutes les
informations provenant dun chantillon sont alatoirement extraites de
la population. Voil pourquoi nous disons que la formule de calcul de la
variance (et cart-type) de lchantillon produit une estimation non biaise
du paramtre de la population ().

Tableau 8.4
Concept de degr de libert

Observation Valeur obtenue cart relatif la moyenne

A 1 1 2 = 1

B 2 22=0

C ? ? 2 =?

Moyenne pour les 3


2
observations
LES CONCEPTS DE LINFRENCE STATISTIQUE 229

Quiz rapide 8.5


Calculez la moyenne des valeurs du Tableau 8.4 en dnissant 4 comme la
valeur de lobservation C. La moyenne trouve est-elle de 2 ? Refaites le calcul,
mais cette fois, utilisez la valeur 3 pour lobservation C. La moyenne ainsi calcule
est-elle juste ?

Le calcul de la variance dun chantillon avec ou sans correction pour


les degrs de libert ne fait pas une grande diffrence lorsquon travaille
avec de grands chantillons. Mais lorsquon le fait avec de petits chan-
tillons, la diffrence peut tre trs apprciable. Cela est particulirement
important pour les champs disciplinaires contraints de travailler avec de
petits chantillons. Par exemple, les recherches en neuropsychologie ou
celles qui exprimentent sur des singes sont gnralement limites de trs
petits chantillons et, dans ce cas, la correction pour le degr de libert est
essentielle.

Quiz rapide 8.6


Choisissez la bonne formule de la variance pour les deux cas suivants. Cas 1 : Vous
dsirez dterminer la variance des notes en statistiques pour votre classe. Cas 2 :
Vous dsirez dterminer la variance des notes en statistiques pour tous les
tudiants de luniversit partir de celles obtenues dans votre cours.

LA THORIE, LHYPOTHSE ET LA VRIFICATION


DE LHYPOTHSE NULLE

La thorie, lhypothse et la vrification de lhypothse nulle forment le


trpied sur lequel repose la mthode scientifique.
Une thorie est une explication de la ralit. Par exemple, la tho-
rie de lanxit explique le phnomne problme de lecture chez
les enfants . Cette reprsentation de la ralit pouvant tre juste ou
fausse, il est ncessaire de la vrifier empiriquement.
La vrification empirique de la thorie exige la mise en place de deux
hypothses, lhypothse et son inverse, lhypothse nulle.
Lhypothse est une consquence observable qui dcoule de la thorie
et qui devrait tre vraie si la thorie est juste.
Lhypothse nulle est linverse de lhypothse.
230 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Faire la lecture aux petits chiens


Un certain nombre denfants prouvent des difcults en lecture. Une thorie explique
que ces enfants vitent la lecture parce que cette activit leur cause de lanxit. Inspi-
re par cette thorie, une psychologue scolaire postule lhypothse selon laquelle une
intervention qui rduirait lanxit aurait comme effet dencourager et damliorer la
lecture chez cette population dcoliers. Elle dsire vrier son hypothse. Elle choisit
alatoirement deux chantillons de cette population denfants. Lors des priodes sco-
laires consacres la lecture, un des deux chantillons, le groupe exprimental, va lire
un conte pour enfants un petit chien ! Lautre, lchantillon tmoin, suit le programme
habituel. la n de lanne, le niveau de lecture moyen atteint par lchantillon expri-
mental est compar celui du groupe tmoin. Lhypothse est-elle conrme ? Linter-
vention devrait-elle tre gnralise toutes les coles ?

La terre est-elle ronde ?


Il y a de cela plusieurs milliers dannes, les philosophes grecs ont formul la thorie
selon laquelle la terre tait ronde plutt que plate. De cette thorie dcoulait lhypo-
thse suivante : si la terre est ronde, en observant lhorizon au-dessus de la mer, celui-ci
devrait apparatre courb plutt que droit. Lhypothse nulle, dans ce cas, est que lho-
rizon nest pas courb.

Si la thorie est juste, il sensuit que lhypothse (une prdiction qui


dcoule de la thorie) sera empiriquement vrifie. Par exemple, lhypo-
thse selon laquelle la lecture aux petits chiens amliore la lecture sera vraie
si le groupe denfants de lchantillon exprimental obtient de meilleurs
rsultats en lecture que les enfants du groupe tmoin. Si les rsultats obte-
nus dans les deux groupes sont gaux, lhypothse nest pas confirme, et
cela jette un doute sur la thorie qui la inspire. On attribue gnralement
lhypothse le symbole H . Si nous avons plusieurs hypothses, nous les
distinguons avec des numros (H1, H2, etc.). Formulons lhypothse pour
ltude portant sur la lecture faite aux petits chiens.
H : Les enfants qui font la lecture aux petits chiens amliorent leur
niveau de lecture plus que les enfants qui ne font pas ce type de lecture.
La vrification de lhypothse est un ensemble de rgles qui tablissent
les conditions sous lesquelles on peut tester lhypothse. La faon de proc-
der est dtablir une hypothse nulle. Lhypothse nulle est (1) linverse de
lhypothse ; et (2) reprsente une situation hypothtique prcise qui peut
tre ds lors teste de faon prcise. Par exemple, si on pose lhypothse que
les hommes et les femmes sont de taille diffrente, alors lhypothse nulle
LES CONCEPTS DE LINFRENCE STATISTIQUE 231

postule que les hommes et les femmes sont de mme taille. Cette hypo-
thse nulle propose une galit de taille entre les membres des deux sexes.
Cette situation prcise est facile tester : il suffit de tirer alatoirement de la
population un chantillon de femmes et un chantillon dhommes, de les
mesurer tous, de calculer la taille moyenne de chaque groupe et de vrifier
si ces deux moyennes sont gales ou non.
La notion dhypothse est un des piliers de la mthode scientifique.
La vrification de lhypothse est une structure de rgles qui tablissent
les conditions qui doivent tre vraies pour accepter ou rejeter lhy-
pothse. Formellement, les procdures statistiques ne sont pas capables
dindiquer si une hypothse est vraie . En revanche, elles sont tout fait
capables dindiquer si une hypothse est fausse . Les statistiques ne nous
permettent pas daccepter une hypothse, mais elles nous permettent
de la rejeter . Comment alors confirmer une hypothse ? La mthode
scientifique propose de jumeler lhypothse H une hypothse rivale, lhy-
pothse nulle, H0 qui est son inverse.
Si H prdit quil y a une diffrence ou une corrlation, H0 prdit tou-
jours quil ny a pas de diffrence ou de corrlation.
Si nous rejetons lhypothse nulle (H0 est fausse), son hypothse
inverse (H) doit tre vraie (il y a une diffrence ou une corrlation).
Si nous ne rejetons pas lhypothse nulle (H0 nest pas fausse), cela
ne voudrait pas ncessairement dire que H est fausse. Nous sommes
limits dire que nous ne pouvons pas accepter H.
Le langage utilis pour faire une distinction entre le rejet et le non-rejet
de lhypothse et de lhypothse nulle est certes un peu opaque, mais il va
au cur de linfrence, et avec un peu dapplication en tudiant les pages
suivantes, on peut le matriser.
Appliquons ces rgles ltude portant sur les troubles de lecture des
enfants. Les Formules 8.2a et 8.2b indiquent le jeu dhypothses que la
mthode scientifique exige. Puisque cette exprience est faite dans le but de
tirer une conclusion au sujet de la population (tous les enfants qui ont des
troubles de lecture), il faudrait faire une comparaison entre la moyenne des
deux populations, E et T. Si notre thorie est juste, la population denfants
bnficiant de cette intervention devrait tre diffrente (en ce qui concerne
la comptence en lecture) de celle des enfants qui nen bnficient pas. Les
232 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Formules 8.2a et 8.2b dcrivent symboliquement lhypothse et lhypothse


nulle :
H : E T Formule 8.2a

H0 : E = T Formule 8.2b
o H et H0 sont respectivement lhypothse et lhypothse nulle et E et T
sont les moyennes des populations des enfants qui font (E) ou ne font pas
(T) la lecture aux petits chiens.

Quiz rapide 8.7


Vous observez plusieurs voitures qui roulent sur lautoroute 100 km/h. Or, plus
loin sur la route, il y a des gravats sur la chausse. Lorsque les chauffeurs les
verront, que croyez-vous quils feront ? Quelle est votre hypothse ?
Votre hypothse nulle ? Pouvez-vous les crire avec des symboles ?

Cependant, nous ne pouvons pas calculer la moyenne de la popula-


tion puisque nous navons pas accs la population dobservations. En
revanche, nous savons que la meilleure estimation de la moyenne de la
population est la moyenne de lchantillon. Si la thorie est juste et si les
chantillons sont tirs alatoirement, les enfants qui participent lexp-
rience (le groupe exprimental, not E) nobtiendront pas le mme rsultat
en lecture que le groupe qui ny participe pas (le groupe tmoin, not T). La
moyenne tant la meilleure estimation de performance en lecture de cha-
que distribution, nous devons alors comparer la moyenne en lecture obte-
nue par chaque chantillon denfants (ME et MT ).
Lorsque les moyennes des deux groupes sont trs dissemblables, nous
rejetons lhypothse nulle (elle est fausse), ce qui nous contraint
accepter son oppose : H. Celle-ci est vraie, ce qui appuie la thorie et
renforce ainsi notre confiance en sa vracit.
Lorsque les moyennes des deux groupes sont les mmes, nous ne
pouvons pas rejeter lhypothse nulle (nous ne pouvons pas conclure
quelle est fausse). Puisque nous ne pouvons rejeter H0, nous ne pou-
vons pas accepter H. Cependant, nous navons pas dmontr que H est
fausse, seulement quil ny a pas de preuves quelle soit vraie.
LES CONCEPTS DE LINFRENCE STATISTIQUE 233

Tout cela mne aux deux conclusions suivantes :


Si H0 est rejete (fausse), H est ncessairement vraie.
Si H0 nest pas rejete (nest pas fausse), la preuve que H est vraie nest
pas tablie, mais H nest pas ncessairement fausse.
Les exemples suivants illustrent cette importante subtilit.

Quiz rapide 8.8


Le philosophe Montesquieu formula la thorie suivante : les conditions climati-
ques ayant un impact sur le temprament des humains, les habitants des pays
nordiques sont moins motifs que ceux des pays plus chauds. laborez une hypo-
thse et une hypothse nulle empiriquement vriables qui dcouleraient de
cette thorie.

Exemples dhypothses et dhypothses nulles

Les illustrations suivantes serviront bien saisir les nuances importantes


entre lhypothse et lhypothse nulle ainsi que les conclusions auxquelles
elles mnent. Les licornes sont ces chevaux mythologiques qui portent une
corne au milieu du front. On aimerait prouver que les licornes existent. On
tablit donc un jeu dhypothses comprenant lhypothse (H) et son oppo-
se, lhypothse nulle (H0).

H : Les licornes existent, cest--dire que le nombre de licornes 0.

H0 : Les licornes nexistent pas, cest--dire que le nombre de licornes = 0.

On lance une expdition pour trouver des licornes en fouillant toutes


les capitales europennes, les savanes africaines et les forts tropicales. En
vain. Peut-on affirmer que les licornes nexistent pas ? Peut-tre existent-
elles en Arctique ou peut-tre sont-elles plus capables de se cacher que vous
ne ltes de les trouver ? On ne peut pas accepter H (elles existent), mais on
ne peut pas plus accepter H0 (elles nexistent pas). On peut remarquer la
subtilit : notre intention tait de prouver que les licornes existent. Or, les
donnes ne confirment pas leur existence, mais elles ne dmontrent pas
quelles nexistent pas : cest le statu quo ! Dans ce cas, nous navons aucune
preuve de lexistence des licornes, mais on ne peut pas conclure que les licor-
nes nexistent pas.
234 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Utilisons nos symboles pour formaliser notre qute. Dans notre chan-
tillon, nous navons pas trouv de licornes. Nous concluons alors :

Non-rejet de H0 : il ny a pas de preuves que les licornes existent


(H nest pas prouv).

Il ne reste qu demander une nouvelle subvention au gouvernement


afin de poursuivre nos recherches sur lexistence des licornes
Supposons que lon trouve une licorne (elle se cachait en Provence).
Lhypothse nulle (H0) est maintenant rejete, car au moins une licorne
existe. Par consquent, on doit accepter H et conclure que les licornes exis-
tent. Utilisons nos symboles pour tirer cette conclusion :

Rejet de H0 : les licornes existent !

Prenons un deuxime exemple : lvaluation de lintervention portant


sur les difficults de lecture des enfants.
Lhypothse nulle stipule que la lecture aux petits chiens namliore
pas la comptence en lecture des enfants. Dans ce cas, elle prvoit que la
moyenne pour le groupe tmoin et le groupe exprimental est la mme :
H0 : ME = MT (ce qui implique E = T).
Lhypothse (H), quant elle, avance que la lecture aux petits chiens
amliore la comptence en lecture des enfants. Cest--dire que la comptence
en lecture moyenne des deux groupes ne sera pas la mme : H : ME MT (ce
qui implique que E T).
Il ne reste qu examiner les rsultats de lexprience. Si la moyenne en
lecture obtenue par les enfants est sensiblement gale pour les deux grou-
pes, on ne peut pas rejeter H0. Puisquon ne rejette pas H0, on ne peut pas
accepter H et conclure que la lecture aux petits chiens favorise la comp-
tence en lecture. Mais on ne peut pas conclure quelle ne la favorise pas.
En effet, la thorie nous indique que le stress est la cause des problmes
de lecture chez les enfants, et lhypothse propose que la lecture aux petits
chiens rduit le stress, cette rduction de stress amliorant la lecture. Puis-
que nous ne pouvons pas rejeter lhypothse nulle, nous ne pouvons pas
conclure que la thorie est juste. Mais nous ne pouvons pas assurment
conclure, sur la seule base de cette tude, que la thorie est fausse. Peut-
LES CONCEPTS DE LINFRENCE STATISTIQUE 235

tre que dautres techniques de rduction du stress pourraient favoriser la


comptence en lecture, ou peut-tre que la lecture aux grands chiens plutt
quaux petits chiens aurait plus deffets.
Ainsi, lhypothse nulle ne peut jamais tre dmontre. Cette rgle logi-
que est applicable toutes les formulations dhypothses. Lhypothse peut
cependant tre appuye de deux faons : a) si les enfants qui reoivent lin-
tervention deviennent meilleurs que les enfants qui ne la reoivent pas ; ou
b) si les enfants qui ne reoivent pas lintervention sont suprieurs ceux
qui la reoivent ! Cette distinction entre les hypothses est aborde dans le
prochain chapitre dans la section portant sur les hypothses unicaudales vs
les hypothses bicaudales.
Le texte suivant illustre ces concepts en prsentant un exemple politico-
militaire rel.

Lhypothse nulle et la guerre en Irak


Lhistoire de la guerre en Irak offre une illustration frappante que lhypothse nulle ne
peut jamais tre prouve.
En 2003, larme amricaine envahit lIrak et justie son attaque en afrmant que
ce pays possde des armes de destruction massive (ADM). Les inspecteurs de lONU
afrment le contraire : LIraq ne possde pas dADM. Qui a raison ? Pouvons-nous conr-
mer lhypothse amricaine (H) et prouver que celle de lONU, lhypothse nulle (H0),
est fausse ?
Nous avons deux hypothses rivales :
H0 : Le nombre dADM en Iraq = 0 (hypothse nulle de lONU).
H : Le nombre dADM en Iraq 0 (hypothse amricaine).
la suite de linvasion, les troupes amricaines lancent des fouilles, mais ne trou-
vent aucune ADM. Puisque nous ne pouvons pas rejeter H0, nous ne pouvons pas accep-
ter H, lhypothse des Amricains. Mais lONU ne peut pas plus afrmer que H0 est vraie
et conclure quil ny a pas dADM en Irak. Aprs tout, il est possible quil y en ait en Iraq,
mais quelles naient pas encore t dcouvertes.
LONU peut, par contre, afrmer quil nexiste pas de preuve voulant que lhypo-
thse de larme amricaine soit vraie. Il est faux de conclure quil nexiste pas dADM
en Irak, mais il est juste de conclure quil ny a aucune preuve de leur existence.
Supposons que lon dcouvre une seule ADM dans ce pays. On pourrait alors rejeter
H0 et, ce faisant, on serait contraints daccepter H. Ainsi, on rejette ou on ne rejette pas
H0. Mais on ne peut jamais laccepter !
236 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

La uctuation dans les chantillons alatoires

Supposons que la note moyenne obtenue par les tudiants un examen


est de 70 % ; supposons galement que lon prend alatoirement cinq tu-
diants du cours et que lon calcule leur moyenne lexamen. Est-ce que
la moyenne obtenue par ces tudiants sera de 70 % ? Il est fort probable
que non. Leur note moyenne sera au moins un peu diffrente. Supposons
maintenant que lon choisit (alatoirement) cinq autres tudiants et que
nous calculons la note moyenne obtenue par ce deuxime chantillon de
cinq personnes. Cette moyenne sera-t-elle gale 70 % ? Encore une fois, il
y a fort parier quelle ne sera pas exactement de 70 %. Deux chantillons
tirs de la mme population peuvent avoir des moyennes diffrentes. Cha-
que chantillon provient dune population. Dans la population, les obser-
vations individuelles se rpartissent travers les valeurs de la variable. Sous
la prsomption dune distribution normale, par exemple, la plupart des
observations seront proches de la moyenne () alors que dautres obser-
vations, certes plus rares, mais nanmoins prsentes, se situeront plus loin
de la moyenne. Puisque les chantillons sont alatoirement extraits de la
population, il est quasi certain que presque tous contiendront une propor-
tion au moins lgrement diffrente dobservations proches ou loignes
de la moyenne. Par consquent, les chantillons seront tous au moins un
peu diffrents les uns des autres. Puisque la moyenne est tributaire des
observations que lchantillon contient, il est tout aussi quasi certain que
la moyenne de plusieurs chantillons extraits de la mme population sera
minimalement quelque peu diffrente.
Dans ces conditions, obtenir deux chantillons ayant trs prcisment
la mme moyenne est virtuellement impossible. Cette fluctuation naturelle
dans les chantillons alatoires sappelle lerreur dchantillonnage. Une
analogie avec une pice de monnaie permet de mieux saisir le problme.
Nous savons que lorsque nous jouons pile ou face, nous avons autant
de chances dobtenir face que pile et ce, nimporte quel lancer. Nous
pouvons exprimer ce constat en disant que dans la population, les piles
et les faces sont galement frquentes, ce qui implique que la probabilit
dobtenir un lancer face est gale celle dobtenir un lancer pile, et que la
probabilit de chacun est de 0,50. Nous concluons que la moyenne de la
LES CONCEPTS DE LINFRENCE STATISTIQUE 237

population de faces est face = 0,50. Imaginons la toute premire fois quune
extraterrestre joue pile ou face. Elle dsire estimer si les piles et les faces
sont galement probables. Elle pose son problme sous la forme dhypo-
thses :

H0 : f = p (piles et faces dans la population


sont galement frquentes).
H : f p (piles et faces dans la population
ne sont pas galement frquentes).

Elle conoit une exprience qui lui permettra de trancher. Elle constitue
un premier chantillon dobservations en lanant une pice de monnaie dix
fois. Elle note les rsultats obtenus en codant pile = 0 et face = 1. Elle calcule
le nombre moyen de fois ou la pice retombe sur face dans cet chantillon
de 10 lancers. Si la moiti des lancers donne face, la moyenne sera 0,50. Si
30 % des lancers donnent des faces, la moyenne sera 0,30.
La premire ligne du Tableau 8.5 prsente ses rsultats. Son premier
chantillon possde un nombre gal de lancers piles et faces (Mf = Mp =
0,50). Lextraterrestre conclut alors au non-rejet de H0 : vraisemblablement,
elle naurait pas de bonnes raisons de croire que la population de piles et de
faces nest pas gale 0,50.
Pour avoir plus de certitude, elle rpte lexprience neuf autres fois et
calcule la moyenne de faces pour chacune des neuf expriences, chacune
tant compose de 10 lancers. Si elle trouve que la moiti des lancers donne
des faces, la moyenne de faces sera gale 0,5 et, par consquent, elle ne
pourra pas rejeter H0. Si elle trouve une moyenne autre que 0,5, elle pourra
alors rejeter H0.
sa grande surprise, son deuxime chantillon (ligne 2 au Tableau 8.5)
la force rviser sa conclusion. Ici, Mf Mp. Elle se doit de tirer la conclu-
sion inverse et de rejeter H0 (f 0,50). Lexamen des autres expriences ne
fait quaugmenter la confusion. Parce que les chantillons ne produisent
pas tous les mmes rsultats, ils produisent des conclusions diffrentes,
rejet ou non de H0 (on remarque les rsultats diamtralement opposs des
chantillons 9 et 10).
238 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Tableau 8.5
Moyenne de faces dans 10 chantillons tirs alatoirement dune population
de rsultats pile ou face

Nombre de faces Proportion


chantillon Dcision
sur 10 lancers de faces

1 5 5/10 = 0,5 non-rejet de H0

2 3 3/10 = 0,3 rejet de H0

3 6 6/10 = 0,6 rejet de H0

4 8 8/10 = 0,8 rejet de H0

5 4 4/10 = 0,4 rejet de H0

6 5 5/10 = 0,5 non-rejet de H0

7 4 4/10 = 0,4 rejet de H0

8 6 6/10 = 0,6 rejet de H0

9 0 0/10 = 0,0 rejet de H0

10 10 10/10 = 1,0 rejet de H0

Total pour les


51 51/100 = 0,51 rejet de H0
10 chantillons

Quelle est alors lestimation la plus raisonnable de la proportion de


piles et de faces dans la population ? Celle qui provient de lchantillon 2 ?
3 ? 7 ? etc. ? La confusion de lextraterrestre vient du fait quelle sattend
retrouver dans lchantillon trs prcisment ce quelle suppose dans
la population. Elle ignore que les diffrents chantillons sont assujettis
lerreur dchantillonnage. Les moyennes des chantillons diffrent plus ou
moins les unes des autres et la plupart ne tomberont pas exactement sur
la moyenne de la population. Lerreur dchantillonnage est invitable, car
la moyenne de lchantillon nest quune estimation de la moyenne de la
population.
la dernire minute, lextraterrestre se souvient dun principe impor-
tant : les chantillons plus grands produisent une estimation plus prcise de
la moyenne de la population. Elle calcule la moyenne du nombre de faces
base sur les 100 lancers. Elle obtient Mf = 0,51. Elle estime alors que 0,51
est une excellente estimation de la moyenne relle. La conclusion rete-
LES CONCEPTS DE LINFRENCE STATISTIQUE 239

nir est quaccrotre la taille de lchantillon augmente le degr de prcision


dans lestimation que les statistiques font des paramtres. la limite, un
chantillon de taille gale la taille de la population est un estimateur par-
fait.
En utilisant la moyenne base sur la totalit des chantillons (Mf = 0,51
au Tableau 8.5), lextraterrestre est tente de rejeter H0 qui prvoit que
f = 0,50. Mais elle a retenu sa leon : la diffrence entre la proportion de
faces (0,51) et la proportion de piles (0,49) ne serait-elle pas attribuable
lerreur dchantillonnage ? Supposons quelle dcide nanmoins de rejeter
lhypothse nulle : sa dcision pourrait tre justifie, car la proportion de
faces quelle a obtenue, mme aprs 100 lancers, nest pas exactement 0,50,
comme le stipule lhypothse nulle. Mais on sait que la proportion de piles
et de faces est en ralit gale. En rejetant H0, notre extraterrestre va dans ce
cas commettre une erreur dinfrence.

Les erreurs dinfrence

Les joueurs de pile ou face savent que la vraie moyenne de faces dans la
population est en ralit de 0,50. Pourtant, cette valeur ne se retrouve pas
dans 80 % des chantillons du Tableau 8.5 ! chaque fois que lextraterres-
tre conclut au rejet de H0, elle fait une erreur dinfrence : elle conclut par-
tir dun chantillon quil existe une diffrence entre le nombre de piles et
le nombre de faces alors quen ralit, il nen existe pas dans la population.
Cette erreur prend le nom derreur de type I (ou derreur alpha).
Lerreur de type I (erreur alpha) consiste conclure partir des chantillons
quil existe une diffrence dans la population alors quil nen existe pas.
Mais supposons que la pice de monnaie est truque : la vraie moyenne
de faces pour cette pice tant = 0,40. partir de deux chantillons (1 et
6 au Tableau 8.5), nous aurions conclu que le nombre de piles et de faces
est gal, alors quen ralit, il ne lest pas. Dans ce cas, nous faisons une
erreur dinfrence qui se nomme erreur de type II ou erreur bta.
Lerreur de type II (erreur bta) consiste conclure partir des chan-
tillons quil nexiste pas de diffrence dans la population alors quil en existe
une.
240 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Au Tableau 8.6, nous voyons qu partir des rsultats obtenus dans


lchantillon, on peut soit conclure au rejet de H0, soit conclure son non-
rejet. Si lon rejette H0 et quil existe une diffrence dans la population,
notre conclusion est juste. Si lon ne peut pas rejeter H0 et quil ny a pas de
diffrence dans la population, notre conclusion est juste aussi. Mais si nous
rejetons H0 et quil ny a pas de diffrence dans la population, notre conclu-
sion est fausse : il sagit dune erreur de type I (alpha). Si nous concluons
quil ny a pas de diffrence, alors quelle existe en ralit dans la popula-
tion, nous faisons une erreur de type II (bta).

Tableau 8.6
Erreurs dinfrence de type I () et de type II ()

La conclusion consiste La diffrence relle dans la population

existe (1 2). nexiste pas (1 = 2)

rejeter H0 (car M1 M2) Conclusion juste Erreur de type I


(erreur alpha)

ne pas rejeter H0 Erreur de type II Conclusion juste


(car M1 = M2) (erreur bta)

Quiz rapide 8.9


Un chercheur sintresse la relation entre le tabagisme et le cancer. Il injecte
de la fume de cigarette dans la cage de trois rats (groupe avec traitement).
trois autres rats alatoirement choisis, il ninjecte pas de fume (groupe sans
traitement). Trois semaines plus tard, il excute des biopsies sur les rats et observe
quaucun rat nest atteint de cancer. Il ne rejette pas lhypothse nulle et conclut
que la fume de cigarette ne cause pas le cancer. Quelles taient ses hypothses ?
tes-vous en accord ou en dsaccord avec cette conclusion ? Pourquoi ?

Une ou plusieurs populations ?

La Figure 8.1 reprsente le polygone des effectifs de deux chantillons ind-


pendants et alatoires provenant, prsumons-le, de la mme population.
En slectionnant un chantillon au hasard, les units dobservations qui
composent lchantillon peuvent provenir de nimporte quelle partie de
la distribution, y compris de ses extrmes. Par pur hasard, certains chan-
LES CONCEPTS DE LINFRENCE STATISTIQUE 241

tillons contiendront plus dobservations se trouvant aux extrmes de la


distribution et certains autres moins, ce qui causera une diffrence entre
leurs moyennes. La Figure 8.1 montre une population dont la moyenne est
(indique par la flche centrale). De cette population, deux chantillons
(M1 et M2) sont alatoirement tirs. La moyenne de chacun de ces deux
chantillons est indique par une flche en pointill. La double flche de la
Figure 8.1 reprsente la diffrence entre les moyennes des deux chantillons.

gure 8.1 Moyennes de deux chantillons (M1 et M2) extraits de


la mme population dont la moyenne est

M1 M2

Lorsque nous tirons un chantillon alatoire dune distribution nor-


male et que nous calculons sa moyenne, nous obtenons du mme coup
la meilleure estimation de la moyenne de la population. Un deuxime
chantillon alatoire extrait de cette mme population produira lui aussi
une moyenne qui sera la meilleure estimation de la population. Mais il
est certain que cette deuxime moyenne ne sera pas identique celle du
premier chantillon (Figure 8.1). Puisque nous prsumons quil nexiste
quune seule moyenne dans la population4 , quelle est la bonne esti-
mation de la moyenne de la population : celle qui provient du premier ou

4. Il ne faut pas oublier que nous prsumons que la distribution de la population est
normale. Les distributions normales sont unimodales, ce qui implique que chaque
distribution naura quune seule moyenne.
242 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

du deuxime chantillon ? Comment interprter cette diffrence entre les


moyennes des chantillons ? Deux interprtations sont plausibles.
Interprtation 1. Il y a une erreur dans lun ou lautre des chantillons,
ou dans les deux lorsque lon fait une estimation de la moyenne de la
population . Dans ce cas, la diffrence entre les moyennes des chan-
tillons est attribuable lerreur dchantillonnage.
Interprtation 2. Il ny a pas derreur destimation de la moyenne
dans les deux chantillons. Puisque chaque population ne peut avoir
plus dune moyenne, il faut conclure que les chantillons proviennent
de populations diffrentes !
Afin de trancher entre ces deux interprtations, nous allons faire appel
au concept de lerreur type de la moyenne. Ce concept est directement tri-
butaire du concept de lerreur dchantillonnage : puisque les chantillons
extraits de la mme population ne sont quasi jamais identiques, il sensuit
que les moyennes de ces chantillons ne le seront pas non plus. La fluc-
tuation naturelle des moyennes des chantillons, provoque par lerreur
dchantillonnage, se calculera ventuellement dans une nouvelle statis-
tique, lerreur type de la moyenne. Lerreur type de la moyenne est donc
la diffrence typique que lon trouve dans les moyennes de plusieurs
chantillons tirs de la mme population. Le prochain chapitre expliquera
la mcanique de cette valeur, mais pour linstant, tenons-nous-en ses
principes.
Supposons que nous avons le QI de deux chantillons de jeunes, un
groupe de jeunes qui portent des chandails verts (V), lautre des chandails
bleus (B). Nous dsirons savoir si ceux qui portent des chandails verts ont
des niveaux de QI diffrents de ceux qui portent des chandails bleus. ta-
blissons dabord nos hypothses

H0 : Le QI moyen des deux populations est gal (v = b).


H : Le QI moyen des deux populations nest pas gal (v b).

Si nous concluons H, cela voudra dire que la population de QI pour les


verts nest pas la mme que la population de QI des bleus . Nous avons
deux populations distinctes.
LES CONCEPTS DE LINFRENCE STATISTIQUE 243

Si nous concluons H0, nous navons pas de raison de croire que les jeu-
nes vtus de vert nappartiennent pas la mme population de QI que ceux
qui portent des chandails bleus.
Nous trouvons les rsultats suivants : Mv = 105, Mb = 95. La diffrence
est de 10 points de QI. Maintenant, supposons que lon a linformation
suivante : il arrive frquemment que les moyennes de deux chantillons
de QI tirs de la mme population diffrent par 10 points de QI. Autre-
ment dit, la diffrence typique entre deux chantillons extraits de la mme
population est de 10. Puisque la diffrence que vous avez observe entre les
deux moyennes est gale la diffrence que lon observe typiquement entre
deux moyennes tires de la mme population, nous navons pas de base
raisonnable pour conclure que la diffrence observe rvle lexistence de
deux populations. Par consquent, il faut conclure labsence de preuves
voulant que les verts et les bleus proviennent de populations diffrentes, et
on ne peut pas rejeter H0. Ce faisant, il nest pas possible daccepter H.
Mais supposons que la diffrence typique entre deux chantillons
lerreur dchantillonnage est de 2. Maintenant, la diffrence observe
entre les deux moyennes (10) est bien plus grande que la diffrence typi-
que , ce qui permet de rejeter H0 et donc de conclure que les deux chan-
tillons proviennent de populations diffrentes.
Cette comparaison de la taille de la diffrence entre les moyennes des
chantillons et lerreur type de la moyenne forme la base de nombreux
tests statistiques, et cest partir de cette comparaison quil sera possible
de trancher entre lhypothse et lhypothse nulle. La mcanique de cette
comparaison est lobjet du chapitre 9.

Les hommes viennent de Mars, les femmes viennent de Vnus

John Gray, lauteur de Les hommes viennent de Mars, les femmes viennent
de Vnus, ne se doutait pas que son best-seller servirait un jour dexemple
dans un ouvrage de statistique ! Dans son livre, John Gray illustre les nom-
breuses diffrences qui existent entre les hommes et les femmes dans leur
faon de voir la vie. En langage statistique, il nous dit que les hommes et
les femmes forment deux populations (lune de Mars, lautre de Vnus).
Vrifions son hypothse en choisissant une variable (disons la tolrance
244 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

au dsordre, par exemple) sur laquelle les Martiens et les Vnusiennes


devraient diffrer si la thorie de Gray est juste.
Les hypothses sont :
H : La tolrance des hommes et des femmes face au dsordre nest pas la
mme. Ils font partie de deux populations diffrentes (Mars et Vnus).
H0 : La tolrance des hommes et des femmes face au dsordre est la
mme. Ils font partie de la mme population (les Terriens ?).
Nous choisissons alatoirement un groupe dhommes et un groupe de
femmes et nous plaons chaque membre de chaque groupe dans une salle
en dsordre. Aprs une heure, nous demandons chaque personne de
dcrire son exprience. Au cours dune entrevue de 5 minutes, nous comp-
tons pour chaque personne le nombre de fois quelle parle du dsordre
dans la salle.
Les hypothses sont donc :
H : Les hommes et les femmes ne mentionnent pas le dsordre gale-
ment (h f).
H0 : Les hommes et les femmes mentionnent le dsordre galement
(h = f).
Les donnes de notre exprience sont les suivantes : en moyenne, les
hommes font 4 fois mention du dsordre (Mh = 4), alors quen moyenne,
les femmes en font mention 8 fois (MF = 8). La diffrence entre ces deux
moyennes est de 4 mentions de dsordre. Supposons que la diffrence typi-
que est de 5, cela veut dire que deux chantillons provenant de la mme
population peuvent avoir des moyennes qui diffrent par 5. Autrement
dit, il est possible de trouver une diffrence de 5 points entre deux chan-
tillons de femmes ou entre deux chantillons dhommes. Puisque nous
avons trouv une diffrence de 4 et que la diffrence typique est de 5, nous
ne pouvons pas rejeter lhypothse nulle et conclure que nous avons deux
populations. Nous navons pas de relles vidences que les hommes vien-
nent de Mars et les femmes de Vnus. Dans ce cas, nous ne pouvons pas
rejeter H0.
LES CONCEPTS DE LINFRENCE STATISTIQUE 245

Supposons que la diffrence obtenue entre les hommes et les femmes est de 10 points.
Nous voyons maintenant que la diffrence typique (5 points) est beaucoup plus petite
que la diffrence observe (10 points). Nous pouvons dsormais rejeter H0 et, par
consquent, nous acceptons H. Eh oui, les hommes et les femmes viennent de deux
plantes diffrentes ou, statistiquement parlant, ils appartiennent des populations
diffrentes !

SOMMAIRE DU CHAPITRE

Lanalyse statistique sert tirer une conclusion au sujet dune population


partir dun chantillon qui en est alatoirement extrait. La population
reprsente toutes les valeurs qui existent sur une variable, alors que lchan-
tillon fait rfrence un sous-ensemble de cette information. Lorsque les
chantillons sont alatoirement tirs dune population, ils ont de bonnes
chances de la reprsenter adquatement. Un chantillon est alatoire lors-
que chaque individu de la population dtient une chance gale de faire par-
tie de lchantillon et lorsque la rponse de chacun nest pas influence par
la rponse des autres. Les statistiques dcrivant ces chantillons fournissent
une estimation des paramtres de la population et, de ce fait, en donnent
une description. Nous laborons une hypothse que nous comparons son
oppose, lhypothse nulle. La vrification des hypothses implique la col-
lecte dinformations auprs dchantillons et le test de lhypothse consiste
comparer les chantillons entre eux. Mais la simple comparaison entre
les moyennes des chantillons nest pas directement interprtable, car il
existe une fluctuation naturelle entre tous les chantillons, quils soient ou
non extraits de la mme population. Cette fluctuation naturelle, lerreur
dchantillonnage, est essentielle pour linterprtation des rsultats. Enfin,
lorsque nous tirons des conclusions au sujet des chantillons, celles-ci peu-
vent parfois tre errones, ce qui nous amne tirer des conclusions au
sujet des chantillons qui ne sont pas juste non plus. Ces erreurs dinf-
rence portent le nom derreur de type I et derreur de type II.
246 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

EXERCICES DE COMPRHENSION

1. Vous avez votre disposition lge et la taille des tudiants qui se


trouvent dans votre cours. Vous dsirez tirer des conclusions au
sujet de leur ge et de leur taille. Dans ce cas,vous seriez en train
de dcrire _______________.
a) un chantillon
b) une population
c) une population infre partir dun chantillon
d) un chantillon infr partir dune population
2. Vous postulez que les tudiants sont de plus grands consommateurs
de bire que les tudiantes. Quelle serait la formulation de lhypo-
thse nulle ?
3. La taille de lchantillon est exactement de la taille de la population.
Lerreur type dchantillonnage sera alors ____________________.
a) exactement gale lcart-type de la distribution
b) approximativement gale lcart-type de la distribution
c) exactement gale zro
d) approximativement gale zro
4. Lchantillon A est extrait dune population ayant une trs petite
variance. Lchantillon B est de la mme taille que lchantillon A,
et il est extrait de la mme population. Lerreur dchantillonnage
dans ce cas sera probablement ____________________.
a) est probablement petite
b) est probablement grande
c) peut tre grande ou petite
d) est impossible dduire avec les informations disponibles
5. La diffrence entre les moyennes sur la variable X produites par
deux chantillons est plus petite que lerreur type de la moyenne.
a) Il est certain alors que nous pouvons rejeter H0.
b) Il est certain alors que nous ne pouvons pas rejeter H0.
c) Il est certain alors que les deux chantillons proviennent
obligatoirement dune seule population.
d) Selon les tests statistiques, toutes ces rponses peuvent tre justes.
LES CONCEPTS DE LINFRENCE STATISTIQUE 247

6. Nous avons un chantillon (E) compos de 100 individus et nous


avons une population (P) compose de 100 individus. Nous dsi-
rons calculer la variance de chacune de ces distributions. Le dno-
minateur de la formule de calcul sera ______ pour la distribution E
et il sera ______ pour la distribution P.
a) 99 ; 99
b) 100 ; 100
c) 100 ; 99
d) 99 ; 100
7. Nous concluons au rejet de H0 partir de nos chantillons.
Malheureusement notre conclusion est errone. Par consquent,
nous venons de faire une erreur dinfrence de type ____.
a) I
b) II
c) I, si le nombre dobservations est petit
d) II, si le nombre dobservations est grand
8. En nous basant sur les chantillons, nous concluons quils ne pro-
viennent pas de populations diffrentes. Malheureusement, notre
conclusion est errone. Par consquent, nous venons de faire une
erreur dinfrence de type ____.
a) I
b) II
c) I, si le nombre dobservations est petit
d) II, si le nombre dobservations est grand
9. La diffrence entre les moyennes de deux chantillons est deux fois
plus grande que lerreur type de la moyenne. Nous pouvons alors
conclure quil ___________________.
a) est certain que les deux chantillons proviennent de la mme
population
b) est certain que les deux chantillons proviennent de populations
diffrentes
c) y a de bonnes chances que les deux chantillons proviennent de
la mme population
d) y a de bonnes chances que les deux chantillons proviennent de
populations diffrentes
248 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Rponses

1. b
2. Les tudiants et les tudiantes font une consommation gale
de bire.
3. c : Puisque lchantillon contient toutes les personnes de la popu-
lation, lchantillon et la population sont identiques. Il ne peut pas
exister, dans ce cas, une erreur dchantillonnage.
4. a : La variance de la population tant petite, la diffrence entre les
observations de cette population est petite. Les deux chantillons
seront alors composs dobservations trs similaires, crant une
petite erreur dchantillonnage.
5. b
6. d
7. a
8. b
9. d : Nous ne pouvons pas choisir b parce quune erreur dinfrence,
dans ce cas de type I, est toujours possible.
CHAPITRE 9
LA MCANIQUE DE LINFRENCE STATISTIQUE

Quand les chantillons alatoires ne sont pas identiques :


lerreur dchantillonnage................................................................ 252
Quantifier lerreur dchantillonnage................................................. 255
Lexprience dchantillonnage et lerreur type de la moyenne 257
Lestimation de lerreur type de la moyenne des chantillons.. 258
Lestimation de lerreur type de la moyenne en pratique .......... 259
Lutilisation de lerreur type de la moyenne................................. 260
Le thorme de la limite centrale................................................... 261
Les implications du thorme de la limite centrale
pour linfrence............................................................................ 262
La signification statistique.................................................................... 265
Le risque derreur dinfrence et le seuil de
signification (alpha) ................................................................ 268
Lintervalle de confiance....................................................................... 271
Le calcul de lintervalle de confiance............................................. 273
La valeur Z et la taille de lintervalle de confiance....................... 274
Le principe du test de signification statistique sur
un seul chantillon : H versus H0 .............................................. 277
Le test de signification statistique pour la diffrence
entre deux chantillons .............................................................. 278
Ce que la signification statistique dit et ce quelle ne dit pas .... 280
250 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Lerreur de type I et lerreur de type II ............................................... 281


Les lments qui affectent le risque dune erreur de type I
et de type II................................................................................... 282
Choisir entre les risques dune erreur de type I
ou de type II ................................................................................. 285
Sommaire du chapitre .......................................................................... 286
Comment trouver lerreur type de la moyenne ............................... 286
Exercices de comprhension ............................................................... 288
CHAPITRE 9

LA MCANIQUE DE LINFRENCE
STATISTIQUE

La vrification dune hypothse implique quon loppose une hypothse


nulle. Nous devons dcider si les chantillons proviennent ou ne pro-
viennent pas de la mme population. Dans ce chapitre, nous prsentons
les procdures et les conventions qui permettent de rejeter ou non lhy-
pothse nulle. Nous ne rejetons pas lhypothse nulle lorsque les chan-
tillons obtiennent les mmes moyennes, et, dans le cas inverse, nous la
rejetons. Mais nous avons vu au chapitre prcdent que les chantillons,
mme lorsquils sont extraits de la mme population, nont pas exactement
la mme moyenne. Il existe une variation naturelle dans la composition
des chantillons, cette variation tant attribuable lala. Ainsi, une sim-
ple diffrence entre les chantillons ne peut pas tre interprte directe-
ment pour choisir lune ou lautre des hypothses, H ou H0, puisque lala
pourrait en tre responsable. Par consquent, il devient impratif de quan-
tifier cette variation naturelle, cest--dire la diffrence typique laquelle
nous pouvons nous attendre entre deux chantillons lorsque les deux sont
extraits de la mme population ou entre la moyenne de la population et la
moyenne dun chantillon. Nous allons rejeter lhypothse nulle lorsque la
diffrence observe entre les chantillons est nettement plus grande que
cette diffrence typique entre les chantillons ou entre lunique chan-
tillon et la moyenne de la population. Pour cela, il nous faudra un critre
qui nous aidera distinguer une diffrence nettement plus grande dune
diffrence typique .
252 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Est-ce que le niveau de toxines dans les rivires qubcoises dpasse les
normes ? Pour rpondre cette question, nous devons mesurer le niveau
de toxines dans un chantillon de rivires que nous allons comparer avec
la norme, qui, dans ce cas reprsente la population. Ici, un seul chantillon
est requis car nous connaissons la moyenne dans la population (la norme).
Par contre, dans le cas suivant, il faut constituer deux chantillons : est-ce
que les rivires qubcoises sont plus pollues que les rivires ontarien-
nes ? Maintenant, nous devons cueillir deux chantillons de rivires, un
provenant de la population de rivires qubcoises, lautre provenant de la
population de rivires ontariennes. La question statistique, dans ce dernier
cas, revient dterminer si les deux chantillons de rivires (qubcoise
et ontarienne) ont une forte ou une faible chance de provenir de la mme
population de pollution.
Dans ce chapitre, nous allons voir la procdure statistique qui permet
de calculer deux statistiques importantes : lerreur type de la moyenne et
lintervalle de confiance autour de la moyenne. La confrontation des hypo-
thses H et H0 et le concept de la signification statistique dcoule de
ces considrations. La matrise des lments discuts dans ce chapitre est
dterminante pour la matrise des chapitres subsquents et elle exige la
comprhension des chapitres antrieurs, en particulier le chapitre 8 ainsi
que le chapitre 5 qui porte sur la distribution normale.

QUAND LES CHANTILLONS ALATOIRES NE SONT PAS IDENTIQUES :


LERREUR DCHANTILLONNAGE

Imaginons une population dobservations distribues normalement. Nous


savons (voir le chapitre 5) que la majorit des observations (environ 68 %)
se trouvent prs de la moyenne de la population ( 1 cart-type) et quen-
viron 32 % des observations se trouvent plus loin. Par exemple, dans une
population normale ayant 100 et 15 respectivement comme moyenne et
comme cart-type, environ 68 % des observations se situent entre 85 et 115
et environ 32 % des observations sont infrieures 85 et suprieures 115.
Tirons de cette population plusieurs chantillons de taille identique.
Tous ces chantillons tant extraits de la mme population, nous nous
attendons ce que chacun soit compos de 68 % dobservations relative-
LA MCANIQUE DE LINFRENCE STATISTIQUE 253

ment proches de la moyenne de la population (entre 85 et 115) et de 32 %


dobservations se situant plus loin (moins que 85 et plus de 115). Mais
puisque la slection des chantillons est alatoire, nous ne pouvons pas
garantir que ces proportions se maintiendront rigoureusement pour tous
les chantillons. Certains chantillons contiendront une proportion plus
grande dobservations plus loignes ou plus proches de la moyenne que
dautres chantillons. Cette variation naturelle dans la composition exacte
des observations contenues dans les chantillons extraits de la mme popu-
lation sappelle lerreur dchantillonnage.
Cette variation alatoire dans la composition exacte des observations
dans les chantillons occasionne par lerreur dchantillonnage cause,
son tour, une diffrence dans la moyenne des chantillons : un chan-
tillon qui contient plus dobservations dont les valeurs sont grandes aura
une moyenne plus forte quun chantillon qui contient davantage dobser-
vations dont les valeurs sont petites. Donc, lerreur dchantillonnage se
rpercute dans la moyenne des chantillons. Lerreur type de la moyenne
est la statistique qui estime la taille de la fluctuation dans les moyennes
des chantillons cause par lerreur dchantillonnage. Cette statistique est
dune importance primordiale pour distinguer lhypothse (H) de lhypo-
thse nulle (H0).
Un objectif des statistiques consiste raliser une infrence la popu-
lation partir de lchantillon. En particulier, la moyenne de lchantillon
(M) est utilise pour infrer la moyenne de la population (). Mme sil est
vrai que la moyenne de lchantillon (M) est la meilleure estimation de , il
est nanmoins possible que la moyenne de la population se situe loin de la
moyenne de lchantillon. Si nous connaissons la diffrence typique entre
la moyenne dun chantillon et celle de la population lerreur type de la
moyenne , nous pourrons alors dterminer si la moyenne obtenue dans
notre chantillon est typique ou atypique, si elle est trs ou peu diffrente
de la moyenne de la population. Par exemple, si nous savons que typique-
ment les moyennes de 68 % des chantillons extraits dune population ayant
une moyenne de 100 se situent entre 85 et 115 (son cart-type tant 15)
et que nous trouvons que notre chantillon a une moyenne de 130, nous
concluons alors que cette moyenne est fort diffrente de la moyenne de la
population (elle se situe deux carts types de la moyenne de la popula-
254 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

tion : [Z = (130-100)/15 = +2]. Cet chantillon nest pas typique pour cette
population et nous concluons quil appartient une population diffrente.
Bien sr, tout cela prsume que nous connaissons lcart-type des moyen-
nes lerreur type de la moyenne des chantillons extraits de la popula-
tion, une information rarement disponible directement.
Reste que lerreur type de la moyenne est importante lorsquil sagit
dvaluer lhypothse (H) et lhypothse nulle (H0). Nous avons vu (cha-
pitre 8) que lhypothse nulle est rejete lorsque les moyennes des chan-
tillons ne sont pas les mmes. Lorsque deux chantillons nont pas la mme
moyenne, nous pouvons potentiellement conclure que ces deux chan-
tillons proviennent de populations diffrentes. Il est galement possible que
les deux chantillons proviennent de la mme population, mais que la diff-
rence entre leurs moyennes soit simplement attribuable lerreur dchan-
tillonnage. Dans ce dernier cas, le rejet de H0 serait une erreur. Il faut donc
trouver un mcanisme pour distinguer une diffrence attribuable lerreur
dchantillonnage dune autre qui, elle, est attribuable une diffrence de
populations. Le mcanisme statistique qui permet de faire cette distinction
exige la quantification de la taille de lerreur type de la moyenne.
Une fois cette quantit dtermine, il est possible destimer la proxi-
mit des moyennes de deux chantillons ou la proximit de la moyenne
de lchantillon et de celle de la population. Par exemple, supposons que
la diffrence typique (lerreur type de la moyenne) entre la moyenne de
deux chantillons est de 10 et que la moyenne de la population est de 100.
On tire un chantillon ayant 90 comme moyenne. Cet chantillon est-il
prs ou loin de la moyenne de la population ? La diffrence entre les deux
moyennes est de 10 (90 100 = 10), mais comment interprter cette diff-
rence ? Une solution est de la standardiser en valeur talon. Puisque nous
connaissons la diffrence typique entre les moyennes des chantillons,
cest--dire leur cart-type, le calcul donne : ZM = (90 100)/10 = 1 (lerreur
type, puisquelle nest que lcart-type des moyennes des chantillons, est
donc gale 10). Dans ce cas, nous observons que la moyenne de notre
chantillon se trouve une erreur type en dessous de celle de la population.
Est-ce loin ou prs de la moyenne ? Nous verrons. Mais on voit que la diff-
rence typique, lcart-type entre les moyennes des chantillons d lerreur
dchantillonnage, reprsente une statistique fort importante qui nous per-
LA MCANIQUE DE LINFRENCE STATISTIQUE 255

met de faire linterprtation dune diffrence. Le dfi consiste dterminer


sa valeur numrique.

Quiz rapide 9.1


Supposons quau Canada le salaire moyen des employs est de 50 000$.
Nous tirons un chantillon de travailleurs canadiens qui dtiennent tous un Ph.D.
En moyenne, ces Ph.D. gagnent 90 000$. Pouvons-nous alors conclure que les
Canadiens ayant un Ph.D. appartiennent une population de salaire diffrente ?

QUANTIFIER LERREUR DCHANTILLONNAGE

Lerreur type de la moyenne est lcart-type des moyennes des chantillons


alatoirement extraits de la mme population. Cette statistique nest pas la
mme pour tous les chantillons et toutes les populations. Elle peut tre
plus ou moins grande et sa taille dpend de deux facteurs : le nombre dob-
servations dans lchantillon (N) et la variance de la population (2).
1. N, le nombre dobservations dans les chantillons : plus la taille de
lchantillon est grande, plus lerreur dchantillonnage est petite. Ce
principe est appel la loi des grands nombres.
Imaginons un chantillon qui inclut tous les membres dune population
dun million sauf un. Puisque presque tous sont prsents dans lchantillon,
la moyenne de lchantillon sera un millionime prs la moyenne de la
population. Un deuxime chantillon de mme taille tir de cette popula-
tion sera obligatoirement compos dobservations quasi identiques. Dans
ce cas, il ny aura virtuellement aucune erreur dchantillonnage et la dif-
frence entre les moyennes de ces deux chantillons sera donc trs proche
de zro. En revanche, si nous tirons un chantillon compos dune seule
observation, cette observation pourrait provenir de nimporte quelle partie
de la population. La mme chose serait vraie pour un deuxime chantillon
extrait de cette population, compos lui aussi dune seule observation. La
diffrence entre les moyennes de ces deux chantillons sera grande, ce qui
se traduira par une grande erreur dchantillonnage et une plus grande
diffrence typique entre les moyennes. Par exemple, la note obtenue un
examen par un seul tudiant est une pitre estimation des notes de toute
la classe alors que la note moyenne obtenue par 99 % des tudiants sera
trs proche de la note moyenne obtenue par tous les tudiants. Ainsi,
256 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

nous comprenons que plus un chantillon contient dobservations, plus sa


moyenne sera semblable la moyenne de la population. Lerreur type de la
moyenne sera petite.
2. La taille de lerreur type de la moyenne est aussi fortement influen-
ce par la variance (ou lcart-type) de la population : plus grande est
la variance de la population, plus grandes sont lerreur dchantillon-
nage et lerreur type de la moyenne.
Lerreur dchantillonnage est plus grande lorsque les observations dans
la population diffrent davantage les unes des autres. Lorsque les observa-
tions sont proches les unes des autres dans la population (la variance de la
population, 2, est faible), les chantillons seront ncessairement composs
dobservations qui sont plus similaires, plus proches les unes des autres et
la variance des observations (s2) sera plus faible. Lorsque les observations
contenues dans les diffrents chantillons sont similaires, les chantillons
auront des moyennes similaires et, dans ce cas, lerreur type de la moyenne
sera plus petite.
Pour illustrer le principe, prenons un cas de rsultats un examen o
tous les tudiants obtiennent des notes entre 70 et 75. La variance de la
population est donc faible et, par consquent, tous les chantillons dtu-
diants auront des moyennes plutt similaires (elles seront toutes obligatoi-
rement entre 70 et 75). Par consquent, lerreur-type de la moyenne sera
faible. Mais supposons, linverse, que les notes varient entre 0 et 100. Cha-
que chantillon risque fort dtre compos dobservations plus diffrentes,
ce qui fera en sorte que la moyenne dun chantillon sera diffrente de celle
dun autre chantillon. Lerreur type de la moyenne sera donc plus grande.
Ainsi, lerreur dchantillonnage augmente en fonction de la variance
de la population (2), mais elle se rduit en fonction de la taille de lchan-
tillon (N). Lorsquune population est trs homogne, tous les chantillons
extraits de cette population auront des moyennes proches les unes des
autres. Similairement, les grands chantillons extraits dune population
dtiendront tous des moyennes similaires. Dans les deux cas, lerreur type
de la moyenne sera petite.
LA MCANIQUE DE LINFRENCE STATISTIQUE 257

Quiz rapide 9.2


Nous tudions lattitude envers les hpitaux de deux populations : les mdecins et
les citoyens. Quelle population aura probablement une variance plus grande dans
les attitudes ?

Lexprience dchantillonnage et lerreur type de la moyenne

Lobjectif dun test statistique consiste permettre une infrence la


moyenne de la population partir de la moyenne de lchantillon M.
Mais nous savons que chaque chantillon (sauf si la taille des chantillons
est infiniment grande ou la variance dans la population est nulle) pro-
duit une moyenne diffrente des autres. Par consquent, presque toutes
les moyennes des chantillons extraits de la mme population seront au
moins un peu diffrentes les unes des autres et diffrentes de la vritable
moyenne de la population. Cest--dire que chaque chantillon produit
une moyenne qui estime la moyenne de la population en faisant, au mieux,
une lgre erreur. Cette erreur, lerreur type de la moyenne, doit tre calcu-
le si nous voulons interprter une diffrence entre deux moyennes.
Nous pouvons comprendre et calculer cette erreur type en faisant
une exprience particulire qui se nomme lexprience dchantillonnage.
Supposons qu partir dune population dont nous connaissons la vraie
moyenne (), nous tirons tous les chantillons diffrents possibles (disons
quil en existe K), chacun compos du mme nombre dobservations N.
Nous calculons, pour chaque chantillon, sa moyenne (Mj) et la diffrence
entre la moyenne de chaque chantillon et la moyenne de la population
(M-). Puisque tous les chantillons sont extraits de la mme popula-
tion, chaque diffrence entre la moyenne de lchantillon et la moyenne de
la population est en ralit une indication de lerreur que la moyenne de
chaque chantillon fait dans son estimation de la moyenne de la popula-
tion. En ayant ces informations, il nous est alors possible de calculer ler-
reur moyenne que nous pouvons aussi placer sous la rubrique de lerreur
typique . La Formule 9.1 formalise cette quantit. On remarquera, dans
cette formule, que nous avons mis au carr les quantits M- afin demp-
cher que cette sommation donne zro. Comme on laura peut-tre devin,
cette formule nest rien dautre que celle utilise pour calculer la variance
258 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

dune population (dans ce cas, la variance de la moyenne des chantillons


extraite de la mme population dobservations).
K
2 2
M = ( Mi ) /K Formule 9.1
j=1
o M2 est la variance des moyennes des chantillons, est la moyenne de
la population, Mi est la moyenne de chaque chantillon, et K est le nombre
total dchantillons.

Quiz rapide 9.3


Pourquoi la Formule 9.1 se sert-elle de K plutt que de K 1 comme dnominateur ?

Si nous prenons la racine carre de la quantit M2 (la variance des


erreurs), nous obtenons son cart-type (lcart-type des erreurs : M).
Lcart-type de ces erreurs est lerreur typique que nous faisons en estimant
partir de M, la moyenne des chantillons, cest--dire lerreur type de la
moyenne. Donc, partir de lexprience dchantillonnage, nous obtenons
linformation requise pour interprter une diffrence entre la moyenne
dun chantillon et la moyenne de la population.

Lestimation de lerreur type de la moyenne des chantillons

En pratique, nous ne pouvons jamais slectionner tous les chantillons


possibles dune population et, en gnral, nous navons notre disposi-
tion quun seul chantillon. Nanmoins, il faut connatre lerreur type de la
moyenne si nous voulons interprter la moyenne dun chantillon.
Heureusement, il est possible de faire une estimation de lerreur type des
moyennes attribuable lerreur dchantillonnage partir dun seul chan-
tillon. La Formule 9.2a fait cette estimation.
2
2
M = ------ Formule 9.2a
N

La Formule 9.2a dcoule de la Formule 9.1. On en trouve la preuve


mathmatique (Comment trouver lerreur type de la moyenne) la fin
de ce chapitre. Pour linstant, examinons pourquoi la Formule 9.2a est
approprie.
LA MCANIQUE DE LINFRENCE STATISTIQUE 259

On se souvient que la variance des moyennes des chantillons (2M) est


plus grande lorsque la variance de la population (2) est grande, mais que
cette erreur est plus petite lorsque lchantillon contient plus dinforma-
tions (N). La Formule 9.2a met en rapport ces deux influences sur la taille
de lerreur type de la moyenne pour produire la variance des erreurs. Plus
la variance de la population (2) est grande, plus grand est le numrateur
de la Formule 9.2a, et plus grande est la quantit 2M. Plus grande est la
taille de lchantillon (N), plus grand est le dnominateur et, par cons-
quent, plus petite est la quantit 2M.
Comme prcdemment, la Formule 9.2a produit lerreur type au carr,
ce qui nest pas trs commode. En calculant la racine carre de lerreur type
au carr, nous obtenons la formulation de lerreur type de la moyenne M,
calcule partir dun unique chantillon (Formule 9.2b).

= -------- Formule 9.2b
N
Cet cart-type reprsente le degr avec lequel les moyennes (M) des
chantillons fluctuent autour de la vraie moyenne (). Cest pour distin-
guer lcart-type des moyennes de lcart-type des observations lintrieur
dun chantillon que nous lui donnons son nom particulier : lerreur type
de la moyenne. Ainsi, lerreur type de la moyenne est lerreur typique qui
existe entre la moyenne dun chantillon et la moyenne de la population.
Si nous connaissons lerreur type de la moyenne, il est facile de dter-
miner si la moyenne dun chantillon particulier est prs ou loin de la
moyenne de la population. Un chantillon dcrit (reprsente) fort bien la
population lorsque sa moyenne est proche (situe moins dune erreur
type) de la moyenne de la population. Inversement, plus la moyenne de
lchantillon sloigne de la moyenne de la population, moins cet chan-
tillon est capable de bien reprsenter la population.

Lestimation de lerreur type de la moyenne en pratique

Jusqu prsent, nous avons dfini lerreur type de la moyenne comme


tant la variabilit des moyennes des chantillons, ce que nous pouvons cal-
culer condition de connatre lcart-type de la population. Mais, en pra-
260 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

tique, nous ne connaissons (presque) jamais lcart-type de la population



(). Par consquent, la formule de lerreur type de la moyenne (/N ) ne
peut (presque) jamais tre calcule.
Mais nous connaissons lcart-type de lchantillon et nous savons (cha-
pitre 8) que la meilleure estimation de lcart-type de la population est
lcart-type de lchantillon. Nous pouvons alors, en pratique, substituer
lcart-type de lchantillon (s) lcart-type de la population (). La For-
mule 9.3 estime lerreur type de la moyenne en pratique

sM = s /N Formule 9.3
o s est lcart-type de lchantillon, N est le nombre dobservations dans
lchantillon, et sM est lestimation de M lorsque lcart-type de la popu-
lation nest pas connu. Par exemple, si lcart-type dun chantillon
de N = 100 observations est s = 10, lerreur type estime devient sM =
10/100= 10/10 = 1. Si la moyenne de lchantillon est de 5, nous concluons
que, typiquement, les chantillons extraits alatoirement de cette popula-
tion auront une moyenne se situant entre 4 et 6 (51). De la mme manire,
nous pouvons dire que la moyenne de la population se situe entre 4 et 6.

Lutilisation de lerreur type de la moyenne : une illustration

Nous tudions le QI depuis presque un sicle et des millions de personnes


ont pass ce test. Par consquent, nous connaissons fort bien sa variance et
sa moyenne dans la population. Le QI moyen est de 100 et son cart-type
est de 16. Supposons que nous prenons un chantillon dtudiants et que
nous observons que le Q1 moyen dans cet chantillon est de 120. Est-ce
que les tudiants de cet chantillon sont trs diffrents de la population ?
Supposons que lerreur type de la moyenne est gale 10. Nous pouvons
alors calculer la position de la moyenne de notre chantillon par rapport
la moyenne de la population en transformant cette moyenne en valeur
talon Z.
La formule gnrale pour la valeur talon dun score X est Zx = (X M)/s,
o s est lcart-type des moyennes des chantillons, cest--dire lerreur type
de la moyenne. Puisque nous voulons calculer la valeur Z pour la moyenne
(M) dun chantillon par rapport la moyenne de la population (), nous
utilisons la Formule 9.4
LA MCANIQUE DE LINFRENCE STATISTIQUE 261

ZM = (M )/m Formule 9.4


o ZM est la position de la moyenne de lchantillon par rapport la
moyenne de la population, M est la moyenne obtenue dans lchantillon,
est la moyenne de la population et m est lerreur type de la moyenne.
Calculons ces valeurs pour notre chantillon dtudiants : = 100,
M = 120, et m = 10. En appliquant la Formule 9.3, nous obtenons :
ZM = (M )/m
= 120 100 /10
= 20/10
=+2
Nous savons maintenant que la moyenne de cet chantillon est deux
erreurs types au-dessus de la moyenne des QI dans la population. Comme
nous le verrons plus tard, cet chantillon produit une moyenne que nous
allons ventuellement qualifier de statistiquement diffrente de celle de
la moyenne de la population.

Quiz rapide 9.4


Reprenez lexemple prcdent portant sur le QI. Supposons que le QI moyen
dun chantillon est de 140. Prsumez que = 100 et que m = 10. Quelle est la
distance, en valeur talon Z, entre la moyenne de cet chantillon et la moyenne
de la population ? En vous rfrant au tableau de la courbe normale, quelle est la
proportion des chantillons extraits de cette population qui auront une moyenne
plus grande que 140 ?

Quiz rapide 9.5


Supposons maintenant que votre chantillon est compos de 100 personnes et
que la variance de cet chantillon est de 100. Le QI moyen de cet chantillon est
de 110. Pouvez-vous dduire la moyenne de la population de QI, partir de ces
informations ? Supposons maintenant la mme moyenne (M = 110) et la mme
variance (100) mais un chantillon de 25 personnes seulement, quelle serait alors
votre estimation de la moyenne de la population ? Ces deux estimations de la
moyenne de la population sont-elles diffrentes ou non ? Pourquoi ?

Le thorme de la limite centrale

Lexprience dchantillonnage dcrite ci-dessus consiste extraire tous


les chantillons possibles dune mme taille dune unique population dob-
262 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

servations. En calculant la moyenne de chaque chantillon, nous pouvons


tablir la distribution de ces moyennes et la distribution des diffrences
entre chacune des moyennes et la moyenne de la population. Le thorme
de la limite centrale1 nonce une srie de propositions qui sont vraies au
sujet de la distribution de ces moyennes. Parmi ces propositions, trois sont
particulirement importantes et utiles.
La moyenne de la distribution des moyennes des chantillons est gale
, la moyenne de la population.
La variation entre les moyennes des chantillons sera plus petite que
la variation entre les individus de la population. En fait, lcart-type de
cette distribution de moyennes est approximativement gal lerreur

type de la moyenne (/N ).
La forme de la distribution des moyennes sapproche de la distribution
normale lorsque la taille des chantillons est grande (environ N 30).
Cela demeure vrai mme lorsque la distribution de la population nest
pas normale. Si la distribution de la population est normale, la distri-
bution de la moyenne des chantillons est normale mme lorsque les
chantillons extraits de cette population sont petits (N<30).

Les implications du thorme de la limite centrale pour linfrence

Cette dernire proposition est particulirement utile. Puisque la distribu-


tion des moyennes suit une distribution normale ayant un cart-type (c.a.d.

une erreur type) connu (s/N ), nous sommes en mesure de faire un grand
nombre dinfrences nous permettant, ventuellement, de choisir entre
H et H0.
Nous connaissons, partir du tableau de la densit sous la courbe nor-
male, la proportion des observations qui se situent diffrentes distances
de la moyenne. Nous pouvons appliquer cette connaissance la distri-
bution des moyennes des chantillons puisquelle est normale, ce qui est
quasi toujours le cas.

1. Un thorme est une proposition qui est prouve. Ce thorme a t conjectur par
Gauss lui-mme en 1812, mais la preuve formelle na t dcouverte quen 1932 par
Alan Turing, le fondateur de linformatique.
LA MCANIQUE DE LINFRENCE STATISTIQUE 263

La Figure 9.1 indique la proportion des chantillons dont la moyenne se


trouve plus ou moins loin de la vraie moyenne de la population. On remar-
que dans cette figure que nous donnons les proportions pour Z = 1,96 et
Z = 2,58 plutt que pour Z = 2 ou Z = 3. Nous choisissons ces valeurs
parce quelles seront utiles lorsquil sera question du concept de la signifi-
cation statistique. Il vaut mieux sy habituer, car elles vont revenir souvent
partir de maintenant !
Puisque la distribution des moyennes est normale, en se servant du tableau
de la distribution normale (chapitre 5), on connat maintenant la proportion
des chantillons qui ont des moyennes de diffrentes magnitudes.
la Figure 9.1, nous voyons quenviron 68 % des chantillons ont des
moyennes situes 1 erreur type de la moyenne de la population. En
utilisant des termes probabilistes, nous pouvons dire que la probabilit
quun chantillon obtienne une moyenne le situant entre 1 erreur type
de la vraie moyenne est p = 0,68. La Figure 9.1 montre aussi quenviron
95 % des chantillons ont une moyenne situe entre 1,96 erreur type de
. Ainsi, la probabilit quun chantillon obtienne une moyenne se situant
entre 1,96 erreur type de la vraie moyenne est p = 0,95.
Remarquons que 95 % tant gal 19 sur 20, on peut aussi dire que la
moyenne des chantillons est la moyenne de la population avec une marge
de 1,96 erreur type valable 19 fois sur 20. Cest exactement de cette faon
que sont rapports les sondages dopinion dans les journaux. Enfin, puis-
que 99 % des chantillons ont des moyennes situes 2,58 erreurs types
de la moyenne, la probabilit que la moyenne dun chantillon se trouve
entre 2,58 erreurs types de la moyenne est p = 0,99.
Nous pouvons exprimer la mme chose diffremment. La probabi-
lit que la moyenne de nimporte quel chantillon se situe ou au-del
de 1 erreur type de la moyenne () est approximativement p = 0,32
(1,00 0,68 = 0,32) ; la probabilit que lchantillon ait une moyenne
ou au-del de 1,96 erreur type est p = 0,05 (1 0,95 = 0,05) ; la probabi-
lit quun chantillon ait une moyenne ou au-del de 2,58 erreurs types
est p = 0,01 (1 0,99 = 0,01). Obtenir un chantillon ayant une moyenne
loin de la moyenne de la population est un vnement beaucoup plus rare
quobtenir un chantillon dont la moyenne est proche de .
264 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

gure 9.1 Distribution de la moyenne des chantillons de mme taille


extraits dune population quelconque

34,13 % 34,13 %

13,37% 13,37%

2,0% 2,0%
0,5% 0,5%

2,58 1,96 1 0 +1 +1,96 2,58

68 %

95 %

99 %

Reprenons lexemple du groupe dtudiants ayant un QI moyen gal


120 extraits dune population ayant un QI moyen de 100 et une erreur type
de la moyenne de 10. Nous avons dtermin la position de la moyenne de
notre chantillon par rapport la moyenne de la population dtudiants
(QI = 100) comme tant ZM = (M )/m = (120 100)/10 = 20/10 = +2.
La moyenne de cet chantillon se situe +2 erreurs types de la moyenne de
la population.
En se rfrant au tableau de la densit de la courbe normale (dans
lAnnexe), on sait que 97,72 % (p = 0,9772 pour Z = +2) des chantillons
devraient avoir une moyenne gale ou infrieure un QI = 120. Autrement
dit, seulement 2,28 % des chantillons dtudiants devraient avoir un QI
moyen suprieur 120 (100 % 97,72 % = 2,28 %) si notre chantillon pro-
venait effectivement de la population gnrale du QI. Donc, la probabilit p
que cet chantillon soit reprsentatif (provienne) de la population gnrale
de QI est p = 0,0228. Or, il est exceptionnel (p = 0,0228) de tirer alatoire-
ment un chantillon dtudiants dont le QI moyen est gal ou suprieur
120 sil provient dune population dont le QI moyen est 100.
LA MCANIQUE DE LINFRENCE STATISTIQUE 265

Puisque seulement 2,28 % des chantillons dtudiants (tirs dune


population ayant un QI moyen de 100) peuvent avoir un QI suprieur
120, nous concluons que cet chantillon ne provient pas (ou, plus exac-
tement, a une faible probabilit de provenir) de la population gnrale.
Plus formellement, nous dirons que cet chantillon provient probablement
dune population dintelligence diffrente de celle de la population gnrale.
En effet, cet chantillon est compos dtudiants en moyenne trs intelli-
gents (diffrents du QI moyen de la population). Lorsque la moyenne dun
chantillon est suffisamment distante de la moyenne de la population, nous
disons que cet chantillon provient dune population diffrente. Il nous
reste dfinir ce que nous entendons par suffisamment distant ce que
les statisticiens appellent la signification statistique .
En formulant cette conclusion, nous acceptons un risque derreur, qui,
dans ce cas, est de 0,0228, car 2,28 % des chantillons pourraient effecti-
vement provenir de cette population. Cette logique est essentielle pour
la comprhension du test de la signification statistique et du concept de
lerreur dinfrence qui sont expliqus plus loin.

LA SIGNIFICATION STATISTIQUE

La signification statistique est le critre utilis pour conclure au sujet de H


et de H0 (rejet ou non de H0 : voir le chapitre 8).
Le fait que la distribution de la moyenne des chantillons suit une dis-
tribution normale est extrmement utile, car nous pouvons maintenant
faire appel ses caractristiques (voir le chapitre 5 et la Figure 9.1) pour
valuer la proximit entre la moyenne de nimporte quel chantillon et la
moyenne de la population. Ainsi, nous savons que 50 % des chantillons
ont une moyenne gale ou infrieure la moyenne de la population ; que
34,13 % des chantillons se trouvent entre la moyenne et 1 erreur type de
la moyenne de la population ; quapproximativement 68,26 % des chan-
tillons ont une moyenne 1 erreur type de la moyenne de la population ;
quenviron 13,37 % des chantillons ont une moyenne entre +1 et +1,96
erreur type de la moyenne de la population et que 13,37 % des chantillons
ont une moyenne entre 1 et 1,96 erreur type de la moyenne de la popu-
lation. Enfin, seulement 2,5 % des chantillons ont une moyenne gale ou
266 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

plus grande et seulement 2,5 % des chantillons ont une moyenne gale ou
plus petite que 1,96 erreur type de la moyenne de la population.
Supposons que nous savons que la moyenne de la population est gale
4 et que lcart-type des moyennes des chantillons (lerreur type de la
moyenne) est m = 1. Nous savons alors, en nous fiant la Figure 9.1, que
34,13 % des chantillons auront une moyenne se situant entre la moyenne
de la population et 1 erreur type (entre 4 et 5) et que 34,13 % auront une
moyenne se situant entre la moyenne de la population et -1 cart-type
(entre 3 et 4). Au total, alors nous savons que 68,26 % (34,13 % +34,13 %=
68,26 %) des chantillons tirs de cette distribution ont une moyenne entre
3 et 5 (4 1 erreur type de la moyenne). Nous savons aussi, toujours en
nous rfrant au tableau de la densit des observations de la distribution
normale, que 13,37 % ont une moyenne les situant entre +1 et +1,96 erreur
type de la moyenne de la population (entre 5 et 5,96) et que 13,37 % ont une
moyenne les situant entre 1 et 1,96 erreur type (entre 2,04 et 3). Ainsi,
95 % des chantillons ont une moyenne situe entre 1,96 erreur type
(68,26 % + 13,37 % + 13,37 % = 95 %) de la moyenne de la population. Dans
notre exemple, cela voudrait dire entre 2,04 et 5,96 lorsque la moyenne de
la population est = 4 et que lerreur type est de 1,0.
Faisons le calcul inverse maintenant. Si 68 % des chantillons ont une
moyenne gale ou infrieure 1 erreur type de , 32 % des chantillons
ont une moyenne qui est plus distante. De la mme faon, si 95 % des
chantillons ont une moyenne qui est situe 1,96 erreur type de , 5 %
des chantillons ont une moyenne encore plus distante de la moyenne de la
population. Enfin, lorsque 99 % des chantillons produisent une moyenne
entre 2,58 erreurs types, 1 % des chantillons ont une moyenne encore
plus loigne de .
Supposons maintenant quon ignore quelle est la moyenne de la popu-
lation, mais quun quidam affirme que cette moyenne est de 4. Pour vri-
fier ses dires, on prend un chantillon et on trouve une moyenne de 5,96.
Nous connaissons lcart-type et le N associs son chantillon et, partir

de ces donnes, nous calculons lerreur type de la moyenne (sM = s/N ) et
nous trouvons quune erreur type est sM = 1. Le quidam a-t-il raison ? Sil a
raison, un chantillon comme celui qui a t obtenu se serait produit avec
une faible probabilit p = 0,05 [(5,96-4)/1 = +1,96], indiquant que 95 %
LA MCANIQUE DE LINFRENCE STATISTIQUE 267

des chantillons extraits de cette population auraient une moyenne gale


ou infrieure 5,96 et donc, que moins de 5 % des chantillons auraient
une moyenne suprieure celle obtenue dans notre chantillon. Nous
concluons quil y a moins de 5 % des chances quun chantillon ayant une
moyenne de 5,96 puisse provenir dune population dont la moyenne est 4.
Mais pourtant, cest ce que nous avons effectivement obtenu. Le quidam se
tromperait-il en affirmant que = 4 ?

Quiz rapide 9.6


Imaginez que lchantillon obtenu a une moyenne de 6,58. Quelle est la
probabilit p dobtenir un tel chantillon si le quidam a raison ?

Quiz rapide 9.7


Vous secouez la tte et dcouvrez que le quidam nexiste pas, sauf dans votre
imagination. Pour sauver la face, pourriez-vous remplacer quidam par
hypothse ? Si oui, reprsente-t-il lhypothse ou lhypothse nulle ?

Par convention, lorsquun chantillon donne une moyenne qui se situe


plus de 1,96 erreur type de la moyenne cest--dire que la probabi-
lit quil puisse appartenir cette population est plus petite que p = 0,05 ,
nous disons que cet chantillon ne provient pas de la population : il est sta-
tistiquement diffrent de la moyenne de la population. Il est statistiquement
significatif. Nous notons cela en crivant p < ,05, ce qui indique quil y a
moins de 5 % des chances que cet chantillon puisse effectivement provenir
de cette population.
La signification statistique rfre donc la probabilit que lchantillon
provienne de la population. Lorsque cette probabilit est plus petite que
0,05, nous disons (par convention) quil sagit dun chantillon qui ne peut
tre obtenu que rarement (5 fois sur 100). Puisquil sagit dune situation
rare, nous concluons que cet chantillon nappartient (probablement) pas
cette population.
268 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Le concept de la signication statistique : une analogie


Supposons quune amie prtende avoir un pouvoir magique lui permettant de deviner
si une pice de monnaie lance en lair tombera du ct pile ou face. Pour la tester, vous
lui demandez de lancer la pice cinq fois et de deviner le rsultat. Vous notez, cha-
que fois, si elle a devin le rsultat correctement ou non. Au premier lancer, elle devine
correctement. Cela ne prouve rien, car ses chances davoir raison sont de 1 sur 2 (1/2 =
p = 0,50). Elle devine le deuxime lancer correctement aussi. La probabilit de deviner le
deuxime lancer correctement est de 1/2. Mais la probabilit de deviner correctement
deux lancers dafle est de 1/2 1/2 = 1/22 = 1/4 (p = 0,25). Elle devine le troisime
lancer correctement. Si elle navait pas de pouvoir magique, la probabilit de deviner
correctement trois lancers dafle serait de 1/2 1/2 1/2 = 1/23 = 1/8 (p = 0,125). Elle
devine les deux derniers lancers correctement aussi. La probabilit de deviner correcte-
ment tous les lancers est de 1/25 = 1/32 (p = 0,03). Les chances quune personne sans
pouvoir divinatoire puisse deviner correctement cinq lancers dune pice de monnaie
sont p = 0,03, ce qui est une probabilit infrieure p = 0,05, le seuil minimalement
requis pour conclure la signication statistique. Puisque cette amie est capable de
le faire, nous concluons quelle nappartient pas la population habituelle. Serait-elle
membre dune population distincte, compose de personnes ayant des pouvoirs magi-
ques ? Dans ce cas, la logique statistique permet une rponse afrmative.

Le choix de p = 0,05 pour dfinir la signification statistique est arbi-


traire. Il nexiste aucun motif rationnel pour choisir cette valeur. Il sagit
dune convention sur laquelle nous nous accordons pour nous aider
prendre une dcision : rejet ou non-rejet de H0. Si nous prenons un chan-
tillon dune population et trouvons quil a une moyenne le situant plus de
1,96 erreur type de la moyenne de la population attendue, nous concluons
que cet chantillon est significativement diffrent de la population, quil ne
provient pas de cette population : il provient dune autre population. Mais
sommes-nous certains de notre conclusion ? Cette dernire population
existe-t-elle dans la ralit ?

Le risque derreur dinfrence et le seuil de signication (alpha)

Lorsque nous obtenons pour notre chantillon une moyenne qui le situe
+1,96 (ou 1,96) erreur type de la moyenne de la population, nous faisons,
par convention, linfrence que cet chantillon provient dune autre popu-
lation. Mais nous en sommes venus cette conclusion partir de probabi-
lits. Or, les probabilits ne sont jamais des certitudes. Aprs tout, toutes
les populations contiennent des chantillons dont la moyenne se situe
LA MCANIQUE DE LINFRENCE STATISTIQUE 269

1,96 ou plus erreur type ou plus de la moyenne de la population, tout en y


faisant partie. Bien sr, de tels chantillons sont rares mais, nanmoins, ils
sont possibles. Lorsque nous concluons la signification statistique, nous
courrons invariablement un certain risque davoir mis une fausse conclu-
sion. Il nous faut donc trouver une faon de quantifier ce risque derreur.
Nous savons, en nous basant sur le thorme de la limite centrale, que
la distribution des moyennes des chantillons est normale. Pour toutes les
distributions normales, 5 % des chantillons auront une moyenne se situant
1,96 ou plus erreur type de la moyenne de la population.
Si nous obtenons un chantillon dont la moyenne est situe 1,96 erreur
type ou plus, nous concluons, par convention, quil ne fait pas partie de la
population (la moyenne de cet chantillon est statistiquement diffrente
de celle de la population) et que cet chantillon appartient une popu-
lation diffrente. Malgr cette conclusion, il faut reconnatre que 5 % des
chantillons de toutes les populations se situent vritablement au moins
1,96 erreurs types de la moyenne de leur population. Par consquent,
nous avons une probabilit de p = 0,05 de faire une erreur en concluant
que lchantillon nappartient pas cette population (cet chantillon a 5
chances sur 100 dappartenir rellement cette population). Puisque nous
avons conclu que lchantillon ne provient pas de la population, nous cou-
rons alors un risque de 5 % de commettre une erreur. Nous donnons un
nom particulier ce risque derreur. Nous lappelons le seuil de significa-
tion alpha, lerreur de type I, ou encore lerreur alpha ().
Le seuil alpha indique le risque dune erreur dinfrence associ la
conclusion que lchantillon ne provient pas de la population. Supposons que
lon dcide de juger statistiquement et significativement diffrent un chan-
tillon dont la moyenne le situe 1 erreur type de . Puisque nous savons
que 32 % des chantillons dune population peuvent avoir une moyenne
plus loigne de la moyenne que 1 erreur type, nous courons alors un
risque derreur de p = 0,32 et le risque derreur de type 1 est = 0,32. Nous
avons presque une chance sur trois de nous tromper avec ce seuil ! Cela
tant un risque derreur plus grand que celui gnralement accept (0,05),
nous concluons quil ny a pas de preuve que notre chantillon appartienne
une autre population. Le rejet de H0 nest pas appropri et nous concluons
la non-signification statistique : rien indique que lchantillon en question
nappartient pas la population.
270 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Quiz rapide 9.8


Supposons que nous voulons un risque derreur trs faible (disons = ,01).
Supposons aussi que la moyenne hypothtique de la population est 100 avec une
erreur type de la moyenne de 10. Si un chantillon obtient une moyenne de 140,
allons-nous conclure quil ne provient pas de la population ? partir de combien
allons-nous commencer conclure quil ne provient pas de cette population ?

Nous pouvons rduire le risque dune erreur dinfrence alpha en choi-


sissant un seuil de signification plus petit. Ainsi, nous pourrions dcider
que la diffrence entre la moyenne de lchantillon et la moyenne de la
population est statistiquement significative seulement si la moyenne de
lchantillon se situe plus de 2,58 erreurs types de la moyenne . Nous
savons que seulement 1 % des chantillons de cette population peuvent
obtenir une moyenne une telle distance de la moyenne de la population.
Dans ce cas, si nous concluons que lchantillon nappartient pas cette
population, le risque dune erreur alpha devient = 0,01.
Mme si, par convention, nous concluons la signification statisti-
que lorsque le risque derreur alpha est plus petit que 0,05, dans certaines
situations, il est permis de choisir des seuils alpha plus grands (par exem-
ple = 0,10), lorsquil sagit dexpriences pilotes, dtudes exploratoires
ou lorsque le risque de faire une erreur est sans consquence. Inverse-
ment, si une erreur dinfrence peut entraner de graves consquences, tels
des dangers pour la sant, il est prfrable de choisir = 0,01 ou mme
= 0,001 (1 chance sur 1000 de faire une erreur de type I) comme seuil de
signification statistique.
Par exemple, supposons quun individu assure son ami que porter une
pyramide sur la tte une heure par jour permet daugmenter notablement
le QI. Comme ce dernier ne le croit pas du tout et quil ne veut investir ni
temps ni argent, il dcide de faire une exprience avec peu de participants et
un seuil de dcision de 10 %. Sil ne rejette pas lhypothse nulle (pas deffet
de la pyramide), a ne lui cotera pas trop cher. Par contre, sil rejette lhy-
pothse nulle, il se promet daller au fond des choses laide dune seconde
exprience plus labore et il testera lhypothse avec un seuil alpha plus
svre, tel que 5 ou 1 %.
LA MCANIQUE DE LINFRENCE STATISTIQUE 271

Maintenant que nous avons en main une manire pratique de calculer


lerreur type de la moyenne, nous pouvons lutiliser afin daccrotre notre
degr de confiance dans les conclusions. Examinons le concept de linter-
valle de confiance ainsi que son calcul.

LINTERVALLE DE CONFIANCE

La meilleure estimation que nous avons de la moyenne de la population


est la moyenne de lchantillon M. Nous ne devrions pas accepter aveu-
glment que M = . Aprs tout, un autre chantillon tir alatoirement de
cette mme population produira presque toujours une moyenne au moins
un peu diffrente de celle trouve dans le premier chantillon. Lintervalle
de confiance est une statistique qui utilise lerreur type de la moyenne afin
de calculer une fourchette de valeurs dans laquelle la moyenne de la popu-
lation a le plus de chances de se trouver.
Dans lexemple du QI, notre chantillon produit une moyenne M = 120,
et notre meilleure estimation est donc que = 120. Mais puisque lerreur
dchantillonnage est un fait invitable, il serait plus prudent de dire : La
meilleure estimation que nous avons est = 120, mais sa vraie valeur pour-
rait tre, disons, aussi faible que 80 et aussi forte que 140. Nous avons
donc tabli deux valeurs lintrieur desquelles la vritable moyenne de
la population a beaucoup de chances de se trouver. Avant de discuter des
calculs requis, examinons le principe.
Si nous avions simplement affirm que le QI moyen de la population
est = 120, nous nous serions tromps (il est en ralit = 100). Si nous
avions calcul une fourchette de valeurs allant de 80 140, nous ne serions
plus dans lerreur puisque la vraie moyenne de la population (100) est
incluse entre ces deux valeurs. Nous pouvons toujours nous tromper (la
vraie moyenne de la population pourrait tre 150), mais le risque derreur
est minimis.
Puisquil sagit dtablir une fourchette de valeurs, il faut calculer une
valeur infrieure M et une autre suprieure M, entre lesquelles la
vraie valeur de se trouvera. La formule pour le calcul de lintervalle de
confiance (IC) est
IC = M Z sM Formule 9.5
272 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

o M est la moyenne de lchantillon, Z est la taille de la fourchette de


valeurs et sM est lerreur type de la moyenne. Le symbole indique que
la quantit Z sM est ajoute et soustraite de la moyenne obtenue dans
lchantillon afin de produire la limite suprieure et la limite infrieure que
pourrait prendre la moyenne de la population.
Avant dexpliquer lintervalle de confiance plus en dtail, tudions le
Tableau 9.1. La premire ligne du tableau indique la note moyenne obte-
nue un examen par une population de 100 tudiants que nous notons
= 69,9 (et non pas M = 69,9, car il sagit de la moyenne de la population,
et non pas celle de lchantillon). De cette population, trois chantillons,
chacun compos de 9 tudiants, sont alatoirement tirs. Nous calculons
la moyenne et lcart-type des notes lexamen pour chaque chantillon de
N = 9 et, pour chaque, nous calculons lerreur type de la moyenne laide de
la Formule 9.3. Chaque chantillon produit une estimation de qui com-
porte une erreur plus ou moins grande par rapport la vraie moyenne
dans la population (69,9). Au Tableau 9.1, on peut remarquer que, compte
tenu de la moyenne de la population, il y a une erreur importante dans la
moyenne produite par lchantillon M1. Sa moyenne (77,1) est trs diff-
rente de la vritable moyenne de la population. Mais les deux autres chan-
tillons, M2 (71,0) et M3 (69,0), donnent une moyenne trs proche de .

Quiz rapide 9.9


Remarquez quau Tableau 9.1, nous ne calculons pas derreur type de la moyenne
pour la premire ligne du tableau. Pourquoi ?

Tableau 9.1
Intervalles de conance trois niveaux de conance pour trois petits chantillons
extraits alatoirement dune mme population

Erreur
N M IC68 % IC95 % IC99 %
type

Population 100 69,9 13,3

chantillon 1 9 77,1 11,5 3,83 73,3 80,9 69,6 84,6 67,2 87,0

chantillon 2 9 71,0 11,1 3,70 67,3 74,7 63,7 78,3 61,5 80,5

chantillon 3 9 69,0 12,8 4,27 64,7 73,3 60,6 77,4 58,0 80,0
LA MCANIQUE DE LINFRENCE STATISTIQUE 273

Examinons lavant-dernire colonne du Tableau 9.1. Cette colonne


donne lintervalle de confiance 95 % : la fourchette de valeurs lint-
rieur de laquelle la vraie valeur de la moyenne de la population se trouve
probablement. Prenez lchantillon M3 (M = 69 et sM = 4,27) : on voit
que lintervalle de confiance indique que la moyenne de la population se
trouve entre 60,6 et 77,4. La vraie moyenne ( = 69,9) se trouve effecti-
vement entre ces deux bornes. Pour lchantillon M2 (71,0), lintervalle
de confiance situe la moyenne de la population entre 63,7 et 78,3, ce qui
comprend aussi la vritable moyenne de la population. Regardez main-
tenant lchantillon M1 (M = 77,1), celui qui produit une estimation trs
errone de la moyenne de la population. Mme dans ce cas, lintervalle
de confiance produit une fourchette de valeurs qui inclut la vritable
moyenne de la population (les bornes de son intervalle de confiance
sont 67,2 87,0, ce qui comprend la vritable moyenne de la population,
69,9). Dans tous les cas, la fourchette de valeurs calcule par lintervalle de
confiance inclut . Tournons-nous maintenant vers le calcul de lintervalle
de confiance.

Le calcul de lintervalle de conance

Le calcul de lintervalle de confiance, Formule 9.5, implique trois termes :


M, Z et sM . M, la moyenne de lchantillon, est facile calculer et lerreur

type de la moyenne se calcule aussi facilement (sM = s/N ). Reste expli-
quer Z.
Nous voulons calculer une fourchette de valeurs autour de la moyenne
de lchantillon M qui inclut . Supposons que nous voulons tablir une
fourchette de valeurs telle que ses bornes incluent 95 % des chantillons qui
peuvent provenir de cette population. Nous savons, daprs le tableau de
la densit sous la courbe normale, que 95 % des chantillons se trouvent
1,96 erreurs types de la moyenne. Ainsi, si nous multiplions lerreur type
de la moyenne par 1,96, les bornes de lintervalle prendront effectivement
des valeurs qui incluront 95 % des chantillons extraits de cette popula-
tion.
titre illustratif, calculons lintervalle de confiance pour lchantillon
M1 du Tableau 9.1.
274 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

1. Calculons lerreur type de la moyenne :



sM1 = s/N = 11,5/9 = 3,83.
2. Choisissons la valeur de Z, par exemple Z = 2,58 (intervalle de con-
fiance 99 %, parce que 99 % des chantillons se situent Z = 2,58
erreurs types de la moyenne, tel quil est dtermin dans le tableau
de la densit de la courbe normale).
3. Calculons la borne suprieure de lintervalle :
ICsup = M + Z sM = 77,1 + (2,58 3,83) = 86,98 = 87,0.
4. Calculons la borne infrieure de lintervalle :
ICinf = 77,1 (2,58 3,83) = 67,2.
Nous pouvons alors affirmer, partir de notre unique chantillon, que
la moyenne de la population se trouve entre 67,2 et 87,0 et que nous avons
99 % de chances de ne pas nous tromper dans cette conclusion. Dans ce cas,
notre conclusion est juste mais nous aurions pu nous tromper. Moins on
veut risquer de se tromper, plus grande doit tre la fourchette de valeurs :
lintervalle de confiance.

La valeur Z et la taille de lintervalle de conance

On se souvient que Z est une valeur talon, un indicateur de la distance


entre la moyenne et une observation, ou, dans notre cas, la distance entre
la moyenne dun chantillon et la moyenne de la population. Nous avons
vu qu partir du tableau de la densit de la courbe normale, nous pouvons
trouver la proportion des chantillons qui se trouvent entre la moyenne et
nimporte quelle valeur.
Par exemple, nous savons quenviron 68 % des chantillons ont une
moyenne se situant 1 erreur type de la moyenne de la population. Nous
pouvons alors conclure quil y a 68 % de chances que la moyenne de la
population se trouve la moyenne trouve dans notre chantillon 1 erreur
type. Mais sil y a 68 % de chances que la moyenne se trouve lintrieur
de cet intervalle, il y a 32 % de chances quelle ne sy trouve pas. Ainsi, nous
avons 32 % de chances que notre conclusion au sujet de la moyenne soit
fausse ( ne se trouve pas entre ces deux valeurs).
Nous pouvons rduire ce risque derreur en choisissant une fourchette
de valeurs plus large. Nous savons que 95 % des observations dune distri-
LA MCANIQUE DE LINFRENCE STATISTIQUE 275

bution se trouvent 1,96 erreur type de la moyenne (Z = 1,96). Si nous


calculons lintervalle de confiance en utilisant cette nouvelle valeur, nous
pouvons alors conclure quil y a 95 % de chances que se trouve entre ces
nouvelles valeurs et 5 % de chances quelle ne sy trouve pas. Nous savons
aussi que 99 % des chantillons se trouvent 2,58 erreur type (Z = 2,58)
de la moyenne et nous pouvons alors crer un intervalle de confiance o il
y aurait 99 % de chances que la vraie moyenne de la population sy trouve
(et 1 % de chances quelle ne sy trouve pas). En choisissant une valeur Z
plus grande (2,58 plutt que 1,96), nos chances de faire une erreur en
concluant que lchantillon nappartient pas la population chutent de 5
1 %. Nous avons plus confiance dans notre conclusion.
Le Tableau 9.1 montre les intervalles de confiance pour trois niveaux de
confiance : 68 %, 95 % et 99 %. Les conclusions suivantes, tires partir de
lchantillon M3, sont valides :
1. Nous estimons que la moyenne obtenue lexamen par la popula-
tion dtudiants est de 69 (en ralit elle est 69,9).
2. Il y a une probabilit p de 0,68 que la moyenne de la population se
trouve entre 64,7 et 73,3, et il y a une probabilit p de 0,32 quelle ne
se trouve pas entre ces deux valeurs. La fourchette est troite mais le
risque de se tromper est grand. Dans ce cas, nous ne nous sommes
pas tromps, mais nous avons t chanceux.
3. Il y a une probabilit p de 0,95 que la moyenne de la population se
trouve entre 60,6 et 77,4, et une probabilit p de 0,05 quelle ne soit
pas entre ces deux valeurs. Le risque de se tromper est moins grand,
mais la fourchette est beaucoup plus grande, passant de 4,27 8,4.
4. Il y a une probabilit p de 0,99 que la moyenne de la population se
trouve entre 58,0 et 80,0, et la probabilit que nous soyons dans ler-
reur est de 0,01. La fourchette est trs large et, par consquent, le
risque de se tromper est trs faible.
Regardez maintenant, au Tableau 9.1, les rsultats obtenus pour le
calcul de lintervalle de confiance 68 % pour lchantillon 1 (M1=77,1).
Nous trouvons une fourchette de valeurs qui indique que nous avons 68 %
de chances davoir raison de conclure que la moyenne de la population se
situe entre 73,3 et 80,9, mais nous avons du mme coup 32 % de chances
de nous tromper dans cette conclusion. Dans ce cas, nous nous sommes
276 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

effectivement tromps ! La vraie moyenne de la population ( = 69,9) nest


pas incluse dans lintervalle de confiance. Ainsi, lorsque lintervalle de
confiance est plus troit, les risques derreurs sont plus forts.
La Figure 9.2 illustre le concept de lintervalle de confiance. La flche
noire paisse reprsente la moyenne de lchantillon et les flches noires
fines, les bornes de lintervalle de confiance. La flche paisse en noir est
la meilleure estimation que nous avons de la moyenne , cest--dire la
moyenne de lchantillon. Les flches troites claires sont les valeurs possi-
bles que la moyenne de la population peut prendre.
Ainsi, comme nous lindique la Figure 9.2, lintervalle de confiance
donne les valeurs maximales et minimales que pourrait prendre la
moyenne de la population. La valeur Z utilise pour dfinir lintervalle dfi-
nit du mme coup le risque que la moyenne de la population ne se trouve
pas, en ralit, lintrieur de ces marges : le risque derreur dinfrence.
Bien que, par tradition, nous tablissions les intervalles de confiance avec
des niveaux de certitude de 95 % ou de 99 %, nous pouvons tablir les
intervalles de nimporte quelle taille (68 %, 99,99 %, etc). Mais le principe
demeure : plus grande est la valeur Z, plus larges sont les bornes de linter-
valle de confiance et plus grande est notre confiance que la moyenne de la
population se situe en ralit entre elles. Lintervalle de confiance est la base
sur laquelle repose la trs clbre signification statistique .

gure 9.2 Intervalle de conance et sa relation avec la moyenne


de la population

Population ?

Limite infrieure Limite suprieure

+
LA MCANIQUE DE LINFRENCE STATISTIQUE 277

Le principe du test de signication statistique sur un seul chantillon :


H versus H0

Nous avons maintenant en main tous les lments requis pour comprendre
la procdure suivre pour opposer lhypothse lhypothse nulle. Suppo-
sons, dune part, que nous avons une population cible dont nous connais-
sons la moyenne et lcart-type. Supposons, dautre part, que nous avons
un chantillon alatoire que nous croyons appartenir cette population.
Nous voulons savoir si cet chantillon appartient (H0) ou non (H) cette
population. Le jeu dhypothses se formule de la manire suivante.
H0 : la moyenne de la population do est tir lchantillon est gale la
moyenne de la population cible (cet chantillon appartient cette popula-
tion cible ; M = ).
H : la moyenne de la population do est tir lchantillon nest pas gale
la moyenne de la population cible (cet chantillon nappartient pas cette
population cible ; M ).
Pour dcider, nous calculons la distance entre la moyenne de la popu-
lation et la moyenne de lchantillon. Si la probabilit p dobtenir une telle
diffrence dans un chantillon est infrieure 0,05 (moins de 5 %), nous
allons conclure que cet chantillon ne provient pas de la population cible
(rejet de H0). Si la probabilit p dobtenir une telle moyenne dans lchan-
tillon est 0,05 (plus grande ou gale 5 %), nous allons conclure que cet
chantillon provient de la population cible (non-rejet de H0).
En somme, il y a quatre tapes :
1. Poser les hypothses :
H : M 0
H0 : M = 0
o 0 est la moyenne (connue) de la population cible.
2. Choisir le seuil de signification dsir. Pour un niveau de confiance
95 %, nous choisissons = 0,05. La valeur Z qui correspond un niveau
de confiance de 95 % est Z = 1,96.
= 0,05
3. La dcision est base sur la rgle suivante :
Rejet de H0 si M nest pas inclus dans 0 (Z M).
278 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

4. Calculer la moyenne de lchantillon, calculer lerreur type de la


moyenne et construire lintervalle de confiance afin de conclure.
Par exemple, on prend un groupe de 16 autistes performants et on dsire
savoir si leur intelligence est comparable lintelligence de la population en
gnral. Sur un test de QI, lintelligence moyenne de la population est de
100 avec un cart-type de 16. Les hypothses concernant la population des
autistes performants sont donc les suivantes :
H : 100
H0 : = 100
On utilise un seuil de signification de 0,05, ce qui implique que
Z = 1,96. La rgle est donc de rejeter H0 si la moyenne des autistes perfor-
mants quon aura dans lchantillon nest pas incluse dans lintervalle 100

1,96 /N. Lerreur type de la moyenne est 16/16 = 4, ce qui donne
lintervalle de confiance 100 1,96 4 = 100 7,84 = [92,16 107,84].
On calcule la moyenne de lchantillon et on trouve 94. Cette moyenne
est incluse lintrieur des bornes de lintervalle de confiance : 95 % des
chantillons extraits de cette population auront une moyenne qui se situe
entre 92,16 et 107,84. Puisque lchantillon a une moyenne (94) qui se situe
entre ces deux valeurs, on conclut que cet chantillon fait partie de la popu-
lation et quil ne reprsente pas une population de QI diffrente. Sil nap-
partient pas une population diffrente, on ne peut pas rejeter H0 et on doit
conclure quil ny a pas de preuves voulant que les autistes appartiennent
une population de QI diffrente de celle de la population en gnral de QI.
En jargon statistique, on dit quil ny a pas de diffrence statistiquement
significative entre le QI de la population en gnral et le QI des autistes
performants.

Le test de signication statistique pour la diffrence entre deux chantillons

Il est possible dtendre ce raisonnement pour opposer deux chantillons.


Supposons que nous avons deux chantillons dune population de patients
qui souffrent de la maladie dAlzheimer. Cette maladie du cerveau afflige
certaines personnes ges, crant des priodes de confusion mentale et de
perte de mmoire de plus en plus svres. On administre un mdicament
exprimental un chantillon de patients, mais pas lautre. On mesure le
LA MCANIQUE DE LINFRENCE STATISTIQUE 279

degr de confusion et de perte de mmoire des deux groupes. Si le nombre


moyen de tels pisodes est plus petit pour le groupe qui reoit le mdica-
ment que pour lautre, nous concluons que le mdicament est efficace.
Mais, cause de lerreur dchantillonnage, une diffrence quelconque
nest pas une preuve suffisante pour conclure que le mdicament est effi-
cace. Aprs tout, les moyennes obtenues par deux chantillons qui nont
pas reu le mdicament, ou deux quils lont reu, ne seront pas identiques.
On calcule alors un intervalle de confiance autour dun chantillon. Si
lintervalle de confiance pour lchantillon qui ne reoit pas le mdicament
contient la moyenne du groupe qui reoit le traitement (ou vice-versa),
nous concluons que la moyenne obtenue dans cet chantillon aurait pu
tre obtenue par lautre : la diffrence entre les deux chantillons nest pas
statistiquement significative, nous empchant du coup de rejeter H0 ; nous
devons conclure que le mdicament nest pas efficace, car en jargon statis-
tique, les deux chantillons sont extraits de la mme population de malaises
causs par la maladie.
Par contre, si la moyenne de lchantillon qui reoit le traitement nest
pas contenue dans lintervalle de confiance construit autour de la moyenne
de lautre chantillon, nous concluons que cet chantillon appartient une
population diffrente, que cet chantillon est significativement diffrent de
lautre : nous rejetons H0 et nous concluons que le mdicament est efficace.
Reprenons cet exemple avec des chiffres :
1. Les hypothses sont :
H : avec mdicament sans mdicament (le nombre moyen de priodes de confu-
sion ou de perte de mmoire pour ceux qui reoivent le mdicament nest
pas le mme que pour ceux qui ne reoivent pas le mdicament).
H0 : avec mdicament = sans mdicament (le nombre moyen dpisodes de confu-
sion ou de perte de mmoire pour ceux qui reoivent le mdicament est le
mme que pour ceux qui ne reoivent pas le mdicament).
2. Nous choisissons un seuil de signification de 5 %, do il sensuit que
Z = 1,96.
3. Nous allons rejeter H0 si la moyenne du groupe avec mdicament est
infrieure la borne infrieure de lintervalle de confiance de lautre
groupe. Supposons que lcart-type des symptmes pour ce groupe s est
280 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S


40 et quil y a 4 participants dans chaque chantillon, do sM = 40/4 =
40/2 = 20.
4. Nous trouvons les rsultats suivants :
Mavec mdicament = 60, do IC 95 % = 60 1,96 20 = 20,8 99,2
Msans mdicament = 100, do IC 95 % = 100 1,96 20 = 60,8 139,2.
Dans le pire des cas, le degr de confusion/perte de mmoire moyen du
groupe qui ne reoit pas le mdicament pourrait tre aussi petit que 60,8.
Le groupe qui reoit le mdicament obtient une moyenne de 60. Puisque
cette moyenne nest pas incluse dans lintervalle de confiance du groupe
qui ne reoit pas le mdicament (60,8 139,2), nous concluons que ceux
qui reoivent le mdicament ne proviennent pas de la mme population
que ceux qui ne le reoivent pas. La diffrence entre ces deux chantillons
est statistiquement significative p < 0,05 (le risque derreur dans cette
conclusion est plus petit que 0,05) et, enfin, nous concluons que le mdica-
ment est efficace.
Supposons que la moyenne du groupe avec mdicament est de 60,8,
exactement la valeur de la limite infrieure de lintervalle de confiance.
Par convention, lorsque la moyenne dun chantillon est exactement la
limite de lintervalle de confiance, on dit que la diffrence nest pas statisti-
quement significative. La borne infrieure de lintervalle de confiance dun
groupe doit tre numriquement suprieure la moyenne de lautre chan-
tillon. La moyenne obtenue dans lchantillon avec traitement est significati-
vement diffrente de la moyenne de lautre chantillon lorsque les chances de
se tromper dans la conclusion sont moins de 5 sur 100 (p < 0,05).

Ce que la signication statistique dit et ce quelle ne dit pas

La signification statistique est souvent mal interprte non seulement par


les tudiants mais aussi par les scientifiques. Voici quelques interprtations
appropries et inappropries dune diffrence statistiquement significative.

La signication statistique dit que :

la population de laquelle un des chantillons est extrait est diffrente


de la population de laquelle lautre chantillon est tir ;
LA MCANIQUE DE LINFRENCE STATISTIQUE 281

la probabilit que nous ayons incorrectement conclu quil existe deux


populations au lieu dune seule est gale au seuil alpha ;
le traitement est efficace.

La signication statistique ne dit pas que :

la diffrence entre deux populations est importante (une petite diff-


rence pourrait tre statistiquement significative) ;
la diffrence entre deux populations est relle (nous courons invaria-
blement un risque derreur qui est dfini par le seuil alpha).

LERREUR DE TYPE I ET LERREUR DE TYPE II

Au chapitre 8, nous avons prsent le concept derreurs de type I et de type


II. Lerreur de type I (lerreur alpha ) se produit lorsquon conclut,
partir des chantillons, quil existe deux populations alors quen ralit il
nen existe quune. Lerreur de type II (lerreur bta ) survient lorsquon
conclut, partir de la moyenne des chantillons, quil ny a pas de diff-
rence entre les populations, alors quen ralit il y en a une. Les erreurs et
sont donc des images miroirs.
Supposons que le traitement pour la maladie dAlzheimer ne soit pas
efficace. Cest un coup de chance si la moyenne de lchantillon qui a reu
le traitement est de 60. Dans ce cas, notre conclusion selon laquelle le trai-
tement serait efficace (la diffrence entre la moyenne des deux chantillons
est statistiquement significative) est errone. Nous aurions donc commis
une erreur dinfrence de type I.
Supposons que le traitement pour la maladie dAlzheimer est vritable-
ment efficace. Mais, malheureusement, la moyenne obtenue par lchan-
tillon de patients est de 60,8, lintrieur de lintervalle de confiance de
lchantillon nayant pas reu de mdicament. La diffrence ntant pas
statistiquement significative, nous concluons, tord dans ce cas, que le trai-
tement est inefficace. Le traitement tant en ralit efficace, nous venons de
faire une erreur dinfrence : une erreur de type II.
282 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Les lments qui affectent le risque dune erreur de type I et de type II

Linfrence statistique (H et H0) dpend de la taille de lintervalle de


confiance. Lorsque lintervalle de confiance est trs troit, les bornes de cet
intervalle sont plus proches lune de lautre. Il est donc moins probable que
la moyenne dun chantillon tombe lintrieur de lintervalle de confiance
de lautre, ce qui se soldera, en bout de ligne, par une conclusion en faveur
du rejet de H0. Ainsi, lorsque lintervalle de confiance est construit avec
des bornes troites (95 ou 90 % par exemple), le risque de commettre une
erreur de type I augmente.
linverse, lorsque lintervalle de confiance a des bornes trs larges,
seuls les chantillons qui produisent une moyenne trs diffrente se retrou-
veront lextrieur des bornes de lintervalle de confiance. Par consquent,
seules les diffrences trs grandes entre les moyennes des deux chantillons
seront statistiquement significatives. Les chances de commettre une erreur
de type I sont rduites mais les chances de commettre une erreur de type II
sont plus grandes. Voyons pourquoi.
La taille de lintervalle de confiance est dtermine par deux lments : la
valeur Z et la taille de lerreur type de la moyenne.
La valeur Z est dtermine par le seuil de confiance . Lorsque nous
voulons minimiser le risque de commettre une erreur dinfrence de type I
et conclure correctement que deux chantillons diffrent , nous
devons choisir un seuil petit (ce qui quivaut un Z plus grand). Leffet
de ce choix sera dlargir les bornes de lintervalle de confiance. En largis-
sant les bornes, seules les grandes diffrences entre les moyennes des grou-
pes pourront mener au rejet de H0.
De son ct, lerreur type de la moyenne est dtermine par deux l-
ments : le nombre dobservations (N) et lcart-type des observations (s).
Lorsque lcart-type de lchantillon est grand, lerreur type de la moyenne
est grande, et lorsque le nombre dobservations N est petit, lerreur type de
la moyenne est grande aussi. En gnral, nous ne pouvons pas vraiment
agir pour rduire ou accrotre la taille de lcart-type de lchantillon (ce
sont les observations qui le dterminent). Mais nous pouvons avoir un
impact sur le nombre dobservations. Nous pouvons choisir de mesu-
rer 10 personnes ou 1 000. Par consquent, en travaillant avec plus dob-
LA MCANIQUE DE LINFRENCE STATISTIQUE 283

servations, nous rduisons la taille de lerreur type de la moyenne, ce qui


produira des intervalles de confiance plus troits. Ces derniers tant plus
troits, les chances que les bornes de lintervalle de confiance dun groupe
ne recoupent pas la moyenne de lautre groupe augmentent, ce qui rend
plus probable la conclusion en faveur du rejet de H0.
Le Tableau 9.2 reprend lexemple hypothtique du mdicament pour
traiter la maladie dAlzheimer. Nous y prsentons trois chantillons ayant
un nombre dobservations diffrent (4, 16, 64). Tout en gardant constante
la moyenne (100) et lcart-type ( = 40), nous voyons que lerreur type de
la moyenne se rduit (de 20 5) lorsque la taille des chantillons augmente
(de 4 64 respectivement). Le syllogisme se comprend : plus grand lchan-
tillon, plus petite lerreur type de la moyenne. Plus petite lerreur type de la
moyenne, plus troit lintervalle de confiance. Par consquent, plus grand
lchantillon, plus troit lintervalle de confiance. Et, comme nous lavons
vu, il est plus probable que la diffrence entre les chantillons soit dclare
significative.
Ce constat est parfaitement raisonnable puisque lchantillon plus grand
contiendra une plus grande proportion des observations qui existent dans
la population, ce qui devrait augmenter la confiance que nous avons dans
la moyenne quil produit et dans la diffrence qui existe entre cette chan-
tillon et la population ou un autre chantillon.
Lorsque nous travaillons avec de petits chantillons, lerreur type de la
moyenne est plus grande, ce qui cause des intervalles de confiance plus
larges. Lorsque les bornes sont loignes, il nest possible de conclure la
signification statistique que lorsque les moyennes des deux chantillons
sont trs diffrentes. Lorsque la diffrence entre deux populations est relle
mais petite, et que nous la testons avec de petits chantillons, il est facile
de commettre une erreur de type II, cest--dire conclure que la diffrence
nest pas statistiquement significative. Quune seule population existe plu-
tt que deux.
Inversement, plus les chantillons sont de grande tailles, plus la probabi-
lit de conclure quils proviennent de la mme population est petite. Donc,
la probabilit de commettre une erreur de type II diminue.
Par ailleurs, plus petite est la valeur , plus grande est la valeur Z : pour
= 5 %, Z = 1,96 et pour = 0,01, Z = 2,58. Laccroissement de la valeur
284 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Z entrane laccroissement des bornes de lintervalle de confiance. Lorsque


ces bornes slargissent, seules les grandes diffrences entre les moyennes
permettent de conclure la signification statistique. Par consquent, lors-
que le seuil est plus petit, il devient plus difficile de rejeter H0 et plus
probable de conclure que la diffrence entre les moyennes nest pas statis-
tiquement significative. Le risque dune erreur de type I est plus petit, mais
le risque dune erreur de type II est plus grand.
linverse, lintervalle de confiance est plus troit lorsque le seuil de
signification augmente (par exemple de = 0,01 = 0,05). Augmenter
ce seuil revient dire que nous tolrons un risque derreur plus grand. Lin-
tervalle se rduit et augmente nos chances de conclure la signification
statistique (rejet de H0), occasionnant, en contrepartie, plus de risque de
commettre une erreur de type I.

Tableau 9.2
Impact du nombre dobservations (N) et du seuil de signication () sur la taille
de lintervalle de conance

Intervalle de conance

IC68 % IC95 % IC99 %


M N s M (Z = 1, (Z = 1,96, (Z = 2,58,
= 0,32) = 0,05) = 0,01)

100 4 40 20 80 120 60,8 139,2 48,4 151,6

100 16 40 10 90 110 80,4 119,6 74,2 125,8

100 64 40 5 95 105 90,2 109,8 87,1 112,9

Quiz rapide 9.10


Vous tes le patron dune compagnie pharmaceutique. Vous aurez le droit de
mettre sur le march votre nouvelle pilule seulement si vous tes en mesure
de dmontrer statistiquement quelle est efcace. Vous voulez augmenter vos
chances dobtenir ce rsultat. Devriez-vous tester lefcacit de votre pilule sur
un petit ou sur un grand chantillon de patients ? Votre devrait-il tre petit
ou grand ?
LA MCANIQUE DE LINFRENCE STATISTIQUE 285

Choisir entre les risques dune erreur de type I ou de type II

De cet ensemble de considrations, il faut retenir que linfrence statisti-


que est un exercice qui consiste tablir les risques derreur dinfrence. En
choisissant le seuil ainsi que le nombre dobservations, nous choisissons
automatiquement le risque derreurs de type I et II.
Le choix entre la rduction de lerreur de type I ou lerreur de type II
dpend totalement du risque derreur que lon dsire minimiser. Lorsque
le danger de rejeter incorrectement H0 est plus lev que le danger de ne
pas le rejeter incorrectement, nous allons minimiser le risque dune erreur
de type II en utilisant des chantillons de grande taille et en choisissant un
seuil de signification plus grand ( = 0,05).
Par exemple, si on teste les effets secondaires dun mdicament, il est
plus dangereux de conclure tort quil ny a pas deffets secondaires nocifs
(H0) que de conclure, tort, quil y en a (H). La compagnie pharmaceuti-
que qui met sur le march un mdicament provoquant des effets secondai-
res importants sans avertir les patients sexpose des poursuites judiciaires
qui peuvent la mener la faillite. Dans ce cas, le risque dune erreur de type
II (conclure quil nexiste pas deffets secondaires alors quil en existe) est
plus grave que de rapporter des effets secondaires qui nexistent pas. Lin-
cidence deffets secondaires causs par le mdicament doit tre teste avec
de grands chantillons et/ou avec un seuil alpha plus grand ( = 0,05 plutt
que = 0,01). Dans ce cas, mme une lgre diffrence sur le plan des effets
secondaires sera statistiquement significative, ce qui encouragera la com-
pagnie signaler sa clientle un risque deffets secondaires.
linverse, avant dinvestir dnormes sommes dargent dans le dve-
loppement dun nouveau mdicament ainsi que dans des tudes cliniques
de grande envergure lgalement requises pour la mise en march, la com-
pagnie pharmaceutique se doit de vrifier sil a de bonnes chances dtre
efficace. Elle dsire, dans ce cas, minimiser le risque dune erreur de type
I (conclure tort que le mdicament est efficace). Par consquent, elle uti-
lisera un chantillon de petite taille et un seuil alpha plus petit ( = 0,01
plutt que = 0,05), car seule une grande diffrence sera statistiquement
significative. Si, avec ce petit N et ce seuil, elle conclut que le mdicament
est efficace (statistiquement significatif), elle a de trs bonnes chances den
286 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

arriver la mme conclusion lorsquelle testera son efficacit avec des


chantillons plus grands et plus coteux.

SOMMAIRE DU CHAPITRE

Le processus dchantillonnage alatoire cause une variation invitable


entre la moyenne des chantillons extraits dune population. La taille de
cette erreur dchantillonnage (lerreur type de la moyenne) peut tre esti-
me partir de la variance et du nombre dobservations dun seul chan-
tillon. Il devient alors possible de crer un intervalle de confiance qui reflte
le degr de variabilit alatoire des chantillons. Ds lors, on peut compa-
rer la moyenne de lchantillon la moyenne laquelle on pourrait sat-
tendre (moyenne de la population cible). Cette comparaison est au cur
des tests de signification. On dit que deux chantillons sont statistiquement
diffrents lorsquil est peu probable quils puissent tous les deux provenir
de la mme population. Le test de signification indique le risque derreur
de type I que lon accepte en concluant que lchantillon ne provient pas
de la population ou que deux chantillons ne proviennent pas de la mme
population. Mais on doit aussi faire attention au risque dune erreur de
type II, le risque de conclure tort que les deux chantillons proviennent
de la mme population. Lorsquil sagit de minimiser le risque dune erreur
de type I, on utilise un seuil et un N de petite taille. Lorsquil sagit de
minimiser lerreur de type II, on fait linverse : on utilise un seuil et un N
plus grand.

COMMENT TROUVER LERREUR TYPE DE LA MOYENNE

Pour obtenir lerreur type de la moyenne, il faut calculer la variance de M,


note Var(M). Une faon dy arriver serait de prendre plusieurs chan-
tillons puis de calculer la variance entre les moyennes de ces chantillons.
En fait, cest comme si lon btissait un mta-chantillon Z contenant
comme donnes brutes les moyennes {M1, M2, M3, , Me}. videmment,
dans la pratique, nous navons pas le loisir de constituer plusieurs chan-
tillons uniquement pour connatre lerreur type de la moyenne. Heureuse-
ment, les statistiques ont rsolu ce problme. Premirement, il faut savoir
LA MCANIQUE DE LINFRENCE STATISTIQUE 287

que, de faon gnrale, Var(X) = E(X2) E2(X). Cette formule sapplique


aussi pour M :
Var(M) = E(M2) E2 (M) = E(M2) 2.
Si on dtaille le premier terme de la soustraction, on obtient :
,
1 2 1
M2 = --- X i = ----- (X1 + X2 + X3 + ... + Xn)2
n i n
2

1 1 2 2 2 2
= ----- ----- X 1 + X 2 + X 3 + ... + X n + 2 X i X j
2 2
n n i<j
1 2
= ----- X i + 2 X i X j
2
n i i<j

Or, puisque Var(X) = E(X2) E2(X) = E(X2) 2 et que Var(X) est la


meilleure estimation de 2, cela implique que, par simple rarrangement,
E(X2) = 2 + 2. De plus, E(XX) = E(X)E(X) = 2. Finalement, si une varia-
ble i peut prendre toutes les valeurs de 1 n, et que pour un i donn, la
p
variable j peut prendre toutes les valeurs de 1 i exclusivement, nous nous
n(n 1)
retrouvons avec -------------------- combinaisons de i et de j. Si on intgre tous ces
2
lments, nous pouvons noter que :
1 2 2 2
E(M2) = ----- ( + ) + 2
2
n i i<j
1 2 2 n(n 1) 2
= ----- n ( + ) + 2 --------------------
n
2 2
1 2 2 2 2 2
= ----- ( n + n + n n )
2
n
2
1 2 2 2 2
= ----- ( n + n ) = ------ +
2 2
n n
En intgrant la premire quation et la dernire, nous obtenons :
2 2
2 2
Var(M) = ------ + = ------
n n
Il ne reste plus qu prendre la racine carre pour trouver lerreur type de
la moyenne.
288 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

EXERCICES DE COMPRHENSION

1. La meilleure estimation que nous avons de et de est _____


et _____ respectivement.
a) la taille de lchantillon ; sa variance
b) M ; s
c) N ; N 1
d) Toutes ces rponses sont justes.
2. Lchantillon A est compos de 100 observations, alors que
lchantillon B est compos de 1 000 observations. Toutes choses
tant gales par ailleurs, lerreur type de la moyenne pour
lchantillon B sera ___________ lchantillon A ?
a) plus grande que celle de
b) moins grande que celle de
c) identique celle de
d) parfois plus grande et parfois plus petite que celle de
3. Si nous voulons minimiser nos chances de commettre une erreur
dinfrence de type II, _______________ .
a) il faut choisir de petits chantillons et utiliser un seuil alpha plus
petit (0,01 plutt que 0,05)
b) il faut choisir de grands chantillons et utiliser un seuil alpha
plus petit (0,01 plutt que 0,05)
c) il faut choisir de petits chantillons et utiliser un seuil alpha plus
grand (0,05 plutt que 0,01)
d) il faut choisir de grands chantillons et utiliser un seuil alpha
plus grand (0,05 plutt que 0,01)
4. Si nous voulons minimiser nos chances de commettre une erreur
dinfrence de type I, _________________ .
a) il faut choisir de petits chantillons et utiliser un seuil alpha plus
petit (0,01 plutt que 0,05)
b) il faut choisir de grands chantillons et utiliser un seuil alpha
plus petit (0,01 plutt que 0,05)
c) il faut choisir de petits chantillons et utiliser un seuil alpha plus
grand (0,05 plutt que 0,01)
LA MCANIQUE DE LINFRENCE STATISTIQUE 289

d) il faut choisir de grands chantillons et utiliser un seuil alpha


plus grand (0,05 plutt que 0,01)
5. Les chances de rejeter H0 sont plus grandes lorsque nous analysons
_______________.
a) des chantillons de petite taille
b) des chantillons ayant des moyennes proches de
c) des chantillons provenant dune population ayant une grande
variance
d) Aucune de ces rponses
6. Les bornes de lintervalle de confiance sont plus larges lorsque nous
choisissons un seuil alpha ___________ et un N ____________.
a) plus petit ; plus petit
b) plus petit ; plus grand
c) plus grand ; plus petit
d) plus grand ; plus grand
7. Nous avons une population qui est asymtrique positive. Nous
tirons de cette population 1 000 chantillons, chacun compos
de 100 observations, et nous calculons la moyenne pour chaque
chantillon. Enfin, nous tablissons la distribution des effectifs
pour ces moyennes. Cette distribution sera approximativement
________________.
a) asymtrique positive
b) asymtrique ngative
c) normale
d) asymtrique positive, ngative ou normale, selon le test statisti-
que utilis.
8. La moyenne de cet chantillon est gale 11 et lerreur type de la
moyenne pour cet chantillon est de 1. La moyenne de la population
de laquelle est extrait cet chantillon est gale 10. Si = 0,01
a) Il est fort probable que cet chantillon provienne de cette
population.
b) Il est fort probable que cet chantillon ne provienne pas de cette
population.
c) Selon le rsultat au test de signification, cet chantillon pourrait
ou non provenir de cette population.
290 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

d) Ces trois rponses sont toutes galement justes.


9. Nous avons trouv une diffrence qui est statistiquement
significative = 0,05 entre deux chantillons. Par consquent,
___________ que les deux chantillons ________ de la mme
population.
a) il est certain ; proviennent
b) il est probable ; proviennent
c) il est certain ; ne proviennent pas
d) il est probable ; ne proviennent pas

Rponses

1. b
2. b
3. d
4. a
5. d
6. a
7. c (voir le thorme de la limite centrale)
8. a
9. d
CHAPITRE 10
UNE OU DEUX POPULATIONS ? LE TEST t

Pourquoi un petit chantillon ? ...................................................... 294


Lerreur type de la moyenne et les petits chantillons................ 295
Lintervalle de confiance pour les petits chantillons................. 297
Le tableau des valeurs critiques de t .............................................. 299
Le test t pour un chantillon................................................................ 301
Le test t pour deux chantillons indpendants................................. 304
La logique de base pour le test t pour chantillons
indpendants................................................................................ 304
Le calcul de la statistique tobserv pour les chantillons
indpendants................................................................................ 305
Les degrs de libert du test t pour les chantillons
indpendants................................................................................ 307
Un exemple de calcul pour le test t pour les chantillons
indpendants................................................................................ 307
Le signe de la statistique tobserv........................................................ 310
Hypothse unicaudale ou hypothse bicaudale ? ........................ 311
La valeur critique de t pour les hypothses unicaudale
et bicaudale................................................................................... 312
Lutilisation du tableau des valeurs critiques pour les tests
unicaudaux et bicaudaux ........................................................... 313
Le seuil ............................................................................................ 315
Un exemple de test t sur deux groupes indpendants ............... 316
292 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Le test t pour des donnes paires ...................................................... 316


Les degrs de libert dans le test t pour chantillons pairs...... 318
Une illustration du test t pour chantillons pairs...................... 318
Sommaire des tapes pour raliser un test t...................................... 319
Rdiger une interprtation des donnes............................................ 320
Sommaire du chapitre........................................................................... 321
Exercices de comprhension................................................................ 322
CHAPITRE 10

UNE OU DEUX POPULATIONS ?


LE TEST t

Le test t comme le test z dcrit au chapitre 9 ou celui qui sera dcrit dans
le prochain chapitre (lANOVA) est un test statistique qui permet de
dduire, avec un risque derreur connu, si deux chantillons sont statisti-
quement diffrents, cest--dire sils proviennent dune seule population ou
de deux. La grande diffrence entre le test t et les autres est que celui-ci est
optimis pour fournir des infrences valides pour des chantillons de petite
taille. Bien que le test t soit utilis principalement pour comparer deux
petits groupes, il peut aussi tre utilis pour dterminer si un chantillon
unique nappartient pas une population connue ou si le mme groupe
dinformateurs produit des rsultats diffrents sur deux mesures diffren-
tes et/ou si le mme groupe dinformateurs fournit une rponse moyenne
diffrente sur la mme variable lorsque celle-ci est administre deux
moments diffrents.
Dans son utilisation principale, le principe du test t se comprend assez
facilement. On calcule la diffrence entre la moyenne des deux chantillons
que lon va comparer la diffrence typique laquelle on peut sattendre
de deux chantillons tirs alatoirement dune population. Si la diffrence
entre les deux moyennes est plus grande que la diffrence typique, on
conclut, avec une probabilit derreur connue, que les deux chantillons
sont extraits de populations diffrentes : la diffrence est statistiquement
significative. Si la diffrence entre les deux moyennes nest pas plus grande
que la diffrence typique entre deux chantillons tirs de la mme population,
294 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

nous concluons quil ny a pas de preuves voulant que les deux chantillons
nappartiennent pas la mme population. La diffrence nest pas statisti-
quement significative.

William S. Gosset, la statistique et la bire


Nous devons la statistique t et le test t, indirectement, la bire ! Au dbut du xxe si-
cle, William S. Gosset, chimiste et mathmaticien employ par la brasserie britannique
Guinness, prit cong de son employeur pour entrer, titre dtudiant, au laboratoire
de Karl Pearson le mme Pearson qui nous a donn le coefcient de corrlation. Gosset
dcida de se pencher sur un problme pratique et thorique qui proccupait les statis-
ticiens, ainsi que les brasseurs, de lpoque.
Les caractristiques de la distribution normale taient fort bien connues et les sp-
cialistes savaient sen servir pour tirer des infrences. Mais tait-il possible de se servir
de cette distribution normale pour tirer des infrences alors que les chantillons taient
de petite taille ? Aprs tout, le thorme de la limite centrale (chapitre 9) indique que
la distribution des chantillons sapproche de la normalit, mais seulement lorsque le
nombre dobservations dans les chantillons est assez grand (N 30).
Les systmes de production de denres alimentaires (y compris la bire) sont sou-
mis des contrles de qualit. Des chantillons du produit sont alatoirement choisis
et analyss an de tirer une infrence au sujet de la chane de production. Donne-t-elle
un produit qui est conforme aux exigences de qualit et de puret ? Ces analyses tant
complexes et coteuses, elles ntaient appliques que sur de petits chantillons (seu-
lement quelques bouteilles de Guinness). Il fallait donc tirer une infrence au sujet de
la population (la chane de production de la bire) partir dun trs petit chantillon
(quelques bouteilles de Guinness). Cest Gosset, le chimiste-brasseur-mathmaticien,
qui russit le premier rsoudre le problme de linfrence partir dun petit chan-
tillon. Sa contribution : la statistique t, la distribution t et le test t.

POURQUOI UN PETIT CHANTILLON ?

Les statisticiens prfrent utiliser de grands chantillons plutt que des


petits. Les grands chantillons sont en effet plus aptes nous renseigner sur
la moyenne de la population, car lerreur type de la moyenne est plus petite
lorsque le nombre dobservations est plus grand. Des simulations montrent
que, lorsque les chantillons contiennent au moins une trentaine dobser-
vations, la distribution de la moyenne de ces chantillons commence
ressembler la distribution normale. Ainsi, les statisticiens considrent un
chantillon petit lorsquil est compos de moins de 30 observations et
grand lorsquil en contient plus.
UNE OU DEUX POPULATIONS ? LE TEST T 295

Naturellement, ce critre est approximatif. Pour certaines populations,


celles qui sont trs symtriques, lapproximation la distribution normale
se fera avec des chantillons comprenant moins de 30 observations. lin-
verse, lorsque la population est trs asymtrique (tels les salaires des joueurs
de la NHL), seuls les chantillons contenant plus (et parfois beaucoup plus)
de 30 observations conduiront une approximation raisonnable de la dis-
tribution normale.

Lerreur type de la moyenne et les petits chantillons

On se souvient (voir le chapitre 9) que le calcul de lerreur type de la


moyenne (M) permet de positionner la moyenne de lchantillon par rap-
port la moyenne de la population. Grce cette statistique, il est possible
de calculer un intervalle de confiance qui, son tour, est utilis pour rali-
ser une infrence au sujet de la signification statistique.
Lerreur type de la moyenne se dfinit par le rapport entre lcart-type
de la population () et le nombre dobservations N dans lchantillon

(M = /N ). Puisque nous connaissons rarement lcart-type de la popu-
lation, cette formule est inutile en pratique. Mais comme nous lavons vu
au chapitre 9, nous pouvons estimer lcart-type de la population partir

de lcart-type de lchantillon (sM = s/N ). Le thorme de la limite cen-
trale (chapitre 9), quant lui, indique que lapproximation de lcart-type
de la population sera bonne condition que le nombre dobservations N
soit grand (N 30).
Quarrive-t-il lorsque les chantillons sont petits ? La distribution de ces
moyennes est-elle la mme que la distribution Z ? W. S. Gosset eut lide
lumineuse (et la persistance) dtablir empiriquement la forme de la distri-
bution des moyennes pour les petits chantillons.
Gosset construit une population normale dobservations et il calcule la
moyenne de cette population (). Utilisant la procdure dchantillonnage
avec remise (voir lencadr), il tire de cette population plusieurs centaines
dchantillons ayant la mme petite taille (par exemple N = 2). Pour cha-
cun de ces petits chantillons, il calcule sa moyenne (Mi) quil compare
la moyenne (connue) de la population (Mi ). Puisque les chantillons
sont tous extraits de la mme population, nous nous attendons ce que la
296 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

diffrence entre leurs moyennes et la moyenne de la population soit gale


zro. Mais cause de lerreur dchantillonnage, nous savons que cela ne
sera pas le cas. Il calcule, alors, pour chaque chantillon, lerreur type de la

moyenne (sM = s/N ).

La slection alatoire avec ou sans remise


Supposons que nous avons une population comprenant cinq familles (A E) de laquelle
nous tirons des chantillons alatoires de deux familles. Quelle chance la famille A
a-t-elle dtre choisie dans le premier chantillon ? Puisque nous avons cinq familles, la
probabilit pour nimporte quelle famille dtre choisie est de 1/5, p = 0,20. Mais selon
quelle probabilit la famille B sera-t-elle choisie dans ce mme chantillon ? Puisquil
ne reste que quatre familles dans la population, cette probabilit est de 1/4, p = 0,25.
La probabilit dtre choisi nest pas la mme pour les deux membres de cet chan-
tillon. Cette ingalit dans les chances dtre choisi viole un principe fondamental de
la slection alatoire (voir le chapitre 8). On nomme chantillonnage sans remise cette
procdure dchantillonnage.
Pour pallier cette difcult, on a cr la procdure de slection alatoire avec remise.
Son but est dgaliser les chances dinclusion dans un chantillon de tous les membres
dune population. la suite de chaque tirage au sort, lobservation choisie est replace
dans la population la rendant admissible pour le prochain tirage. La slection alatoire
avec remise donne chaque membre de la population une chance dtre choisi qui est
exactement gale.
En pratique, on utilise rarement la slection alatoire avec remise parce quelle
nest pas ncessaire. Nous travaillons gnralement avec des populations de trs
grande taille (des millions dobservations potentielles). Le biais de slection que la pro-
cdure de slection alatoire sans remise occasionne est, par consquent, ngligeable.
Mais lorsque lon travaille avec de petites populations (par exemple les patients atteints
dune maladie trs rare), lchantillonnage avec remise est obligatoire.

Ces deux informations a) la diffrence entre la moyenne de chaque


chantillon et la moyenne de la population (Mi ) et b) lerreur type de

la moyenne (s/N ) sont divises pour produire la statistique t dcrite
par la Formule 10.1
M
t = -------------- Formule 10.1
s/ N
Nous voyons alors que la statistique t dcrit la distance qui existe entre
la moyenne dun chantillon et la moyenne de la population (M ) par
rapport la diffrence typique (lerreur type de la moyenne).
Gosset construit une distribution des statistiques t obtenues sur les
innombrables chantillons de mme taille (N = 2, N = 3, etc.). Empirique-
UNE OU DEUX POPULATIONS ? LE TEST T 297

ment, il dcouvre que cette distribution prend la forme gnrale dune dis-
tribution unimodale (o les trois mesures de tendance centrale concident ;
voir le chapitre 5). Mais les extrmits de la distribution des valeurs t ne
sont pas les mmes que celles de la distribution normale : la proportion des
valeurs t plus extrmes est plus grande que celle laquelle nous pourrions
nous attendre si la distribution des valeurs t suivait la distribution normale
standardise (Z). La Figure 10.1 reprsente le graphe des polygones dcri-
vant la distribution normale et la distribution de la statistique t.

gure 10.1 Distribution normale et distribution de la statistique t

Distribution t Distribution normale (z)

3 2 1 0 1 2 3

Gosset rpte ce processus dchantillonnage en augmentant le nombre


dobservations systmatiquement (N = 3, N = 4, N = 30, etc.). Pour cha-
que srie dchantillons de mme taille, il calcule la statistique t et tablit
pour chacune la distribution de ces statistiques t. En comparant les divers
polygones des frquences de la statistique t, il constate que la forme exacte
de la distribution de la statistique t varie en fonction de la taille de lchan-
tillon. Lorsque le nombre dobservations est petit, la distribution t sloigne
de la distribution normale Z. linverse, lorsque les chantillons sont de
grande taille, la distribution t est plus similaire la distribution Z, et avec
un nombre infini dobservations, les distributions Z et t sont parfaitement
identiques.

Lintervalle de conance pour les petits chantillons

On se souvient (voir chapitre 9) que lintervalle de confiance est dtermin


par la densit des observations sous la courbe normale (Z) et par lerreur
type de la moyenne (M) que nous estimons avec sM. La formule finale pour
298 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

le calcul de lintervalle de confiance est Z M. Nous utilisons la sta-


tistique Z parce quelle nous indique la proportion des chantillons qui se
trouvent entre nimporte quelle valeur et la moyenne de la population. Par
exemple, nous savons que 95 % des chantillons tirs dune distribution
normale se situent une distance Z = 1,96 de la moyenne de la popula-
tion. Ceci dcoule directement du thorme de la limite centrale.
Le travail de Gosset indique que la distribution des moyennes des petits
chantillons par rapport la moyenne de la population est dcrite avec
plus de prcision par la distribution t. Le calcul dun intervalle de confiance
pour les petits chantillons ne peut pas, par consquent, suivre la forme
habituelle : Z M puisque la distribution Z nest pas la distribution
qui dcrit le mieux la forme de la distribution pour les petits chantillons.
Il faudrait plutt faire appel la distribution de la statistique t. La Formule
10.2 dcrit la forme qui est approprie lorsque lintervalle de confiance est
construit sur de petits chantillons.
Pour calculer cet intervalle de confiance, il faut trouver une valeur t qui
inclut 95 % des chantillons extraits de la mme population. Similaire-
ment, pour avoir plus de certitude dans notre conclusion, nous pouvons
trouver une valeur t qui recoupe 99 % des chantillons, cest--dire choisir
un seuil = 0,01 (voir le chapitre 9). Nous allons appeler cette valeur le
tcritique (certains statisticiens prfrent le terme t [dl] et nous utilisons ici ces
deux termes de faon interchangeable).
Mais il y a un problme : les valeurs tcritiques dpendent de la taille de
lchantillon (en revanche, la valeur critique Z ne dpend pas de N).
Comme nous le verrons plus loin, les valeurs tcritiques sont dj tablies pour
toutes les tailles des chantillons entre N = 3 et environ N = 1201. Elles sont
reproduites dans le tableau des valeurs critiques de t dans lAnnexe. Nous
verrons plus loin comment lire et interprter ce tableau. Prsumons pour
linstant que la valeur tcritique est trouve.
Une fois cette valeur tcritique trouve, nous pouvons alors utiliser la For-
mule 10.2 pour calculer lintervalle de confiance autour de la moyenne de
nimporte quel chantillon

1. Le tableau des valeurs critiques de t va jusqu N = 120 parce que, pour les chan-
tillons de plus grande taille, la distribution t devient quasi identique la distribution Z.
Il nest donc plus ncessaire de sen servir.
UNE OU DEUX POPULATIONS ? LE TEST T 299

tcritique sM Formule 10.2


o tcritique est une valeur qui dfinit la proportion des valeurs t qui inclut
95 % (ou 99 %) des valeurs t de la distribution.
Cette formule dintervalle de confiance pour les petits groupes est iden-
tique celle utilise pour les grands groupes, sauf que la valeur critique se
trouve partir de la distribution t plutt qu partir de la distribution Z. Le
calcul de cet intervalle de confiance ncessite le calcul de lerreur type de la

moyenne (sM = s/N ), o s est lcart-type de lchantillon. Il faut donc cal-
culer lcart-type de lchantillon (s) que nous divisons par la racine carre
du nombre dobservations. Il faut aussi connatre la valeur critique de t que
nous trouvons dans un tableau (voir lAnnexe). Il faut maintenant appren-
dre lire le tableau des valeurs critiques de t.

Le tableau des valeurs critiques de t

Le tableau des valeurs critiques de t se trouve dans lAnnexe A.2 et le


Tableau 10.2 (p. 314) en prsente un extrait. Ce tableau est compos de ran-
ges et de colonnes. Chaque range dfinit le nombre de degrs de libert
dans lchantillon. Le nombre de degrs de libert pour chaque chantillon
est donn par N 1 : le calcul de lerreur type dpend de lcart-type de
lchantillon. Lcart-type, son tour, est calcul en fonction du nombre
de degrs de libert, N 1. Si on a six observations dans un chantillon, il
contient donc cinq degrs de libert.
Pour trouver le tcritique requis pour ltablissement de lintervalle de
confiance, il faut pralablement calculer le nombre de degrs de libert, N 1.
Nous trouvons alors la range du tableau des valeurs critiques de t qui cor-
respond au nombre de degrs de libert dans lchantillon du Tableau 10.2.
Il faut ensuite dterminer un seuil appropri. Dsirons-nous produire
un intervalle de confiance dot de bornes troites ou larges ? Tout comme
nous lavons tudi au chapitre 9, si nous dsirons rduire le risque dune
erreur alpha, nous choisissons un seuil trs petit (p < 0,01) plutt quun
seuil plus grand (p < 0,05). Les colonnes du tableau des valeurs critiques
identifient le seuil alpha dsir.
La valeur critique de t est la valeur qui est inscrite dans le tableau lin-
tersection de la range qui correspond au degr de libert et de la colonne
300 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

qui correspond au seuil alpha dsir. Par exemple, si nous avons un chan-
tillon compos de 7 personnes, les degrs de libert sont N 1 = 6, et pour
un seuil de = 0,05, la valeur tcritique = 2,447.

Quiz rapide 10.1


Trouvez dans le tableau des valeurs critiques de t (dans lAnnexe) la valeur critique
= 0,05 et 0,01 pour un chantillon contenant un total de 12 observations.

Lide retenir est que la distribution des moyennes des petits chan-
tillons sapparentant une distribution t nest pas la mme que celle pro-
duite par des grands chantillons, qui, elle, est la distribution Z. partir de
ces considrations, il est possible dexpliquer lutilisation de la statistique t
dans trois applications distinctes.

Le test t pour un seul chantillon

Cette version du test t est utilise pour dterminer si un petit chantillon est
diffrent de la moyenne hypothtique de la population lorsque la variance
de la population est inconnue (lchantillon appartient-il cette popula-
tion X ?). Par exemple, une nouvelle marque de voiture a-t-elle le degr de
consommation de carburant que prtend le manufacturier ?

Le test t pour deux chantillons indpendants

Cette version sert dterminer si deux petits chantillons ont des moyennes
diffrentes, cest--dire sils appartiennent deux populations diffrentes. Par
exemple, une technique chirurgicale est-elle plus efficace quune autre ?

Le test t pour deux chantillons non indpendants, ou le test t pour


les donnes jumeles

Pour dterminer si le mme petit chantillon diffre sur deux variables.


Cette dernire application est trs utile lorsquil sagit dvaluer le change-
ment. Par exemple, la comprhension de la statistique dans un cours sest-
elle amliore la suite dun premier examen ?
UNE OU DEUX POPULATIONS ? LE TEST T 301

LE TEST T POUR UN CHANTILLON

Le test t sur un seul chantillon est utilis afin de dterminer si un chan-


tillon provient ou non dune population dont on croit connatre la moyenne,
mais pas la variance. Il consiste tablir un intervalle de confiance (par
exemple 95 %) autour de la moyenne de la population. Si la moyenne de
lchantillon tombe lintrieur des bornes de cet intervalle de confiance,
on naura pas de raison de conclure que cet chantillon nappartient pas
la population. Mais si la moyenne de lchantillon tombe lextrieur
de lintervalle, on aura alors de bonnes raisons de croire que lchantillon
nappartient pas cette population.
Supposons que, dans une grande manufacture de circuits lectroniques,
lemploy moyen monte 100 circuits par jour. Nous pouvons dire que la
moyenne de productivit de cette population est = 100. Un cadre met
sur pied un programme de formation qui vise accrotre la productivit.
Vingt-cinq employs tirs au hasard participent ce programme. On
mesure ensuite la productivit de ce groupe demploys et on trouve quen
moyenne ces N = 25 employs produisent M = 107 circuits par jour et que
lcart-type de son chantillon s = 15. Ce programme de formation am-
liore-t-il la productivit ? Formalisons le jeu dhypothses. Nous postulons
(H) que la productivit des employs qui ont reu la formation nest pas
la mme que celle des employs en gnral. Lhypothse nulle (H0) est que
leur productivit est en ralit la mme que celle de la population.
H0 : = 100
H : 100
Pour que ce programme soit jug efficace, il faut dmontrer quil est peu
probable davoir une productivit de 107 circuits dans un chantillon, alors
que la population en produit en moyenne 100. Il faut donc tablir un inter-
valle de confiance en se servant de la Formule 10.2.
Nous choisissons un seuil de signification de 0,05. Le test est de la
forme :
Rejet de H0 si M nest pas inclus dans tcritique sM.
Il faut prciser les degrs de libert. Ici, nous avons d calculer lcart-
type de lchantillon o toutes les donnes sauf une sont libres. Nous avons
302 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

donc N 1 degrs de libert, o N est le nombre dobservations. Pour


N = 25, les degrs de libert sont 24.
Notre chantillon contient N = 25 observations, sa productivit moyenne
est M = 107 et lcart-type de cette productivit est s = 15. Nous pouvons
maintenant calculer lintervalle de confiance et tester notre hypothse.

a) Calculer sM = s/N = 15 / 5 = 3.
b) Chercher dans la table t la valeur du tcritique. Les degrs de libert tant
N 1 = 24, nous trouvons dans le tableau des valeurs critiques de t,
la valeur tcritique = 2,06 lintersection de 24 degrs de libert et de la
colonne = 0,05. Le test est donc :
Rejet de H0 si 107 nest pas inclus dans 100 2,06 3,00
= 100 6,18 = 93,82 106,18.
Quatre-vingt-quinze pour cent des chantillons de 25 travailleurs alatoi-
rement extraits de cette population auraient une productivit moyenne
variant entre 93,8 et 106,2 circuits lectroniques. Notre chantillon de per-
sonnes formes produit, en moyenne, 107 circuits, un degr de produc-
tivit qui nest pas inclus dans lintervalle de confiance. Par consquent,
nous rejetons H0 et concluons que la productivit de cet chantillon nap-
partient pas la distribution de productivit de la population gnrale de
travailleurs de cette entreprise. Dans ce cas, nous concluons que le pro-
gramme de formation est efficace (il rsulte en un degr de productivit
plus grand que celui de la population de travailleurs qui nont pas reu de
formation).
Lorsque les observations qui appartiennent un chantillon ne peuvent
pas appartenir un autre, on dit que les chantillons sont indpendants. Le
test t utilis dans ces conditions est appel le test t pour deux chantillons
indpendants. Par contre, dans certaines tudes, les mesures sont prises sur
les mmes individus. Ces tudes sont particulirement utiles lorsquil sagit
dvaluer le changement. Par exemple, les symptmes de maladie sont-ils
aussi frquents avant quaprs un traitement mdical ? Le test t que lon uti-
lise prend alors le nom de test t pour chantillons pairs ou jumells, aussi
appel test t pour chantillons dpendants. Nous expliquerons cette forme
du test t plus loin de ce chapitre.
UNE OU DEUX POPULATIONS ? LE TEST T 303

Le lien entre un intervalle de conance et le test t pour un chantillon


Utilisons le symbole t(dl) pour indiquer le tcritique. Une autre faon de voir le test t consiste
noter que :
M nest pas inclus dans t(dl) sM.
Cela revient au mme que de dire :
M < t(dl) sM ou M > + t(dl) sM
e. g. M est en bas de la limite infrieure ou au-dessus de la limite suprieure. Si lon ra-
mnage quelque peu ceci, on obtient :
M < t(dl) sM ou M > + t(dl) sM
ou de faon quivalente :
M < t(dl) ou M > + t(dl)
sM sM

Cela signie que M , ignorant le signe, doit excder t(dl). On dit que la valeur
absolue sM

de M , note |M |, doit tre plus grande que la valeur absolue de t(dl).


sM sM
Cela permet un raccourci :
|M |
sM > t(dl)
o t(dl) est sans signe. Aussi, une faon concise dcrire le test t sur un chantillon est :
|M |
Rejet de H0 si s > t(dl)
M

Le test t sur un chantillon est gnralement connu sous cette dernire forme, mais en
fait, cest exactement le mme test que lorsquon a utilis des intervalles de conance !
La partie gauche de lquation, sans valeur absolue, est parfois appele la statistique
tobserv, ne pas confondre avec t(dl), le tcritique :
M
tobserv = sM

Quiz rapide 10.2


Nous testons une thrapie avec un schme avant-aprs. Est-ce que les donnes
forment un chantillon ? deux chantillons indpendants ? deux chantillons
pairs ? Nous testons une nouvelle mthode denseignement du franais en
6e anne. Nous essayons la nouvelle mthode pendant une anne et nous
comparons les rsultats ceux de lanne prcdente. Sagit-il dchantillons
indpendants ou dchantillons pairs ?
304 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

LE TEST T POUR DEUX CHANTILLONS INDPENDANTS

Le test t pour deux chantillons indpendants est la forme qui est la plus
utilise. Imaginons la situation o nous voulons dterminer si un nouveau
mdicament amliore ltat de sant de patients souffrant de la maladie
dAlzheimer. Nous tirons alatoirement deux petits chantillons de cette
population de patients. un groupe, nous administrons le mdicament,
alors que nous ne le faisons pas pour lautre groupe. Quelques semaines ou
quelques mois plus tard, nous mesurons ltat de sant des patients dans
chaque groupe et nous calculons une moyenne pour chacun des groupes.
La question est : ltat de sant moyen du groupe qui reoit le traitement
est-il diffrent de (ou suprieur ) celui du groupe qui ne reoit pas le trai-
tement ? Plus formellement, les deux groupes appartiennent-ils ou non la
mme population ?

La logique de base pour le test t pour chantillons indpendants

Si les deux chantillons sont extraits de la mme population (cest--dire


que le mdicament ne change rien), nous pouvons nous attendre nob-
tenir aucune diffrence entre les moyennes des deux groupes. Or, cause
de lerreur dchantillonnage, il est quasi certain que la diffrence entre ces
deux chantillons ne sera pas exactement de zro. Il faut donc examiner la
diffrence entre la moyenne des deux groupes et linterprter la lumire
de lerreur dchantillonnage.
Nous pouvons estimer la diffrence typique qui existe entre deux
chantillons alatoirement tirs de la mme population. Il sagit de calcu-
ler lerreur type de la diffrence entre deux chantillons (nous allons voir
comment procder plus loin). partir de cette erreur type de la diffrence,
nous pouvons gnrer un intervalle de confiance en fonction du seuil de
signification dsir. Puis, nous calculons la diffrence observe entre les
deux chantillons. Si la diffrence entre eux tombe lextrieur de (est plus
grande que) lintervalle de confiance, nous concluons que la diffrence
observe dans ces chantillons est statistiquement significative : les chan-
tillons nappartiennent pas la mme population. Puisque la seule diff-
rence entre les deux groupes est que lun prend un mdicament et lautre
UNE OU DEUX POPULATIONS ? LE TEST T 305

pas, force est de conclure que le mdicament a un effet. Si la diffrence


entre les moyennes est incluse dans lintervalle de confiance, la diffrence
nest pas significative et il nest pas possible de conclure que le mdicament
produit leffet escompt.

Le calcul de la statistique tobserv pour les chantillons indpendants

Le calcul de la statistique tobserv est plus complexe pour un test sur deux
chantillons indpendants. Nous prsentons les diverses formules requises,
mais, en pratique, les logiciels danalyses statistiques (SPSS ou Excel) font
ces calculs automatiquement.
La premire tape est dobtenir une estimation de lerreur type. Il faut
estimer , lcart-type de la population, ce que lon fait partir de lcart-
type de lchantillon : lerreur type est obtenue en divisant lcart-type
de lchantillon (s) par la racine carre du nombre de sujets. Mais l, un
choix est faire : il y a deux chantillons. Va-t-on utiliser lcart-type de
lchantillon 1 ou de lchantillon 2 ? Lequel est le meilleur pour estimer
lcart-type de la population ?
En fait, aucun ne lest. Selon lhypothse nulle, les deux chantillons pro-
viennent de la mme population (le test t pour chantillons indpendants
dira si lon a raison ou tort). Si toutes les donnes des deux chantillons
viennent de la mme population, pourquoi ne pas les regrouper ensemble
pour estimer ? Appelons S2c la variance combine des deux groupes. La
variance combine se calcule par
2 2
( N 1 1 )s 1 + ( N 2 1 )s 2
S = ---------------------------------------------------------
2
Formule 10.3
c
( N1 1 ) + ( N2 1 )

o s21 et s22 sont les variances de chaque chantillon et N1 et N2 reprsentent


le nombre dobservations dans chaque chantillon.
En fait, cette formule indique que S2c est la moyenne des deux varian-
ces. Lajout des termes (N1 1 et N2 1) au numrateur de la formule est
ncessaire lorsque les deux chantillons ne sont pas de mme taille (N). En
multipliant les variances de chaque chantillon par N1 1, nous crons une
variance moyenne pondre, qui donne plus dimportance lchantillon
qui contient plus dobservations. Cela est raisonnable puisque lchantillon
306 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

qui contient plus dobservations produit une estimation de la population


qui est plus prcise que celle produite par un chantillon plus petit.

Lerreur type de la moyenne se calcule par s/N. Puisque S2c est la
variance combine, en la divisant par N1, nous obtenons lerreur type (au
carr) dans lchantillon 1, et en divisant S2c par N2, nous obtenons lerreur
type (au carr) dans lchantillon 2. Quelle erreur type doit-on prendre
pour estimer lerreur type de la diffrence entre la moyenne 1 et la moyenne
2 ? La plus grande ? La moyenne des deux ? Il faut savoir que lerreur de
mesure, ou erreur dchantillonnage, est toujours croissante : si on sous-
trait deux mesures, chacune entache derreurs, lerreur totale est la somme
des erreurs individuelles. En ce qui concerne les erreurs dchantillonnage,
ce sont les erreurs carres quon doit additionner, puis il faut prendre la
racine carre pour obtenir une erreur typique, ce qui donne :
2 2
sc sc
sM = -----
- + ------
1 M2
N1 N2

ce qui se simplifie en :
sM M2 = sc 1 N1 + 1 N2 Formule 10.4
1

o SM M est lerreur type qui rsulte du calcul de la diffrence entre deux


1 2
moyennes et sc est lcart-type de la variance combine S2c, obtenu en faisant
la racine carre.
La Formule 10.4 nous donne SM1 M2 quon appelle lerreur type de la dif-
frence. Elle indique la diffrence typique entre les moyennes de deux groupes.
Cette mesure peut finalement tre utilise pour calculer une statistique t qui,
elle, sera en mesure de tester la diffrence entre les deux groupes indpen-
dants. Cette valeur t, que lon nomme le tobserv, est celle que nous allons
comparer ventuellement au tableau des valeurs critiques de t. La statis-
tique prsente donc le rapport de la diffrence observe entre les deux
moyennes et lerreur type de la diffrence moyenne entre deux chantillons
extraits de la mme population. La Formule 10.5 dcrit la forme finale que
prend le test t pour deux chantillons indpendants.
M1 M2
tobserv = --------------------- Formule 10.5
sM M2
1
UNE OU DEUX POPULATIONS ? LE TEST T 307

Il sagit maintenant de tirer une conclusion. Nous avons le tobserv et


partir du tableau des valeurs critiques de t, nous trouvons la valeur tcritique
qui correspond au nombre de degrs de libert et au seuil alpha dsir. Si la
valeur tobserv est gale ou plus grande que la valeur du tcritique, nous concluons
que les deux groupes nappartiennent pas la mme population, quils sont
statistiquement diffrents.

Les degrs de libert du test t pour les chantillons indpendants

Pour trouver la valeur du t critique, nous nous servons du tableau des


valeurs critiques de la statistique t (voir lappendice). Il nous faut donc
trouver la cellule qui correspond nos degrs de libert pour le seuil
derreur choisi. Mais supposons que le nombre dobservations dans cha-
que chantillon nest pas identique. Alors, quel sera le nombre de degrs
de libert ? Celui qui correspond au premier ou au deuxime chantillon ?
Comme pour le calcul de lerreur type de la diffrence, ni lun ni lautre,
mais les deux ! Ainsi, nous additionnons le nombre dobservations dans
chaque groupe. Puisque nous additionnons ensemble les N, nous devons
aussi additionner les degrs de libert. Nous perdons un degr de libert
pour chaque groupe et, au total, nous en perdons deux. Ainsi, le nom-
bre de degrs de libert devient (N1 1) + (N2 1) ou, plus simplement,
N1 + N2 2. Nous cherchons donc le t critique lintersection de la colonne
dsire et du nombre de degrs de libert N1 + N2 2. Si nous avons deux
groupes, chacun ayant 10 observations, le nombre de degr de libert est
de 18 (10 + 10 2).

Un exemple de calcul pour le test t pour les chantillons indpendants

Le calcul de la variance combine

Au Tableau 10.1, nous reprenons un exemple mdical. Un groupe de


patients (lchantillon 1) reoit un mdicament et lautre (lchantillon 2)
nen reoit pas. Aprs quelques mois, on mesure, pour chaque patient de
chaque groupe, le niveau de symptmes, un nombre lev voulant dire plus
de symptmes. Chaque groupe est compos de N1 = N2 = 50 observations.
308 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Nous calculons la moyenne de chaque chantillon (M1 = 10 et M2 = 20) et la


variance dans ces deux chantillons (S21 = 12 et S22 = 20). Lapplication de la
Formule 10.3 donne la variance combine qui est indique au Tableau 10.1.

Tableau 10.1
Calcul de la variance combine S2c i

chantillon 1 chantillon 2

(reoit le mdicament) (ne reoit pas le mdicament)

M 10 20

s2 12 20

N 50 50

2 2
 N1 1 s1 +  N2 1 s2
S2c = -----------------------------------------------------------
 N1 1 +  N2 1
 50 1 12 +  50 1 20
= ----------------------------------------------------------
 50 1 +  50 1
49 s 12 + 49 s 20
= ------------------------------------------
98
= (588 + 980) / 98
= 16
Le calcul de la variance combine, dans ce cas, donne 16. En fait, comme
les groupes sont gaux, il sagit de la moyenne entre 12 et 20. Lcart-type
de cette variance combine se calcule en extrayant sa racine carre. Dans ce

cas, Sc = 16 = 4,0.

Quiz rapide 10.3


Recalculez la variance combine du Tableau 10.1 avec la Formule 10.3, mais,
cette fois, le nombre dobservations est de 50 pour lchantillon 1 et de 500 pour
lchantillon 2. La variance combine est-elle toujours 16 ? Pourquoi ?

Le calcul de lerreur type de la diffrence entre deux moyennes

partir de la variance combine S2c , nous pouvons calculer lerreur type


de la diffrence en utilisant la Formule 10.4. Lerreur type de la diffrence
UNE OU DEUX POPULATIONS ? LE TEST T 309

indique la diffrence moyenne laquelle nous pourrions nous attendre si


les deux chantillons provenaient de la mme population (les deux ayant
ou nayant pas reu de mdicaments).
1 1
sM1 M2 = Sc ------ + ------
N1 N2

1 1
= 16 ------ + ------
50 50

= 0,80
Dans ce cas, la diffrence typique laquelle nous pouvons nous attendre
entre ces deux chantillons, sils sont tirs de la mme population, est de
0,80.

Le calcul de la statistique tobserv

Ayant maintenant en main lerreur type de la diffrence, nous pouvons


enfin calculer la statistique tobserv en utilisant la formule pour son calcul
(Formule 10.5).
M1 M2
tobserv = ---------------------
sM M2
1

Pour les donnes du Tableau 10.2, nous calculons la diffrence entre les
deux moyennes (10 20 = 10) et nous divisons cette diffrence par ler-
reur type de la diffrence tobserv.
M1 M2
tobserv = ---------------------
sM M2
1

10 20
= = 12,5
0,8
tobserv = 12,5
Il faut maintenant tirer une conclusion. Une diffrence entre deux
chantillons qui correspond tobserv = 12,5 est-elle un vnement rare ou
frquent si les deux chantillons proviennent effectivement de la mme
population ? Cette diffrence est-elle statistiquement significative ? Pour
rpondre cette dernire question, il faut se rfrer au tableau des valeurs
critiques de t.
310 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

La valeur du tcritique (t[dl]) et les degrs de libert

Comme nous lavons vu propos du test t pour un seul chantillon, la


valeur tcritique est celle laquelle on oppose la statistique tobserv. Lorsque le
tobserv est gal ou suprieur la valeur tcritique, nous concluons au rejet de H0
(lhypothse nulle) : les deux chantillons proviennent de populations diff-
rentes avec un risque derreur dinfrence gal au seuil .
Pour trouver la valeur critique pertinente dans le tableau des valeurs
critiques, nous devons calculer le nombre de degrs de libert et dci-
der du seuil alpha. Nous savons que les degrs de libert se donnent par
N1 + N2 2. Dans ce cas, nous avons N1 = N2 = 50. Le nombre de degrs de
libert est donc (50 1) + (50 1) = (50 + 50 2) = 98.
Nous pouvons maintenant trouver la valeur critique du t. Choisissons
un seuil = 0,001. Au tableau des valeurs critiques dans lAnnexe, nous
voyons que pour 98 degrs de libert (dl = 98) et pour un seuil = 0,001,
tcritique = 3,73. Nous comparons maintenant le tobserv au tcritique. Puisque
le tobserv = 12,5 est plus extrme que 3,73 (nonobstant le signe), nous
concluons au rejet de H0 car le rsultat indique quil existe moins dune
chance sur mille ( = 0,001) quune telle diffrence puisse tre observe
entre deux chantillons provenant de la mme population. Le rsultat est
significatif avec une probabilit p derreur de type I infrieure 0,001. Nous
interprtons ces statistiques en disant que le mdicament change significa-
tivement le nombre de symptmes de la maladie (t(98) = 12,5, p < 0,001).

Quiz rapide 10.4


Nous obtenons un tobserv de 10, 74 avec 40 degrs de libert. Cette diffrence est-
elle statistiquement signicative = 0,05, 0,01 et 0,001 respectivement ?

Le signe de la statistique tobserv

Lorsque nous calculons la statistique tobserv, elle peut prendre des valeurs
positives ou ngatives. Ce signe est dtermin par lordre dans lequel
nous calculons la diffrence entre les deux moyennes M1 et M2. Lorsque la
moyenne du groupe 1 est numriquement suprieure celle du groupe 2,
la statistique tobserv prendra un signe positif. Si linverse est vrai, M2 > M1,
UNE OU DEUX POPULATIONS ? LE TEST T 311

le signe sera ngatif. Puisque nous sommes libres de spcifier lordre des
calculs, le signe du test t na pas de signification particulire. Les valeurs
tcritique tabules ne contenant pas de signes, lorsque nous comparons le tcritique
au tobserv, nous ignorons le signe de ce dernier.

Hypothse unicaudale ou hypothse bicaudale ?

Lorsque nous concevons notre hypothse, nous devons prendre une dci-
sion son sujet. Proposons-nous une hypothse directionnelle ou une
hypothse non directionnelle ? Une hypothse directionnelle prend le nom
technique dhypothse unicaudale et une hypothse non directionnelle
prend celui dhypothse bicaudale.
Une hypothse non directionnelle (bicaudale) signifie quon cherche
dmontrer lexistence dune diffrence, peu importe sa direction. Ainsi, dans
lexemple portant sur lefficacit du programme de formation, nimporte
quelle diffrence significative aurait appuy notre hypothse. Les employs
pouvaient avoir une productivit moyenne moindre ou suprieure 100.
Lhypothse non directionnelle dans ce cas est :
H : avec formation 100 ; la performance des personnes
formes sera diffrente de celle de la population.
Par contre, lhypothse directionnelle (unicaudale) indique que lon veut
dmontrer que la diffrence sera dans une seule direction. Dans lexemple
qui porte sur lefficacit de la formation, nous choisirions fort probable-
ment une hypothse unicaudale, car il nous importe de savoir si la for-
mation mne un accroissement de la productivit. Dans ce cas, notre
hypothse ne serait soutenue que si la moyenne pour le groupe ayant reu
la formation tait suprieure celle des travailleurs qui ne lont pas reue.
Lhypothse directionnelle prendrait la forme suivante :
H : avec formation > 100 ; la performance des personnes
formes sera suprieure la moyenne de la population.
Dans lexemple mdical, nous comparons deux groupes, avec ou sans
traitement de la maladie dAlzheimer. Nous faisons lexprience dcrite
afin de dterminer si le mdicament est efficace. Le mdicament ne sera
efficace que dans un seul cas : lorsque les patients qui le reoivent ont moins
312 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

de symptmes que les autres. Si la condition des patients qui reoivent le


mdicament saggrave, ou elle demeure inchange, nous ne pouvons pas
conclure que le traitement est efficace. En loccurrence, poser la question
le traitement est-il efficace ? revient vrifier si les symptmes de ceux
qui sont traits avec le mdicament sont amoindris par rapport ceux qui
nen bnficient pas. Lhypothse scrit :
H : avec mdicament < sans mdicament.
Il sagit dune hypothse directionnelle puisquelle ne sera confirme
que si la diffrence que nous observons est dans une seule direction : les
patients recevant le traitement ont moins de symptmes que ceux qui nen
reoivent pas. Deux rsultats peuvent invalider lhypothse directionnelle.
Dune part, si les deux moyennes sont statistiquement gales, nous ne pou-
vons pas rejeter H0 et nous sommes contraints de conclure quil ny a pas
de preuve pour H. Mais nous ne pouvons pas plus rejeter H0 si le rsultat
obtenu est linverse de notre hypothse : les patients qui reoivent le traite-
ment dmontrant plus de symptmes.
Lorsque nous prsentons une hypothse directionnelle, nous postulons
lavance non seulement quil existera une diffrence, mais, plus spcifi-
quement, quel groupe aura une moyenne suprieure. Advenant une hypo-
thse directionnelle, nous allons tester la statistique tobserv dans la partie du
tableau donnant les valeurs tcritique pour un test unicaudal.

Quiz rapide 10.5


Reprenez le rsultat obtenu t = 12,5 et comparez-le avec la valeur critique de t
unicaudale. Le mdicament est-il efcace ?

La valeur critique de t pour les hypothses unicaudale et bicaudale

Arrtons-nous au Tableau 10.2, qui est un extrait du tableau des valeurs


critiques de t, et suivons une range de degrs de libert travers toute sa
longueur. On remarquera que le tcritique augmente (devient plus grand) lors-
que lon passe dun seuil de 0,05 un seuil plus petit ( = 0,01 ou 0,001).
Pour que le tobserv soit significatif, il lui faut tre gal ou suprieur au tcritique.
Toutes choses tant gales par ailleurs, la taille du t reflte la taille de la dif-
UNE OU DEUX POPULATIONS ? LE TEST T 313

frence entre les moyennes, par consquent la diffrence entre les moyen-
nes doit tre plus grande.
Lorsque nous rejetons H0 avec un certain (disons = 0,05), cela
veut dire en ralit que moins de 5 % des diffrences entre les chantillons
extraits alatoirement dune mme population auront une diffrence de
moyenne aussi forte que le tobserv. Examinons cela plus prcisment encore
en tudiant les graphiques du Tableau 10.2. Lorsque nous faisons un test
unicaudal avec un de 0,05 (disons H0 : 1 > 2), nous voulons que moins
de 5 % des chantillons donnent un tobserv plus grand que le t critique. Puis-
que le test unicaudal spcifie la direction de la diffrence, nous navons qu
dmontrer que la diffrence observe (tobserv) est au bon endroit et notre
infrence sera juste. Graphiquement, dans ce tableau, nous navons qu
dmontrer que le tobserv se situe lintrieur de la zone de la distribution des
diffrences grises, en loccurrence le 5 % suprieur de la distribution des
diffrences.
Lorsque nous travaillons avec une hypothse non directionnelle, il sen-
suit que 5 % des chantillons auront une diffrence plus grande que celle
obtenue dans nos chantillons. Mais nous avons deux faons diffrentes de
conclure au rejet de H0 : soit que M1 est plus grand que M2, soit que M1 est
plus petit que M2. Le test non directionnel prend cela en considration en
divisant le risque derreur en deux, assignant 2,5 % dans la partie sup-
rieure (/2) et 2,5 % dans la partie infrieure (/2) de la distribution des
diffrences. Pour ces raisons, le test directionnel est aussi appel test uni-
caudal et le test non directionnel, test bicaudal.

Lutilisation du tableau des valeurs critiques pour les tests unicaudaux


et bicaudaux

Selon la forme de lhypothse unicaudale ou bicaudale, nous allons uti-


liser une partie diffrente du tableau des valeurs critiques de t. Lorsque
nous posons une hypothse bicaudale, nous utilisons la partie gauche du
Tableau 10.2. Pour les hypothses unicaudales, il faut faire appel la partie
droite. Supposons que nous comparons deux petits groupes (N1 = N2 = 4)
ayant les moyennes suivantes : M1 = 10 et M2 = 8, et qui produisent le
tobserv = 2,0. Ici, nous avons 6 degrs de libert. Si notre hypothse est
314 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Tableau 10.2
Valeurs tcritique pour le test t directionnel et non directionnel

2,5 % 2,5 % 5%

Hypothse bicaudale
Hypothse unicaudale (directionnelle)
(non directionnelle)

Seuil Seuil

dl 0,05 0,01 0,001 dl 0,05 0,01 0,001

1 12,706 63,657 636,62 1 6,314 31,821 318,31

6 2,447 3,707 5,959 6 1,943 3,143 5,208

11 2,201 3,106 4,437 11 1,796 2,718 4,025

16 2,12 2,947 4,073 16 1,746 2,583 3,686

40 2,021 2,704 3,551 40 1,684 2,423 3,307

120 1,980 2,617 3,373 120 1,658 2,358 3,160

1,960 2,576 3,291 1,645 2,326 3,090

bicaudale, nous utilisons la partie gauche du tableau. Nous trouvons, pour


dl = 6 et = 0,05, le tcritique = 2,447. Puisque tobserv = 2,0 est infrieur au
tcritique = 2,447, nous ne pouvons pas rejeter lhypothse nulle. Nous devons
conclure que les deux groupes ne proviennent pas de populations diffren-
tes, quils ne sont pas statistiquement diffrents. Mais supposons que lhy-
pothse est directionnelle et quelle postule que le groupe 1 sera suprieur
au groupe 2 (M1 = 10 > M2 = 8) et que nous trouvons le mme tobserv = 2,0.
Nous cherchons alors dans la partie droite du Tableau 10.2, la partie uni-
caudale, et nous trouvons tcritique = 1,943. En comparant cette valeur au
tobserv = 2,0, nous voyons que cette dernire est suprieure au tcritique. Nous
concluons maintenant au rejet de lhypothse nulle. Ainsi, il est dune
extrme importance de bien choisir la partie du tableau (unicaudale ou
bicaudale) qui correspond correctement la forme de lhypothse.
UNE OU DEUX POPULATIONS ? LE TEST T 315

Le seuil

Le seuil dun test t a exactement la mme signification que celle que nous
avons vue au chapitre 9. Il sagit du risque de tirer une conclusion fausse
(erreur de type I) en rejetant lhypothse nulle. En choisissant un de 0,05,
nous acceptons un risque de 5 % de faire une erreur de type I. Avec = 0,01,
le risque derreur tombe 1 chance sur 100, et avec = 0,001, le risque
dune erreur de type I est de 1 sur 1000. On peut remarquer la diffrence
entre les valeurs critiques de t pour les diffrents seuils pour les mmes
degrs de libert. La magnitude du tcritique augmente fur et mesure que le
niveau passe de 0,05 0,001. Cela est raisonnable. Lorsque la diffrence
de moyenne est grande, on a plus confiance quil existe une diffrence sur
le plan de la population. Un seuil de signification de 0,001 donne davan-
tage de poids notre conclusion quun seuil de signification de 0,05 (avec
= 0,001, nous avons 1 chance sur 1 000 de nous tromper en concluant
quil y a une diffrence, alors quavec = 0,05, notre risque derreur est de
5 chances sur 100). Cela donne donc plus de poids notre rejet de H0 sil
se base sur un seuil de 0,001 plutt que sur un seuil de 0,05. Mais pour
obtenir un tobserv suprieur au tcritique pour = 0,001, la diffrence entre les
moyennes doit tre plus grande que celle requise pour conclure la signifi-
cation statistique avec 5 chances sur 100 de se tromper.
Si on fait passer un test darithmtique un groupe dlves du pri-
maire et quon compare cette performance avec un groupe de professeurs
de mathmatiques luniversit, la diffrence entre les deux groupes sera
trs grande, ce qui se traduira par une valeur tobserv trs grande. Notre
conclusion, selon laquelle les mathmaticiens universitaires sont meilleurs
en mathmatiques que les enfants de llmentaire, aura plus de poids. Si
on rpte lexprience en comparant des lves de 5e anne des lves
de 6e anne, la diffrence sera plus petite et notre conclusion aura moins
de poids. La diffrence pourrait tre significative = 0,05, mais pas
= 0,01.
316 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Un exemple de test t sur deux groupes indpendants

Supposons que lon compare deux chantillons dans le but de vrifier sils
ont des moyennes diffrentes, sils proviennent de populations diffrentes.
H : 1 2
H0 : 1 = 2
Lhypothse est non directionnelle (bicaudale). La statistique tobserv qui
value la diffrence entre les deux moyennes est gale 3,0. Nous avons
21 observations dans chaque groupe. Le nombre de degrs de libert est
21 + 21 2 = 40. Nous dsirons tester notre hypothse avec un risque der-
reur infrieur 0,01 (nous rejetterons H0 seulement si le risque derreur
est plus petit que 1 %). Dans lAnnexe, pour dl = 40 et = 0,01, la valeur
critique tcritique = 2,704 (bicaudale). Le tobserv = 3,0 tant plus grand que le
t(40) = 2,704, nous concluons que la diffrence entre les deux groupes est
statistiquement significative, et il y a moins de 1 chance sur 100 (p < 0,01)
que cette conclusion soit fausse. Nous crivons : La diffrence entre les
deux chantillons est significative (t(40) = 3,0, p < 0,01).

Quiz rapide 10.6


Refaites le problme ci-dessus, mais cette fois, testez le tobserv en utilisant une
hypothse directionnelle. La conclusion (H ou H0) change-t-elle ?

LE TEST T POUR DES DONNES PAIRES

La dernire utilisation du test t concerne les donnes paires ou jume-


les. Cette application du test t est particulirement utile lorsquil sagit de
mesurer le changement. On prend ainsi des mesures avant et aprs un v-
nement, et on value si les deux moyennes, avant et aprs, sont les mmes
statistiquement. Par exemple, nous pourrions valuer si lintroduction dun
programme daccs des aiguilles sanitaires rduit le taux dhpatite chez
les hronomanes. On pourrait alors mesurer lincidence dhpatites dans la
population dhronomanes avant et aprs lintroduction du programme.
Il est important que ce soit les mmes sujets (par exemple les mmes
personnes) qui soient mesurs deux fois ; si une personne ne peut pas
tre mesure au second passage, il faut retirer sa premire mesure de
UNE OU DEUX POPULATIONS ? LE TEST T 317

lchantillon. Par consquent le nombre dobservations pour la mesure


pr-intervention est invariablement gal au nombre dobservations de la
mesure post-intervention. Donc, il faut toujours sassurer que N1 = N2.
Supposons que nous voulons tudier limpact dune intervention sur
un groupe de personnes. Nous avons donc, pour chaque personne, deux
informations : sa performance avant et aprs lintervention. Si le traite-
ment na aucun effet, chaque personne produira la mme performance sur
les deux mesures. De manire quivalente, nous dirons que la diffrence
entre les performances de la mme personne aux deux prises dinforma-
tion est gale zro. Pour chaque personne, nous aurons donc une per-
formance pr-intervention (symbolise par Xi) et une performance value
aprs lintervention (Yi). Nous pouvons calculer la diffrence entre les deux
informations pour chaque personne. On peut alors crire : Di = (Xi Yi),
qui reprsente la diffrence D, pour chaque personne. On calcule ensuite
la moyenne de cette valeur D que nous appelons MD. Si cette valeur est
gale zro, on ne peut pas conclure que le traitement a eu un effet. Si la
moyenne des diffrences D nest pas gale zro, on peut alors (potentiel-
lement) conclure que le traitement a eu un effet, quil existe une diffrence
entre avant et aprs. Pour que cela soit potentiellement vrai, il faut que la
diffrence moyenne (MD) ne soit pas gale zro. Ainsi, le jeu dhypothses
pourrait prendre la forme suivante :
H: 0
H0 : = 0
o (delta) reprsente la vraie diffrence en ce qui a trait la population
entire. Il sagit maintenant de faire un test t sur la diffrence moyenne de
lchantillon. Cette hypothse, comme dhabitude, peut tre formule de
manire directionnelle ou non directionnelle.
En fait, nous avons cr, partir des deux valeurs (avant et aprs), une
nouvelle variable, D, qui reflte la diffrence de performance pour chaque
personne. La moyenne de cette variable D est MD. Mais parce que D est une
variable, comme toutes les variables, on peut calculer son cart-type sD.
partir de lcart-type sD, il devient possible de calculer lerreur type sMD

laide de la formule habituelle (s/N ) qui, dans ce cas, devient :
sD
s M = --------
D
N
318 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Puisque lhypothse nulle postule que la diffrence moyenne entre les


valeurs avant et aprs sera gale zro, nous connaissons maintenant la
valeur prsume de la moyenne de la population ( = 0).
On peut maintenant construire lintervalle de confiance avec la formule
de calcul pour un unique groupe avec variance inconnue : s M t(dl).
D
Puisquon postule que la moyenne dans la population est 0, la formule se
simplifie pour devenir s MD t(dl) = 0 s MD t(dl) = s MD t(dl). Si
la diffrence moyenne observe (MD) se situe lextrieur de lintervalle de
confiance, nous concluons au rejet de H0.
On peut aussi tablir la statistique tobserv directement en utilisant la
forme suivante :
tobserv = MD/ s MD
o MD est la diffrence moyenne entre les observations avant-aprs et s MD
est lerreur type de cette diffrence. Il ne reste alors qu comparer le tobserv
au tcritique pour conclure. Encore une fois, et selon la teneur de lhypothse
(uni ou bicaudale), il faudra faire appel la bonne colonne du tableau des
valeurs critiques pour reprer le tcritique.

Les degrs de libert dans le test t pour chantillons pairs

Pour analyser la diffrence entre les deux mesures de chaque observation,


on a cr une nouvelle variable, D. Nous calculons la moyenne et lcart-
type de cette variable D. Puisque nous navons quune seule moyenne et
quun seul cart-type, nous ne perdons quun seul degr de libert. Par
consquent, le nombre de degrs de libert pour cette forme du test t est
N 1.

Une illustration du test t pour chantillons pairs

Prenons pour illustration un programme de relaxation par le yoga visant


rduire le stress ressenti au travail chez les cadres suprieurs. On mesure le
stress au travail avec un questionnaire dans lequel un score lev indique
un degr de stress lev. Nous postulons que le programme de relaxation
rduit le stress ressenti par les cadres suprieurs, ce qui donne :
UNE OU DEUX POPULATIONS ? LE TEST T 319

H0 : = 0
H: > 0
o est la moyenne des diffrences dans la population. Il sagit dune hypo-
thse directionnelle. Nous adoptons le seuil de 0,05.
Pour tester notre hypothse, nous mesurons un chantillon de 25 per-
sonnes avant le dbut du cours de yoga et trois mois aprs la fin du cours.
Pour chacune, nous calculons le degr de stress ressenti avant le cours
moins le score obtenu aprs. La diffrence moyenne MD est de 12 (le degr
de stress aprs lintervention est moins lev quavant). Est-ce une amlio-
ration notable ? Nous calculons lcart-type de la diffrence et nous trou-
vons que sD = 20.
Nous calculons lerreur type de D ( s M en utilisant la formule habi-
D
tuelle)
sD
s M = -------- = 20/5 = 4.
D
N
La valeur critique t(dl) est trouve dans la table t avec 24 degrs de libert
et pour = 0,05 (unicaudal). La valeur critique du t(dl) est 1,71.
Le test statistique de la diffrence (pas gale zro) est de la forme :
Rejet de H0 si MD est plus grand que la limite
suprieure de lintervalle de confiance s M t(dl).
D

Ou de faon quivalente :
MD
Rejet de H0 si --------- > t(dl).
sM
D
Nous trouvons :
MD/ s M = 12/4 = 3.
D

La valeur obtenue tant plus grande que la valeur critique t(dl), nous
rejetons lhypothse nulle et nous crivons : Les cours de yoga ont dimi-
nu significativement le stress des cadres suprieurs [t(24) = 3, p < 0,05].

SOMMAIRE DES TAPES POUR RALISER UN TEST T

1. Poser les hypothses ; dcider si elles sont directionnelles ou non


directionnelles.
320 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

2. Choisir le seuil de confiance .


3. Dcider de la forme du test (un groupe, deux groupes, chantillons
pairs).
a) Calculer la statistique tobserv.
b) Calculer les degrs de libert et trouver t(dl) (le tcritique) dans le
tableau des valeurs critiques de t (Annexe) en fonction des dl, de
et selon que le test est unicaudal ou bicaudal.
4. Conclure.
a) Si le tobserv est gal ou plus grand que la valeur critique t(dl),
conclure que la diffrence est statistiquement significative au
niveau choisi et rejeter H0.
b) Si le tobserv est plus petit que la valeur critique t(dl), conclure que
la diffrence nest pas statistiquement significative au niveau
choisi et ne pas rejeter H0.

RDIGER UNE INTERPRTATION DES DONNES

La rdaction dune interprtation des rsultats nest pas chose aise. Dun
ct, un travail important de statistique a t ralis. Or, le lecteur de la
recherche nest pas ncessairement un statisticien. On doit donc lui expli-
quer les rsultats en termes accessibles et significatifs pour lui. Il est pro-
bable que H0, , M, etc., ne feront qugarer le lectorat. Dun autre ct,
pour des raisons de crdibilit, on ne peut pas faire daffirmations gratui-
tes. Chaque fois quon vous rapporte une diffrence ou un effet, on doit
mettre dans un rapport des signes linguistiques qui disent en substance :
Je naffirme pas cela gratuitement, jai pos mes hypothses et fait le test
statistique appropri, et leffet est significatif, ou ne lest pas.
Dans peu prs toutes les disciplines scientifiques, il y a : 1) lutilisation
du mot significatif ; 2) linclusion du rsultat du test entre parenthses,
suivi du seuil selon cette criture trs stricte : (nom-de-la-stat [degrs
de libert, sil y a lieu] = rsultat, p < seuil ) si le test est significatif. Par
exemple, un rsultat statistiquement significatif, la suite dun test t, serait
prsent de la manire suivante : t(12) = 10,45, p < 0,01. Le signe plus petit
(<) signifie que la probabilit dobtenir le rsultat par pur hasard est plus
petite que , ce qui veut dire quon a rejet H0. Si le test nest pas signifi-
UNE OU DEUX POPULATIONS ? LE TEST T 321

catif, il faut aussi rapporter la statistique, mais cette fois, p > seuil . Par
exemple, nous pourrions crire t(12) = 1,45, p > 0,05. Le signe plus grand
(>) signifie que la probabilit dobtenir ce rsultat par pur hasard est plus
grande que , ce qui veut dire quon na pas rejet H0.
Voici un exemple tir dun rapport de recherche scientifique.

Interprtation des rsultats


Pour les 135 personnes composant notre chantillon, nous trouvons une amlioration
signicative la suite de la thrapie (t(134) = 6,4, p < ,05).

Comme on peut le voir, part lutilisation du mot significative et


la prsence de codes dans les parenthses, il ny a pas de jargon statistique
( hypothse , population , , etc.).

Quiz rapide 10.7


Pouvez-vous dire quel test statistique a t fait dans lexemple prcdent ?
Pouvez-vous dire quel risque le chercheur tait prt prendre quand il a crit sa
conclusion ? Croyez-vous que sil avait t prt prendre un risque plus faible
(disons un sur mille), la conclusion aurait tenu la route ?

SOMMAIRE DU CHAPITRE

La statistique, la distribution et le test t sont tous attribuables W. S.


Gosset. Ce test a t dvelopp spcifiquement pour tre utilis avec de
petits chantillons, gnralement dfinis comme tant infrieurs N = 30.
Ce test statistique sert dterminer si un chantillon a de fortes ou de fai-
bles chances dappartenir une population en particulier, ou dterminer
si deux chantillons appartiennent la mme population ou des popula-
tions diffrentes. La statistique t, comparant deux groupes indpendants,
est le rapport entre la diffrence qui existe entre ces deux moyennes et la
diffrence qui existe entre deux moyennes alatoirement extraites de la
mme population. Linterprtation de la statistique t se fait en la comparant
avec une valeur standard, le tcritique. Cette valeur standard est tabule. Luti-
lisation des valeurs tabules est diffrente selon que lhypothse est direc-
tionnelle ou non directionnelle. Lorsque le t obtenu est numriquement
322 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

gal ou suprieur au tcritique, nous pouvons conclure que les deux groupes ne
proviennent pas de la mme population.

EXERCICES DE COMPRHENSION

1. tant donn deux groupes indpendants avec respectivement 12 et


10 donnes brutes, quel est le degr de libert pour raliser un test t
comparant la moyenne des deux chantillons ?
a) 22
b) 21
c) 20
d) un autre nombre
2. Nous testons la diffrence entre deux chantillons, A et B, et la
diffrence entre deux autres chantillons, C et D. Les chantillons
A, B, C et D sont tous de la mme taille N et ils ont tous la mme
variance. La diffrence entre A et B est statistiquement significative
seulement = 0,05, alors que la diffrence entre C et D est statis-
tiquement diffrente = 0,01. La diffrence entre les moyennes des
groupes A et B est ________ que la diffrence entre les moyennes des
groupes C et D.
a) plus grande
b) plus petite
c) de la mme taille
d) Toutes ces rponses sont possibles.
3. Nous postulons que les hommes sont moins consciencieux au travail
que ne le sont les femmes. Pour tester notre hypothse, nous
choisissons alatoirement un groupe dhommes et un groupe de
femmes, et nous mesurons leur degr de concentration au travail.
Dans ce cas, il ___________________.
a) nous faudra faire appel un test statistique uni ou bicaudal selon
lerreur type
b) nous faudra faire appel un test statistique unicaudal
c) nous faudra faire appel un test statistique bicaudal
d) nest pas possible de faire un test statistique
UNE OU DEUX POPULATIONS ? LE TEST T 323

4. Nous voulons examiner si ltude de ce volume a un impact sur la


comprhension que les tudiants ont de la statistique. Nous admi-
nistrons un test de statistique aux 12 personnes qui suivent le cours
le premier jour de classe et nous ladministrons nouveau le dernier
jour de classe. Il nous faudra alors tester _______________
en faisant appel au test _______ et les degrs de libert seront
de __________.
a) la diffrence entre les moyennes ; t ; 11
b) la diffrence entre les moyennes ; t ; 10
c) la diffrence entre les variances ; Z ; 11
d) la diffrence entre les variances ; Z ; 12
5. Dans la population, nous savons que le salaire moyen est de
30 000 $. Nous examinons un chantillon de forgerons pour trouver
quen moyenne ils gagnent 35 000 $ et que lintervalle de confiance
autour de cette moyenne est de 2 000 $. Laquelle des conclusions
suivantes est juste ?
a) Les forgerons sont, en gnral, mieux pays que la moyenne
des gens.
b) Les forgerons sont, en gnral, pays autant que la moyenne
des gens.
c) Tous les forgerons gagnent plus que 30 000 $.
d) Compte tenu des informations disponibles, toutes ces rponses
sont possiblement justes.
6. Une compagnie pharmaceutique en est au dbut du processus
dvaluation dun mdicament. Elle compare deux groupes, lun
recevant un mdicament, lautre non. La compagnie dsire minimi-
ser lerreur de type II. Par consquent, elle choisit de comparer de
______ groupes, elle compare les moyennes avec la statistique t et
elle fait appel un seuil de signification plus _________.
a) grands ; petit
b) petits ; petit
c) petits ; grand
d) grands ; grand
324 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

7. Voici les rsultats des tests t excuts pour chacune des trois tudes
suivantes. Dans chaque cas, il sagit dtudes qui comparent des
groupes indpendants et, dans tous les cas, lhypothse faite est non
directionnelle avec = 0,05. Il faut indiquer, pour chaque rsultat,
si les deux chantillons proviennent dune ou de deux populations.
tude A : t = 2,58 ; N = 7 ; tude B : t = 2,1 ; N = 22 ;
tude C : t = 1,99 ; N = 62.
8. En y pensant bien, le test t pour les chantillons indpendants
compare la diffrence entre les moyennes de deux groupes la
diffrence laquelle nous pourrions nous attendre entre deux
groupes extraits de la mme population. Cette phrase est-elle vraie
ou fausse ?
9. Pour le contraste entre les moyennes de deux groupes, on pourrait
faire appel au test t ou au test Z. Lorsque le N est _____, nous
devons faire appel au test t, alors que lorsque nous avons au moins
_______ observations, la distribution des valeurs t et des valeurs Z
est _____.
a) grand ; 30 ; identique
b) petit ; 1 000 ; identique
c) grand ; 30 ; trs diffrente
d) petit ; 120 ; identique

Rponses

1. c
2. b
3. b
4. a
5. a
6. d
7. tude A = 2 ; tude B = 2 ; tude C = 1
8. Vraie
9. d
CHAPITRE 11
LANALYSE DE VARIANCE UN FACTEUR

Lutilisation de lANOVA..................................................................... 328


Ce que lANOVA dit........................................................................ 329
Ce que lANOVA ne dit pas ........................................................... 329
Pourquoi lANOVA et pas le test t ? ................................................... 329
Les tests t multiples : une stratgie peu pratique ......................... 330
Les tests t multiples : une stratgie qui cumule les risques
dune erreur de type I () .......................................................... 331
La variable indpendante et la variable dpendante
pour lANOVA ................................................................................. 334
Le principe fondateur de lanalyse de variance :
les diffrences intergroupes et intragroupes ................................ 335
Les composantes de la statistique F............................................... 339
La moyenne globale (M.) ................................................................ 339
La diffrence entre les groupes : la somme des carrs
intergroupe (SCinter)..................................................................... 340
La diffrence intragroupe : la somme des carrs moyens
intragroupe................................................................................... 343
Le calcul de la statistique F.............................................................. 344
La distribution thorique de la statistique F................................. 345
La valeur critique F et le tableau des valeurs critiques
de la statistique F.......................................................................... 346
Lutilisation du tableau des valeurs critiques de F
pour faire une infrence............................................................. 347
326 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Sommaire du test de lhypothse pour K groupes ........................... 348


Poser les hypothses ........................................................................ 348
Choisir le seuil de signification .................................................. 348
Spcifier la rgle dcisionnelle pour choisir entre H et H0 ........ 348
Faire les calculs et conclure............................................................. 348
Le tableau des sources de variance ................................................ 349
Les influences sur la probabilit de rejeter H0 .................................. 351
Le choix du seuil : lerreur de type I versus lerreur
de type II ....................................................................................... 353
Comment rduire le risque derreur de type I et de type II ?..... 354
Les tests de comparaisons multiples ou tests a posteriori ............... 355
Le test de comparaisons multiples de Scheff.............................. 356
La taille de leffet et la statistique ta au carr ( 2) ........................... 359
Une illustration de la taille de leffet.............................................. 360
Formule simplifie pour le calcul dta au carr ......................... 361
Linterprtation de la taille de leffet.............................................. 362
Sommaire du chapitre .......................................................................... 363
Exercices de comprhension ............................................................... 364
CHAPITRE 11

LANALYSE DE VARIANCE UN FACTEUR

Le test t est utile lorsque lobjectif est de comparer deux conditions expri-
mentales (avant et aprs) ou deux groupes (les hommes et les femmes). Il
est spcialement conu pour conclure si deux chantillons de petite taille
proviennent ou non de la mme population. Avec le test t, nous calculons
la statistique t qui standardise la diffrence entre les moyennes des deux
groupes et nous vrifions, partir dune distribution des valeurs t, la proba-
bilit dobtenir une telle valeur t lorsque deux chantillons proviennent de
la mme population. Lorsque cette probabilit est faible, souvent p < 0,05
ou moins, nous infrons que les deux chantillons ne proviennent pas de la
mme population, en sachant que nous courons le risque (de 5 %) que cette
conclusion soit errone. Lorsque nous voulons minimiser la probabilit de
commettre une telle erreur dinfrence, nous choisissons un seuil de signi-
fication statistique alpha qui est plus petit, plus conservateur (p < 0,01 ou
mme p < 0,001).
Lanalyse de variance simple, lANOVA (de langlais ANalysis Of
VAriance), est un test statistique qui gnralise le test t. Elle permet lana-
lyse des diffrences entre deux groupes ou plus de toute taille. LANOVA
fait partie des tests statistiques les plus utiliss aujourdhui et sa comprhen-
sion est ncessaire pour linterprtation de la plupart des textes scientifiques
ou pour lire les rsultats des tudes valuatives. LANOVA fonctionne de la
mme faon que le test t. On calcule une nouvelle statistique, la statistique
F, qui standardise la diffrence entre les moyennes de plusieurs groupes.
On recherche la valeur F observe dans un tableau de distribution de la
328 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

statistique F afin de dterminer la probabilit dobtenir le F observ lorsque


les groupes proviennent de la mme population. Lorsque cette probabilit
est faible (p < 0,05), on conclut que les groupes ne proviennent pas dune
seule population, cest--dire quau moins un des groupes provient dune
population diffrente. Comme avec le test t, les conclusions tires avec la
statistique F comprennent un risque derreur, dfini par le seuil alpha.

LUTILISATION DE LANOVA

Nous avons souvent utilis des exemples o nous comparons un chan-


tillon un autre. En ralit, la majorit des tudes comparent plusieurs
groupes, pas seulement deux. En recherche pharmaceutique par exemple,
il est habituel de comparer trois groupes de patients. Un groupe reoit le
mdicament, un deuxime reoit un mdicament concurrent ou un pla-
cebo et un dernier groupe ne reoit ni le mdicament ni le placebo. Enfin,
on mesure le niveau de gurison pour les patients dans chacun des trois
groupes et le test statistique compare lefficacit moyenne enregistre dans
chaque groupe. LANOVA est la technique statistique spcifiquement
conue pour faire ces comparaisons. Il ny a pas de limites techniques au
nombre de groupes pouvant tre simultanment compars par lANOVA
et, par consquent, son utilisation est fort rpandue.
En psychologie clinique, un psychiatre pourrait choisir de traiter la
dpression avec lune ou lautre de ces quatre approches thrapeutiques :
comportementale, psychanalytique, cognitive et chimique. Sont-elles tou-
tes galement efficaces ? Pour rpondre cette question, on rpartit ala-
toirement des patients en quatre groupes et on administre un traitement
diffrent chacun des groupes. Aprs la thrapie, on mesure le degr de
dpression de chaque patient dans chaque groupe. Si, la suite du traite-
ment, le niveau de dpression moyen pour chaque groupe de patients est
le mme, on ne peut pas conclure que les diverses thrapies sont ingale-
ment efficaces (ou inefficaces). Si le niveau de dpression moyen entre les
groupes est diffrent, on conclut que les thrapies ne sont pas galement
efficaces : les diffrents traitements produisent diffrentes populations de
rduction de la dpression .
LANALYSE DE VARIANCE UN FACTEUR 329

Ce que lANOVA dit

Comme pour le test t, le test dANOVA est utilis afin de conclure si oui
ou non les groupes appartiennent la mme population. Lhypothse nulle
veut que tous les groupes soient identiques, quils proviennent tous de la
mme population. Lorsquon rejette lhypothse nulle, on conclut que les
groupes ne proviennent pas de la mme population. Comme avec le test t,
le concept de la signification statistique est central pour lANOVA, et fait
appel un tableau de valeurs critiques. Dans le cas de lANOVA, il sagit
du tableau des valeurs critiques de la statistique F. Lorsque la diffrence
entre les groupes est statistiquement significative, on sait quau moins un
des groupes provient dune population diffrente des autres ; que tous les
groupes ne proviennent pas de la mme population.

Ce que lANOVA ne dit pas

Les rsultats quune ANOVA produit permettent de dterminer si les


groupes proviennent ou non de la mme population, mais ils ne peuvent
pas indiquer o ces diffrences se situent. Ainsi, si on compare 15 groupes
et que lANOVA confirme quils ne proviennent pas de la mme popula-
tion, on ne saura toujours pas si cette diffrence provient dun seul ou de
plusieurs groupes. De plus, lANOVA nidentifie pas le ou les groupes qui
sont diffrents. Pour cela, nous verrons les tests de comparaison multiple
plus loin. En outre, les rsultats produits par lANOVA ne nous disent pas,
mme lorsque la diffrence est statistiquement significative, si la diffrence
est grande ou petite. Pour cela, il faudra faire appel une technique statis-
tique particulire la taille de leffet qui est discute plus loin dans ce
chapitre.

POURQUOI LANOVA ET PAS LE TEST T ?

Supposons que nous avons trois groupes, groupe 1, groupe 2 et groupe 3,


et que nous voulons dcider si les groupes diffrent (proviennent de popu-
lations diffrentes). premire vue, nous pourrions les comparer deux par
deux en faisant appel au test t pour deux chantillons indpendants. Un
330 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

premier test t comparerait le groupe 1 au groupe 2, un autre, les groupes


2 et 3 et un dernier, la diffrence entre les groupes 1 et 3. Si nous avons
cinq groupes, nous pourrions comparer chaque paire de groupes avec le
test t (1 vs 2, 1 vs 3, 1 vs 4, 1 vs 5, 2 vs 3, 2 vs 4, 2 vs 5, 3 vs 4, 3 vs 5 et 4 vs
5). Malheureusement, cette approche est sous-optimale et il ne faut pas y
faire appel. Dune part, lutilisation dune multitude de tests t nest pas une
technique pratique mais, plus important encore, une telle tactique cause
un problme important : le cumul des risques de lerreur de type I qui, lui,
produira presque certainement une erreur dinfrence.

Les tests t multiples : une stratgie peu pratique

Lutilisation des tests t rpts amplifie le nombre de calculs requis. Lors-


que nous avons deux groupes, une seule comparaison (et donc un seul test t)
est requise (1 vs 2). Lorsque nous avons trois groupes, trois comparaisons
sont requises (1 vs 2, 2 vs 3 et 1 vs 3). Le problme pratique ne devrait pas
sembler si norme. Cependant, avec 5 groupes, il faut faire 10 comparai-
sons et donc excuter 10 tests t. Avec 10 groupes, on a besoin den faire 45,
ce qui commence friser labsurde. Avec cette approche, le nombre de tests
effectuer devient rapidement excessif.
partir du nombre de groupes K, il est possible de calculer le nombre
de paires de comparaisons c, et par consquent le nombre de tests t quil
faudrait faire. La Formule 11.1 nous indique comment le faire.
c = K (K 1)/2 Formule 11.1
En appliquant la Formule 11.1 10 groupes, le nombre de test t requis
est c = (10 9)/2 = 45. Pour 20 groupes, il faut excuter 190 tests t !

Quiz rapide 11.1


Vous avez 25 groupes. Combien de tests t faut-il faire si vous voulez vrier
la diffrence entre chaque paire de groupes ?
une soire entre amis, vous faites un toast en lhonneur de lhtesse. Sil y a
10 personnes autour de la table et que chacun porte un toast avec tous les autres
convives, combien de tintements de verre entendrez-vous ?
LANALYSE DE VARIANCE UN FACTEUR 331

Les tests t multiples : une stratgie qui cumule les risques dune erreur
de type I ()

La deuxime raison de faire appel lANOVA plutt quau test t lorsquon


veut comparer plus de deux groupes est plus subtile mais encore plus
importante. Une telle utilisation du test t induit une distorsion dans linf-
rence, ce qui mnera trs probablement une fausse conclusion.
Pour comprendre le problme, il faut revenir sur le concept de lerreur
de type I. On se souvient qu chaque fois que nous concluons, la suite
dun test t, que les groupes sont statistiquement diffrents, nous courons
le risque de commettre une erreur de type I. La taille de ce risque est dter-
mine par le seuil alpha choisi (5 % de risque derreur lorsque = 0,05, 1 %
lorsque = 0,01, etc.). Cest le cas lorsquon fait une comparaison entre
deux groupes. Si on a trois groupes, il faut faire trois comparaisons. La pro-
babilit quau moins une de ces conclusions soit fausse nest plus de 5 % ; le
risque de commettre au moins une erreur de type I est plus leve.
Pour mieux saisir ce concept, voyons une analogie. Supposons quun
oracle a une chance sur deux de commettre une erreur en devinant la pro-
chaine carte quil va tirer. Avec deux cartes, il a aussi une chance sur deux
de se tromper sur chaque carte. Cependant, le risque quil commette au
moins une erreur sur les deux cartes est plus grand (75 %). Avec 10 car-
tes, il est quasi certain de stre tromp au moins une fois (le risque est de
99,9 %).
De la mme manire, si avec une comparaison (un test t), on a 1 chance
sur 20 (p < 0,05) de commettre une erreur en concluant au rejet de H0, le
risque de commettre au moins une erreur de type I est de p = 0,14 avec
3 comparaisons, alors quavec 45 comparaisons (10 groupes), le risque de
commettre au moins une erreur de type I slve 0,90 ! Nous allons, fort
probablement, commettre au moins une erreur de type I : conclure une
diffrence qui nexiste pas.
Il est possible de calculer la probabilit dune erreur dinfrence avec la
Formule 11.2 :
p = 1 (1 )c Formule 11.2
332 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

o p est la probabilit de commettre au moins une erreur de type I, est le


niveau de signification choisi pour les tests t individuels et c est le nombre
de comparaisons effectuer.
Supposons que nous voulons comparer trois groupes (K = 3). Pour ta-
blir le cumul des risques derreur de type I, nous calculons dabord le nom-
bre de comparaisons requises avec la Formule 11.1.
c = K (K 1)/2 = 3(2)/2 = 3
Ensuite nous calculons le cumul des risques derreur de type I avec la
Formule 11.2 pour le seuil = 0,05.
p = 1 (1 )c = 1 (1 0,05)3 = 1 (0,95)3 = 1 0,857 = 0,14
Alors que nous pensions conclure quil y aurait un risque derreur
de 5 %, la Formule 11.2 indique que le vritable risque dau moins une
erreur de type I est de 14 %, soit presque le triple ! Lorsquon compare
15 groupes, deux la fois, avec =0,05, nous devons faire 105 comparaisons
[(15 X 14)/2 = 105] et le cumul des risques derreur devient astronomi-
que : (1-(1-0,05)15= p = 0,99 ! Il y a 99 chances sur 100 quau moins une
des diffrences juges statistiquement significatives soit errone. Et, bien
entendu, nous ne savons pas laquelle !
Le Tableau 11.1 prsente le cumul de lerreur de type I pour diffrents
nombres de groupes lorsque est gal 0,05 et 0,01.

Tableau 11.1
Cumul de lerreur de type I (p) pour diffrents nombres de groupes avec = 0,05
et = 0,01

Nombre
c p ( = 0,05) p ( = 0,01)
de groupes

2 1 0,05 0,01
3 3 0,14 0,03
4 6 0,26 0,06
5 10 0,40 0,10
7 21 0,66 0,19
10 45 0,90 0,36
15 105 0,99 0,65
20 190 0,99 0,85
LANALYSE DE VARIANCE UN FACTEUR 333

Le risque de conclure tort quau moins une des diffrences est sta-
tistiquement significative augmente lorsque le nombre de comparaisons
augmente.
Lorsquon utilise un seuil plus conservateur (0,01 plutt que 0,05),
le risque den arriver au moins une fausse conclusion se rduit bien quil
demeure souvent trs lev (par exemple p = 0,65 pour 15 groupes) et, de
toute faon, il dpasse de beaucoup le seuil conventionnel de la significa-
tion statistique (p < 0,05), qui est gnralement dfini comme tant mini-
mal pour justifier le rejet de lhypothse nulle.
Nanmoins, cela ouvre la porte une solution potentielle au problme
du cumul de lerreur dinfrence. En rduisant le seuil alpha pour chacune,
lorsque le nombre de comparaisons augmente, nous pouvons rduire le
risque du cumul de lerreur.
Supposons que lon dsire comparer 15 groupes, ce qui ncessite
105 tests t. En appliquant la Formule 11.2, nous trouvons que si nous choi-
sissons = 0,0001, le risque cumul de conclure tort quune paire de
groupes diffre est p < 0,04. Cela indique que nous courons un risque de
moins de 5 % de nous tromper, au moins une fois, lorsque nous concluons
quun test t est significatif.
Bien que cette stratgie soit en mesure de contrler lerreur cumule
et donc lerreur de type I , elle cause un effet secondaire fort nocif !
Elle augmente le risque dune erreur de type II. Peu de tests t seront signi-
ficatifs lorsque le niveau alpha est minuscule : seuls les comparaisons entre
les groupes ayant dimmenses diffrences de moyennes seront significatifs.
Dautres diffrences, plus modestes mais nanmoins importantes, ne seront
pas dtectes. Conclure quil ny a pas de diffrence, alors quen ralit il en
existe une, reprsente une erreur dinfrence de type II. Lorsque plusieurs
comparaisons sont requises, il faudrait utiliser une autre procdure statis-
tique que le test t.
Lalternative lanalyse de variance est la technique requise. Elle
est spcifiquement conue pour viter le problme du cumul des risques
derreur de type I, lorsque lon compare plus de deux groupes, sans accro-
tre le risque dune erreur de type II.
334 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Quiz rapide 11.2


A. Si vous ne faites quun test t, est-ce quil y a cumul des risques derreur
de type I ? Pouvez-vous le conrmer avec la Formule 11.2 ?
B. En vous rfrant au Tableau 11.1, si vous choisissez de contrler le cumul
de lerreur p < ,05, quel est le nombre maximum de comparaisons qui peut
validement tre fait lorsque le seuil de signication pour chacune est x
p < ,01 ?

LA VARIABLE INDPENDANTE ET LA VARIABLE DPENDANTE


POUR LANOVA

LANOVA est une srie de procdures statistiques qui comparent la


moyenne de la variable dpendante pour chaque niveau de la variable
indpendante. La variable indpendante reprsente la caractristique qui
distingue les groupes, alors que les niveaux dfinissent chacun des grou-
pes qui vont tre compars. En voici quelques illustrations dans diffrents
contextes.
Un chercheur sintresse au comportement des rats dans un labyrin-
the lorsque diffrentes intensits de chocs lectriques leur sont admi-
nistres la suite des erreurs quils font. Un groupe de rats reoit des
chocs de 5 mA (milliampres), un autre groupe est expos des chocs
de 10 mA et un dernier reoit une intensit de 15 mA. La variable ind-
pendante est donc lintensit du choc lectrique , laquelle est de trois
niveaux (5, 10 et 15 mA), chacun administr un groupe distinct.
La ministre de lducation dsire savoir si le niveau dducation a un
impact sur le salaire des citoyens. Elle compare alors quatre groupes
de citoyens qui dfinissent la variable indpendante, lducation, en
quatre niveaux. Un groupe est compos de personnes ayant obtenu un
diplme dtudes secondaires, un deuxime ayant un baccalaurat, un
troisime dtenant une matrise et un dernier compos de personnes
ayant un doctorat. La variable indpendante est le niveau de scola-
rit compose de quatre groupes ou niveaux .
La vice-prsidente des ressources humaines dans une entreprise sin-
tresse limpact du type de rmunration sur le rendement des
employs. Elle slectionne alors trois groupes demploys : un groupe
pay la commission, un autre touchant un salaire annuel et le dernier
LANALYSE DE VARIANCE UN FACTEUR 335

pay lheure. La variable indpendante est la structure de la rmun-


ration qui, dans ce cas, comprend trois niveaux.
La variable indpendante (intensit des chocs lectriques, scolarit,
structure salariale) est divise en niveaux. Il ny a pas de limite au nom-
bre de niveaux dune variable indpendante qui peuvent tre compars par
ANOVA.

Quiz rapide 11.3


Dans lexemple des thrapies pour la dpression, dcrit en dbut de chapitre,
quelle est la variable indpendante ? Quels sont les niveaux pour cette variable ?

La variable dpendante est la variable qui est mesure. On a besoin de


la valeur obtenue par la variable dpendante pour chaque observation de
chaque groupe. Le chercheur qui sintresse au comportement des rats par
rapport aux chocs lectriques compterait le nombre derreurs faites par
chacun des rats dans chacun des groupes. La variable dpendante est le
nombre derreurs . La ministre de lducation pourrait choisir le salaire
de chaque personne dans chaque groupe comme variable dpendante. La
vice-prsidente des ressources humaines devra mesurer le niveau de ren-
dement de chaque employ dans chacun des groupes de rmunration.

Quiz rapide 11.4


Dans lexemple des thrapies contre la dpression, quelle pourrait tre la variable
dpendante ?

LE PRINCIPE FONDATEUR DE LANALYSE DE VARIANCE : LES DIFFRENCES


INTERGROUPES ET INTRAGROUPES

La logique de lANOVA suit troitement celle du test t, et les tests dhypo-


thses sont eux aussi analogues tous ceux que nous avons dj tudis.
Les termes qui dfinissent lANOVA semblent premire vue assez diff-
rents de ceux quon utilise pour le test t, et les formules spcifiques le sont
aussi, mais les principes sont dans lensemble trs similaires.
Commenons par un exemple hypothtique. Nous avons trois groupes
dlves de troisime secondaire qui font leurs tudes dans trois pays hypo-
336 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

thtiques, Pays 1, Pays 2 et Pays 3. Chaque groupe est compos de cinq l-


ves alatoirement choisis parmi la population des lves ayant des rsultats
scolaires quivalents dans leur pays. On fait passer le mme test dalgbre
aux trois groupes dlves. La variable indpendante est le pays dorigine ;
cette variable a trois niveaux (Pays 1, Pays 2, Pays 3). La variable dpendante
est la performance lexamen dalgbre note sur 100 pour chaque lve.
Nous voulons dterminer si les lves des trois pays ont des performan-
ces diffrentes ou non. Les hypothses sont :
H0 : La performance en algbre nest pas diffrente pour les lves des
trois pays (les lves des trois pays proviennent tous de la mme popula-
tion de performance en algbre).
H : La performance en algbre est diffrente pour les lves des trois pays
(les lves des trois pays ne proviennent pas tous de la mme population de
performance en algbre).
Ce qui devient formellement :
H0 : 1 = 2 = 3 (il ny a aucune diffrence entre les groupes).
H : i j pour au moins une paire de moyennes.
Le Tableau 11.2 montre les rsultats obtenus par cinq lves dans cha-
cun des pays (dans une vraie tude, on mesurerait plus de cinq lves).
La meilleure estimation que nous avons de la performance des lves
dans chaque pays est la moyenne obtenue dans chaque groupe : M1 = 40 ;
M2 = 50 et M3 = 60. Les trois moyennes ne sont pas numriquement identi-
ques. Il existe une variabilit entre les groupes, variabilit quil nous faudra
quantifier. Nous donnons le nom de diffrence intergroupe cette quantit.

Tableau 11.2
Performance en algbre pour les lves dans 3 pays

lve Pays 1 Pays 2 Pays 3

1 30 40 50
2 35 45 55
3 40 50 60
4 45 55 65
5 50 60 70
Moyenne 40 50 60
LANALYSE DE VARIANCE UN FACTEUR 337

Mais est-ce que la prsence de diffrences entre les groupes indique


ncessairement quil existe plus dune population de performance en alg-
bre (rejet de H0) ? En examinant cette diffrence intergroupe isolment,
nous ne pouvons pas rpondre la question. Aprs tout, plusieurs lves
provenant de pays diffrents obtiennent la mme note et, entre autres,
llve 5 du pays 1 obtient une note suprieure ou gale aux lves 1, 2 et 3
du pays 2. Il se pourrait que la diffrence entre les lves dun mme pays
soit aussi grande que celle existant entre les lves des diffrents pays.
Nous devons comparer la diffrence entre les groupes un talon (un
standard). Un talon possible est la diffrence moyenne qui existe entre les
observations du mme groupe. Dans lexemple du Tableau 11.2, ce serait
la diffrence entre les lves provenant du mme pays. En calculant, pour
chaque pays, la diffrence qui existe entre chaque lve et la moyenne des
lves de ce pays, nous calculons la diffrence interne au pays. Cette quan-
tit sappelle la diffrence intragroupe. En additionnant les diffrences intra-
groupes, nous obtenons la totalit de la diffrence lintrieur des groupes.
La statistique F que nous allons calculer (et la conclusion que nous allons
tirer) sera le rapport entre la diffrence intergroupe et la diffrence intra-
groupe.
Lorsque la diffrence intergroupe est beaucoup plus grande que la diff-
rence intragroupe, nous rejetons H0 et concluons que la diffrence est sta-
tistiquement significative. Ainsi, dans lexemple du Tableau 11.2, avant de
conclure que les lves de certains pays sont suprieurs en algbre aux l-
ves dautres pays, il faut dmontrer que la diffrence moyenne entre les pays
est plus grande que la diffrence moyenne entre les lves, tous pays confon-
dus. Il nous faut donc tablir le rapport entre la diffrence intergroupe et la
diffrence intragroupe, ce qui produit une nouvelle statistique, la statisti-
que F. La statistique F est nomme en hommage Ronald Fisher (voir le
texte ci-dessous), le clbre statisticien qui a dcouvert la distribution F. La
Formule 11.3 donne le calcul de la statistique F.
diffrence intergroupe
F= Formule 11.3
diffrence intragroupe
Lorsque ce rapport F est proche de 1,0, cela implique quil existe autant
de diffrence entre les groupes quil y en a lintrieur des groupes. Lorsque
ce rapport est nettement plus grand que 1, cela implique que la diffrence
338 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

entre les groupes est plus grande que la diffrence intragroupe. Puisque
nous nous intressons tout particulirement la diffrence entre les grou-
pes, lorsque le rapport F est suffisamment grand, nous concluons quil y
a peu de chances que tous les groupes proviennent de la mme population.
En jargon statistique, nous concluons que la diffrence entre les groupes est
significative.

Quiz rapide 11.5


Faites le rapprochement entre la statistique F et la statistique tobserve vue au
chapitre prcdent. Que reprsente le numrateur pour ces deux statistiques ?
Que reprsente le dnominateur pour ces deux statistiques ?

Sir Ronald A. Fisher : un gant parmi les grands statisticiens


Sir Ronald A. Fisher (1890-1962) fait partie des fondateurs de la statistique telle que
nous lutilisons aujourdhui, avec William S. Gosset (1876-1937) et Karl Pearson (1857-
1936). Fisher est lorigine de nombreux concepts et procdures statistiques, tels que
la variance, la rpartition alatoire, le concept de linfrence statistique, lhypothse
nulle et le test de lhypothse et, bien sr, la distribution et la statistique F ainsi que
lANOVA. Travaillant initialement sur les problmes lis lagriculture (quel type de
semences ou dengrais est plus productif pour quel type de sol), E. F. Lindquist intgra
les ides de Fisher au monde de la psychologie et de lducation. Si on trouve les statis-
tiques difciles, il faut blmer Fisher et Lindquist !
Largement respect pour son gnie mais totalement dtest pour son style inter-
personnel, Fisher, aux dires de ses contemporains, avait une personnalit excrable et
un style pdagogique opaque. Ses ides politiques ntaient gure plus attrayantes :
partisan du mouvement eugniste et craignant une dilution de la qualit gntique
des classes sociales suprieures, il favorisait la procration pour les riches et la dcou-
rageait chez les autres. Pour Fisher, mme linfanticide (dans la classe ouvrire) ntait
pas ncessairement une mauvaise chose. Heureusement, leugnisme tant largement
discrdit de nos jours, seules ses ides concernant les statistiques lui ont survcu.

LANOVA consiste faire une comparaison entre deux types de diff-


rences (les diffrences intergroupes et intragroupes). Puisquen statistiques,
les diffrences prennent le nom de variance, nous parlons dans ce contexte
de variance intergroupe et de variance intragroupe. Ainsi, lANOVA com-
parera la variance intergroupe la variance intragroupe et cest pour cette
raison que nous appelons cette procdure lanalyse de variance ou, en bref,
lANOVA (de langlais Analyse of variance).
LANALYSE DE VARIANCE UN FACTEUR 339

Les composantes de la statistique F

Le calcul de la statistique F implique deux termes qui sont expliqus tour


de rle.
La variance intergroupe : La diffrence moyenne entre les moyennes
de chaque groupe et la moyenne des moyennes (ce qui exige le calcul
de la moyenne de tous les groupes, aussi appele la grande moyenne
ou la moyenne globale).
La variance intragroupe : La diffrence moyenne entre chaque obser-
vation et la moyenne de son propre groupe.
Ces deux termes sont mis en rapport pour produire la statistique F qui
est dcrite par la Formule 11.4.
K ni
2
2 ( Xij Mj )
nj ( Mj M. )
K1
/ = 1i = 1
F = -------------------------------------- j---------------------------------------------
NK
- Formule 11.4

Cette formule peut paratre intimidante premire vue mais elle ne lest
pas. Dcomposons-la.

La moyenne globale (M.)

Dans les calculs qui suivent, nous aurons besoin de la moyenne globale.
Lhypothse nulle postule que les groupes proviennent tous de la mme
population (ayant une moyenne unique, disons ). Nous construisons
la meilleure estimation possible de en calculant la moyenne de tous les
groupes, la moyenne globale, aussi appele la grande moyenne M. (M suivi
dun point). La Formule 11.5 donne le calcul de la grande moyenne partir
des moyennes de chaque groupe.
K
M. = Mj /K Formule 11.5
j=1

o M. est la grande moyenne, Mj est la moyenne obtenue dans chaque


groupe j et K est le nombre de groupes.
340 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

La grande moyenne est donc la moyenne des moyennes. Pour les don-
nes du Tableau 11.1, la grande moyenne est :
K
M. = Mj /K = (40 + 50 + 60)/3 = 150/3 = 50.
j=1

Cette grande moyenne est la meilleure estimation que nous ayons de


(la comptence en algbre) sous lhypothse nulle qui spcifie que les
lves des trois pays proviennent de la mme population de connaissance
de lalgbre. La grande moyenne sera utile pour le calcul de la diffrence
moyenne entre les groupes, cest--dire la diffrence intergroupe.

La diffrence entre les groupes : la somme des carrs intergroupe (SCinter)

Nous dsirons calculer la diffrence entre les groupes. Puisque nous


connaissons la grande moyenne (M.), nous pouvons calculer la diffrence
entre la moyenne de chaque groupe et la grande moyenne (Mj M.), puis
faire la somme de toutes ces diffrences [Mj M.)]. Cependant, il faut
pondrer chaque diffrence pour donner plus dimportance aux groupes
qui contiennent plus dobservations [nj(Mj M.)]. Cette pondration est
ncessaire puisque nous savons que les chantillons qui contiennent plus
dobservations estiment la population avec plus de prcision.
Ainsi, chaque diffrence obtenue entre la moyenne de chaque groupe et la
grande moyenne est multiplie par le nombre dobservations dans le groupe
(nj). Lorsque nous faisons la somme de toutes ces diffrences, nous obtenons
une quantit qui sappelle la somme des carts intergroupe (entre les moyen-
nes des groupes et la grande moyenne). La Formule 11.6 dcrit le calcul.
K

nj ( Mj M. ) Formule 11.6
j=1

o Mj et nj sont respectivement la moyenne et le nombre dobservations


dans chaque groupe, et M. est la grande moyenne.
Pour les donnes du Tableau 11.1, il y a 5 observations dans chaque
groupe (do n1 = n2 = n3 = 5) et la grande moyenne est de 50. La somme
des carts intergroupe, est :
[5 (40 50)] + [5 (50 50)] + [5 (60 50)] = 50 + 0 + 50 = 0.
LANALYSE DE VARIANCE UN FACTEUR 341

Cette manire de calculer la somme des carts produit invariablement la


mme rponse : zro ! Il ny a rien de nouveau ici, puisque la moyenne est
le point dquilibre des donnes, la somme des carts entre la moyenne des
groupes et la grande moyenne sera toujours gale zro.
Comme pour le calcul de la variance, nous contournons ce problme en
mettant chaque diffrence au carr. Cette quantit se nomme la somme des
carrs intergroupe (SCinter) :
K
2
SCinter = nj ( Mj M. ) Formule 11.7
j=1

o tous les termes sont identiques ceux de la Formule 11.6.


Pour poursuivre lexemple du Tableau 11.1, la somme des carrs inter-
groupes est :
SCinter = [ 5 (40 50) 2] + [5 (50 50)2] + [5 (60 50)2]
= [5 102] + [5 02] + [5 102]
= 1 000
La diffrence au carr entre les moyennes est 1 000. Cette quantit, la
somme des carrs intergroupe, est la statistique qui nous intresse. Lors-
que cette statistique est proche de zro, cela indique que la diffrence entre
les groupes est proche de zro. Si, par contraste, la diffrence intergroupe
est grande, il est plus probable que les groupes proviennent de populations
diffrentes.
Il nest malheureusement pas possible de faire une utilisation directe
de cette quantit, SCinter. La raison provient du fait que cette quantit
mlange deux grandeurs : la diffrence entre chaque moyenne et la grande
moyenne, dune part, et le nombre de groupes, dautre part. Plus le nombre
de groupes est grand, plus la somme des carrs intergroupe est grande. Il
faut donc sparer ces deux influences.
La solution au problme est simple. Il sagit de calculer la diffrence
moyenne. Nous calculons la diffrence moyenne entre les groupes en divi-
sant la SCinter par le nombre de degrs de libert entre les groupes (que nous
expliquons plus loin)
dlinter = K 1 Formule 11.8
o K est le nombre de groupes.
342 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Cette statistique, la moyenne des carrs intergroupe, ou plus simplement


le carr moyen (CM), se calcule avec la formule suivante :
2
SC inter n j ( M j M. )
CMinter = ---------------- = -------------------------------------- Formule 11.9
dl inter K1
Le carr moyen intergroupe pour les donnes du Tableau 11.1 est CMinter =
1 000/(3 1) = 1 000/2 = 500.
La Formule 11.9 est trs similaire la formule pour le calcul de la
variance (chapitre 3). On divise la somme des carrs intergroupe par les
degrs de libert K 1, cest--dire par le nombre de groupes (K) moins
un. Tout comme pour le calcul de la variance autour de la moyenne dun
chantillon, une des diffrences entre les moyennes et la grande moyenne
nest pas libre, ce qui va lencontre du postulat de lindpendance des
observations (voir le chapitre 8). Nous corrigeons ce biais en divisant la
somme des carrs intergroupe par le nombre de moyennes qui peuvent
varier librement : cest--dire toutes sauf une, et nous obtenons K 1 pour
les degrs de libert. Cette correction produit une estimation non biaise
de la diffrence entre les groupes dans la population.
Le carr moyen intergroupe (CMinter) est toujours positif, car il est
impossible davoir moins que zro diffrence. Nous trouvons dans lexem-
ple portant sur la connaissance en algbre des lves que la diffrence
moyenne au carr entre nos moyennes est gale 500. Malheureusement,
ce rsultat ne nous donne pas encore assez dinformations, puisque nous
ne savons pas si une diffrence de cette taille est grande ou petite, habituelle
ou rare. Cette diffrence entre les moyennes nest peut-tre pas plus grande
que la diffrence typique laquelle nous pourrions nous attendre si les trois
chantillons provenaient de la mme population. Par consquent, il faut
comparer cette diffrence entre les chantillons avec la diffrence qui existe
lintrieur des groupes.

Quiz rapide 11.6


Si vous avez trois groupes pour lesquels la moyenne est parfaitement gale,
quelle sera, dans ce cas, la quantit CMinter ?
LANALYSE DE VARIANCE UN FACTEUR 343

La diffrence intragroupe : la somme des carrs moyens intragroupe

Chaque chantillon est compos dun certain nombre dobservations.


Or, il existe (presque certainement) de la variabilit lintrieur de cha-
que groupe. Dans lexemple du Tableau 11.2, les lves dun mme pays
nobtiennent pas tous le mme rsultat. Il est possible de quantifier cette
variation avec la Formule 11.10, la somme des carrs intragroupe (SCintra).
On peut remarquer que la Formule 11.10 tablit la diffrence entre chaque
observation dun groupe et la moyenne du groupe et quelle met au carr
cette diffrence afin dviter que la somme donne zro :
K ni
2
SCintra = ( Xij Mj ) Formule 11.10
j = 1i = 1
o Xij est le score du sujet i dans le groupe j et Mj est la moyenne pour ce
groupe.
La double sommation () indique que nous faisons dabord la somme
des diffrences au carr entre chaque observation (Xij) et la moyenne de son
propre groupe (Mj), puis nous faisons la somme de toutes ces quantits. La
formulation suivante est lexpansion de la Formule 11.10. Elle explicite la
nature des calculs qui doivent tre faits.
n1 n2 nK
2 2 2
= ( Mi1 M1 ) + ( Xi2 M2 ) + ... + ( XiK MK )
i=1 i=1 i=1

Pour nos donnes du Tableau 11.2, la somme des carrs intragroupe


pour le Pays 1 est : (30 40)2 + (35 40)2 + + (50 40)2. Pour le Pays 2,
nous calculons (40 50)2 + (45 50)2 + + (60 50)2. Et pour le Pays 3,
nous calculons (50 60) 2 + (55 60)2 + + (70 60)2. En additionnant
chaque somme, nous obtenons la somme des carrs intragroupe : SCintra= 750.
Comme pour la somme des carrs intergroupe, la SCintra sera plus grande
sil y a plus dobservations et plus de groupes. Il faudra donc sparer ces
deux influences en divisant la quantit SCintra par le nombre de degrs de
libert, qui, lui, devra prendre en considration le nombre total dobserva-
tions (N) aussi bien que le nombre de groupes (K).
Invitablement une observation dans chaque groupe nest pas libre.
Nous perdons donc un degr de libert par groupe. Au total, les degrs de
libert deviennent N K, o N est le nombre total dobservations et K est le
344 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

nombre de groupes. Ce qui nous amne la Formule finale 11.11, formule


requise pour le calcul du carr moyen intragroupe, CMintra.
K ni
2
( Xij Mj )
= 1i = 1
CMintra = j---------------------------------------------
- Formule 11.11
NK
Lorsque nous avons 5 groupes, chacun compos de 10 observations, le
nombre de degrs de libert intragroupe est N K = (5 10) 5 = 50
5 = 45.

Quiz rapide 11.7


Supposons 10 groupes, chacun ayant 10 observations. Quel est le nombre total
de degrs de libert intergroupe et intragroupe ?

Pour les donnes du Tableau 11.2, nous avons SCintra = 750 pour 15 obser-
vations (N = 15) rparties dans 3 groupes (K = 3). Puisque nous avons
N = 15 et K = 3, les degrs de libert intragroupe sont N K = 15 3 = 12.
Nous pouvons maintenant calculer le carr moyen intragroupe :
CMintra = 750/(15 3) = 750/12 = 62,5.
Une fois les calculs des quantits CMinter (le carr moyen intergroupe) et
CMintra (le carr moyen intragroupe) termins, nous pouvons enfin calculer
la statistique F, leur rapport.

Quiz rapide 11.8


Si, dans votre tude, les observations dans chaque groupe sont gales la
moyenne de leur propre groupe, quelle sera la quantit CMintra ? Quelle sera la
quantit CMinter ?

Le calcul de la statistique F

La statistique F est le rapport entre la diffrence moyenne intergroupe et la


diffrence moyenne intragroupe. La Formule 11.12 reprend la Formule 11.3,
mais avec ses composantes maintenant formalises :
F = CMinter/CMintra Formule 11.12
LANALYSE DE VARIANCE UN FACTEUR 345

o CMinter est le carr moyen intergroupe et CMintra est le carr moyen intra-
groupe.
Pour les donnes du Tableau 11.2, nous savons dj que CMinter = 500 et
CMintra = 62,5. Nous pouvons donc calculer la statistique F :
F = CMinter/CMintra
= 500 / 62,5
= 8,00
Si F avait valu 1, nous aurions conclu quil existe autant de diffrence
entre les groupes quil en existe lintrieur des groupes. Mais nous avons
obtenu F = 8,00. Cela signifie que la diffrence moyenne entre les groupes
est huit fois plus grande que la diffrence moyenne lintrieur des grou-
pes. Obtenir une diffrence moyenne entre les groupes huit fois plus grande
que la diffrence moyenne lintrieur des groupes (F = 8,00) est possible
mme lorsque tous les groupes proviennent de la mme population. Mais
est-ce probable ? Si une telle diffrence est probable, nous allons conclure
que la diffrence nest pas statistiquement significative. Mais si elle nest
pas probable, nous allons tirer la conclusion inverse. Il nous faut alors ta-
blir la probabilit dobtenir un rapport F de cette taille si tous les groupes
proviennent de la mme population. Pour tablir cette probabilit, il faut
dabord examiner la distribution de la statistique F (Tableau A.3).

La distribution thorique de la statistique F

En principe, la distribution de la statistique F est construite de manire


similaire celle qui a servi la construction de la distribution de la statis-
tique t ou celle de la distribution normale. On commence par crer une
unique population normale dobservations. Par consquent, cette distribu-
tion na quune seule moyenne. On choisit au hasard deux groupes, chacun
ayant la mme taille (N), un nombre infini de fois. chaque fois, on calcule
la statistique F = CMinter / CMintra et on tablit une distribution des effectifs
de la statistique F pour deux chantillons de taille N.
Puisque les deux chantillons sont extraits de la mme population, il
ne devrait pas y avoir de diffrence entre eux, cest--dire que la diffrence
intergroupe (CMinter) devrait tre gale la diffrence intragroupe (CMintra),
346 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

ce qui produira un F proche de 1,0. Mais par pur hasard (lerreur dchan-
tillonnage), une certaine proportion des diffrences sera diffrente de 1,0.
Puisquon obtient un nombre infiniment grand de statistiques F calcules
partir dchantillons extraits de la mme population, on peut calculer la
proportion des F de diffrentes tailles.
On rpte cette simulation pour diffrentes tailles dchantillons N et
pour diffrents nombres de groupes K. la fin, on obtient la distribu-
tion des valeurs F pour nimporte quelle combinaison de groupes K 1
(les degrs de libert intergroupes) et dobservations N K (les degrs de
libert intragroupes).

La valeur critique F et le tableau des valeurs critiques de la statistique F

Pour chacune de ces distributions de F, nous identifions la valeur F qui est


plus grande que 95 % des valeurs F contenues dans la distribution. Cette
valeur F prend le nom de valeur critique F ou Fcritique, et cest cette valeur qui
est inscrite au tableau des valeurs critiques de F que nous retrouvons lap-
pendice A3. Par exemple, lorsque nous avons 3 groupes (K = 3, dlinter = K1=2)
et 33 observations (N = 33, dlinter = NK=30), 95 % des F sont infrieurs
F = 3,32, et moins de 5 % (p < 0,05) des F de cette distribution sont gaux
ou plus grands que F = 3,32. De la mme manire, nous trouvons le F qui
correspond 1 % (p < 0,01) ou mme 0,1 % (p < 0,001). Les tableaux de
lappendice A.3 montrent les valeurs critiques de la statistique F lorsque
le nombre de groupes va de 2 13 et lorsque le nombre dobservations est
moins de 1013. Les valeurs critiques F sont donnes pour trois seuils fr-
quemment utiliss (0,05, 0,01 et 0,001).
Dans les Tableaux A.3 de la distribution des valeurs critiques F
dans lAnnexe, chaque colonne reprsente le nombre de degrs de libert
intergroupe, soit le nombre de degrs de libert associ au carr moyen
intergroupe (CMinter). Nous indiquons ce nombre par la lettre grecque 1
( nu 1). Le nombre de degrs de libert intergroupes est 1 = K 1.
Chaque range du tableau des valeurs critiques de F reprsente le nom-
bre de degrs de libert intragroupes, N K. Nous indiquons ce nombre
par 2 ( nu 2).
LANALYSE DE VARIANCE UN FACTEUR 347

En utilisant ce tableau, nous trouvons la valeur critique F. Elle se trouve


lintersection de la colonne 1 = K 1 et de la range 2 = N K, qui corres-
pondent notre analyse. Par exemple, si nous comparons quatre groupes
ayant un nombre total de 24 observations, nous calculons dabord le
nombre de degrs de libert 1 et 2. Les degrs de libert intergroupes
sont 1 = K 1 = 4 1 = 3. Les degrs de libert intragroupes sont
2 = N K = 24 4 = 20. Nous trouvons alors la cellule qui se trouve lin-
tersection de la colonne 1 = 3 et 2 = 20. Dans ce cas, nous trouvons que la
valeur critique F(3, 20) = 3,098 lorsque nous choisissons un risque derreur
= 0,05. Si nous avions choisi un seuil alpha de 0,01, la valeur critique
pour ce problme aurait t 4,938. Pour alpha = 0,001, le seuil critique pour
1 = 3 et 2 = 20 est 8,098.

Quiz rapide 11.9


Dans votre tude, vous comparez 10 groupes ayant chacun 10 observations.
Quelle est la valeur critique pour un de 5 % et pour un de 1 % ?

Lutilisation du tableau des valeurs critiques de F pour faire une infrence

Lutilisation du tableau des valeurs critiques de F est quasi identique celle


que nous avons vue pour le test t. partir des valeurs CMinter et CMintra, nous
calculons la statistique F. Nous allons maintenant au tableau des valeurs
critiques de F (appendice A3) et nous reprons, pour les degrs de libert
et le niveau alpha choisi, la cellule qui y correspond. Enfin, nous compa-
rons le F qui a t calcul partir des donnes celui qui se trouve dans le
tableau. Si notre F est infrieur celui que lon trouve dans le tableau, nous
ne pouvons pas affirmer quil existe une diffrence entre les groupes. Les
statisticiens disent que la diffrence entre les groupes nest pas statistique-
ment significative. Mais si le F calcul partir des donnes est gal ou plus
grand que le Fcritique, nous concluons que la diffrence entre les groupes est
statistiquement significative, au niveau alpha choisi. Au moins un groupe
diffre des autres.
348 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

SOMMAIRE DU TEST DE LHYPOTHSE POUR K GROUPES

Nous pouvons maintenant formaliser le tout pour montrer comment


fonctionne le test dANOVA. Comme pour le test t, il y a quatre tapes.

Poser les hypothses

Lhypothse nulle prsume toujours lgalit entre tous les K groupes, cest-
-dire quils proviennent tous dune population unique. Lhypothse est
quil y a au moins un groupe qui diffre des autres. Si on veut tre formel :
H0 : 1 = 2 = ... = K (les groupes proviennent de la mme population).
H : i j pour au moins une paire de moyennes (au moins un groupe
ne provient pas de la mme population).

Choisir le seuil de signication

Il faut choisir le seuil avant de regarder les donnes, pour que ce choix
soit objectif. Souvent, on prend = 5 %, mais selon le problme et, sur-
tout, limportance de minimiser les erreurs dinfrence (de types I et II), on
pourrait choisir un seuil plus grand ( = 0,10) ou plus petit ( = 0,01 ou
mme = 0,001).

Spcier la rgle dcisionnelle pour choisir entre H et H0

Le test dANOVA est de la forme :


Rejet de H0 si Fobserv Fcritique : nous rejetons lhypothse nulle si le Fobserv
est gal ou suprieur au Fcritique.
La valeur Fcritique sobtient dans le tableau des valeurs critiques et elle
dpend du seuil de signification choisi () et des degrs de libert 1 et 2
qui correspondent et qui ont t utiliss pour le calcul du Fobserv.

Faire les calculs et conclure

Vrifier la taille du Fobserv par rapport la taille du Fcritique et appliquer la


rgle dcisionnelle identifie ltape prcdente.
LANALYSE DE VARIANCE UN FACTEUR 349

Quiz rapide 11.10


Vous avez 6 groupes et un total de 100 observations. la suite de votre ANOVA,
vous observez un F = 4,3. Pouvez-vous afrmer avec un niveau derreur de 5 %
quau moins un groupe est diffrent des autres ? Et si vous voulez courir seule-
ment 1 chance sur 1000 de vous tromper, maintiendrez-vous votre conclusion ?

Le tableau des sources de variance

Souvent, le dtail des calculs est prsent suivant un format standard (uti-
lis entre autres par le logiciel SPSS) que lon nomme le tableau des sources
de variance. Ce tableau est pratique parce quil rsume toutes les statistiques
essentielles notre interprtation, ce qui sera important lorsquil sagira de
poursuivre lANOVA avec des tests a posteriori ou pour le calcul de la taille
de leffet. Nous y reviendrons.
Le Tableau 11.3 est le tableau des sources de variance pour les donnes
du Tableau 11.2, qui dcrit la performance en algbre des lves dans trois
pays. Il indique, la deuxime colonne, la somme des carrs intergroupe
et intragroupe et le total de ces deux quantits, la somme totale des carrs.
Cette dernire quantit reflte lensemble de toutes les diffrences qui exis-
tent dans notre banque de donnes.

Tableau 11.3
Sources de variance

Somme Degrs de Carrs


Seuil
des carrs libert moyens F
de signication
(SC) (dl) (CM)

Intergroupe 1 000,0 2 500,0 8,00 0,006

Intragroupe 750,0 12 62,5

Total 1 750,0 14

La colonne carrs moyens (CM) est obtenue en divisant la somme


des carrs (SC) par les degrs de libert (dl) correspondants. La statistique
F est obtenue en divisant le carr moyen intergroupe par le carr moyen
intragroupe.
350 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

La statistique obtenue, F = 8, semble indiquer une grande diffrence


entre les groupes (8 fois plus de diffrences intergroupes moyennes que de
diffrences intragroupes moyennes). Par consquent, nous serions tents
de rejeter H0 et de conclure que la comptence en algbre nest pas la mme
pour les lves des trois pays. Mais est-ce vraiment le cas ?
Nous trouvons la valeur critique de F pour un seuil de 5 % (p < 0,05)
pour 1 = 2 et 2 = 12 dans le tableau de lAnnexe. Cette valeur critique est
Fcritique = 3,885, alors que le Fobserv est 8,0, une valeur qui lui est suprieure.
Nous concluons alors au rejet de H0 : il est peu probable (moins de 5 % des
chances) dobtenir une telle diffrence entre les lves des diffrents pays si
la performance en algbre dans les pays est en ralit la mme. La diffrence
est statistiquement significative. Lorsquil faut dcrire notre rsultat, nous
crivons : La diffrence entre la connaissance en algbre des lves des
trois pays est statistiquement significative (F (2,12) = 8,00, p < 0,05). Il
est obligatoire dindiquer le test statistique utilis (F), ses degrs de liberts
1 et 2 (2 et 12 dans ce cas), la taille du F observ et enfin, le seuil alpha
indiquant le risque dune erreur de type I associ notre conclusion.
Les tableaux de la distribution des valeurs critiques de F, comme ceux
prsents dans lAnnexe, ont t conus avant que les ordinateurs nexis-
tent et afin de rendre le processus dinfrence statistique moins laborieux.
Cependant, avec larrive des ordinateurs, les tableaux de la distribution
des valeurs critiques de F (ou de t) ne sont presque plus utiliss. Tous les
logiciels professionnels danalyses statistiques (SPSS, SAS, Systat, etc.) cal-
culent la probabilit exacte dune erreur de type I. Pour conclure, il suffit
de vrifier la dernire colonne du Tableau 11.3 des sources de variance qui
indique la probabilit exacte de commettre une erreur de type I (conclure
au rejet de H0, alors que les trois groupes proviennent de la mme popu-
lation). Dans ce cas, la probabilit est p = 0,006 : il y a donc 6 chances sur
1 000 que nous fassions une erreur dinfrence en concluant que la com-
ptence en algbre nest pas la mme pour les lves des trois pays. Cette
probabilit (0,006) tant infrieure au seuil alpha minimal conventionnel
(0,05) nous concluons la signification statistique.
LANALYSE DE VARIANCE UN FACTEUR 351

LES INFLUENCES SUR LA PROBABILIT DE REJETER H0

Comme avec le test t, il est possible de rduire le risque dune erreur de type
I en rduisant le seuil de signification. Par exemple, si nous voulons tester
notre hypothse concernant la comptence en algbre des lves (F = 8),
mais en nacceptant quun risque trs petit de commettre une erreur de
type I (disons moins de 1/1000 ou p < 0,001), nous allons trouver que la
valeur critique du F (voir le Tableau A.3.2 dans lAnnexe, pour = 0,001
et 1 = 2 et 2 = 12) est 12,973. Puisque le F observ de 8,0 est infrieur la
valeur critique F(2, 11) = 12,973, nous ne rejetterons pas lhypothse nulle,
concluant que la diffrence entre les groupes nest pas statistiquement signifi-
cative. Dans ce dernier cas, nous sommes contraints de conclure que tous les
groupes proviennent de la mme population de connaissance en algbre.
Lillustration prcdente nous invite comprendre quun mme rsul-
tat (Fobserv) pourrait tre statistiquement significatif ou non, en fonction de
plusieurs facteurs, dont les plus importants sont :
1) la taille du F trouv ;
2) le nombre dobservations ;
3) le seuil choisi pour tester lhypothse ;
4) lhomognit des observations.
La Figure 11.1 reprsente les principes et constats suivants.
1. Plus la diffrence entre les moyennes des groupes est grande, plus la
statistique F est grande et plus le rejet de H0 est probable. Lorsque la
diffrence entre les moyennes des groupes est plus grande, la quan-
tit CMinter sera plus grande et le Fobserv rsultant sera plus grand.
Plus grand est le Fobserv, plus grande est la probabilit quil soit gal
ou suprieur au Fcritique, et donc il est plus probable quil mne une
conclusion du rejet de H0 (signification statistique).
2. Plus le nombre dobservations (N) est grand, plus grande est la proba-
bilit que le Fobserv soit plus grand que le Fcritique, et plus probable est le
rejet de H0. Le nombre dobservations a un effet direct sur la taille du
Fcritique requis pour conclure la signification statistique (plus grand
est le N, plus petit est le Fcritique). Un mme Fobserv pourrait tre non
statistiquement significatif lorsquil est calcul partir dun N petit,
et statistiquement significatif lorsquil provient dune analyse com-
prenant un plus grand nombre dobservations.
352 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

gure 11. 1 Quatre inuences sur la probabilit de rejeter H0 : les


diffrences intergroupe et intragroupe, N et le seuil choisi

Plus grand le N
Plus grande
la diffrence
intergroupe
Plus grand Plus probable
le Fobserv le rejet de H0

Plus petite
la diffrence
intragroupe Plus grand
le seuil

3. Plus le niveau choisi est grand (p < 0,05 plutt que p < 0,01), plus
grande est la probabilit que le Fobserv soit gal ou plus grand que le
Fcritique et quil y ait rejet de H0. Une analyse comprenant le mme
nombre de degrs de libert inter et intragroupes pourrait tre statisti-
quement significative p < 0,05 mais ne pas ltre au seuil = 0,01.
4. Toutes choses tant gales par ailleurs, plus la diffrence lintrieur
des groupes est petite, plus il est probable que les groupes ne pro-
viennent pas de la mme population (rejet de H0). Plus il y a dho-
mognit dans les observations lintrieur des groupes, plus petite
est la quantit CMintra. Par consquent, le rapport CMinter/CMintra sera
plus grand, rsultant en une statistique Fobserv de taille suprieure.
Plus grand est le Fobserv, plus grande sera la probabilit quil soit gal
ou suprieur au Fcritique et donc, il sera plus probable quil mne une
conclusion du rejet de H0 (signification statistique).

Quiz rapide 11.11


Vous pensez que le taux de criminalit est plus grand dans les villes plus grandes.
Vous choisissez trois grandes villes, trois villes de taille moyenne et trois petites
villes et vous mesurez, pour chacune dentre elles, le niveau de criminalit.
Vous ne trouvez pas de diffrences statistiquement signicatives p < ,01.
Ntant pas convaincu que ce rsultat est vrai, vous dcidez de refaire ltude.
Changeriez-vous quelque chose dans votre nouvelle tude ? Quoi ?
LANALYSE DE VARIANCE UN FACTEUR 353

Le choix du seuil : lerreur de type I versus lerreur de type II

Le choix du seuil est dabord et avant tout une question dacceptation du


risque dune erreur.
Le risque dune erreur de type I est plus grand lorsque nous choisissons
un seuil de signification plus grand (p < 0,05 plutt que p < 0,01). lin-
verse, le risque dune erreur de type II est plus grand lorsque nous choisis-
sons un seuil de signification plus petit (p < 0,01 plutt que p < 0,05). Ainsi,
le choix d (petit ou grand) affecte le risque dune erreur de type I et dune
erreur de type II. De plus, en choisissant le risque derreur que nous vou-
lons minimiser (I ou II), nous augmentons lautre risque derreur.
Quel est le risque le plus grave ? Il nexiste pas de rgle nous permet-
tant de trancher, ce choix tant totalement circonstanciel, en fonction de la
situation. Examinez le scnario suivant.
Supposons que le cancer X est mortel et quil nexiste aucun traitement
efficace pour le contrer. Lesprance de vie dune personne atteinte de ce
type de cancer est de 6 mois. Supposons quon propose un nouveau traite-
ment mdical qui est potentiellement bnfique. Afin dvaluer son effica-
cit, on administre le traitement un groupe de patients, et on compare le
nombre de mois que les personnes de ce groupe vivent comparativement
un groupe tmoin de patients qui ne le reoivent pas. On excute une
ANOVA qui compare le nombre de mois que les deux groupes de patients
vivent. Afin de choisir le seuil alpha, il nous faudra prendre en considra-
tion, dans ce cas prcis, les consquences dune erreur dinfrence. Quel est
le risque derreur quil faut maintenant minimiser : type I ou type II ?

La consquence dune erreur de type I

La consquence lie une erreur de type I (conclure que le nouveau


mdicament est efficace, alors quil ne lest pas) nest pas particulirement
importante dans ce cas. La maladie tant incurable, lutilisation dun trai-
tement qui, en ralit, nest pas efficace naura aucun impact notable. Le
risque de commettre une erreur dinfrence de type I nest pas grave. Dans
ce cas, il serait appropri de choisir un seuil plus grand (disons = 0,05
plutt que = 0,01). Le principe tient aussi bien linverse. Lorsque le ris-
354 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

que associ une erreur de type I est important, on choisira un seuil plus
petit ( = 0,01 plutt que = 0,05).

La consquence dune erreur de type II

Supposons que le F de lANOVA nest pas statistiquement significatif au


seuil choisi : alpha = 0,01. Nous nallons pas prescrire le traitement parce
que la rgle dcisionnelle que nous avons choisie (p < ,01) indique quil
nest pas efficace. Mais supposons que nous faisons erreur et quen ralit
ce nouveau traitement est efficace. Nous commettons une erreur de type II.
Mais si le traitement est en ralit efficace, en tirant une conclusion fausse,
nous passons ct dun mdicament trs attendu. Donc, des malades qui
auraient pu tre sauvs prissent. Commettre une erreur de type II a des
consquences graves.
Dans ce scnario, il est donc plus important de limiter les risques dune
erreur de type II que ceux dune erreur de type I. Le risque dune erreur de
type II est amoindri en choisissant un seuil plus grand (disons = 0,05
plutt que = 0,01). Ainsi, il sera plus facile de conclure la signification
statistique (traitement efficace) et plus difficile de conclure que la diffrence
nest pas significative (traitement inefficace).
Si, linverse, la consquence dune erreur de type II est moins importante,
il faudra opter pour un petit seuil plutt quun seuil plus grand ( = 0,01
plutt que = 0,05).

Comment rduire le risque derreur de type I et de type II ?

Ainsi, il est important de dfinir le risque derreur dinfrence que nous


voulons minimiser. Cela se fera invariablement en tudiant le risque
encouru pour chaque type derreur : I ou II.
Sil importe de rduire le risque dune erreur de type I, nous pouvons
faire appel ces stratgies :
1. Rduire le seuil de signification (p < 0,001 plutt que p < 0,05).
2. Utiliser moins de sujets (dobservations) plutt que plus.
Sil importe de rduire le risque dune erreur de type II, nous faisons
appel aux stratgies inverses :
LANALYSE DE VARIANCE UN FACTEUR 355

1. Augmenter le seuil de signification (p < 0,05 plutt que p < 0,001).


2. Augmenter le nombre dobservations.
La logique est exactement celle dcrite lors de la discussion au sujet
de lintervalle de confiance (chapitre 9). En augmentant le N, les bornes
de lintervalle de confiance se rtrcissent, augmentant la probabilit de
conclure que les chantillons ne proviennent pas de la mme population
(rejet de H0). linverse, en rduisant le N, les bornes de lintervalle de
confiance saccroissent, rendant moins probable la conclusion la signifi-
cation statistique (non-rejet de H0).

LES TESTS DE COMPARAISONS MULTIPLES OU TESTS A POSTERIORI

La statistique F que lANOVA produit est le rapport entre les variabili-


ts intergroupe et intragroupe. Supposons que nous avons trois groupes
(groupe 1, groupe 2, groupe 3). On administre un nouveau mdicament
aux patients du groupe 1, alors que le groupe 2 reoit un traitement pla-
cebo. Enfin, le groupe 3 est un groupe tmoin qui ne reoit ni mdicament
ni placebo. Nous comparons le niveau de symptmes qui existe dans les
trois groupes avec lANOVA et nous concluons que le Fobserv est statistique-
ment significatif. Nous concluons que les trois groupes nont pas un niveau
de symptmes gal. partir de ce rsultat statistiquement significatif, tou-
tes les conclusions suivantes sont potentiellement, mais pas ncessairement,
justes.
1) 1 2 = 3. Leffet du nouveau mdicament diffre de celui du pla-
cebo, qui produit un effet gal celui du groupe tmoin.
2) 1 = 2 3. Le nouveau mdicament est aussi efficace que le traite-
ment placebo, mais les deux traitements diffrent du groupe tmoin.
3) 1 2 3. Le nouveau mdicament diffre du placebo, qui, lui, est
diffrent du groupe tmoin.
Ces rsultats possibles mnent des conclusions trs diffrentes. Par
exemple, une compagnie pharmaceutique serait ravie du rsultat 1 ; par
contre, elle serait profondment due du rsultat 2. Il est donc utile de
pouvoir distinguer entre ces diverses interprtations. LANOVA tant
construite en comparant la diffrence intergroupe la diffrence intra-
groupe, elle nest pas en mesure de nous aider rsoudre le problme. Par
356 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

consquent, des procdures statistiques additionnelles, les tests de com-


paraisons multiples (que lon appelle parfois tests de comparaison a pos-
teriori, tests de comparaison post hoc, ou encore plus simplement tests a
posteriori), ont t conues afin de nous aider dterminer lequel ou les-
quels des groupes se diffrencient des autres. Techniquement, lorsque nous
avons obtenu une diffrence significative la suite dune ANOVA, le test de
comparaisons multiples identifie avec prcision la source de la diffrence.
Par consquent, les tests de comparaisons multiples ne sont interprtables
(et donc ne doivent tre excuts) que si lANOVA indique une diffrence
statistiquement significative.
Lorsque lanalyse de variance produit un F non statistiquement signi-
ficatif, cela nous indique que tous les groupes proviennent de la mme
population. Par consquent, il serait insens danalyser leurs diffrences
alors que nous savons dj quils proviennent tous de la mme population.
Mais il faut faire attention : certains logiciels impriment automatiquement
les tests a posteriori. Cela ne veut pas dire quil faille obligatoirement sen
servir pour tirer une conclusion.

Le test de comparaisons multiples de Scheff

Il existe une grande diversit de tests de comparaison multiple mais nous


nen dcrirons quun seul, le test de Scheff. Ce test a t choisi parce quil
est le plus conservateur (moins enclin produire une erreur de type I1)
et plus gnral dans ses applications. Le test de Scheff est trs flexible et
permet la comparaison entre deux groupes ou entre deux ensembles de
groupes. Par exemple, si nous avons 4 groupes, il nous permet de com-
parer chaque groupe avec les autres ou de faire une comparaison entre les
groupes 1 et 2 versus les groupes 3 et 4, ou 1 versus 2, 3 et 4, etc. Quil y ait
ou non le mme nombre dobservations dans les divers groupes, on peut
lutiliser. Enfin, les informations requises par le test de Scheff sont toutes

1. En contrepartie, et pour faire suite la discussion portant sur les erreurs de type I et
de type II, le test de Scheff limite le risque dune erreur de type I, mais il augmente
le risque dune erreur de type II. Le risque dune erreur de type II est amoindri lors-
que nous choisissons un seuil de signification plus grand. Par consquent, il est
gnralement acceptable de choisir un seuil = 0,10 pour le test de Scheff (plutt
que p < 0,05, qui est le critre minimal gnralement requis).
LANALYSE DE VARIANCE UN FACTEUR 357

disponibles partir du tableau des sources de variance de lANOVA, ce qui


facilite beaucoup les calculs requis.
En principe, le test de Scheff suit la logique habituelle. Nous allons cal-
culer une nouvelle statistique (Cobserv) qui sera compare une valeur criti-
que (Ccritique). Dans cette application, la statistique Ccritique ntant pas tabule,
il faudra la driver partir du tableau de la distribution de la statistique F.
Le calcul du test de comparaison multiple de Scheff implique cinq
tapes.
1. On excute une ANOVA qui compare tous les groupes. Le test de
Scheff ne sera appliqu que si on obtient un F statistiquement signifi-
catif : il sagit maintenant de dterminer o se trouvent les diffrences
existantes.
2. On identifie la comparaison dsire (ex : groupe 1 vs groupe 2).
3. On calcule pour ces comparaisons la statistique Cobserv avec la
Formule 11.13.
4. On calcule la valeur critique Ccritique avec la Formule 11.14.
5. On compare la statistique Cobserv la valeur Ccritique. Lorsque la statis-
tique Cobserv est gale ou plus grande que la valeur Ccritique, on conclut
que les groupes examins dans la comparaison sont statistiquement
diffrents lun de lautre.

Les formules pour le calcul du test de Scheff pour la comparaison multiple

Nous commenons par une prsentation des formules pour le calcul des
statistiques Cobserv et Ccritique, que nous illustrons partir des donnes du
Tableau 11.2. La construction du test de Scheff exige dabord le calcul de
la statistique Cobserv, qui se donne avec la Formule 11.13
M1 M2
Cobserv = ----------------------------------------------- Formule 11.13
1 1
CM intra ----- + -----
n n
1 2
o M1 et M2 sont les moyennes des groupes que lon veut comparer, CMin-
tra est le carr moyen intragroupe, puis directement dans le tableau des
sources de variance de lANOVA, et n1 et n2 sont le nombre dobservations
associes chaque groupe compar.
358 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

On remarquera la simplicit de la conception de Scheff (Formule 11.13).


Elle rpond la question suivante : la diffrence entre les deux groupes en
question est-elle plus ou moins grande que la diffrence moyenne entre les
personnes, tous groupes confondus ?
Il faut ensuite calculer la statistique Ccritique :
Ccritique = ( k 1 )F critique Formule 11.14
o le Fcritique est celui que lon retrouve dans le tableau de la distribution des
valeurs de F pour le nombre de degrs de libert provenant de lanalyse de
variance initiale.

Une illustration du Cobserv et du Ccritique

Les donnes du Tableau 11.2 et les donnes du tableau des sources de


variance (Tableau 11.3) sont requises pour le calcul des deux statistiques :
le Cobserv et le Ccritique. Puisque nous avons obtenu (Tableau 11.3) un rsultat
statistiquement significatif la suite de lANOVA, nous pouvons mainte-
nant dterminer si la diffrence entre, par exemple, le Pays 1 et le Pays 3
est statistiquement significative : les groupes 1 et 3 proviennent-ils de deux
populations diffrentes ou de la mme ? Les moyennes obtenues pour ces
deux groupes sont M1 = 40 ; M3 = 60.
40 60 20 20
Cobserv = --------------------------------- = ------------------------------------------------ = ---------- = 4
1 1 62,5 ( 0,20 + 0, 20 ) 25
62,5 --- + ---
5 5

Il faut maintenant calculer le Ccritique, qui sera compar avec le Cobserv.


Ccritique = ( k 1 )F critique = ( 3 1 )3,885 = 2,79
La valeur Fcritique est celle qui provient du tableau de la distribution des
valeurs de F, pour les degrs de libert intergroupes (dans ce cas 1 = 3 1
= 2), et pour les degrs de libert intragroupes (2 = 15 3 = 12). Pour un
seuil alpha de 0,05, cette valeur est 3,885 (voir le tableau pertinent dans
lAnnexe).
Le Cobserv (4) tant suprieur au Ccritique (2,79), nous concluons que la per-
formance en algbre des lves du Pays 1 est diffrente (infrieure) celle
des lves du Pays 3. Les lves du Pays 1 nappartiennent pas la mme
population de connaissance en algbre que les lves du Pays 3.
LANALYSE DE VARIANCE UN FACTEUR 359

Le calcul du Cobserv peut sembler un peu long. Le numrateur de la For-


mule 11.13 est compltement et exclusivement dtermin par la moyenne
des groupes que lon compare (M1 M2 ou M1 M3, etc.). Cette quantit
sera diffrente pour les diverses comparaisons. Mais lorsque nous analysons
la diffrence entre des groupes de mme taille (n1 = n2 = n3), il est ncessaire
de calculer le dnominateur de la Formule 11.13 une fois seulement et cette
valeur sera valide pour la comparaison entre tous les groupes.
Pour les donnes du Tableau 11.2, chaque groupe a le mme nombre
dobservations (n1 = n2 = n3 = 5). La quantit CMintra = 62,5 est la mme
pour toutes les comparaisons. Par consquent, le dnominateur de la For-
mule 11.13 est le mme pour toutes les comparaisons. Il devient mainte-
nant facile de dterminer o les diffrences se trouvent. Le Tableau 11.4
indique les rsultats pour les donnes du Tableau 11.2.

Tableau 11.4
Comparaison multiple des moyennes avec la procdure de Scheff

Comparaison (pays) Cobserv Ccritique Conclusion

1 vs 2 (40 vs 50) 2 2,79 1 = 2 (non-rejet de H0)

2 vs 3 (50 vs 60) 2 2,79 2 = 3 (non-rejet de H0)

1 vs 3 (40 vs 60) 4 2,79 1 3 (rejet de H0 ; p < 0,05)

partir du Tableau 11.4, les conclusions suivantes sont justifies. La


diffrence de connaissance en algbre des lves des Pays 1 et 2 et des Pays
2 et 3 ntant pas statistiquement significative, le test de Scheff indique que
seuls les lves des Pays 1 et 3 diffrent.

LA TAILLE DE LEFFET ET LA STATISTIQUE TA AU CARR (2)

La taille de leffet sert indiquer si la diffrence entre les groupes est grande
ou petite. Il sagit du rapport de la diffrence entre les groupes (SCinter) et la
diffrence totale (SCtotal), tel que dcrit par la Formule 11.15. :
SCtotal = SCinter + SCintra Formule 11.15
360 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

La logique de la taille de leffet est simple : de toutes les diffrences qui


existent dans nos donnes (SCtotal la Formule 11.15), quel est le pourcen-
tage de ces diffrences qui provient de la diffrence entre les groupes (SCinter
la Formule 11.15) ? La statistique ta au carr ( 2) est le nom que nous
donnons ce rapport2 :
2 = SCinter/SCtotal Formule 11.16
Dans la Formule 11.16, on voit que la statistique 2 dfinit le rapport
entre les diffrences intergroupes par rapport la diffrence totale, qui
nest rien de plus que la somme des diffrences intergroupes et des diff-
rences intragroupes (Formule 11.15). La statistique ta au carr peut pren-
dre des valeurs variant entre 0 et 1,0. Mais on choisit souvent de lexprimer
en pourcentage, en multipliant sa valeur par 100 %. Ainsi, si on obtient
2 = 0,25, on conclut que 25 % de la diffrence totale observe sur la varia-
ble dpendante est explique par la variable indpendante. Plus grande est
la statistique ta au carr, plus grande est la diffrence entre les groupes.
Lorsque la taille de leffet est gale 1,0 (ou 100 %), il faut comprendre que
toutes les diffrences qui existent sont attribuables (ou expliques par)
la diffrence entre les groupes.

Quiz rapide 11.12


Supposons que vous ne trouvez aucune diffrence entre les moyennes. Quelle
sera obligatoirement la taille de leffet ?

Une illustration de la taille de leffet

Reprenons les donnes du Tableau 11.2 et le tableau de sources de


lANOVA (le Tableau 11.3). Nous avons test la diffrence de connaissance
en algbre des 15 (N = 15) tudiants dans nos trois chantillons (K = 3).
Nous avons trouv Fobserv = 8, ce qui implique une diffrence statistique-

2. La statistique ta au carr est aussi connue sous le nom de ratio de corrlation . ta


est une corrlation non linaire, car elle mesure le degr de changement sur la varia-
ble dpendante en fonction de la variable indpendante. Lorsque la relation entre
la variable indpendante et la variable dpendante est linaire, ta est exactement
gal rxy, la corrlation (linaire) de Pearson. ta au carr sinterprte exactement
comme le coefficient de dtermination (voir le chapitre 6).
LANALYSE DE VARIANCE UN FACTEUR 361

ment significative. La performance en algbre nest pas la mme pour les


lves des trois pays. Mais cette diffrence est-elle grande ou petite ? Nous
calculons alors ta au carr avec la Formule 11.16.
partir du tableau des sources de variance (Tableau 11.3), nous voyons
que la somme des carrs intergroupe = 1 000 et que la somme des carrs
intragroupe = 750. La somme totale des carrs est donc SCinter + SCintra = 1 000
+ 750 = 1750. Pour le calcul dta au carr, nous utilisons la Formule 11.16 :
2 = SCinter/SCinter + SCintra
= 1 000/1 750
= 0,57
En exprimant ta au carr en pourcentage, nous obtenons 57 %. Linter-
prtation de ce rsultat est directe : de toutes les diffrences de comptence
en algbre qui existent entre les lves, 57 % de ces diffrences sexpliquent
par le pays o llve reoit son enseignement. On pourrait aussi dire que la
connaissance du pays de llve rduit lincertitude par rapport sa comp-
tence en algbre de 57 %. Le pays est donc un lment important prendre
en considration pour comprendre la comptence en algbre des lves.
Ce pourrait-il que certains pays utilisent des manuels dinstructions ou des
approches pdagogiques qui ne facilitent pas lapprentissage de lalgbre ?

Formule simplie pour le calcul dta au carr

Il arrive souvent que les auteurs douvrages scientifiques ou professionnels


ne prsentent pas la taille de leffet ni le tableau des sources de variance
dans leurs rapports. Cependant, ils incluent toujours le Fobserv, qui fait suite
leur ANOVA lorsque celle-ci est statistiquement significative. Pour va-
luer leur juste valeur ces rsultats, le test de signification nest pas suffi-
sant. Il faut aussi calculer la taille de leffet. Lorsque lauteur ne prsente pas
cette taille de leffet ni les donnes requises pour en faire le calcul (cest--
dire le tableau des sources de variance), on peut nanmoins calculer la taille
de leffet si on a accs au Fobserv, au nombre de groupes (K) et au nombre
dobservations (N). Ces informations sont presque toujours incluses dans
les crits. La Formule 11.17 est celle que nous utilisons :
2 = (K 1)F/[(N K) + (K 1) F] Formule 11.17
362 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

o K = le nombre de groupes compars dans lANOVA, N = le nombre


total dobservations (tous les groupes confondus), et F = la statistique Fob-
serv produite par lANOVA.
Reprenons le calcul de la taille de leffet pour la comptence en algbre
des lves des trois pays en utilisant la Formule 11.17.
2 = (K 1)F/[(N K) + (K 1) F]
= (3 1)8/[(15 3) + (3 1)8]
= 16/(12 + 16) = 16 / 28
= 0,57, ou 57 %

Linterprtation de la taille de leffet

Toutes choses tant gales par ailleurs, plus la diffrence intergroupe est
grande, plus la taille de leffet est grande.
Toutes choses tant gales par ailleurs, plus la diffrence intragroupe est
petite, plus la taille de leffet est grande.
La signification statistique indique si les groupes proviennent de popula-
tions diffrentes. La taille de leffet indique cependant si la diffrence entre
les groupes est de taille suffisante pour avoir un impact pratique : elle aide
faire la distinction entre une diffrence statistiquement significative et une
diffrence pratique. Lorsque la taille de leffet est une valeur extrme (0 ou
1,0), son interprtation est trs facile : la diffrence entre les performan-
ces sur la variable dpendante est compltement ( 2 = 1,0) ou nullement
( 2 = 0,0) explique par la variable indpendante. Mais il est extrmement
rare que lon obtienne en pratique de telles valeurs, particulirement avec
les variables qui sont utilises en sciences sociales. Aprs tout, il est pres-
que impossible quun ensemble de personnes ragissent exactement de la
mme manire nimporte quel traitement ou quune seule variable ind-
pendante soit parfaitement capable dtablir la distinction entre les obser-
vations. Il est quasi certain que la taille de leffet sera plus petite que 1,0.
Comment alors valuer si elle est grande ou petite ?
Cohen (1988) propose que la taille de leffet soit juge petite lorsquelle
est aux alentours de 1 % ( 2 = 0,01), moyenne lorsquelle se situe aux
alentours de 6 % ( 2 = 0,06) et grande lorsquelle est aux alentours de
LANALYSE DE VARIANCE UN FACTEUR 363

14 % ( 2 = 0,14). Bien que pratiques, ces critres pour dfinir la taille de


leffet sont parfaitement arbitraires. Le seuil de signification statistique,
alpha = 0,05, par exemple, est lui aussi arbitraire.
Plutt que de se borner aux critres de Cohen, la plupart des chercheurs
et des intervenants valuent la signification pratique en fonction du pro-
blme. Une taille de leffet que lon pourrait croire petite selon les crit-
res de Cohen peut avoir une forte signification pratique. Par exemple, un
mdicament qui gurirait seulement 1 % des sidens ( 2 = 0,01) serait fort
important. Le sida tant incurable aujourdhui, un mdicament qui gu-
rirait seulement quelques personnes reprsenterait un immense pas en
avant.
Un dernier mot au sujet de la taille de leffet et de la statistique 2. Cette
statistique ne doit tre calcule et interprte que lorsque lANOVA nous
indique que la diffrence entre les groupes est statistiquement significative.
Comme pour les tests post hoc, il serait insens de calculer la taille dune
diffrence entre deux groupes alors que les deux groupes sont identiques !

SOMMAIRE DU CHAPITRE

Lanalyse de variance fait partie des analyses statistiques les plus souvent
utilises. LANOVA gnralise le test t et permet de dterminer si plusieurs
groupes appartiennent une ou plus dune population. LANOVA se sert
de la statistique F, laquelle compare la diffrence entre les groupes relative
la diffrence entre les observations qui proviennent des mmes groupes.
Linterprtation de la statistique F se fait en comparant sa valeur la valeur
critique que lon trouve dans le tableau des valeurs critiques. En faisant
appel aux tests de comparaisons multiples, il est possible, aprs avoir fait
une ANOVA, de dterminer avec plus de prcision combien de popula-
tions sont reprsentes par les groupes. Enfin, la taille de leffet nous donne
une indication chiffre, et en pourcentage, de la taille de la diffrence entre
les groupes. Cette dernire statistique est essentielle pour estimer la signifi-
cation pratique dune diffrence dtecte par lanalyse de variance.
364 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

EXERCICES DE COMPRHENSION

1. La statistique F est utilise ________________________________.


a) lorsque nous devons comparer les moyennes de deux groupes
ou plus
b) lorsque nous devons comparer les moyennes de trois groupes
ou plus
c) lorsque nous navons pas dchantillons indpendants
d) lorsquil sagit de vrifier la signification statistique
2. La signification statistique la suite dune ANOVA nous indique si
les divers groupes ____________, alors que la taille de leffet nous
indique si la diffrence entre les groupes ____________.
a) ont la mme variabilit intergroupe ; est plus grande que zro
b) ont des moyennes diffrentes ; est vraie dans la population
c) proviennent ou non de la mme population ; est grande ou petite
d) Toutes ces rponses sont justes.
3. Nous divisons la classe en 5 groupes, chacun compos de 21 tudiants.
Nous administrons une version diffrente de lexamen chaque
groupe. Nous testons la diffrence entre les notes laide dune
ANOVA un facteur. Les degrs de libert intergroupes sont
________ et les degrs de libert intragroupes sont ___________.
a) 5 ; 105
b) 5 ; 100
c) 4 ; 105
d) 4 ; 100
4. la question 3, nous trouvons le rsultat suivant : F = 3,52. Daprs
le tableau des valeurs critiques de F, les groupes appartiennent-ils
des populations diffrentes pour le risque derreur alpha = 0,05 ?
____ 0,01 ? ____ 0,001 ? _____
a) Oui ; Oui ; Non.
b) Oui ; Non ; Non.
c) Non ; Non ; Oui.
d) Oui ; Oui ; Oui.
LANALYSE DE VARIANCE UN FACTEUR 365

5. En quoi le test de Scheff est-il utile ?


a) Pour identifier les groupes qui diffrent des autres.
b) Pour indiquer si la diffrence entre les groupes est de taille
importante.
c) Pour vrifier si les prsomptions du test F sont respectes.
d) Toutes ces rponses sont justes.
6. Lorsque nous trouvons un F = 4,0, cela indique
a) que la moyenne des groupes diffre
b) que la moyenne de chaque groupe diffre de la moyenne des
autres groupes par un facteur de 4
c) quil y a quatre fois plus de diffrence moyenne entre les groupes
quil nen existe en moyenne entre les individus
d) que les chances de conclure que la diffrence est statistiquement
diffrente sont de 1 sur 4
7. la suite dune ANOVA un facteur, vous tirez la conclusion sui-
vante : le test F tant statistiquement significatif p < 0,05, les cinq
groupes de ltude nappartiennent pas tous la mme population.
Quel est le risque, dans ce cas, dune erreur de type I ?
a) 5 %
b) 95 %
c) Le risque ne peut pas tre tabli, car nous ne connaissons pas
le groupe qui diffre des autres.
d) Le risque peut tre tabli, mais il nous faudrait connatre
le nombre dobservations pour ce faire.
8. La diffrence entre les 3 groupes est statistiquement significative
= 0,001. De toutes les diffrences qui existent dans cette banque
de donnes, la diffrence entre les groupes en explique 50 %. Quelle
est la taille de leffet dans ce cas ?
a) 99,99 % (1 0,001)
b) 0,01 % (1 99,99)
c) 50 %
d) 1,5 (50 % de 3)
366 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

9. Nous avons notre disposition la taille de toutes les femmes et de


tous les hommes du Canada. Les femmes mesurent, en moyenne
1,50 m et les hommes mesurent, en moyenne, 1,5001 m. Dans ce
cas, la diffrence entre les hommes et les femmes fait-elle quils
appartiennent des populations de taille diffrente ?
a) Oui.
b) Non.
c) Probablement que non, mais il faudra faire un test de signification
statistique pour en tre certain.
d) Probablement que oui, mais il faudra faire un test de signification
statistique pour en tre certain.

Rponses

1. a
2. c
3. d
4. a
5. a
6. c
7. a
8. c
9. a (Nota bene : nous analysons des populations entires ; par
consquent, les tests statistiques ne sont pas pertinents.)
CHAPITRE 12
LANALYSE DE VARIANCE FACTORIELLE

LANOVA un facteur et lANOVA factorielle : similarits


et diffrences...................................................................................... 369
Importance de ltude des interactions.............................................. 370
Lorganisation dune ANOVA factorielle.......................................... 373
Le fonctionnement de lANOVA factorielle..................................... 375
Linterprtation des effets principaux ........................................... 375
Un exemple dANOVA factorielle deux facteurs .................... 376
Les hypothses de lANOVA factorielle ............................................ 378
La dcomposition de la somme totale des carrs ............................. 380
Le tableau des sources de variance pour lANOVA
factorielle ...................................................................................... 380
La signification statistique des statistiques F
pour lANOVA factorielle ......................................................... 381
Les degrs de libert pour lANOVA factorielle ......................... 381
Les degrs de libert intergroupes pour les effets
principaux .................................................................................... 381
Les degrs de libert intergroupes pour linteraction
Les graphiques dinterprtation pour les ANOVA
factorielles .................................................................................... 382
Linterprtation prliminaire des rsultats statistiquement
significatifs.................................................................................... 384
Linterprtation dfinitive des rsultats de lANOVA
factorielle ...................................................................................... 385
368 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Les effets simples............................................................................... 387


Sommaire du chapitre........................................................................... 388
Exercices de comprhension ............................................................... 389
CHAPITRE 12

LANALYSE DE VARIANCE FACTORIELLE

Le test t examine la diffrence entre deux petits groupes. Lanalyse de


variance un facteur gnralise la procdure, en examinant la diffrence
entre plusieurs groupes de toutes tailles, chacun reprsentant un niveau
diffrent de la mme variable indpendante. Elle indique si les diffrents
groupes, reprsentant les diffrents niveaux de la variable indpendante,
proviennent ou non de la mme population. LANOVA factorielle est
une procdure statistique qui gnralise lANOVA un facteur. Elle per-
met dexaminer limpact simple et conjoint sur une variable dpendante
de plusieurs variables indpendantes, chacune dtenant un nombre tho-
riquement illimit de niveaux, avec des chantillons de toutes tailles. Bien
quil ny ait pas de limite inhrente au nombre de variables indpendantes
qui peuvent tre analyses par lANOVA factorielle, ce chapitre se limite
lanalyse de deux variables indpendantes. Ainsi, lANOVA factorielle
deux facteurs examine limpact de chacune des deux variables indpendan-
tes, ainsi que leur impact conjoint sur une variable dpendante.

LANOVA UN FACTEUR ET LANOVA FACTORIELLE : SIMILARITS


ET DIFFRENCES

LANOVA factorielle est une construction statistique qui se sert de la


totalit des concepts et des procdures utiliss pour lANOVA un fac-
teur (voir le chapitre 11) : dans les deux cas, des groupes dfinissent les
niveaux des variables indpendantes et lobjectif consiste alors comparer
les moyennes obtenues par les groupes sur une seule variable dpendante
370 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

afin dinfrer les probabilits que les groupes proviennent ou non de la


mme population. Dans les deux cas, on calcule la mme statistique F qui
est construite et qui sinterprte de manire identique : le rapport entre les
variabilits intergroupes et intragroupes. Ces estimations de variabilits se
calculent avec les mmes formules (les carrs moyens intra- et intergrou-
pes) pour produire des statistiques Fobserv qui sont interprtes en les com-
parant avec les valeurs Fcritique qui, elles, se trouvent dans le mme tableau
des valeurs critiques. Les tests de comparaison multiple ainsi que la taille de
leffet se mesurent et sinterprtent de la mme faon pour les deux formes
danalyse.
La distinction entre lANOVA factorielle et lANOVA un facteur se
situe sur le plan de la variable indpendante. Pour lANOVA un facteur,
on travaille avec une unique variable indpendante. Mais lANOVA fac-
torielle est moins limite : elle permet de vrifier, dans la mme analyse,
limpact de plusieurs variables indpendantes sur lunique variable dpen-
dante, mais, ce qui est plus important encore, elle permet dvaluer limpact
conjoint de ces variables indpendantes. Pour ce faire, elle introduit un
nouveau concept statistique : linteraction. Linteraction value linfluence
conjointe de deux variables indpendantes (dans le cas de lANOVA facto-
rielle deux facteurs) sur la variable dpendante.

IMPORTANCE DE LTUDE DES INTERACTIONS

Lanalyse de variance factorielle ( deux facteurs) est utilise lorsque lon


souponne (ou postule) que leffet dune variable indpendante sur la varia-
ble dpendante nest pas le mme pour diffrentes valeurs dune deuxime
variable indpendante.
Par exemple, les pharmaciens sinquitent de plus en plus des effets
interactifs des mdicaments prescrits. En pratique clinique, le mdecin
choisirait de prescrire le mdicament qui aurait la meilleure chance de sou-
lager ou de gurir le malaise dun patient. Mais il arrive parfois, particuli-
rement chez les personnes plus ges, que le patient souffre simultanment
de plusieurs malaises. En prescrivant le meilleur remde disponible pour
chacun des malaises, on pourrait sattendre une gurison plus complte
des maux du patient. Or, ce nest pas toujours le cas. Parfois, deux mdica-
LANALYSE DE VARIANCE FACTORIELLE 371

ments parfaitement scuritaires et efficaces lorsque pris sparment pro-


duisent des effets paradoxaux lorsquils sont administrs simultanment :
les effets bnfiques dun mdicament peuvent tre annuls (ou dans cer-
tains cas majors) par la consommation de lautre mais, parfois, la combi-
naison des deux mdicaments peut crer des effets secondaires nocifs pour
la sant des patients.
Avec la prolifration des mdicaments disponibles, ce type de problme
ce que les pharmaciens et les statisticiens nomment une interaction
est devenu une proccupation trs importante pour ces milieux.

Linteraction entre les approches pour le traitement de la dpression


Imaginons la situation suivante : une compagnie pharmaceutique proclame, aprs avoir
inject des milliards de dollars dans la recherche et le dveloppement, avoir trouv un
mdicament miracle pour soigner la dpression. Pour appuyer ses dires, la compagnie
a ralis une vaste tude auprs de patients souffrant de dpression. La moiti dentre
eux ont pris le mdicament en question et lautre moiti, un mdicament placebo. Par
ailleurs, dans chaque groupe, la moiti des patients ont suivi simultanment une thra-
pie psychologique, lautre moiti, non.
Supposons que la compagnie se limite crire dans son rapport : Le nouveau
mdicament est efcace, les patients ayant reu le mdicament sont signicativement
moins dprims (F(1, 396) = 7,31, p < 0,05) que ceux qui nen ont pas pris.
Il sagit dune afrmation gnrale : le mdicament fonctionne. Or, quen est-il de
la thrapie ? A-t-elle aid la moiti des participants qui lont suivie ? Est-ce que la com-
binaison thrapie + mdicament est le summum du traitement de la dpression ? En
ngligeant de prendre en considration limpact potentiel de la thrapie, la conclusion
laquelle la compagnie est arrive pourrait tre suspecte.
Imaginons que les rsultats sont tels que les patients ayant reu le mdicament et
la thrapie ont vu leur tat samliorer. Tel nest pas le cas des participants ayant reu
le mdicament mais pas de thrapie et dont ltat a mme lgrement rgress. En fai-
sant la moyenne de ces deux groupes, on trouve que la dpression sest rduite, mais
on ne peut pas clairement dire que cet effet bnque est exclusivement attribuable
au mdicament. La conclusion de la compagnie nest pas fausse, mais elle pourrait tre
trompeuse. Elle oublie de mentionner que le mdicament a un effet favorable unique-
ment lorsquil est pris en conjonction avec la thrapie. En labsence de la thrapie, le
mdicament ne serait pas bnque et, pour certains patients, il serait mme nuisible.
Ce mdicament nest donc efcace que pour les patients qui suivent une thrapie et
leffet de la thrapie ne se rvle que lorsque les patients prennent le mdicament. Lef-
fet bnque du mdicament est diffrent lorsque les patients suivent ou ne suivent
pas une thrapie. Il y a donc une interaction entre le mdicament et la thrapie.
372 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

LANOVA factorielle est une procdure qui permet dtudier simul-


tanment les effets uniques et les effets conjoints de plusieurs variables
indpendantes sur une seule variable dpendante. Cette procdure est uti-
lise en psychologie car les psychologues savent que le comportement est
souvent tributaire de plusieurs causes. Par exemple, la satisfaction affiche
envers son employeur est influence, en partie, par le statut de lemploy,
par la qualit de sa relation avec son superviseur mais aussi par la per-
sonnalit de lemploy. LANOVA factorielle sert analyser limpact de
chacune de ces variables (statut, relation et personnalit) ainsi que leurs
effets conjoints linteraction sur la satisfaction au travail.
Le terme facteur est utilis dans le mme sens que les termes traitement
ou variable indpendante. Comme pour lANOVA un facteur, le facteur
est dfini par diffrents niveaux, chacun compos dun groupe diffrent.
Lorsque nous interprtons la diffrence entre les niveaux de chaque varia-
ble indpendante, nous parlons de leffet principal. Lorsque nous analysons
leffet conjoint des variables, nous parlons de leffet dinteraction, ou plus
simplement, dune interaction. Ainsi, pour lanalyse de variance factorielle
deux facteurs, nous aurons faire trois calculs et trois interprtations :
Leffet principal A se rfre la diffrence entre les niveaux de la pre-
mire variable indpendante. Dans le texte ci-dessus, leffet principal
A rfre limpact du mdicament seulement : le mdicament rduit-
il ou non la dpression ?
Leffet principal B analyse la diffrence entre les niveaux de la deuxime
variable indpendante. Dans le texte ci-dessus, leffet principal B ana-
lyse limpact de la thrapie seulement : la thrapie rduit-elle ou non la
dpression ?
Leffet dinteraction A B analyse la diffrence entre chacun des grou-
pes dfinis par les deux variables indpendantes prises simultan-
ment. Dans le texte ci-dessus, leffet dinteraction analysera leffet du
mdicament compte tenu de leffet de la thrapie. Leffet du mdica-
ment est-il le mme ou est-il diffrent pour les diffrents niveaux de la
variable thrapie ?
Comme nous le verrons dans ce chapitre, linterprtation de linterac-
tion est laspect le plus important de lanalyse, et celui sur lequel linterpr-
tation globale reposera en premier.
LANALYSE DE VARIANCE FACTORIELLE 373

LORGANISATION DUNE ANOVA FACTORIELLE

Supposons que lon veuille valuer leffet de trois dosages diffrents dun
mdicament sur le comportement de deux catgories de patients (dpres-
sifs et schizophrnes). En termes analytiques, nous avons deux variables
indpendantes (les facteurs). Ces deux facteurs sont le dosage (compos de
trois niveaux : dosages 1, 2 et 3) et ltat psychologique du patient (compos
de deux niveaux : dpression et schizophrnie).
La base de donnes comprend donc six groupes, tel quil est illustr
au Tableau 12.1. Chaque groupe reprsente une combinaison des deux
facteurs : dosage catgorie de patient. Ainsi, un groupe est compos de
dpressifs recevant le dosage 1, un deuxime groupe de dpressifs reoit le
dosage 2 et, enfin, un dernier groupe est compos de dpressifs auquel le
troisime dosage est administr. Les trois groupes de schizophrnes sont
forms de manire identique.
La variable dpendante est le comportement des patients que nous
mesurons par le nombre de visites au mdecin ou le nombre de journes
dabsence au travail ou lcole. Nous prsumons un total de 10 patients
dans chacun des six groupes. Le Tableau 12.1 dcrit lorganisation des
informations. Avec ce schme, nous postulons que le mme mdicament
sera efficace pour les dpressifs et les schizophrnes condition que le
dosage soit diffrent pour chaque type de maladie.

Tableau 12.1
Moyennes de chaque groupe

Catgorie (B) Dosage (A)

1 2 3

Dpressifs groupe 1 groupe 2 groupe 3

Schizophrnes groupe 4 groupe 5 groupe 6

LANOVA factorielle produit une statistique Fobserv pour chaque fac-


teur ainsi quune autre pour linteraction. Les trois rsultats (et les trois
statistiques F) sont les suivants.
374 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Facteur A (effet principal du dosage) : la comparaison se fait entre les


dosages 1, 2 et 3, combinant, pour chaque niveau de dosage les dpressifs
et les schizophrnes. Ainsi, au Tableau 12.1, lanalyse combine les groupes
1 et 4 (dosage 1, NA1 = 20 patients), les groupes 2 et 5 (dosage 2, NA2 = 20
patients) et les groupes 3 et 6 (dosage 3, NA3 = 20 patients). Ensuite, elle
calcule la moyenne de chacun de ces trois regroupements et produit une
statistique Fobserv qui est le rapport entre les carrs moyens intergroupes et
intragroupes. Conceptuellement, il sagit dune ANOVA un facteur ayant
trois niveaux, chacun compos de 20 observations. Si le Fobserv est statisti-
quement significatif, il faudra conclure que les trois dosages ne produisent
pas le mme effet sur les patients, peu importe leur maladie.
Facteur B (effet principal de catgorie) : la comparaison se fait entre les
deux catgories de patients, les dpressifs et les schizophrnes. Au Tableau
12.1, lanalyse combine les groupes dpressifs recevant les dosages 1, 2 et
3 (dosage 1, NB1 = 30 patients) et elle combine les groupes de schizoph-
rnes qui reoivent les dosages 1, 2 et 3 (dosage 1, NB2 = 30 patients). La
statistique F comparera alors deux groupes (les catgories de patients), ce
qui rduit cette partie de lanalyse une ANOVA un facteur compos de
deux niveaux, chacun comportant 30 patients. Si le Fobserv est statistique-
ment significatif, il faudra conclure que (indpendamment du dosage) le
mdicament ne produit pas le mme effet sur les patients dpressifs que sur
les schizophrnes.
Interaction A B : la comparaison finale porte sur linteraction. Ici,
une statistique Fobserv est calcule partir des variabilits intergroupes et
intragroupes des six groupes dcrits au Tableau 12.1. La statistique F pour
linteraction comparera alors les six groupes, chacun compos de 10 per-
sonnes. Si le Fobserv pour linteraction est statistiquement significatif, il fau-
dra conclure que, selon le dosage, le mdicament ne produit pas le mme
effet sur les patients dpressifs que sur les schizophrnes. Le dosage prescrit
sera diffrent selon la maladie.
Chacun de ces rsultats statistiques se doit dtre tudi et interprt,
mais lordre dans lequel cela se fait est important. Nous y reviendrons plus
loin dans le chapitre.
LANALYSE DE VARIANCE FACTORIELLE 375

LE FONCTIONNEMENT DE LANOVA FACTORIELLE

Le fonctionnement interne de lANOVA factorielle est quasi identique


celui de lANOVA un facteur. Tout comme pour lANOVA un facteur,
lANOVA factorielle compare la diffrence moyenne entre les groupes (les
carrs moyens intergroupes) avec la diffrence moyenne entre les observa-
tions (les carrs moyens intragroupes). Ainsi, une statistique Fobserv est pro-
duite pour chaque variable indpendante ainsi que pour linteraction. Au
total, lANOVA factorielle produira donc trois statistiques F. En compa-
rant chacune de ces statistiques F avec les valeurs critiques de la statistique
F (Tableau A.3 dans lAnnexe), il est possible de conclure si lhypothse
nulle associe chacune des trois comparaisons doit tre rejete ou non.
Dans tous les cas, le mme tableau des valeurs critiques de F est utilis. Les
degrs de libert intergroupes et intragroupes ncessaires pour ces compa-
raisons sont dcrits plus loin dans le chapitre.

Linterprtation des effets principaux

Linterprtation des effets principaux est identique celle faite pour


lANOVA un facteur. Dans tous les cas, la statistique Fobserv calcule pour
chaque effet principal sera dclare statistiquement significative lorsquelle
est gale ou suprieure au Fcritique. Ainsi, un effet principal qui est statisti-
quement significatif indique quau moins un des groupes provient dune
population diffrente des autres. Comme pour lANOVA un facteur, un
test de comparaison multiple (tel le test de Scheff, voir le chapitre 11) peut
tre appliqu aux donnes, permettant de dterminer quel groupe diffre
des autres. Enfin, la taille deffet de chaque effet principal peut tre calcule
en utilisant la statistique 2 telle que dcrite au chapitre 11.
Par exemple, supposons que, la suite de lANOVA excute sur des
donnes dune exprience de dosage (maladie [voir le Tableau 12.1]), nous
trouvons un F statistiquement significatif pour leffet principal de dosage.
Nous pouvons alors dterminer avec un test de Scheff quel groupe diffre
significativement et nous pouvons calculer la taille de cette diffrence avec
la statistique 2. La mme chose pourra tre faite pour leffet principal du
type de maladie.
376 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Quiz rapide 12.1


Dans lexemple du Tableau 12.1, il ne sera pas ncessaire dexcuter un test de
Scheff la suite dun effet statistiquement signicatif pour le facteur type de
maladie . Pouvez-vous expliquer pourquoi ?

Les Formules 12.1 et 12.2 prsentent le calcul des statistiques F dcri-


vant les effets principaux.
CMinter facteur A
Effet principal A : F intergroupes facteur A = Formule 12.1
CMintra
CMinter facteur B
Effet principal B : F intergroupes facteur B = Formule 12.2
CMintra
Les formulations exactes requises pour le calcul des carts moyens inter-
et intragroupes sont identiques celles dcrites au chapitre 11 et utilises
pour lANOVA un facteur.
CMinteraction
Effet dinteraction A B : Finteraction = Formule 12.3
CMintra
Linteraction se calcule avec la Formule 12.3. Le terme CMinteraction est la
diffrence moyenne (au carr) entre la moyenne de chacun des groupes
et la moyenne globale. Les carrs moyens intragroupes dans les Formules
12.1 et 12.2 sont une seule et mme quantit. Puisque chaque effet prin-
cipal ainsi que linteraction incluent toutes les observations, la quantit
intragroupe est la mme pour le test de tous les effets principaux et pour
linteraction.

Un exemple dANOVA factorielle deux facteurs

Supposons que lon dsire tudier, chez les cadres en milieu de carrire,
limpact sur la satisfaction de vie de deux facteurs : la richesse personnelle
et ltat de sant. Nous dsirons rpondre trois questions :
a) Existe-t-il un effet de la richesse personnelle ? Comparativement aux
cadres pauvres, les cadres riches jouissent-ils dune satisfaction de vie
diffrente ? Nous dsirons alors tester leffet principal de la richesse
personnelle sur la satisfaction de vie.
b) Existe-t-il un effet de ltat de sant ? Comparativement aux cadres
malades, les cadres en sant jouissent-ils dune satisfaction de vie
LANALYSE DE VARIANCE FACTORIELLE 377

diffrente ? Il sagit alors danalyser leffet principal de ltat de sant


sur la satisfaction de vie.
c) Effet dinteraction : Ltat de sant et la richesse personnelle intera-
gissent-ils dans leurs effets sur la satisfaction de vie ? Les cadres qui
sont simultanment riches et en sant, riches et malades, pauvres et
malades, ou pauvres et en sant proviennent-ils de populations dif-
frentes de satisfaction de vie ? Il sagit alors de tester linteraction.
Le Tableau 12.2 prsente la satisfaction de vie moyenne obtenue dans
chaque groupe. La dernire colonne et la dernire range du Tableau 12.2
prsentent les moyennes marginales. Les moyennes marginales sont impor-
tantes pour linterprtation des effets principaux.
La satisfaction de vie des cadres riches mais malades est de 20 alors que
celle des cadres riches mais en sant est de 35. Ces deux groupes sont com-
poss uniquement de cadres riches. En prenant la moyenne de ces deux
groupes la moyenne marginale des riches nous obtenons leur satis-
faction moyenne : 27,5. Pour les cadres qui sont pauvres, nous trouvons
une moyenne marginale de 20. Nous pouvons anticip que la comparaison
statistique entre la satisfaction de vie des riches et des pauvres impliquera
lanalyse de la diffrence entre 27,5 et 20,0, leurs deux moyennes.
De faon quivalente nous examinons la moyenne marginale pour les
cadres malades (20) ainsi que celle pour ceux qui sont en sant (27,5).
Enfin, la moyenne globale (23,75) est la moyenne de satisfaction de vie
de tous les participants ltude. Elle se calcule par la somme des moyen-
nes pour chaque groupe divise par le nombre de groupes.

Tableau 12.2
Effet de la richesse et de ltat de sant sur la satisfaction de vie moyenne
des cadres en milieu de carrire

Riches Pauvres Moyenne

Malades 20 20 (20 + 20)/2 = 20

En sant 35 20 (35 + 20)/2 = 27,5

(20 + 20 + 35 + 20)/
Moyenne (20 + 35)/2 = 27,5 (20 + 20)/2 = 20
4 = 23,75
378 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Le Tableau 12.2 explicite les comparaisons qui seront faites en indiquant


la satisfaction de vie moyenne pour chaque groupe. Les donnes brutes se
retrouvent au Tableau 12.3.
Leffet principal A (la situation financire) : la comparaison sera faite
entre les cadres riches, quils soient en sant ou malades (moyenne mar-
ginale de 27,5) et ceux qui sont pauvres, nonobstant leur tat de sant
(moyenne marginale de 20).
Leffet principal B (ltat de sant) : nous comparons maintenant les
cadres qui sont malades (moyenne marginale de 20) ceux qui sont en
sant, nonobstant leur situation financire (moyenne marginale de 27,5).
Leffet dinteraction (situation financire tat de sant) : pour linte-
raction, nous comparons les moyennes obtenues dans chacun des groupes.
Dans ce cas, les moyennes suivantes sont compares : 20, 20, 35 et 20.

LES HYPOTHSES DE LANOVA FACTORIELLE

Le jeu dhypothses suit la forme habituelle. Nous tablissons une hypo-


thse H que nous comparons avec son hypothse nulle.

Effet principal pour le facteur A

H1 : riche pauvre : les cadres qui sont riches ont un niveau de satisfaction
de vie diffrent de celui des cadres qui sont pauvres.
H01 : riche = pauvre : les cadres qui sont riches et ceux qui sont pauvres
nont pas un niveau de satisfaction de vie ingal.

Effet principal pour le facteur B

H2 : sant malade : les cadres qui sont en sant ont un niveau de satis-
faction de vie diffrent de celui des cadres qui sont
malades.
H02 : sant = malade : les cadres qui sont en sant et les cadres qui sont
malades nont pas un niveau de satisfaction de vie
ingal.
LANALYSE DE VARIANCE FACTORIELLE 379

Effet dinteraction A B

H3 : la satisfaction de vie des cadres qui sont riches ou pauvres est dif-
frente selon quils sont malades ou en sant.
H03 : la satisfaction de vie des cadres qui sont riches ou pauvres nest
pas diffrente selon quils sont malades ou en sant.
Le Tableau 12.3 prsente les rsultats obtenus pour les quarante cadres
participant cette tude hypothtique. Chaque groupe est compos de
10 cadres. Chaque ligne du Tableau 12.3 dfinit la situation financire de
chaque cadre (riche ou pauvre), son tat de sant (en sant ou malade)
ainsi que sa satisfaction de vie mesure sur une chelle allant de 0 45 : plus
la valeur est forte, plus la satisfaction de vie est forte. Ce tableau reprsente
la faon dont il faut organiser la banque de donnes afin de procder son
analyse avec un logiciel, tel que SPSS.
Tableau 12.3
Situation nancire, tat de sant et satisfaction de vie des cadres
Situation tat Satisfaction Situation tat Satisfaction
nancire de sant de vie nancire de sant de vie
1 = riche ; 1 = en sant ; 1 = riche ; 1 = en sant ;
2 = pauvre 2 = malade 2 = pauvre 2 = malade
1 1 25 2 1 10
1 1 30 2 1 15
1 1 35 2 1 20
1 1 40 2 1 25
1 1 45 2 1 30
1 1 25 2 1 10
1 1 30 2 1 15
1 1 35 2 1 20
1 1 40 2 1 25
1 1 45 2 1 30
1 1 10 2 2 10
1 2 15 2 2 15
1 2 20 2 2 20
1 2 25 2 2 25
1 2 30 2 2 30
1 2 10 2 2 10
1 2 15 2 2 15
1 2 20 2 2 20
1 2 25 2 2 25
1 2 30 2 2 30
380 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

LA DCOMPOSITION DE LA SOMME TOTALE DES CARRS

Dans le cas de lANOVA factorielle deux facteurs, la somme totale des dif-
frences inclut les lments suivants : linteraction, chacun des deux facteurs
et la variabilit intragroupe. La Formule 12.4 reprsente cette sommation :
SCtotal = SCinter facteur 1 + SCinter facteur 2 + SCinteraction + SCintra Formule 12.4
Chacune des quatre sources de variabilit est indpendante des autres.
Lindpendance veut dire que chaque lment est libre de varier sans tre
influenc par les autres. Ainsi, il est tout fait possible de conclure ou non
une diffrence statistiquement significative pour le facteur A et/ou le fac-
teur B et/ou pour linteraction A B. Ces quatre sources de variabilit se
retrouvent au tableau des sources de variance pour lANOVA factorielle.

Le tableau des sources de variance pour lANOVA factorielle

Le Tableau 12.4 montre le tableau de sources de variance pour cette


ANOVA factorielle hypothtique. Pour chaque effet principal et pour lin-
teraction, nous y retrouvons la somme des carts au carr (SC), les degrs
de libert (dl), les carrs moyens (CM), la statistique F et la probabilit
(p) quune telle diffrence puisse exister lorsque tous les chantillons sont
extraits de la mme population. Le nombre dobservations dans chaque
groupe est n = 10, pour un total de 40 personnes.

Tableau 12.4
Tableau des sources de variance pour les donnes du Tableau 12.3

Source SC dl CM F p

Finance 562,5 1 562,5 10,13 0,003

Sant 562,5 1 562,5 10,13 0,003

Finance Sant 562,5 1 562,5 10,13 0,003

Intragroupe 2 000,0 36 55,6

Le tableau des sources de variance indique dans le cas prsent que les effets
principaux plus linteraction sont statistiquement significatifs (p < 0,003).
LANALYSE DE VARIANCE FACTORIELLE 381

Linterprtation de ces diffrences significatives se fait plus facilement par


lentremise de graphiques. Un graphique est gnralement construit pour
visualiser chacune des diffrences significatives qui mergent du tableau
des sources de variance. Lorsquune diffrence nest pas statistiquement
significative, il nest pas utile de la dcrire graphiquement.

La signication statistique des statistiques F pour lANOVA factorielle

La signification statistique de chacun des effets, quantifie par les statisti-


ques F, est tablie en se rfrant au tableau des valeurs critiques de F. Il
sagit du mme tableau que celui utilis pour lANOVA simple et sa lecture
est identique. Aprs avoir calcul la statistique F pour chaque facteur et
pour linteraction et les degrs de libert associs chaque comparaison,
on cherche dans le tableau la valeur critique F(dlinter, dlintra) correspondant
au seuil dsir (0,05, 0,01, etc.). On compare le Fobserv au Fcritique. Lorsque
le Fobserv est gal ou suprieur la valeur critique, leffet est statistiquement
significatif, avec le risque dune erreur de type I qui correspond au seuil
choisi.

Les degrs de libert pour lANOVA factorielle

Les degrs de libert pour lANOVA factorielle suivent troitement la logi-


que dcrite pour lANOVA simple. Il faut calculer les degrs de libert pour
chaque comparaison, y compris celle se rapportant linteraction, et faire
le calcul des degrs de libert pour la diffrence intragroupe. Comme pour
lANOVA simple, nous perdons un degr de libert pour chaque moyenne
calcule.

Les degrs de libert intergroupes pour les effets principaux

Les degrs de libert pour les effets principaux (les diffrences intergrou-
pes) sont donns par K 1, o K est le nombre de niveaux pour le facteur
considr. Dans le cas de lANOVA, qui teste leffet de la richesse et de la
sant sur la satisfaction de vie, nous avons deux niveaux (groupes) pour
chacune des deux variables indpendantes (facteur A : riches vs pauvres ;
382 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

facteur B : malades vs en sant). Nous pouvons alors calculer le nombre de


degrs de libert pour le facteur A (KA 1 = 2 1 = 1) et pour le facteur B
(KB 1 = 2 1 = 1).

Les degrs de libert pour linteraction

Les degrs de libert pour linteraction sobtiennent par le produit du nom-


bre de groupes moins 1 pour chaque effet principal impliqu dans linter-
action. Pour lANOVA factorielle avec deux facteurs, les degrs de libert
pour linteraction deviennent : dlinteraction = (KA 1) (KB 1) = (2 1) (2 1)
= 1 1 = 1. Si nous avions six groupes pour le facteur A et trois groupes
pour le facteur B, les degrs de libert pour linteraction deviendraient
dlinteraction = (KA 1) (KB 1) = (6 1) (3 1) = 5 2 = 10.

Les graphiques dinterprtation pour les ANOVA factorielles

On construit gnralement des graphiques pour faire linterprtation


des rsultats obtenus la suite dune analyse de variance factorielle. Les
Graphiques 12.1 et 12.2 illustrent les moyennes marginales dcrites au
Tableau 12.2. Chacun des graphiques prsente un effet principal statis-
tiquement significatif du Tableau 12.4. En principe, en labsence dune
diffrence statistiquement significative, il ny a pas lieu de construire un
graphique dinterprtation.

gure 12.1 Graphiques dcrivant les deux effets principaux


statistiquement signicatifs dtects au Tableau 12.4

Effet principal A Effet principal B

28 28
Satisfaction

Satisfaction

26 26
24 24
22 22
20 20
riches pauvres en sant malades
Finance Sant
LANALYSE DE VARIANCE FACTORIELLE 383

Pour les effets principaux, llaboration des graphiques est facile. Pour
chacun des facteurs, il faut faire un graphique avec les niveaux de ce fac-
teur en abscisse. Par exemple, pour la variable indpendante richesse ,
nous aurions deux catgories le long de labscisse : la premire reprsen-
tant les cadres riches ; la deuxime, les cadres qui sont pauvres. Lordon-
ne reprsente la variable dpendante. Il sagit ici de la satisfaction de vie.
Nous mettons un point reprsentant la moyenne de satisfaction de vie (sur
lordonne) pour les cadres riches et nous y plaons un deuxime point
dfinissant la satisfaction de vie moyenne pour les cadres pauvres. Nous
faisons la mme chose, sur un graphique spar, pour reprsenter les tats
de sant (satisfaction de vie pour les personnes malades ou en sant).
La Figure 12.1 reprend les moyennes marginales du Tableau 12.2.
gauche (effet principal des finances, A), on voit une nette chute entre la
satisfaction de vie des personnes riches et celle des personnes pauvres.
droite (effet principal de la sant, B), on voit une chute lorsque la compa-
raison est faite entre les cadres en sant et ceux qui sont malades.
La reprsentation visuelle dune interaction est un peu plus complexe
raliser. Comme pour les effets principaux, elle nest requise que lorsque
linteraction est statistiquement significative. Puisque linteraction repr-
sente leffet conjoint des deux variables indpendantes, les deux variables
doivent tre reprsentes sur le mme graphique. La Figure 12.2 montre le
graphique dcrivant linteraction. Les moyennes places sur le graphique
sont celles obtenues par chacun des groupes (voir Tableau 12.2). Dans ce
cas, nous avons un total de quatre groupes et il faut alors mettre quatre
points sur le graphique.
Labscisse reprsente lune des deux variables indpendantes (celle de
votre choix). Nous utilisons une ligne diffrente pour chaque niveau de
lautre variable indpendante. la Figure 12.2, labscisse reprsente la
variable indpendante Finance compose de deux niveaux : riche et pauvre.
La deuxime variable indpendante est ltat de sant, elle-mme compo-
se de deux niveaux (en sant et malades). Une ligne dcrivant les person-
nes en sant (mais qui sont soit riches soit pauvres) et une deuxime ligne
reprsentant les cadres qui sont malades (mais qui sont soit riches soit pau-
vres) sont places sur le graphique.
384 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Dans le cas de la Figure 12.2, nous notons que tous les groupes sauf un
obtiennent exactement la mme satisfaction de vie moyenne : cet unique
groupe est compos de personnes qui sont riches et en sant. En examinant
cette interaction, nous comprenons maintenant que seules les personnes
qui sont simultanment riches et en sant jouissent dun niveau de satisfac-
tion de vie plus lev.

gure 12.2 Graphique dcrivant linteraction statistiquement


signicative dtecte au Tableau 12.4

Effet dinteraction
39
36
Satisfaction

33
30
27 en sant
24 malades
21

riches pauvres
Finance

Linterprtation prliminaire des rsultats statistiquement signicatifs

En se rfrant aux hypothses, les conclusions prliminaires suivantes peuvent


tre faites.
H1 (effet principal A, ltat financier). La statistique Fobserv = 10,13,
p < 0,003 indique que la moyenne de satisfaction de vie des personnes
riches (27,5) est significativement diffrente que celle des personnes pau-
vres (20). La probabilit de trouver une telle diffrence de moyenne si les
riches et les pauvres provenaient de la mme population de satisfaction de
vie est p = 0,003. Cette probabilit tant infrieure au seuil alpha de 0,05, la
conclusion prliminaire, en se basant sur cette diffrence statistiquement
significative, est quil est prfrable dtre riche plutt que pauvre pour tre
satisfait de sa vie.
LANALYSE DE VARIANCE FACTORIELLE 385

H2 (effet principal B, ltat de sant). La satisfaction de vie moyenne pour


les cadres en sant est de 27,5 et celle des cadres malades est de 20. Cette
diffrence produit un Fobserv de 10,13, qui lui aussi est statistiquement signi-
ficatif (p < 0,003). Cette probabilit tant plus petite que le seuil de signifi-
cation habituel (p < 0,05), et en notant que la moyenne de satisfaction de
vie est plus leve pour les personnes en sant, nous concluons, de manire
prliminaire, quil est prfrable dtre en sant plutt que malade.
H3 (linteraction, finance sant). Linteraction est statistiquement
significative (p < 0,003) et indique que la diffrence de satisfaction de vie
entre les cadres riches et les cadres pauvres nest pas la mme pour ceux qui
sont en sant et ceux qui sont malades.
Ces interprtations sont prliminaires car les rsultats qui dcrivent les
effets principaux ne peuvent tre correctement compris que lorsquon a
pralablement considr et interprt linteraction statistiquement signifi-
cative. Lorsque linteraction nest pas significative, chaque effet principal
sinterprte de la mme manire quavec lANOVA un facteur.

Linterprtation dnitive des rsultats de lANOVA factorielle

Le Tableau 12.2 donne la moyenne obtenue par chacun des quatre groupes.
Les interprtations prliminaires indiquent que les personnes riches sont
plus satisfaites que les pauvres et que les personnes en sant le sont plus
que les personnes malades (les deux effets principaux sont statistiquement
significatifs). Mais en tudiant linteraction, en particulier le graphique de
linteraction (Figure 12.2), il est clair que seul un groupe diffre des autres :
les personnes riches et en sant. Les personnes qui sont malades sont
moins satisfaites, quelles soient riches ou pauvres. En ce qui concerne lin-
frence, si nous concluons quil existe quatre populations de satisfaction de
vie une pour les riches, une autre pour les pauvres, une troisime pour
les personnes en sant et une dernire pour les malades , nous faisons
une erreur. En ralit, il nexiste que deux populations : une pour les cadres
riches et en sant, et une deuxime pour les trois autres groupes.
Linterprtation des rsultats produits par lANOVA factorielle dbute
invariablement par linteraction. Lorsque linteraction est significative, il
nest pas toujours possible de tirer une interprtation valide des effets prin-
386 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

cipaux. En effet, linteraction significative indique que les effets dun facteur
dpendent du niveau de lautre facteur.
Il sagit dune situation o les effets principaux statistiquement significa-
tifs sont trompeurs. Autrement dit, une dclaration gnrale telle que La
richesse augmente la satisfaction de vie sera errone.

Quiz rapide 12.2


Pouvez-vous inventer des moyennes qui correspondraient la description
des quatre groupes de lencadr du dbut de ce chapitre ? Prenez pour point
de dpart que les deux groupes sans mdicament ont une moyenne de
100 comportements morbides. Calculez les moyennes marginales.
La compagnie pharmaceutique a-t-elle utilis dans son rapport les moyennes
marginales ou les moyennes de chaque groupe individuellement ?

gure 12.3 Trois formes possibles dinteraction la suite


dune ANOVA factorielle

I II III
Niveau 1 Facteur B Niveau 1 Facteur B Niveau 1 Facteur B

Niveau 2 Facteur B Niveau 2 Facteur B Niveau 2 Facteur B

1 2 1 2 1 2
Facteur A Facteur A Facteur A

La Figure 12.3 dcrit trois formes dinteraction, laquelle, par ailleurs,


peut en prendre dautres. Une interaction est dtecte lorsque les lignes
ne sont pas parallles. Dans tous les cas, linteraction nest interprter
que lorsque le tableau des sources de variance indique quelle est statisti-
quement significative. Lorsque les lignes sont parallles, il ny a pas din-
teraction.
En gnral, une interaction statistiquement significative empche
linterprtation des effets principaux (les panneaux I et III de la Figure 12.3
illustrent de telles situations). Par contre, le panneau II prsente une situa-
LANALYSE DE VARIANCE FACTORIELLE 387

tion o linteraction est dtecte (les lignes ne sont pas parallles), mais o
il existe nanmoins un effet principal. Dans ce cas, il existe une diffrence
entre les niveaux 1 et 2 du facteur B. Linteraction significative, pour le
panneau II, offre une interprtation supplmentaire : bien que le niveau 1
du facteur B produise une moyenne significativement plus leve que le
niveau 2 de ce mme facteur, leffet du niveau 1 est encore plus fort pour le
groupe 2 du facteur A. Une telle situation se produit lorsque les effets dun
traitement sont amplifis par lautre traitement. Par exemple, la thrapie
peut aider les patients dpressifs et les mdicaments le peuvent aussi. Mais
les patients qui prennent les mdicaments et qui suivent une thrapie pro-
gressent encore plus.

Les effets simples

Dans lventualit o linteraction est significative, il est recommand de


dcomposer les donnes en sous-groupes et de tester la diffrence entre
chacun des groupes en utilisant des procdures statistiques supplmentai-
res que lon appelle les effets simples. Par exemple, dans le cas des cadres, on
pourrait choisir de dcomposer suivant le niveau de richesse. On pourra
donc dire si la sant affecte la satisfaction quand le cadre est riche (effet
simple 1) et si la sant affecte la satisfaction quand le cadre est pauvre (effet
simple 2). Les hypothses sont donc :
H1 : sant malade chez les cadres riches
H01 : sant = malade chez les cadres riches
et
H2 : sant malade chez les cadres pauvres
H02 : sant = malade chez les cadres pauvres
Encore une fois, lANOVA retourne une statistique F pour chaque
hypothse (il y en a autant que le facteur richesse a de niveaux). Un logiciel
va obtenir les F pour chacun des effets simples en dcomposant la somme
des carrs totaux dune faon diffrente :
SCtotal = SCinter facteur 1 quand facteur 2 vaut riches
+ SCinter facteur 1 quand facteur 2 vaut pauvres
+ SCinteraction + SCintra Formule 12.5
388 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Dans cette nouvelle analyse, seules la SC de linteraction et la SC intra


restent inchanges.
Avec les donnes du Tableau 12.3, on obtient le tableau dANOVA qui
suit :

Tableau 12.5
Tableau des sources de variance pour les effets simples bases sur les donnes
du Tableau 12.3

Source SC dl CM F p

Finances quand les cadres


1 125,0 1 1 125,0 20,25 0,001
sont en sant

Finances quand les cadres


0,0 1 0,0 0,00 1,00
sont malades

Finances Sant 562,5 1 562,5 10,13 0,003

Intragroupe 2 000,0 36 55,6

Le F observ lorsque les cadres sont en sant est de 20,25. Si on vrifie


dans une table de valeurs critiques, on trouve que la valeur critique pour
1 degr de libert au numrateur et 36 degrs de libert au dnominateur
est 4,11. Comme le F observ dpasse le F critique, on rejette lhypothse H01 au
profit de H1. Concernant les cadres malades, on ne peut pas rejeter lhy-
pothse nulle H02. Il ny a pas de diffrence observable due au niveau de
richesse sur la satisfaction au travail quand les cadres sont malades.

SOMMAIRE DU CHAPITRE

LANOVA factorielle est la gnralisation de lANOVA un facteur. Elle


permet danalyser leffet de plusieurs variables indpendantes et leurs effets
conjoints sur une seule variable dpendante. LANOVA factorielle se sert
des mmes statistiques et des mmes formules que lANOVA un fac-
teur, et la signification statistique est prouve en se servant des mmes
tableaux des valeurs critiques de la statistique F. La grande diffrence entre
lANOVA factorielle et lANOVA un facteur repose sur linteraction.
Linterprtation de linteraction est facilite par la construction de graphi-
LANALYSE DE VARIANCE FACTORIELLE 389

ques qui prsentent simultanment les moyennes obtenues par tous les
groupes. Linterprtation des effets principaux se fait exactement comme
pour lANOVA un facteur, sauf dans le cas o linteraction est statistique-
ment significative. Dans ce cas, il faudra dabord interprter linteraction
pour ensuite, si ncessaire, passer linterprtation des effets principaux.

EXERCICES DE COMPRHENSION

1. LANOVA factorielle se distingue de lANOVA un facteur


principalement, car LANOVA factorielle ____________.
a) ne peut tre applique quavec des chantillons contenant de
grands effectifs
b) ne compare pas la variabilit inter lintra
c) analyse plusieurs variables dpendantes simultanment
d) analyse leffet conjoint de plusieurs variables indpendantes
2. Nous avons deux facteurs, A et B, chacun compos de trois niveaux,
et nous avons 20 observations par groupe indpendant. Au total,
nous avons donc _______ observations, les degrs de libert inter-
groupes pour les facteurs A et B sont respectivement de ______ et
de ________, et le nombre de degrs de libert pour linteraction est
de _____________.
a) 180 ; 2 ; 2 ; 4
b) 60 ; 3 ; 3 ; 6
c) 180 ; 3 ; 2 ; 4
d) 60 ; 20 ; 20 ; 20
3. Nous trouvons, la suite dune ANOVA deux facteurs, un
effet statistiquement significatif pour linteraction. Cela veut dire
__________________________.
4. Nous trouvons une interaction statistiquement significative, ainsi
que des diffrences statistiquement significatives pour chacun des
deux facteurs de cette ANOVA factorielle deux facteurs. Pour
interprter ces rsultats, il faut _________________________.
a) commencer par linteraction puis passer aux effets principaux ou
aux effets simples
390 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

b) commencer par les effets principaux, puis passer leffet


dinteraction
c) interprter linteraction et les effets principaux simultanment
d) Toutes ces stratgies sont quivalentes.
5. Lanalyse des effets simples consiste dterminer
__________________________.
a) les groupes qui diffrent des autres, la suite dune interaction
significative
b) la diffrence simple entre les moyennes
c) la taille de linteraction relative la taille des effets principaux
d) la taille de la statistique F
6. La taille de leffet la suite de lanalyse de variance factorielle
__________________.
a) se calcule et se dfinit de la mme faon que pour lANOVA un
facteur
b) nest interprtable que si la diffrence est statistiquement
significative
c) devient un indice de limportance de la diffrence
d) Toutes ces rponses sont justes.
7. Nous construisons un graphique des rsultats la suite dune
ANOVA factorielle deux niveaux. Nous observons que les lignes
du graphique sont parallles. Alors, ____________________.
a) aucun des effets principaux nest statistiquement significatif
b) linteraction est statistiquement significative
c) linteraction nest pas statistiquement significative
d) Tous ces rsultats sont possibles.
8. Il y a 100 degrs de libert intra dans cette ANOVA factorielle
deux facteurs. Pour le facteur A, nous avons trois groupes, et quatre
groupes pour le facteur B. Nous trouvons les F suivants : interaction
F = 4,0 ; facteur A, F = 4,0 ; facteur B, F = 4. Indiquez pour chaque
effet sil est statistiquement significatif ou non, au niveau = 0,01.
LANALYSE DE VARIANCE FACTORIELLE 391

9. Nous faisons une ANOVA factorielle comparant deux variables


indpendantes, chacune compose de cinq niveaux. Combien de
tests F le tableau des sources de variance contiendra-t-il ?
a) 10
b) 5
c) 3
d) Cela dpend du nombre dobservations.
392 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Rponses

1. d
2. a
3. La diffrence observe sur un facteur dpend de la diffrence
observe sur lautre facteur.
4. a
5. a
6. d
7. c
8. Interaction : oui ; facteur A : non ; facteur B : oui.
9. c
CHAPITRE 13
LES STATISTIQUES NON PARAMTRIQUES

Lanalyse des variables nominales : le test chi deux ......................... 397


Linterprtation de la statistique chi deux ................................... 399
Lanalyse des variables nominales pour deux variables
indpendantes................................................................................... 401
La corrlation entre les variables ordinales : le coefficient
de corrlation de Spearman............................................................ 404
Un exemple de la corrlation par rang de Spearman................. 406
Un test sur deux chantillons indpendants : le Wilcoxon-
Mann-Whitney ................................................................................. 408
Un exemple du Wilcoxon-Mann-Whitney ................................. 413
Un exemple plus complexe du Wilcoxon-Mann-Whitney ...... 415
Un test sur k chantillons indpendants ........................................... 416
Un exemple du test non paramtrique Kruskal-Wallis............. 418
Le test de Wilcoxon sur donnes appareilles .................................. 420
Un exemple du test Wilcoxon pour des donnes appareilles . 421
Sommaire du chapitre .......................................................................... 424
Exercices de comprhension ............................................................... 425
Page laisse blanche
CHAPITRE 13

STATISTIQUES NON PARAMTRIQUES

La plupart des statistiques vues dans les chapitres prcdents ne sont utili-
sables que lorsque nous sommes en mesure de prsumer que le phnomne
ou la variable ltude se distribue normalement dans la population (voir
le chapitre 9). De plus, la distribution normale prsume que la variable
ltude est continue, ce qui revient dire quelle est de type II cest--dire
construite partir des chelles intervalles ou de rapport (voir le chapi-
tre 1). Or, ce nest pas toujours le cas. Prenez lexemple dune compagnie
qui dcide de se doter dun nouveau logo corporatif. Une firme de publi-
cit lui propose trois logos potentiels. Narrivant pas faire un choix final,
le Conseil de direction demande une firme de recherche de trancher en
sondant la prfrence des clients, ce quelle fait en demandant un chan-
tillon appropri de choisir parmi les trois logos celui quil prfre.
La variable indpendante est les logos et la variable dpendante est la
prfrence qui, elle, est mesure sur une chelle nominale : la taille des
effectifs pour chacune des trois catgories de la variable indpendante. La
question statistique laquelle il faut rpondre devient : La taille des effec-
tifs est-elle la mme ou diffrente pour les trois catgories ?
Nous ne pouvons pas, dans ce cas, comparer la prfrence accorde
chacun des trois logos par lentremise de lANOVA car cette dernire sta-
tistique prsume que la variable dpendante est continue, ce qui nest pas le
cas pour une variable nominale. Alors comment dterminer la prfrence ?
En faisant appel des procdures non paramtriques qui, elles, nexigent
pas le respect de la prsomption de continuit.
396 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

De manire similaire, certaines variables mme si elles sont continues


ne sont pas distribues normalement dans la population. La distribution
des revenus est typiquement trs asymtrique. Au Qubec, par exemple,
le revenu modal se situe prs de 30 000 $ par anne alors que le revenu
moyen est plutt de 60 000 $ par anne. La moyenne et le mode ntant
pas identiques, la distribution ne peut pas tre normale (voir le chapitre 5).
Nous pouvons faire un constat similaire pour le salaire des joueurs de hoc-
key (voir le chapitre 2). Clairement, cette distribution nest pas normale.
Encore une fois, une analyse statistique valide peut tre faite, mais seule-
ment en faisant appel des procdures non paramtriques.
Enfin, dans certaines coles, les lves ne reoivent pas de notes, lcole
indiquant uniquement leur classement : la position de chaque lve par
rapport aux autres lves (1er, 2e, etc.). Il sagit alors dune chelle ordinale.
Nous aimerions savoir si les lves qui sont forts dans une matire
cest--dire qui se situent vers la partie suprieure du classement dans un
cours se classent de manire similaire dans dautres matires. En prin-
cipe, il sagit de calculer la corrlation entre le classement obtenu dans les
diverses matires. Mais, comme nous le verrons, la corrlation de Pearson
(voir le chapitre 6) nest pas une statistique approprie dans ce cas car elle
exige, entre autres, que les variables soient de type II. Or, le classement est
une variable ordinale, de type I. Encore une fois, une approche non para-
mtrique est celle quil faudra mettre en marche pour analyser ces don-
nes.
Dans ce chapitre, nous allons voir les procdures statistiques permettant
lanalyse des variables nominales, aussi bien quune alternative au coefficient
de corrlation de Pearson le coefficient de corrlation de Spearman ,
au test t sur deux groupes indpendants, au test t sur des donnes appa-
reilles et lanalyse de la variance un facteur. Ces analyses statistiques
sont le pendant des procdures paramtriques dcrites dans les chapitres
antrieurs. Plusieurs de ces mthodes non paramtriques ncessitant de
calculer des rangs (avec ou sans ex quo) ; il est important davoir assimil
la section 1 du chapitre 4.
STATISTIQUES NON PARAMTRIQUES 397

LANALYSE DES VARIABLES NOMINALES : LE TEST CHI DEUX

Reprenons lexemple hypothtique des logos : il y en a trois et nous voulons


dterminer sil existe une prfrence pour lun deux. Nous prsentons les
trois logos 90 personnes et nous demandons chacune de choisir celui
quelle prfre. Le Tableau 13.1 prsente les donnes recueillies : 50 person-
nes ont prfr le logo 2, alors que les 40 autres personnes ont prfr les
logos 1 ou 3. Lanalyse requise devra rpondre la question suivante : les
trois logos sont-ils galement prfrs ou pas ?

Tableau 13.1
La prfrence relative pour les trois logos

Logo 1 Logo 2 Logo 3 Total

Prfrence (la frquence observe) 24 50 16 90

La frquence attendue si la prfrence


30 30 30 90
pour chacun des logos est gale (H0)

Comme pour nimporte quelle infrence statistique, il faut tablir une


hypothse (H) et une hypothse nulle (H0). Dans ce cas, lhypothse serait
quil existe effectivement une diffrence entre les effectifs alors que lhy-
pothse nulle devrait tre quil ny a pas de diffrence en ce qui concerne
la prfrence pour les logos. Si lhypothse nulle nest pas fausse, nous
devrions observer une prfrence gale pour les trois choix : chaque logo
serait choisi par 30 personnes. La deuxime ligne du Tableau 13.1 montre
les rsultats attendus si lhypothse nulle est vraie.
La premire ligne du Tableau 13.1 indique la frquence avec laquelle
chaque logo est effectivement choisi. Nous lui donnons le nom de fr-
quence observe (fo ). premire vue, la prfrence pour les logos ne semble
pas gale, ce qui nous encourage rejeter lhypothse nulle. Mais, comme
pour tous les tests statistiques, la diffrence concernant la prfrence pour
les logos (fo) pourrait tre le fruit du hasard. Il faut donc dterminer la
probabilit dobtenir la diffrence observe si, en ralit, il ny avait pas de
diffrence concernant la prfrence pour les logos (cest--dire lhypothse
nulle). Cette deuxime frquence prend le nom de frquence attendue (fa ).
398 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

En principe la comparaison entre ces deux frquences sera la base de lana-


lyse statistique requise.
Pour raliser cette analyse, il faut faire appel une nouvelle statistique,
la statistique chi deux, que lon nomme parfois le chi carr et qui est sym-
bolise par la lettre grecque 2. La statistique 2 produit un indice math-
matique qui compare la taille de la diffrence entre la frquence observe et
celle prdite par lhypothse nulle. Si la diffrence est grande, la conclusion
sera le rejet de lhypothse nulle. Sinon, il faudra conclure que la diffrence
observe est attribuable lala et, par consquent, il ne sera pas possible
de rejeter H0. Nous verrons plus loin ce que lon veut dire par une grande
diffrence , mais dabord, examinons la Formule 13.1 qui calcule le 2.

C 
2

f o f a 2
Formule 13.1
fa

o fo est la frquence observe et fa est la frquence attendue (sous H0).
Le numrateur calcule la diffrence (au carr) qui existe entre les valeurs
observes (fo) et attendues (fa) pour chaque catgorie de la variable nomi-
nale et nous tablissons le rapport de cette diffrence avec la frquence
attendue. Lorsque les frquences observes et attendues sont les mmes
pour une ou plusieurs catgories, le rapport tabli entre ces frquences sera
de zro. Mais, au fur et mesure que la diffrence augmente, le rapport
prend des valeurs positives de plus en plus importantes, et ce faisant, la
sommation finale produira un 2 de plus en plus grand.
La mise au carr limine le signe de la soustraction. En labsence de
cette prcaution, les diffrences ngatives et positives pourraient sliminer,
crant la conclusion errone quil y a peu de diffrences entre les frquen-
ces observes et attendues.
Calculons la statistique 2 pour le problme des logos. Chaque cellule
du Tableau 13.1 doit tre prise en considration. Nous calculons la diff-
rence entre la frquence observe fo et la frquence attendue fa (si H0 est
vrai) que nous mettons au carr et nous divisons cette diffrence au carr
par la frquence attendue. Nous faisons cela pour chaque cellule, puis nous
additionnons tous ces rsultats pour obtenir la statistique 2. Pour les don-
nes du Tableau 13.1, 2 = 21,03.
STATISTIQUES NON PARAMTRIQUES 399

C 
2

fo fa 2  24 - 30 2 50 - 30 2 16 - 30 2
= + +
fa 30 30 30

2 2 2

=
6  20 14 = 36  400 196 = 1,2 + 13,33 + 6,53 = 21,03
30 30 30 30 30 30
2 = 21,03
La statistique chi deux est un indice de la taille de la diffrence entre les
frquences observes et celles rellement obtenues dans notre exprience.
Remarquons que la valeur du chi deux ne peut jamais tre ngative puis-
que la diffrence entre les valeurs obtenues (fo) et attendues (fa) est mise au
carr, ce qui a comme effet dliminer les signes ngatifs. La valeur mini-
male de 2 est donc 0,0 (lorsque les valeurs observes et attendues sont
toutes identiques) et sa valeur maximale est indtermine. Plus grande est
la valeur de 2, plus il est probable que les frquences obtenues diffrent de
celles que nous aurions d obtenir si lhypothse nulle tait celle retenir.
Vous remarquerez aussi que plus nous avons de catgories analyser, plus
grande est la somme des diffrences entre les valeurs obtenues et attendues
et plus grande est la quantit chi deux. Si nous avions compar cinq logos
au lieu de trois, la valeur numrique de 2 aurait eu de bonnes chances
dtre plus grande. Par consquent, pour faire linterprtation du chi deux,
il faut prendre en considration non seulement sa taille mais aussi le nom-
bre de catgories sur lequel il a t calcul.

Linterprtation de la statistique chi deux

Pour faire une interprtation valide de la statistique chi deux, il faut com-
parer le rsultat obtenu (par exemple 2 = 21,03) un tableau des valeurs
critiques de la distribution de la statistique 2. Le tableau des valeurs criti-
ques de 2 se trouve dans lAnnexe A4.
Comme pour toutes les statistiques, il faut prendre en considration les
degrs de libert qui, dans ce cas, seront dtermins partir du nombre de
catgories dans ltude. La logique du degr de libert qui sapplique dans ce
cas est identique celle que nous connaissons dj (chapitre 10). Revenons
au Tableau 13.1. Nous savons que nous avons un total de 90 personnes
400 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

dans notre tude. Nous savons aussi que 24 personnes ont choisi le logo 1
et que 50 ont choisi le logo 2. Il y a donc 16 personnes qui ont choisi le logo
3 [90 (24 + 50) = 16]. La taille de leffectif pour cette dernire catgorie est
parfaitement dtermine par la taille des effectifs obtenue pour les autres.
Elle ne peut varier librement, et cela implique la perte dun degr de libert.
De la mme faon, en connaissant le nombre total de personnes et le nom-
bre de celles qui prfrent la catgorie logo 1 et la catgorie logo 3 ,
nous pouvons dduire exactement le nombre de personnes qui ont choisi
la catgorie logo 2 [90 (24 + 16) = 50]. Ainsi le nombre de personnes
qui prfrent une des catgories est parfaitement dtermin par la somme
des frquences observes pour les autres catgories. Une des catgories ne
pouvant pas varier librement, le nombre de degrs de libert devient donc
K-1, o K reprsente le nombre de catgories qui sont compares. Ainsi, au
Tableau 13.1, parce que nous avons trois catgories, le nombre de degrs
de libert est K 1= 3 1= 2.

Quiz rapide 13.1


Ce restaurant offre 10 choix au menu du jour et 99 clients mangent dans ce
restaurant aujourdhui. la n de la journe, nous comptons le nombre
de personnes qui ont choisi chaque plat. Si nous calculons un 2 sur ces donnes,
combien de degrs de libert avons-nous ?

Le Tableau 13.2 est un extrait du tableau de la distribution des valeurs


critiques du chi deux qui se trouvent dans lAnnexe A4. Dabord, nous choi-
sissons la range qui correspond au nombre de degrs de libert dans notre
tude. Il sagit de la quantit ( nu ). Puisque nous avons K = 3 catgo-
ries au Tableau 13.1, nous obtenons deux degrs de libert (dl = K 1 = 3
1 = 2) pour ces donnes. Ensuite, nous choisissons, dans les colonnes du
tableau, le seuil alpha. Au Tableau 13.2 (tout comme lAnnexe A4), nous
pouvons tablir notre risque derreur de type I moins de 10 %, 5 % ou 1 %.
Choisissons alpha < 0,05. La valeur critique note lintersection de la ran-
ge = 2 et = < 5 % est 9,488. Le chi deux obtenu est 21,03. Cette valeur
tant plus grande que la valeur critique (9,488), nous concluons au rejet de
lhypothse nulle voulant quil nexiste pas de diffrence de prfrence pour
les logos : les clients prfrent le logo 2 et cette conclusion est valide compte
tenu que nous avons accept un risque derreur infrieur 5 %. Mais sup-
STATISTIQUES NON PARAMTRIQUES 401

posons que lon dsire rduire notre risque derreur en choisissant un seuil
alpha de < 1 %. La valeur critique pour alpha < 1 % est 21,666. La valeur
du chi deux que nous avons obtenue (21,03) tant infrieure celle de la
valeur critique (21,666), nous ne pouvons pas conclure que la prfrence
diffre statistiquement. Dans ce cas, il serait erron de rejeter lhypothse
nulle, et nous serions contraints de conclure que les trois logos jouissent
dune prfrence gale.

Tableau 13.2
Extrait du tableau de la distribution des valeurs critiques du 2 (Annexe A4)

Degrs de libert Seuil alpha

< 10 % < 5% < 1%

1 2,706 5,991 15,086

2 4,605 9,488 21,666

3 6,251 12,592 26,217

LANALYSE DES VARIABLES NOMINALES POUR DEUX VARIABLES


INDPENDANTES

Maintenant que nous avons en main les lments requis pour la compr-
hension et linterprtation du test chi deux, tendons cette logique un
problme un peu plus complexe. Le Tableau 13.3 revient au problme de la
prfrence pour les logos sauf que maintenant nous voulons aussi examiner
si la prfrence est la mme pour les hommes et les femmes. Nous refaisons
lanalyse mais, cette fois, nous sparons lchantillon en fonction du genre.
Des 90 personnes dans notre tude, 50 sont des hommes et 40 sont des
femmes. Le Tableau 13.3 prsente la prfrence des hommes et celle des
femmes pour les logos.
402 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Tableau 13.3
La prfrence relative des hommes et des femmes pour les trois logos

Logo 1 Logo 2 Logo 3 Total

Hommes 12 28 10 50

Femmes 12 22 6 40

Total 24 50 16 90

Le calcul du chi deux exige le calcul des frquences attendues (fa). Pour
ce faire, il sagit de calculer, pour chaque cellule du Tableau 13.3, les fr-
quences marginales qui lui sont associes, que nous divisons par la fr-
quence totale (toutes les observations). Ici, le total gnral est 90 et indique
le nombre total de personnes dans notre tude. Le Tableau 13.4 prsente
les calculs.

Tableau 13.4
Le calcul des frquences attendues pour le Tableau 13.3

Logo 1 Logo 2 Logo 3 Total

Hommes (50 24)/90 (50 50)/90 (50 16)/90 50


= 13,33 = 27,78 = 8,89

Femmes (40 24) / 90 (40 50)/90 (40 16)/90 40


= 10,67 = 22,22 = 7,11

Total 24 50 16 90

Prenons la cellule reprsentant les hommes qui prfrent le logo 1. Au


total, nous avons 50 hommes dans notre chantillon dhommes et, au total,
24 personnes (hommes et femmes confondus) prfrent le logo 1. Pour
calculer la frquence attendue, nous multiplions ces deux frquences mar-
ginales (50 24) que nous divisons par 90, le nombre total de personnes
dans ltude. Pour cette cellule, la frquence attendue est (50 24) / 90 =
13,33. Ainsi, 12 personnes ont rellement choisi le logo 1 (Tableau 13.3)
mais, par pur hasard, nous nous serions attendus ce que (exactement)
13,33 personnes le choisissent. Pour la cellule dcrivant les femmes qui pr-
frent le logo 3, nous obtenons une frquence attendue (40 16) / 90 = 7,11,
STATISTIQUES NON PARAMTRIQUES 403

alors quen ralit 6 femmes lont prfr. Nous faisons cela pour chaque
cellule du tableau. Nous avons maintenant tous les lments pour appli-
quer la formule pour la computation du chi carr avec la Formule 13.1 2 =
[(12 13,33)2/13,33] + [(28 27,78)2/27,78] ++ [(6 7,11)2/7,11] = 0,614.
Pour tre interprte, cette valeur du chi deux (2 = 0,614) doit tre
confronte une valeur critique de la statistique 2. Pour choisir les degrs
de libert, nous devons prendre en considration le nombre de catgories
de logo (C = 3) ainsi que le nombre de genres dans notre tude (R = 2).
titre mnmonique, nous utilisons la lettre C pour indiquer le nombre
de colonnes (qui, dans ce cas, reflte les logos) et la lettre R pour indiquer
le nombre de ranges (reprsentant les deux genres, hommes et femmes).
Nous perdons un degr de libert pour les colonnes et un degr pour les
ranges. Le calcul final devient le produit des deux degrs de libert. For-
mellement, les degrs de libert pour le chi deux ayant deux variables sob-
tiennent par la Formule 13.2.
dl = (R 1) (C 1). Formule 13.2
o R est le nombre de ranges et C est le nombre de colonnes.
Puisque nous avons trois logos (C = 3) et deux genres (R = 2), les degrs
de libert sont (3 1) (2 1) = 2 1 = 2.
Au seuil < 0,05, et pour 2 degrs de libert (Tableau A4 dans lAnnexe
ou Tableau 13.2 dans le texte), nous trouvons la valeur critique de 9,488. Le
chi deux observ nest que de 0,614, une valeur moindre que la valeur cri-
tique impliquant quil nest pas statistiquement significatif. Ne pouvant pas
rejeter lhypothse nulle, nous concluons que les hommes et les femmes
ne diffrent pas entre eux quant leurs prfrences pour les logos. Nous
savons dj que gnralement les gens prfrent le logo 2 et, grce cette
dernire analyse, il est maintenant tabli quil ny a pas de diffrence de
prfrence entre les hommes et les femmes. Nous pouvons ds lors recom-
mander au Conseil de direction ladoption du logo 2.
404 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Quiz rapide 13.2


Pour le lunch, les tudiants de 1re, 2e et 3e anne peuvent apporter leur repas de
la maison, manger la caftria de luniversit ou se rendre au restaurant. Nous
demandons une centaine dtudiants choisis au hasard ce quils feront pour
le lunch aujourdhui. Vous dsirez tester lhypothse selon laquelle leurs choix
pour le lunch seront diffrents. Combien de degrs de libert avons-nous dans
cette tude ? Nous avons trouv 2 = 13. La diffrence est-elle statistiquement
signicative ?

LA CORRLATION ENTRE LES VARIABLES ORDINALES :


LE COEFFICIENT DE CORRLATION DE SPEARMAN

Pour quil soit valable de calculer un rxy de Pearson, il y a deux prrequis :


a) les donnes doivent tre mesures avec une chelle de type II ;
b) les donnes doivent tre homoscdastiques (voir lencadr).
Lorsque les variables mettre en corrlation ne sont pas homoscdasti-
ques ou quelles ne sont pas de type II, le coefficient de corrlation appro-
pri pour lanalyse est le coefficient de corrlation par rang, gnralement
appel le coefficient de corrlation de Spearman en lhonneur de son inven-
teur. La corrlation de Spearman est gnralement identifie par la lettre
grecque xy (rho) pour la distinguer du rxy de Pearson (voir le chapitre 6). Le
coefficient de corrlation par rang ressemble beaucoup au rxy de Pearson. La
valeur numrique de ces deux coefficients (rxy et xy) varie entre 1 et +1.
Une valeur de +1 (1) indiquant une corrlation positive (ngative)
parfaite.
Une valeur de 0 indiquant une absence de corrlation.
Mis part la nature exacte des calculs requis, la grande diffrence entre le
coefficient de Pearson et le coefficient de Spearman est que ce dernier exige
que les donnes mises en corrlation soient des rangs. Sil y a N donnes, la
plus petite reoit le rang 1 et la plus grande, le rang N (sil ny a pas dex aequo
bien entendu). Lorsque les personnes qui obtiennent un rang lev (ou fai-
ble) sur une variable obtiennent aussi un rang lev (ou faible) sur lautre
variable, la corrlation de Spearman est leve. La corrlation de Spearman
est ngative lorsque ceux qui obtiennent de forts rangs sur une variable ten-
dent obtenir des rangs faibles sur lautre (et vice versa). Enfin, sil ny a ni
tendance positive ni tendance ngative, la corrlation de Spearman sera pro-
STATISTIQUES NON PARAMTRIQUES 405

che de zro. Ainsi, la corrlation de Spearman indique le degr avec lequel les
personnes de lchantillon occupent le mme rang sur les deux variables.
Le calcul du de Spearman est trs simple, seffectuant en quatre tapes.
1) Nous mettons en rang croissant chacune des valeurs de la variable
X et, sparment, chacune des valeurs de la variable Y. Par exemple
ltudiante qui est premire de classe en mathmatique mais 15e en
franais, serait attribue le rang 1 la variable X (mathmatique) et
le rang 15 la variable Y (Franais).
2) Nous calculons pour chaque observation la diffrence (di) entre les
rangs obtenus aux deux variables (di = rangX rangY).
3) Nous levons cette diffrence au carr pour chaque observation (di2).
4) Enfin, nous appliquons la Formule 13.3 pour calculer la corrlation
par rang. N
6 d i2
= 1 i31 Formule 13.3
N N
o N est le nombre dobservations et est la somme des diffrences au carr.

Les donnes homoscdastiques versus htroscdastiques


Le coefcient de corrlation de Pearson produit un rsultat valide condition que les
variables sur lesquelles il est calcul soient continues et que leurs relations soient homo-
scdastiques. Lhomoscedasticit des donnes rfre la forme du nuage de points dans
un graphique de dispersion. Si lpaisseur du nuage de point est constante pour toutes
les valeurs, nous disons que les donnes sont homoscdastiques et calculer un rxy de
Pearson est tout fait lgitime. Mais cela nest pas toujours le cas. Pensez au nuage de
points indexant la relation entre le nombre de mois de chmage au cours des cinq der-
nires annes et le nombre dannes de scolarit. On peut prsumer que les personnes
peu scolarises varieront beaucoup quant au nombre de mois de chmage alors que
celles trs scolarises varieront peu. Si on fait un graphique de dispersion, le nuage de
points aura la forme dun triangle plutt que dun ovale (ici, avec une pointe du ct de
la scolarit leve tel quidenti par le pointill de la Figure 13.1). Ici, nous aurons un cas
dhtroscdasticit et le coefcient de corrlation de Pearson ne sera pas la technique
pertinente pour tablir la corrlation entre les mois de chmage et le niveau de scolarit.
Les trois nuages de points ci-dessous reprsentent trois cas dhtroscdasticit. Dans
ces cas, la corrlation de Pearson nest pas la forme de la corrlation qui est approprie.
406 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Un exemple de la corrlation par rang de Spearman

On souhaite savoir si le revenu dun joueur de hockey au sommet de sa carrire


prdit bien son revenu aprs son retrait en fin de carrire. On consulte donc
un chantillon de 10 joueurs la retraite et on obtient pour chacun son revenu
maximal en carrire puis son revenu 10 ans plus tard. Les donnes (fictives)
pour ces 10 personnes (en milliers de $) sont inscrites au Tableau 13.5.

Tableau 13.5
La relation entre le revenu avant et aprs la retraite

Col 1 Col 2 Col 3 Col 4 Col 5 Col 6 Col 7

d =
Revenu Revenu Rang Rang d=
diffrence
Joueurs pr- post- du revenu du revenu diffrence
au carr
de hockey retraite retraite pr- post- entre les
entre les
(K$) (K$) retraite retraite rangs
rangs

A 43 61 1 2 1 1 = 1
B 52 71 2 3 1 1 = 1

C 61 59 3 1 2 2 = 4
D 62 100 4 5 1 1 = 1
E 72 123 5 7 2 2 = 4

F 88 99 6 4 2 2 = 4

G 102 120 7 6 1 1 = 1
H 133 160 8 8 0 0 = 0
I 400 255 9 10 1 1 = 1

J 3500 4200 10 9 1 1 = 1

Comme on peut le voir en consultant les colonnes 2 et 3 du Tableau 13.5,


les revenus les plus levs sont radicalement diffrents des revenus plus
faibles. Le nuage de point est donn la Figure 13.1. Techniquement, cette
distribution nest pas homoscdastique (voir lencadr).
On voit une certaine tendance positive, mais le fait que le nuage de
points ne soit pas rond (loin de l) mais plutt triangulaire (comme lindi-
quent les pointills la Figure 13.1) nous empche de calculer le coefficient
STATISTIQUES NON PARAMTRIQUES 407

de corrlation de Pearson. On recode donc les donnes pour ne conserver


que leurs rangs absolus tel quindiqu au Tableau 13.5 dans les colonnes
4 et 5. la colonne 6, nous trouvons la diffrence entre le rang pr et le
rang post-retraite obtenus pour chaque joueur et cette diffrence est mise
au carr la colonne 7.

gure 13.1 Revenu de 10 joueurs de hockey maximal en cours de carrire,


puis 10 ans plus tard

250

200
Revenu 10 ans aprs en K$

150

100

0 500 1 000 1 500 2 000 2 500 3 000 3 500

Revenu maximal en K$

Nous avons maintenant en main toutes les informations requises pour


calculer la corrlation de Spearman en nous servant de la Formule 13.3.
N
6 d i2
= 1 i 1

N3 N
408 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

Nous calculons dabord la somme des diffrences au carr entre les


rangs : di2=1+ 1+ 4+ 1+ 4+ 4+ 1+ 0+ 1+ 1 = 18, puis nous entrons ce
rsultat dans le reste de la Formule 13.3.
6 r 18 108
1 3 1
10 10 1000 10
108
1
990
 1 0 ,109
 0, 890
La corrlation de Spearman entre les revenus pr et post-retraite est
de 0,89, une corrlation substantielle et positive. De toute vidence, les
joueurs qui ont eu un meilleur revenu pendant leur vie active finissent
10 ans plus tard avec un revenu plus important que ceux qui ont bnfi-
ci dun revenu moindre en carrire. Notons que la corrlation obtenue
dans ce cas est positive. Linterprtation que lon fait dune corrlation de
Spearman est identique celle que lon fait de la corrlation de Pearson
(rduction de lincertitude, pas de dmonstration de causalit, etc.), telle
que dcrite au chapitre 61.

Quiz rapide 13.3


Revenez au Tableau 13.5. Inversez le revenu post-retraite (Col 3) de manire ce
que ce revenu de la personne J soit attribu la personne A, celui de la personne
I la personne B, etc. Recalculez le rang attribu chaque revenu post-retraite et
calculez la corrlation de Spearman. Quelle est la corrlation que vous obtenez ?
Quelle est la conclusion qui simpose maintenant ?

UN TEST SUR DEUX CHANTILLONS INDPENDANTS :


LE WILCOXON-MANN-WHITNEY

Le test t sur deux chantillons indpendants sert dterminer si les chan-


tillons proviennent de la mme population ou de deux populations diff-
rentes (voir le chapitre 10). Ce test prsume que les donnes dans chaque

1. Cette formulation du coefficient de corrlation par rang de Spearman prsume quil


ny a pas (ou trs peu) de rangs qui soient ex quo. Sinon, la formule traditionnelle
pour le calcul du r de Pearson fournira une rponse plus juste.
STATISTIQUES NON PARAMTRIQUES 409

Quiz rapide 13.4


Le problme suivant nous vient de la NASA. Vous faites partie dune mission
dexploration voyageant dune station spatiale qui est en orbite autour de la
Lune vers la base qui se trouve sur la Lune. Une panne technique vous oblige
faire un atterrissage forc, sur la face ensoleille de la Lune, 120 km de la base
lunaire. Votre vaisseau tant trs endommag, vous devez vous rendre pied
la base lunaire aussi vite que possible car votre survie en dpend. Quinze objets
non endommags latterrissage durgence sont rcuprables de votre vaisseau
spatial. Ce sont : une bote dallumettes ; de la nourriture sche ;18 m de corde de
nylon ; une toile de parachute ; une chaufferette solaire ; deux revolvers ; une bote de
lait en poudre ; deux rservoirs doxygne ; une carte lunaire ; un radeau autogonable
par sa cartouche de CO2 ; un compas magntique ; 15 litres deau ; des fuses de
signalement ; une trousse de premiers soins ; un walkie-talkie pile solaire.
a) Classez ces 15 objets par ordre dimportance pour assurer votre survie (1 = le plus
important et 15 = le moins important).
b) Demandez un collgue de faire la mme chose.
c) Comparer vos deux rponses la solution produite par les experts de la NASA en
faisant appel la procdure statistique approprie (la rponse de la NASA se trouve
dans la rponse au Quiz rapide 13.4).
d) Qui a la meilleure chance de survie : votre collgue ou vous ?

chantillon sont mesures sur une chelle de type II et que la distribution


de la variable dans la population est peu prs normale. Ce test est donc
inappropri si, par exemple, on dsire comparer le revenu moyen des hom-
mes avec le revenu moyen des femmes, puisque la distribution des revenus,
dans la population, est trs asymtrique.
Une alternative au test t qui est approprie pour cette situation est le
test de Wilcoxon-Mann-Whitney (du nom de ses inventeurs). Pour tre
applicable, lunique prrequis de ce test est quil soit possible de dterminer
le rang des observations, nonobstant le groupe auquel chaque observation
appartient. Si nous avons six femmes et six hommes, par exemple, ce test
peut tre appliqu la condition que les 12 observations puissent tre mises
en rang, de 1 12, sans ex quo.
La logique de ce test est lgante. Supposons que le revenu des femmes
et des hommes soit similaire. Il devrait donc y avoir des individus (fem-
mes et hommes) dtenant un rang (salaire) lev et des individus (femmes
et hommes) dtenant un rang (salaire) faible dans chaque groupe. Si on
examine les rangs dans chaque groupe, on devrait donc y voir un nombre
semblable de rangs levs et de rangs faibles parmi les deux genres. Si on
410 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

additionne les rangs attribus aux femmes et ceux attribus aux hommes,
ces deux sommes devraient tre identiques lorsquil ny a pas de diffrence
entre le revenu des membres de ces deux groupes.
Le test non paramtrique Wilcoxon-Mann-Whitney permet de vrifier
si cest ou non le cas. Si cela est vrai, nous concluons lhypothse nulle
(les femmes et les hommes dtiennent des niveaux de revenus quivalents).
Sinon, lhypothse nulle est rejeter et nous pouvons ainsi conclure que les
deux groupes nont pas le mme niveau de revenus.
Le Tableau 13.6 prsente le salaire de N = 12 personnes, dont 6 sont des
femmes (N1 = 6) et 6 sont des hommes (N2 = 6). Toutes ces personnes
reoivent des salaires diffrents (il ny a pas dex quo). Nous mettons en
rang le salaire de ces douze personnes, sans nous proccuper pour linstant
du groupe auquel elles appartiennent (femmes ou hommes). Lindividu
dont le salaire est le plus bas obtient le rang 1 alors que celui qui a le salaire
le plus lev se classe au douzime rang. Laddition des rangs (1 + 2 +
3 + + 11 + 12) donne 78. Si les revenus des personnes dans les deux
groupes sont comparables, les rangs devraient tre rpartis alatoirement
entre les deux groupes et, donc, la somme des rangs pour les femmes
devrait tre 39 (la moiti de 78) tout comme pour les hommes (39). Lenca-
dr prsente les formules qui facilitent le calcul de la somme des rangs.

Quelques formules de computation pour le Wilcoxon-Mann-Whitney


N
N(N 1)
1. La somme de tous les rangs sobtient avec la formule = , o N est
2 i 1

le nombre dobservations totales. Avec 12 personnes, la somme de tous les rangs


N
12 (13)
est i = = 78.
i 1 2
2. La somme des rangs (sous H0) dans un groupe lorsque les groupes contiennent un
N(N 1)
nombre identique dobservations = .
4
Avec six personnes dans chaque groupe, la somme des rangs pour chaque groupe
12 (13)
est =  39 .
4
3. La somme des rangs dun groupe (sous H0) lorsque le N des groupes est ingal
N (N 1)
sobtient avec la formule 1 o N1 est le nombre dobservations dans un
2
groupe, N le nombre dobservations des deux groupes. Si N1=4 et N2=8, N=12 et
4 (13)
la somme des rangs pour le groupe 1 est  26.
2
STATISTIQUES NON PARAMTRIQUES 411

Lhypothse voulant que les groupes soient tirs de la mme population


de revenus revient donc dire que la somme des rangs dans un groupe est
gale la moiti de la somme de tous les rangs (39 dans ce cas). Dans le
cas contraire (diffrent de la moiti), on pourra conclure que le salaire des
hommes et des femmes nest pas le mme.
Naturellement, la taille de la diffrence entre la somme des rangs pour
les deux groupes dpend du nombre dobservations. Par consquent, il
faut standardiser cette diffrence afin dliminer linfluence du nombre de
rangs sur le rsultat. Plus bas, nous verrons la Formule 13.4 qui permet de
raliser cette standardisation. Cette formule, qui est le test non paramtri-
que Wilcoxon-Mann-Whitney semble assez complexe, mais sa logique est
facile saisir et assimiler.
Comme nous en avons maintenant lhabitude, il nous faudra comparer
la diffrence standardise (qui sera produite par le biais de la Formule 13.4)
une valeur critique. Si la valeur standardise que nous avons calcule est
suprieure la valeur critique, nous conclurons au rejet de lhypothse
nulle, alors que si elle lui est gale ou infrieure, lhypothse nulle ne pourra
tre rejete.
La valeur critique que nous utilisons pour ce test est trs pratique. Elle
se base sur le tableau de la distribution de la densit sous la courbe normale
(Z, Annexe A1)2. Si la valeur Z produite par le Wilcoxon-Mann-Whitney
est suprieure 1,96, nous conclurons que la diffrence entre les deux
groupes est statistiquement significative (au seuil alpha infrieur 5 %). Si
la valeur Z est suprieure 2,58, la diffrence entre les deux groupes sera
statistiquement significative au seuil < 0,01.
La standardisation sobtient avec la Formule 13.4. Cette formulation
exprime le test Wilcoxon-Mann-Whitney.
SR1 N1 ( N 1) / 2 0,5
z Formule 13.4
N1 N 2 ( N 1) / 12
o :
SR1 est la somme des rangs dans le groupe 1 ;
N1 est la taille du groupe 1 ;

2. Lutilisation du tableau de la densit de la courbe normale est approprie seulement


si le nombre dobservations dans un groupe ou dans les deux groupes conjugus est
gal ou plus grand que N = 10. Si N < 10, il faudra consulter un tableau spcialis.
412 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

N2, la taille du groupe 2 ; et


N est la taille totale des deux groupes (c..d. N = N1 + N2). Notez
quil faut retirer 0,5 car les rangs peuvent tre vus comme un nombre
arrondi.
Le numrateur de la Formule 13.4 est essentiellement compos de deux
quantits : SR1, qui reprsente la somme des rangs attribus lun des grou-
pes3 et N1(N + 1) / 2, qui reprsente la somme des rangs laquelle nous
pourrions nous attendre si lhypothse nulle tait retenir (cest--dire que
la somme des rangs attribus au groupe est exactement gale la moiti
de la somme de tous les rangs ou au prorata des rangs, lorsque le nombre
dobservations dans les deux groupes est ingal). Nous voyons maintenant
la logique du test : lorsque la somme des rangs obtenus dans un groupe
(SR1) est effectivement trs proche de la moiti de la somme de tous les
rangs, la soustraction donnera une diffrence trs proche de zro. Indpen-
damment du dnominateur, la quantit Z sera alors, elle aussi, proche de
zro. Une telle quantit (z 0) tant infrieure la valeur critique normale-
ment accepte pour la signification statistique (z = 1,96), nous ne pouvons
pas rejeter lhypothse nulle et, dans notre exemple, il faudra alors conclure
que le salaire des hommes et des femmes est quivalent. Dans cette for-
mule, le dnominateur sert tablir la standardisation comme telle et cest
le rapport entre le numrateur et le dnominateur qui produit la valeur Z
qui elle dfinit la taille standardise de la diffrence entre les rangs obtenus
par les deux groupes.

3. Lanalyse ne porte que sur un seul groupe, peu importe lequel, car la somme des
rangs de lautre groupe est invariablement connue si lon connat la somme des
rangs du groupe que lon analyse. Par exemple, si la somme des rangs pour les hom-
mes est gale 21, la somme des rangs pour les femmes est obligatoirement 78 21
= 57. Si la somme des rangs pour un groupe est 39, lautre obtiendra une somme de
39 aussi.
STATISTIQUES NON PARAMTRIQUES 413

Un exemple du Wilcoxon-Mann-Whitney

Imaginons un monde idal o il ny aurait pas de diffrence entre les reve-


nus des hommes et des femmes. On identifie le revenu de six femmes et de
six hommes pris alatoirement dans la population. Les donnes sont ins-
crites dans les colonnes 1 et 2 du Tableau 13.6.

Tableau 13.6
Deux exemples du test non paramtrique Wilcoxon-Mann-Whitney :
les femmes et des hommes ont-ils le mme salaire ?

Exemple 1 Exemple 2

Col 1 Col 2 Col 3 Col 4

Femmes (K$) Hommes (K$) Femmes (K$) Hommes (K$)

33 (2) 22 (1) (1) (7)

38 (3) 41 (4) (2) (8)

58 (6) 43 (5) (3) (9)

71 (7) 78 (8) (4) (10)

91 (10) 81 (9) (5) (11)

128 (11) 178 (12) (6) (12)

Le salaire est en milliers de dollars (K$) et le rang des douze observations est
indiqu entre parenthses.

Les revenus inscrits dans les colonnes 1 et 2 du Tableau 13.6 sont trs asy-
mtriques (cest--dire ne sont pas distribus normalement), ce qui invite
lutilisation du Wilcoxon-Mann-Whitney. On calcule le rang des revenus
(peu importe le sexe) que nous retrouvons entre parenthses au Tableau 13.6.
La personne qui gagne 22 000 $ par anne (dans ce cas, il sagit dun homme)
reoit le rang 1 (le revenu le plus faible de tous) ; la personne (une femme dans
ce cas) qui gagne 33 000 $ par anne reoit le rang 2, etc. Lhypothse nulle
6 (12 1)
prdit : H0 : la somme des rangs des hommes est gale  39 .
2
Et la rgle est :
rejet de H0 si SRfemmes > SRCritique.
Mettons en uvre le test statistique en faisant appel la Formule 13.4.
414 S T A T I S T I Q U E S : C O N C E P T S E T A P P L I C A T I O N S

SR1 N1 ( N 1) / 2 0, 5
Z=
N1 N 2 ( N 1) / 12

39 6(13) / 2 0, 5
Z=  0, 08
6  6 13 / 12
Nous pouvons maintenant tester lhypothse. Nous choisissons le
seuil de signification < 0,05, qui, partir du tableau de la densit sous la
courbe normale, indique que la valeur critique est 1,96. Puisque le Z que
nous avons calcul est 0,08 et que cette valeur est infrieure 1,96, nous
ne pouvons pas rejeter lhypothse nulle. Les hommes et les femmes ont
donc des salaires quivalents. Cela ne devrait pas nous surprendre puisque
la somme des rangs pour les hommes est gale, dans ce cas, la moiti de la
somme des rangs pour lensemble des donnes.
Refaisons le mme exercice mais cette fois rfrons-nous aux donnes
qui se trouvent dans les colonnes 3 et 4 du Tableau 13.6. Le tableau ne pr-
sente que les rangs et on constatera que ceux des femmes sont tous inf-
rieurs aux rangs obtenus par les hommes (toutes les femmes