Introduction À La Statistique Appliquée

ALALOUF LABELLE MNARD
Introduction la
statistique
applique
Loze-Dion diteur
Loze-Dion diteur inc.

95, Saint-Sylvestre
Longueuil (Qubec) J4H 2W1
Tlphone :
Tlcopieur :
(450) 679-1955
(450) 679-6339
www.lozedion.com
lozedion@lozedion.com
Tous droits rservs. On ne peut reproduire, enregistrer, ni diffuser aucune partie

du prsent ouvrage sous quelque forme ou par quelque procd que ce soit sans
avoir une autorisation crite de lditeur.
ISBN 978- 2-92356533-0
PRFACE
Cette dition a prserv ses qualits pdagogiques tout en amliorant sa
prsentation matrielle. Nous y retrouverons les points forts et les
caractristiques qui en ont assur le succs au cours des nombreuses
annes.
On retrouvera une approche base sur l'tude et l'analyse de situations
concrtes dont le fil conducteur demeure l'ide de test d'hypothse. En
introduisant le test d'hypothse ds le dbut du livre par un premier
contact avec le khi-deux, nous vitons le pige de le relguer la fin du
parcours didactique. Omniprsente aussi, du moins en filigrane, la notion
de modlisation, l'me mme de toute application des mathmatiques, et
particulirement de la statistique.
Rappelons enfin que ce manuel est rsolument orient vers l'apprentissage
de la statistique. La mise en vidence des mcanismes du raisonnement
statistique est privilgie, et ne sont abords que les sujets et les
dveloppements mathmatiques ncessaires.
Nous avons cru utile de proposer ou de rendre possibles certains choix
de cheminements et donc d'inclure certains lments intressants pour les
applications et dont on peut donner un traitement lmentaire. Ainsi, on
trouvera, en fin de manuel, un chapitre consacr aux techniques de
sondages et un autre aux sries chronologiques.
Ce manuel permettra donc aux tudiantes et tudiants tant de niveau
collgial qu'universitaire de dcouvrir l'univers fascinant de la statistique.
Et, travers les trs nombreux exercices, ils se familiariseront avec les
mthodes et les applications innombrables de cette discipline.
Remerciements Michel Ads, Grard Leduc et Glenn Shorrock pour la
premire et la deuxime dition, et Monsieur Franois Goulet pour sa
lecture de l'dition prcdente.
Note Nous avons marqu d'un astrisque certains exercices demandant un
dveloppement mathmatique un peu plus avanc pour celles et ceux
dsirant pousser leurs limites.
TABLE DES MATIRES

Prface
1
Distributions
1.1 Population et variables
1.2 Distributions
1.3 Reprsentations graphiques
1.4 chantillons et test d'ajustement
1
2
4
9
14
Mesures de tendance centrale et de dispersion

2.1 Mesures de tendance centrale
2.2 Mesures de dispersion
2.3 Cas d'une distribution
2.4 Transformation linaire
2.5 Variable centre rduite ou cote Z
2.6 Moyennes pondres et moyennes ajustes
37
38
42
48
58
59
62
Distributions deux variables qualitatives

3.1 Distribution conjointe
3.2 Distribution marginale
3.3 Distribution conditionnelle
3.4 Indpendance
3.5 Dpendance et causalit
3.6 Un test d'indpendance
78
79
80
81
83
85
86
Droite des moindres carrs et corrlation

4.1 Droite des moindres carrs
4.2 Corrlation
4.3 Un test d'indpendance
110
111
118
121
Variables alatoires et probabilits

5.1 Espace chantillon et vnement
5.2 Probabilits
5.3 Probabilits conditionnelles
5.4 Variables alatoires
5.5 Esprance et variance
143
144
150
157
163
164
Quelques lois discrtes

6.1 Factorielle et combinaisons
6.2 Loi binomiale
6.3 Loi hypergomtrique
6.4 Loi gomtrique
6.5 Loi de Poisson
181
182
185
194
197
199
Quelques lois continues

7.1 Variables continues et fonction de densit
7.2 Loi uniforme
7.3 Loi exponentielle
7.4 Loi normale (ou loi de Laplace-Gauss)
7.5 Thorme limite central
8 Estimation
8.1 Estimation ponctuelle
8.2 Estimation par intervalle de confiance
8.3 Estimation d'une proportion
8.4 Estimation d'une moyenne
8.5 Estimation d'un paramtre T quelconque
9 Tests d'hypothses
9.1 Test d'hypothse sur une proportion
9.2 Test sur l'galit de deux proportions
9.3 Test d'hypothse sur une moyenne
9.4 Test sur l'galit de deux moyennes
9.5 Test d'hypothse sur un paramtre T quelconque
10 Techniques de sondages
10.1 chantillonnage d'une population finie
10.2 chantillonnage stratifi estimation d'une moyenne
10.3 Allocation des observations
10.5 chantillonnage systmatique
10.6 chantillonnage en grappes
11 Sries chronologiques
11.1 Techniques de lissage
11.2 Nombres indices
11.3 Dsaisonnalisation
11.4 Analyse de la tendance gnrale
11.5 Rsidus et bruit blanc
Appendices
Liste des rfrences
La notation de sommation
n
216
217
222
223
225
231
252
253
255
257
262
266
275
278
280
284
286
293
316
318
323
328
331
335
337
348
350
361
367
370
376
391
392
394
Table 1 : Coefficients du binme de Newton

x
397
Table 2 : Points critiques pour F2

Table 3 : Loi normale N(0,1)
Table 4 : Loi de Student tQ
Rponses aux exercices
397
398
399
400
Distributions
1.1
1.2
1.3
1.4
Population et variables
x Variables
Distributions
x Frquences
x Groupement des valeurs
x Classes d'tendues ingales
x Variables continues
Reprsentations graphiques
x Le diagramme btons
x L'histogramme
x Le polygone des frquences
chantillons et test d'ajustement
x Introduction
x nonc formel du problme et procdure de rsolution
x Justification de la procdure
RSUM
EXERCICES
Introduction la statistique applique
1.1
POPULATION ET VARIABLES
L'objectif principal de la statistique est de fournir de l'information
quantitative sur un ensemble circonscrit et bien dtermin d'tres ou
d'objets appels units statistiques. L'ensemble de ces units statistiques est
appel population.
Exemple 1
Chacun des ensembles suivants peut tre considr comme une population,
dont l'tude intressera, selon le cas, divers utilisateurs de la statistique :
a) l'ensemble de tous les habitants du Qubec ;
b) l'ensemble de tous les mnages de la ville de Laval ;
c) l'ensemble des entreprises industrielles des Cantons de l'Est, qui
emploient moins de cent personnes ;
d) l'ensemble de tous les saumons qui sont venus frayer dans les eaux du
Qubec en 1989 ;
e) l'ensemble des cotes la fermeture quotidienne de la bourse de Toronto,
pour les valeurs minires, en avril et mai 1990 ;
f)
l'ensemble des moustiques des forts qubcoises, en juin 1990.
Une population peut tre finie, si elle comprend un nombre fini d'units, ou
infinie si elle en comprend un nombre infini. Dans l'exemple 1 ci-dessus, la
population f) peut tre considre comme infinie, mme si, en ralit, elle est
srement finie.
Variables Comme on voit dans les divers cas prsents l'exemple 1, une
tude statistique doit ncessairement se limiter certains aspects, ou
caractres, des membres de la population, qu'on appelle gnralement
variables. Ds qu'une variable d'une population est choisie, chaque
membre de cette population correspond une valeur de la variable en
question.
1 Distributions
Exemple 2
Revenons l'exemple 1 a), o l'on tudie l'ensemble de tous les habitants du

Qubec, et choisissons d'y considrer le caractre langue maternelle .
Alors
a) une unit statistique est un habitant du Qubec ;
b) la population est l'ensemble de ces habitants ;
c) la variable est la langue maternelle ;
d) les valeurs possibles de la variable sont franais , anglais , italien ,
grec , etc.
i
Exemple 3
Dans la mme population qu' l'exemple 2, on peut s'intresser diverses

autres variables. En voici trois :
a) la variable revenu brut en dollars pour 1999 aura comme valeurs
possibles des nombres qui vont de zro quelques millions ;
b) la variable nombre de livres lus durant les douze derniers mois aura
comme valeurs possibles des nombres de 0 plusieurs dizaines ;
c) la variable la boisson prfre aura comme valeurs possibles : lait ,
th , caf , eau , bire , vin , etc.
i
Aussi bien pour des motifs pdagogiques que pour des fins purement
techniques, nous distinguons diffrentes sortes de variables, telles
qu'indiques sur le schma suivant.
qualitatives
variables
discrtes
quantitatives
continues
Une variable est dite qualitative ou quantitative selon que ses valeurs
reprsentent des qualits ou des quantits. La variable langue maternelle
est qualitative, tandis que les variables taille du mnage et revenu
annuel brut sont quantitatives. Cette distinction n'est pas toujours absolue
et parfois se rfre non pas la nature d'une variable mais plutt la faon
dont elle est traite. Le revenu d'une entreprise est une variable quantitative,
mais si on se contente de le classer comme nul , faible , moyen et
lev , alors on en fait une variable qualitative.
Nous ferons une deuxime distinction, celle-ci entre deux sortes de variables
quantitatives : les variables discrtes et les variables continues. Une
variable discrte est une variable qui ne peut prendre que des valeurs
isoles. La variable nombre d'enfants dans une famille est une variable
discrte, car elle ne peut prendre comme valeurs que les entiers 0, 1, 2, ... ;
aucune valeur entre ces entiers n'est possible. La valeur pointure des
souliers est, elle aussi, une variable discrte, mme si les demi-pointures
existent. Une pointure de 6 1/2 existe, mais il n'y a pas de pointure entre
6 1/2 et 7 ou entre 7 et 7 1/2.
Contrairement aux variables discrtes, les variables continues peuvent
thoriquement prendre comme valeurs tous les nombres compris dans un
certain intervalle. La taille d'une personne, par exemple, peut tre de 165 cm
ou de 166 cm, mais elle peut galement tre de 165,5 cm ou de 165,487 3 cm.
Cette notion est videmment thorique puisque les instruments de mesure
usuels ne nous permettent pas de distinguer une personne de 165,487 3 cm
d'une personne de 165,487 4 cm. En pratique, on mesure les tailles en
arrondissant l'entier le plus proche et les donnes prennent la mme allure
que celles qu'on obtiendrait d'une variable discrte. Nanmoins, les variables
continues sont en gnral traites diffremment des variables discrtes du fait
que leurs valeurs possibles, ralises ou pas, sont trs nombreuses. De plus,
la signification des nombres dans le cas continu est diffrente : lorsqu'on
inscrit 165 cm pour la taille de quelqu'un, il est entendu que sa vraie taille
n'est pas 165,000 0 cm mais qu'elle se situe quelque part entre 164,5 cm et
165,5 cm. Les consquences pratiques de la distinction entre une variable
continue et une variable discrte apparatront dans les chapitres suivants.
1.2
DISTRIBUTIONS
Les donnes brutes, dans la forme o elles se prsentent la suite d'une
enqute, sont en gnral impossibles assimiler. Aussi, la premire tape
d'une analyse de ces donnes consiste les rassembler, les rsumer et
les prsenter sous une forme comprhensible, de faon avoir une premire
vue d'ensemble de l'information qu'elles contiennent.
Supposons, par exemple, que pour valuer l'opportunit de construire un
petit centre commercial dans un certain quartier, on procde une enqute
auprs des 770 mnages du quartier. Un interviewer se prsente chacun
des mnages avec un questionnaire contenant des questions comme :
Combien y a-t-il de personnes dans le mnage ? Combien de celles-ci sont
1 Distributions
des adultes ? Combien ont un emploi ? Quel est votre revenu familial ?
Avez-vous une automobile ? O faites-vous vos emplettes habituellement ?
Chacune de ces questions correspond une variable. Le rsultat immdiat
de cette enqute est une pile de 770 fiches. Une version simplifie d'une de
ces fiches ressemblerait l'illustration de la figure 1.1.
En transcrivant l'information contenue dans ces 770 fiches, on peut construire un immense tableau o chaque ligne reprsente un mnage et
chaque colonne une variable. Ce tableau aurait sans doute l'allure du
tableau 1.1.
FIGURE 1.1
Enqute sur les mnages du quartier X

MNAGE No ________
1.
2.
3.
4.
nombre de personnes
nombre d'adultes
nombre de personnes ayant un emploi
revenu familial ($) :
F 0 moins de 25 000
F 25 000 ou plus moins de 45 000
________
________
________
F 45 000 ou plus
TABLEAU 1.1
Donnes brutes sur les mnages du quartier X

Mnage
no
Question
1
770
Le tableau 1.1 prsente donc, pour la population forme des 770 mnages
d'un certain quartier, l'information complte sur quatre variables, les trois
premires tant quantitatives discrtes, et la quatrime, qualitative. Plus
loin, nous verrons comment examiner simultanment plusieurs variables,
mais pour commencer, nous les prenons une la fois.
Considrons la premire, nombre de personnes . L'information sur cette

variable est la deuxime colonne du tableau, dans laquelle on trouvera,
ple-mle, des 1 , des 2 , des 3 , etc. Mais l'information contenue dans
ces 770 chiffres peut tre rsume dans un tableau comme le tableau 1.2.
TABLEAU 1.2
Distribution du nombre de personnes dans 770 mnages

Nombre de
1
6+
TOTAL
125
200
295
100
50
770
personnes
Effectif
Ce tableau est un exemple d'une distribution. Une distribution numre les

valeurs distinctes de la variable (ici la variable est le nombre de personnes et
ses valeurs sont 1, 2, 3, 4, et 5), et fait correspondre chaque valeur de la
variable l'effectif, c'est--dire le nombre d'lments de la population pour
lesquels la variable prend la valeur donne. Ainsi, il y a 125 mnages d'une
personne, 200 mnages de 2 personnes, 295 mnages de 3 personnes, 100
mnages de 4 personnes et 50 mnages de 5 personnes.
L'effectif total est la somme des effectifs, soit la taille de la population.
Frquences Dans une distribution, l'effectif est parfois remplac par la

frquence, c'est--dire le rapport de l'effectif l'effectif total. Le tableau 1.3
donne la mme distribution que le tableau 1.2, exprime en frquences. Une
frquence, lorsqu'elle est multiplie par 100, devient un pourcentage. Elle a
l'avantage de se lire plus aisment lorsque les effectifs sont grands. De plus,
on ne peut comparer deux distributions avec des effectifs totaux diffrents
que si elles sont exprimes en frquences.
TABLEAU 1.3

Nombre de
personnes
TOTAL
Frquence
0,162
0,260
0,383
0,130
0,065
Groupement des valeurs Si une variable est continue, ou si ses valeurs sont
trop nombreuses pour tre numres au complet, il faut recourir un
groupement des valeurs. Le tableau 1.4 prsente un exemple o la
population est l'ensemble de tous les enseignants rguliers dans les cgeps
du Qubec en 1986-1987, et o la variable considre est l'ge.
1 Distributions
Classes d'tendues ingales Autant que possible, lorsqu'on groupe les valeurs
d'une variable, on les groupe en classes d'tendues gales. Pour des
raisons d'ordre pratique, on ne le fait pas toujours : parfois les donnes nous
arrivent dj groupes en classes d'tendues ingales, ou encore il peut
tre plus naturel d'utiliser des classes larges pour les grandes valeurs et des
classes troites pour les petites valeurs.
Le tableau 1.5 prsente une distribution o la population est l'ensemble des
hommes canadiens de moins de 70 ans et o la variable est l'ge. Le
groupement des donnes est celui de Statistique Canada. L'tendue des cinq
premires classes est 5, celle des 4 suivantes est 10, et celle de la dernire
est 5.
Variables continues Dans le cas des variables continues, les classes sont
contigus et il faut prendre soin de bien identifier les limites des classes pour
viter toute quivoque quant l'appartenance des points qui limitent les
classes. L'une des conventions possibles est illustre dans le tableau 1.6. La
variable est dnote par X et les classes sont dfinies par des ingalits qui
montrent clairement quelle classe chaque valeur appartient : il est clair,
par exemple, que la valeur 2,0 appartient la quatrime classe et non la
troisime. Remarquons que dans le tableau 1.6 la somme des frquences est
0,999 au lieu de 1,000. Il n'y a l rien d'alarmant, les arrondis dcimaux en
sont responsables.
TABLEAU 1.4
Distribution de l'ge des enseignants rguliers dans les cgeps au Qubec - 1986-1987
ge
Effectif
Frquence
moins de 20 ans
0,000
20-24
23
0,002
25-29
300
0,032
30-34
1 113
0,118
35-39
2 507
0,266
40-44
2 620
0,278
45-49
1 492
0,158
50-54
693
0,074
55-59
468
0,050
60-64
171
0,018
65+
36
0,004
9 424
1,000
TOTAL
SOURCE : Bulletin Statistique (vol. 13, no 4), DGEC, ministre de l'Enseignement suprieur et de la Science du Qubec (1988)
TABLEAU 1.5
ge des hommes canadiens de moins de 70 ans - 1986

ge
0-4
Effectif (en milliers)

927,8
Frquence
0,079
5-9
920,1
0,078
10-14
916,8
0,078
15-19
983,3
0,084
20-24
1 131,5
0,096
25-34
2 248,8
0,191
35-44
1 822,0
0,155
45-54
1 276,2
0,108
55-64
1 124,1
0,096
414,5
0,035
11 765,1
1,000
65-69
TOTAL
SOURCE : Annuaire du Canada, 1988
1 Distributions
TABLEAU 1.6
Distribution du poids la naissance des bbs qubcois - 1983

Poids (en kg) (X)
Effectif
Frquence
0,5 d X < 1,0
286
0,003
1,0 d X < 1,5
436
0,005
1,5 d X < 2,0
1 070
0,012
2,0 d X < 2,5
3 853
0,044
2,5 d X < 3,0
15 945
0,183
3,0 d X < 3,5
34 163
0,392
3,5 d X < 4,0
24 187
0,278
4,0 d X < 4,5
6 301
0,072
4,5 d X < 5,0
784
0,009
5,0 d X < 5,5
102
0,001
87 127
0,999
TOTAL
SOURCE : Bureau de la statistique du Qubec, 1984
1.3
REPRSENTATIONS GRAPHIQUES
Presque toute distribution peut avantageusement tre prsente sous la
forme d'un graphique. Un graphique nous permet de saisir en un coup d'oeil
les caractristiques d'une distribution et d'observer d'une manire immdiate
et visuelle les diffrences qu'il peut y avoir entre deux populations. Les
graphiques employs pour prsenter des donnes abondent dans les revues
populaires et sont d'une diversit illimite. Il existe cependant quelques
formes classiques, et nous en dcrivons trois : le diagramme btons,
l'histogramme et le polygone des frquences.
Le diagramme btons Le diagramme btons s'applique bien aux variables

qualitatives ou discrtes. La figure 1.2 est un diagramme btons qui
prsente la distribution du tableau 1.3. La figure 1.3 prsente la distribution
d'une variable qualitative. Pour accommoder les textes mettre en marge, il
est cette fois plus naturel de placer les btons l'horizontale plutt qu' la
verticale.
L'histogramme L'histogramme est un graphique form de rectangles
adjacents dont les bases sont constitues des classes de regroupement et
dont les surfaces sont proportionnelles aux effectifs respectifs.
10
L'histogramme convient bien aux variables dont les valeurs sont

nombreuses, en particulier aux variables continues. La figure 1.4 est
l'histogramme qui reprsente la distribution du tableau 1.6.
0,50
0,40
Frquence
FIGURE 1.2
0,30
0,20
0,10
0,00
0
Nombre de personnes
SOURCE : Tableau 1.3
Lorsqu'on construit un histogramme dont les classes sont d'tendues

ingales, il faut se rappeler que c'est la surface d'un rectangle et non sa
hauteur qui reprsente l'effectif. Par consquent, lorsqu'une classe est deux
fois plus tendue qu'une autre, la hauteur du rectangle correspondant doit
tre deux fois plus petite. La figure 1.5 illustre cette procdure. La sixime
classe, par exemple, a une tendue deux fois plus grande que celle des cinq
premires classes. Son effectif de 2 248,8 est donc reprsent par un
rectangle dont la hauteur, par rapport l'chelle ayant servi la
construction des cinq premiers rectangles, est de 2 248,8 y 2 = 1 124,4.
C'est comme si l'effectif de la classe 25-35 avait t rparti en deux, une
partie pour chacune des classes 25-30 et 30-35. Pour comprendre la
diffrence entre la premire colonne du tableau 1.5 et les classes, lire
l'nonc de l'exercice 18.
1 Distributions
FIGURE 1.3
Rpartition des dpenses totales des administrations publiques du Canada - 1986

0,00
0,05
0,10
0,15
0,20
0,25
0,30
2%
Environnement
5%
Transport et communications
7%
Services gnraux
Protection
8%
12%
ducation
13%
Sant
28%
Services sociaux
29%
Autres dpenses
SOURCE : Un portrait du Canada, 1988
Distribution du poids la naissance des bbs qubcois - 1983

0,4
0,3
Frquence
FIGURE 1.4
0,2
0,1
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
Poids (en kg) la naissance

4,5
5,0
5,5
11
12
Il va de soi que lorsqu'un histogramme contient des classes d'tendues

ingales, on ne peut indiquer les effectifs (ou les frquences) au moyen d'une
chelle commune place l'ordonne. L'chelle verticale, dans ce cas,
indique la densit des donnes, c'est--dire le nombre de donnes par unit
de largeur de la classe pour chaque classe.
10
15
20
25
35
45
55
414,5
1124,1
1276,2
1822,0
2248,8
1131,5
983,3
916,8
920,1
Distribution de l'ge des hommes canadiens de moins de 70 ans - 1986 (en milliers)
927,8
FIGURE 1.5
65
70
Le polygone des frquences Le polygone des frquences est une alternative

l'histogramme, qui se prte particulirement bien des comparaisons de
distributions. On construit un polygone des frquences en joignant les
milieux des sommets des rectangles d'un histogramme. On referme enfin les
deux extrmits du graphique en faisant comme si deux rectangles de
hauteur zro prcdaient et suivaient immdiatement ceux de l'histogramme.
La figure 1.6 illustre comment les polygones des frquences peuvent servir
faire des comparaisons entre deux populations. Les deux populations sont
les filles et les garons ns au Qubec en 1983, et la variable dans les deux
cas est le poids la naissance. Les deux distributions sont donnes dans le
tableau 1.7. Comme ces populations ne sont pas de mme taille, leur
distribution est exprime en frquences. Ce que ces frquences nous disent,
les polygones des frquences nous le disent mieux (voir figure 1.6). On voit
immdiatement que les deux distributions concident essentiellement pour
les trs petits bbs, alors qu'ailleurs la distribution des poids des filles est
gauche de celle des poids des garons. En somme, on voit sur cette figure
1.6 qu'il y a une frquence plus leve de petits bbs parmi les filles et de
gros bbs parmi les garons, alors que pour les trs petits bbs, l'aspect
le plus souvent accidentel de leur naissance fait qu'ils se divisent galement
entre les deux sexes.
1 Distributions
13
Afin de montrer la diversit des reprsentations graphiques d'une

distribution, la figure 1.7 illustre une reprsentation dite en pointes de
tarte souvent utilise pour les variables qualitatives.
TABLEAU 1.7
Distribution du poids la naissance des garons et des filles du Qubec - 1983

Poids (en kg) (X)
Centre de classe
0,5 d X < 1,0

1,0 d X < 1,5
1,5 d X < 2,0
2,0 d X < 2,5
2,5 d X < 3,0
3,0 d X < 3,5
3,5 d X < 4,0
4,0 d X < 4,5
4,5 d X < 5,0
5,0 d X:< 5,5
TOTAL
0,75
1,25
1,75
2,25
2,75
3,25
3,75
4,25
4,75
5,25
Frquence
Garons
Filles
0,003
0,005
0,010
0,040
0,153
0,374
0,310
0,093
0,012
0,001
0,003
0,005
0,012
0,051
0,216
0,413
0,244
0,050
0,005
0,001
1,001
1,000
SOURCE : Bureau de la statistique du Qubec, 1984
Distribution du poids la naissance des garons et des filles du Qubec - 1983
0,4
Frquence
FIGURE 1.6
0,3
Garon
Filles
0,2
0,1
0
0,25 0,75 1,25 1,75 2,25 2,75 3,25 3,75 4,25 4,75 5,25
Poids (en kg) la naissance
14
FIGURE 1.7
Distribution de la population mondiale selon les continents

Europe
13,9%
Afrique
11,1%
Amrique du
Nord
8,2%
Asie
60,9%
Amrique du
Ocanie
Sud
0,5%
5,4%
1.4
CHANTILLONS ET TEST D'AJUSTEMENT

Introduction Dans les exemples que nous avons vus jusqu'ici, les distributions taient bases sur une numration complte des membres de la
population, c'est--dire sur un recensement. Parfois cette opration est
relativement peu onreuse, comme lorsque la population est l'ensemble des
employs d'une compagnie ou l'ensemble des succursales d'une banque. La
plupart du temps, par contre, le cot d'un recensement s'avre prohibitif. Le
recensement du Canada constitue une opration si gigantesque qu'on ne le
fait qu' tous les cinq ou dix ans.
En pratique, donc, les donnes dont on dispose pour faire une distribution
sont, la plupart du temps, les donnes d'un chantillon, c'est--dire, d'une
partie, souvent trs petite, de la population. Il surgit alors une question
fondamentale qui ne se pose pas lorsqu'on a les donnes de la population
entire. C'est de savoir jusqu' quel point il est permis d'extrapoler la
population entire les phnomnes observs dans l'chantillon. Quelle
assurance a-t-on qu'une distribution observe dans l'chantillon est bien
conforme celle de la population entire ? Cette problmatique est parfois
exprime, quelque peu navement, par la question : Est-ce que l'chantillon
est reprsentatif ? .
1 Distributions
15
Comme on le verra, cette question n'admet pas de rponse du type oui ou

non . En fait, elle n'admet pas de rponse du tout car elle est mal pose.
Elle sous-entend l'existence d'un critre qui permettrait de dclarer, une fois
pour toutes, que l'chantillon est bon, et d'affirmer que tout ce qui est vrai
de l'chantillon est vrai de la population.
Malheureusement, il n'en est pas ainsi. C'est chaque conclusion qui doit tre
valide, et non l'chantillon comme tel. La question que nous poserons sera,
non pas si l'chantillon est bon ou mauvais, mais plutt : Est-ce que telle ou
telle conclusion peut, avec peu de risque d'erreur, s'appliquer la population
entire ? La faon d'y rpondre dpend du contexte et du type de
conclusion qu'on veut tirer propos de la population, mais repose
essentiellement sur l'tude de la similitude entre la distribution de la
population et celle de l'chantillon. Nous dveloppons, dans l'exemple qui
suit, un test destin valuer cette similitude, juger mathmatiquement
de l'ajustement entre la distribution d'un chantillon et une distribution
thorique ou idale.
On entend souvent dire que les naissances sont influences par la lune. On
dit, entre autres, qu'il y a beaucoup de naissances la pleine lune. Pour
savoir ce qu'il y a de vrai dans ces affirmations, on prlve un chantillon de
360 naissances, choisies au hasard. On obtient les rsultats suivants :
Phase
Nouvelle lune
Premier quartier
Pleine lune
Dernier quartier
TOTAL
Effectif
76
88
100
96
360
0,211
0,244
0,278
0,267
1,000
Frquence
Il y a en effet plus de naissances la pleine lune que durant les autres

phases ; si ce constat semble appuyer la croyance populaire, il ne permet
toutefois pas encore d'en tirer des conclusions : ces chiffres sont sujets au
hasard et ce qui semble significatif pourrait n'tre qu'un accident. Le
problme est de dcider s'il s'agit bien d'un accident ou si, au contraire,
l'chantillon reflte un phnomne rel. Cette dcision s'avre facile dans les
cas extrmes. Nous n'aurions pas de difficult attribuer au hasard les
diffrences entre les effectifs ci-dessous :
Phase
Nouvelle lune
Premier quartier
Pleine lune
Dernier quartier
TOTAL
Effectif
89
88
92
91
360
16
Nous dirions volontiers que s'il y a eu plus de naissances la pleine lune,

c'est par pur hasard. Par contre, le hasard nous semblerait insuffisant pour
expliquer les diffrences dans un tableau comme le suivant :
Phase
Nouvelle lune
Premier quartier
Pleine lune
Dernier quartier
TOTAL
Effectif
10
20
300
30
360
Dans ce cas, on n'aurait pas d'hsitation affirmer que les naissances sont
plus frquentes, plus probables, la pleine lune. Qu'un tel dsquilibre
puisse s'tre produit par pur hasard est trop invraisemblable.
Ces arguments lmentaires sont parfaitement convaincants lorsque les
tableaux se prsentent sous des formes aussi extrmes. Mais le tableau que
nous avons prsent au dbut de cet exemple est plus problmatique, et
pour en tirer des conclusions nous aurons besoin de techniques plus
raffines. Dans ce qui suit, nous commencerons par donner un nonc
formel du problme tape indispensable et nous prsenterons une
procdure de solution. Ensuite nous discuterons la logique qui justifie la
procdure. Rappelons toutefois que cette logique est essentiellement la
logique intuitive que nous venons d'exposer. Il reste quantifier ces
raisonnements pour qu'ils permettent de conclure, dans des cas moins
vidents.
nonc formel du problme et procdure de rsolution Les donnes prsentes

dans l'exemple ont t prleves pour rpondre une question dont l'nonc,
un peu vague, est les naissances dpendent-elles des phases de la lune ?
La question est un peu vague parce qu'une dpendance entre les naissances
et la lune peut prendre plusieurs formes : la lune peut avoir un effet
important ou ngligeable ; et la pleine lune peut favoriser ou dfavoriser les
naissances. Mais les naissances n'ont qu'une seule faon d'tre
indpendantes de la lune. Donc, des diffrentes hypothses en concurrence,
nous allons en privilgier une, que nous appellerons hypothse nulle et qui
s'nonce dans ce contexte par :
Hypothse nulle : les naissances ne sont pas influences par les phases de la
lune.
Nous choisissons celle-ci et pas une autre parce qu'elle est univoque et peut
s'exprimer de faon quantitative. Affirmer que la lune n'a aucun effet sur les
naissances revient dire qu'aucune phase n'est plus ou moins propice aux
naissances qu'une autre. Puisque chaque phase lunaire est pratiquement de
1 Distributions
17
mme dure, une naissance se produit dans l'une ou l'autre des quatre
phases avec la mme probabilit, soit 1/4. Et c'est prcisment comme cela
que nous pouvons maintenant exprimer l'hypothse nulle :
Hypothse nulle : les naissances se distribuent selon les phases de la lune
selon les probabilits 1/4, 1/4, 1/4 et 1/4.
Il s'ensuit que les 360 naissances devraient thoriquement se rpartir
comme suit :
Phase
Nouvelle lune
Premier quartier
Pleine lune
Dernier quartier
TOTAL
Effectif
90
90
90
90
360
Ces effectifs sont appels effectifs thoriques.

Le tableau suivant prsente les deux sries de donnes, qui rsument
numriquement le cheminement jusqu'ici.
TOTAL
Effectifs observs
76
88
100
96
360
Effectifs thoriques
90
90
90
90
360
Remarque Le total des effectifs thoriques est toujours gal celui des
effectifs observs : c'est la taille de l'chantillon.
Entre les deux sries d'effectifs, nous observons des carts, dont nous allons
calculer une mesure globale. La mesure que nous allons employer, note F2
( khi-deux ) est dfinie par la formule suivante :
X
O T 2
T
o O reprsente les effectifs observs, T reprsente les effectifs thoriques, et

la lettre grecque (sigma majuscule) dsigne la somme de .
Pour les donnes de notre exemple, la valeur de F2 est
X
76 90 2
90
88 90 2
90
196 4 100 36
90
3, 73
100 90 2
90
96 90 2
90
18
Il reste tirer une conclusion partir de la valeur de F2 trouve, c'est--dire

dduire le rejet ou non de l'hypothse nulle selon l'importance des carts
entre les deux sries d'effectifs, mesure par ce F2. Nous rejetons l'hypothse
nulle si ces carts sont trop grands. La valeur de F2 sera considre trop
grande si elle est suprieure un certain nombre, appel point critique.
Ce point critique n'est pas le mme pour tous les problmes : il dpend du
nombre de classes dans la distribution ou, plus prcisment, d'un paramtre
Q ( nu ), appel nombre de degrs de libert, qui est gal au nombre de
classes, moins 1 :
Q = (nombre de classes) - 1
Note Cette dfinition, purement mathmatique, correspond intuitivement au
fait que, pour les donnes tudies plus haut, par exemple, on pourrait
attribuer librement un effectif 3 des 4 classes ; la valeur de la quatrime
serait alors impose par le respect du total de 360.
Le tableau 1.8 donne, pour plusieurs valeurs de Q, le point critique
correspondant. Dans cet exemple, le nombre de classes est 4, donc Q = 4 1 = 3
et la table nous donne comme point critique le nombre 7,82. Puisque la valeur
de F2 obtenue, 3,73, est infrieure ce point critique, nous ne rejetons pas
l'hypothse nulle. En d'autres termes, l'cart de 3,73 entre la distribution
observe et la distribution uniforme est assez petit pour tre expliqu par le seul
hasard.
TABLEAU 1.8
Points critiques pour F2

Degrs de
libert Q
Point
critique
Degrs de
libert Q
Point
critique
Degrs de
libert Q
Point
critique
3,84
11
19,68
21
32,67
5,99
12
21,03
22
33,92
7,82
13
22,36
23
35,17
9,49
14
23,68
24
36,42
11,07
15
25,00
25
37,65
12,59
16
26,30
26
38,89
14,07
17
27,59
27
40,11
15,51
18
28,87
28
41,34
16,93
19
30,14
29
42,56
10
18,31
20
31,41
30
43,77
Avec ces points critiques, la probabilit de rejeter l'hypothse nulle, si elle est vraie, est de 5 %
1 Distributions
19
Justification de la procdure La procdure que nous venons d'employer,

appele test d'hypothse, commence par l'nonc d'une hypothse stipulant
que les vraies frquences, celles de la population d'o est issu
l'chantillon, sont une srie de frquences donnes. Ces frquences sont
exprimes en effectifs thoriques . Les effectifs thoriques sont les effectifs
auxquels on s'attend lorsque l'hypothse nulle est vraie. Les effectifs
observs ne concident pas exactement avec les effectifs thoriques, mme si
l'hypothse nulle est vraie : le hasard fait qu'en gnral l'chantillon n'est
pas une parfaite rplique de la population. Ainsi, lorsque les effectifs
observs s'cartent un peu des effectifs thoriques, nous n'allons pas
conclure que l'hypothse nulle est fausse : nous allons attribuer les carts
au hasard. Mais lorsque ces carts sont trs importants, il devient difficile de
croire que le hasard seul puisse en tre responsable.
La thorie des probabilits permet de calculer la probabilit d'avoir des
carts de tel ou tel ordre de grandeur. Elle permet de remarquer que certains
carts trs grands ne se produisent que trs rarement, c'est--dire qu'ils sont
trs peu probables. En prsence de tels carts, nous sommes ports rejeter
l'hypothse nulle.
Nous mesurons l'ensemble des carts entre les effectifs thoriques et les
effectifs observs par une mesure globale, le F2. La thorie des probabilits
permet de dire entre quelle et quelle valeurs, la valeur de F2 devrait
normalement (avec une probabilit leve) se tenir, et de dterminer des
points critiques comme ceux du tableau 1. 8.
Dans le problme que nous venons de traiter, le point critique est 7,82. Dans
un tel cas, deux situations peuvent alors se prsenter, et deux issues sont
possibles pour ce test :
a) toute valeur de F2 infrieure 7,82 est considre petite, dans le sens o
la probabilit d'avoir un tel F2 (infrieur 7,82) est grande ; dans ce cas,
on ne peut pas rejeter l'hypothse nulle. C'est le cas du problme
ci-dessus ;
b) toute valeur de F2 suprieure 7,82 est considre grande, dans le sens
o la probabilit d'avoir un tel F2 est petite ; dans ce cas, on doit rejeter
l'hypothse nulle ; ce sera le cas dans l'exemple ci-aprs (exemple 4).
Dans le tableau des points critiques, la dfinition d'une probabilit petite a
t fixe 5 %.
20
Dans l'exemple prcdent, la distribution tait celle d'une population idale ,

situation qui se rencontre souvent dans l'tude des rsultats d'un jeu de
hasard ou d'une exprience scientifique indfiniment rptable. L'hypothse
nulle, dans ce cas, portait sur les probabilits respectives de chaque classe.
Dans l'exemple que nous allons maintenant tudier, la population est relle et
ce sont les frquences relatives des diverses classes qui vont nous intresser.
Exemple 4
Supposons qu'on s'intresse la distribution des revenus des familles

immigrantes au Canada, afin de la comparer celle de l'ensemble des
familles canadiennes. Cette dernire nous est connue ; le tableau 1.9 la
donne pour 1985.
Pour la population des immigrants, les donnes ne sont pas connues. On
prlve donc, au hasard, un chantillon de 500 familles, et on dtermine la
distribution comme s'il s'agissait d'une population. On obtient les donnes du
tableau 1.10, fictives mais vraisemblables. Nous les exprimons aussi en
frquences pour les rendre comparables plus facilement celles du tableau 1.9.
L'examen de ces deux tableaux nous amne constater que les familles
immigrantes sont moins riches : elles ont une plus grande frquence de
revenus faibles et une plus petite de revenus levs. Mais cette affirmation,
vraie des 500 familles de l'chantillon, n'est peut-tre pas vraie de l'ensemble
de toutes les familles immigrantes au Canada. Il n'est pas impossible que
l'ensemble des familles immigrantes ait un revenu distribu de la mme
faon que celui de l'ensemble des familles canadiennes. Les diffrences
observes dans l'chantillon seraient alors le fruit du hasard. Pour rpondre
la question, nous allons utiliser le mme test d'ajustement, bas sur le
calcul du F2, que dans le premier exemple. Nous commenons, comme
toujours, par noncer l'hypothse nulle que nous allons tudier.
TABLEAU 1.9
Distribution des revenus (en milliers de dollars) des familles canadiennes 1985
Revenu
0-15
15-25
25-40
40-60
60+
TOTAL
Frquence
0,137
0,175
0,271
0,256
0,161
1,000
SOURCE : Statistique Canada
TABLEAU 1. 10
Distribution des revenus (en milliers de dollars) des familles immigrantes - 1985
Revenu
0-15
15-25
25-40
40-60
60+
TOTAL
Effectif
80
92
163
110
55
500
0,160
0,184
0,326
0,220
0,110
1,000
Frquence
1 Distributions
21
Hypothse nulle : Les revenus des familles immigrantes ont la mme

distribution de frquences que ceux des familles canadiennes, soit
0,137
0,175
0,271
0,256
0,161
Effectifs thoriques : L'hypothse nulle affirme toujours l'galit de deux

distributions, exprimes en probabilits ou en frquences ; toutefois le calcul
de F2 se fait toujours sur des effectifs. Une fois l'hypothse nulle nonce,
nous devons calculer les effectifs thoriques, qui correspondent la
rpartition de l'chantillon proportionnellement aux frquences nonces par
l'hypothse nulle. Dans notre exemple, on obtient
0,137 u 500
0,175 u 500
0,271 u 500
0,256 u 500
0,161 u 500
ou encore
68,5
87,5
135,5
128
80,5
Le tableau suivant prsente les donnes ncessaires au calcul de F2

TOTAL
Effectifs observs
Effectifs thoriques
80
92
163
110
55
500
68,5
87,5
135,5
128
80,5
500
Calcul de F2
X
80 68, 5 2
68 , 5
92 87 , 5 2
!
87 , 5
55 80 , 5 2
80 , 5
1, 93 0 , 23 5 , 58 2 , 53 8 , 08
18 , 35
Nombre de degrs de libert : Il y a 5 classes dans la distribution ; le nombre
de degrs de libert est donc
Q=51=4
Le point critique correspondant est 9,49.
Conclusion : La valeur de F2 obtenue, 18,35, est suprieure au point critique
(18,35 > 9,49). Nous devons donc rejeter l'hypothse nulle et conclure que le
revenu des familles immigrantes n'est pas distribu de la mme manire que
celui des familles canadiennes. (Le hasard seul ne peut expliquer l'cart
observ entre les deux distributions.)
i
22
Mise en garde Le test d'hypothse dcrit dans cette section est bas sur des
calculs approximatifs qui ne sont valables que lorsque les effectifs sont
grands. En pratique, on vite d'employer ce test si certains effectifs thoriques
sont infrieurs 5 (ou encore on regroupe des classes afin que tous les
effectifs thoriques soient au moins gaux 5).
RSUM
1. Les lments d'une population sont appels units statistiques. Une
variable fait correspondre une valeur chaque lment de la population.
Une variable est dite qualitative ou quantitative selon que ses valeurs
reprsentent des qualits ou des quantits. Une variable quantitative est
dite discrte si elle ne peut prendre que des valeurs isoles ; elle est dite
continue si elle peut, thoriquement, prendre pour valeur tout nombre
rel compris dans un intervalle.
2. Une distribution fait correspondre chaque valeur x d'une variable X un
effectif ou une frquence, c'est--dire le nombre ou la proportion des
units statistiques pour lesquelles X prend la valeur x. La somme des
effectifs est appele l'effectif total. La somme des frquences est
toujours gale 1. Lorsque les valeurs d'une variable sont trs
nombreuses, on les groupe en classes, et c'est ces classes que la
distribution fait correspondre des effectifs ou des frquences.
3. Le diagramme btons est une reprsentation graphique qui s'applique
aux variables qualitatives et aux variables quantitatives discrtes dont
les valeurs sont relativement peu nombreuses (figure 1.2). Pour les
variables dont les valeurs sont groupes les variables continues et les
variables discrtes valeurs nombreuses l'histogramme est une
reprsentation graphique approprie (figure 1.4). Dans un histogramme,
c'est la surface du rectangle et non sa hauteur qui est proportionnelle
la frquence (figure 1.5). Le polygone des frquences se construit en
joignant les milieux des cts suprieurs des rectangles d'un
histogramme (figure 1.6).
4. Pour tester une hypothse concernant la population d'o est issu
l'chantillon, on suit les tapes ci-dessous :
a) On formule une hypothse nulle, selon laquelle les frquences de la
distribution de la population sont gales certaines frquences
donnes.
1 Distributions
23
b) On dtermine les effectifs thoriques. Ce sont les effectifs qu'on

s'attend observer dans l'chantillon lorsque l'hypothse nulle est
vraie.
c) On mesure la distance entre les effectifs thoriques (T) et les
effectifs observs (O) par la quantit F2 :
F2
(O T ) 2
T
d) On rejette l'hypothse nulle si la valeur de F2 se rvle trop grande,

c'est--dire si elle est suprieure au point critique trouv dans le
tableau 1.8, o Q, le nombre de degrs de libert, est gal au
nombre de classes dans le tableau, moins 1.
Si l'on utilise la procdure dcrite, la probabilit de rejeter l'hypothse nulle
lorsqu'elle est vraie est peu prs de 5 %. L'approximation est d'autant
meilleure que les effectifs thoriques sont grands. Il est prfrable d'viter
d'employer le test lorsque certains effectifs thoriques sont infrieurs 5.
EXERCICES
POPULATION ET
VARIABLES
1. Dites lesquelles des variables suivantes sont respectivement quantitatives

ou qualitatives :
a) La superficie des lacs du Canada.
b) Le pays d'origine des immigrants.
c) La cause du dcs, pour l'ensemble des dcs dans un hpital.
d) Les effectifs tudiants dans les universits canadiennes.
e) Le nombre de tonnes kilomtriques transportes par les diffrentes
compagnies de camions.
f)
L'intensit, en ampres, d'un courant lectrique.
g) L'tat matrimonial des employs d'une compagnie.

h) Le quotient intellectuel des tudiants d'une universit.
i)
L'anciennet des employs d'une compagnie.
j)
L'allgeance politique des lecteurs.
24
Pour chacune de ces variables, donnez quelques-unes des valeurs

possibles. Dans le cas des variables quantitatives, dites si elles sont
discrtes ou continues.
DISTRIBUTIONS ET
REPRSENTATIONS
GRAPHIQUES
2. Parfois il nous est possible, en faisant appel ce que nous savons d'une
situation familire, de dcrire, a priori, la distribution approximative
d'une variable. Dans chacun des cas suivants, on dfinit une population
et une variable. Tentez de deviner l'allure de la distribution.
a) Population : l'ensemble des salaris de sexe masculin, vivant dans
des rgions urbaines du Canada. Variable : le salaire annuel.
b) Population : l'ensemble des naissances au Canada. Variable : l'ge de
la mre.
c) Population : un ensemble de 1000 Amricains et de 1000 Pygmes.
Variable : la taille.
d) Population : un ensemble de 1000 Amricains et de 1000 Franais.
Variable : la taille (Note : les Franais sont lgrement plus petits que
les Amricains).
e) Population : un ensemble de paquets de 12 oranges, forms partir
d'un grand lot d'oranges dont 5 % sont gtes. Variable : le nombre
d'oranges gtes.
f) Mmes donnes qu'en (e), sauf que le pourcentage d'oranges gtes
dans le lot est 50 %.
g) Population : 36 000 lancers d'un d. Variable : le rsultat du lancer.
h) Population : les soldats canadiens de sexe masculin. Variable : la
taille.
i) Population : les lves d'une classe. Variable : leur note un examen
difficile.
j) Population : des boulons produits par une mme machine. Variable :
leur diamtre, en millimtres.
1 Distributions
25
3. Voici le revenu net, exprim en pourcentage des ventes, de 150

compagnies multinationales :
4,9
2,4
9,8
3,8
7,7
6,0
3,3
3,6
4,7
6,9
5,2
2,6
2,9
4,8
9,0
4,3
1,6
2,6
0,8
4,1
4,8
4,4
4,5
3,6
8,2
2,4
3,3
10,3
4,4
5,3
11,6
7,7
4,6
5,6
3,7
5,2
6,4
2,4
0,6
4,6
6,9
0,1
3,5
1,0
3,1
8,2
2,9
6,7
4,5
4,4
5,3
5,7
2,3
4,6
1,4
1,8
5,9
6,5
5,1
6,8
7,8
7,6
7,7
10,8
4,8
2,4
2,0
3,2
4,1
4,5
3,5
3,9
7,9
2,0
5,5
4,8
5,9
1,3
3,9
7,9
0,8
7,4
9,9
3,4
4,4
3,2
11,1
3,6
5,6
2,0
8,2
4,9
4,3
3,3
3,0
5,0
0,3
7,7
4,9
6,2
3,2
4,7
7,9
5,5
8,8
5,7
2,3
3,5
1,5
10,9
4,1
4,2
4,7
0,7
3,5
2,8
4,4
5,9
6,0
6,8
8,1
4,1
8,0
2,8
9,4
5,2
5,4
5,4
0,6
3,9
8,4
2,0
6,7
3,8
1,8
8,3
2,8
2,8
10,3
0,6
3,4
3,7
3,8
4,3
6,5
1,6
8,3
10,4
5,6
4,6
a) Prsentez ces donnes sous la forme d'une distribution. Pour chaque

classe, donnez l'effectif et la frquence.
b) Reprsentez la distribution par un histogramme et par un polygone
des frquences. Construisez deux chelles verticales : l'une, gauche,
marquant l'effectif ; l'autre, droite, marquant les frquences.
4. Voici les gains hebdomadaires moyens (en dollars) dans 70 centres
urbains en 1988 :
390
385
418
368
341
427
471
401
519
467
561
427
433
451
411
407
387
451
419
387
467
402
388
379
506
602
376
465
459
502
531
571
393
412
437
617
512
407
519
392
491
552
439
475
462
501
392
419
571
437
718
513
491
567
431
438
368
337
415
352
438
467
550
318
439
398
519
539
315
475
Prsentez ces donnes sous la forme d'une distribution. Faites-en un

histogramme et un polygone des frquences.
26
5. Tracez le diagramme btons de la distribution suivante de 300

accouchements selon les jours de la semaine :
TEST DU KHI-DEUX
Jour
Lu
Ma
Me
Je
Ve
Sa
Di
TOTAL
Effectif
50
42
47
42
44
40
35
300
6. Supposons qu'un administrateur d'hpital vous demande de vrifier si les

accouchements, dont la distribution est donne dans le problme
prcdent, se rpartissent uniformment :
a) Formulez une hypothse nulle, d'abord dans le langage courant, puis
en termes d'une distribution.
b) Dterminez les effectifs thoriques. Expliquez en vos propres mots ce
que ces effectifs signifient.
c) Calculez F2.
d) Dites si la valeur de F2 est trop grande ou pas assez, et dites en quel
sens elle est trop grande ou pas assez .
7. Pour savoir si un d est bien quilibr, on le lance 36 fois, et on obtient
les rsultats suivants :
Rsultat
Frquence
TOTAL
219
7/36
1/4
1 112
5/36
1/9
Tracez le diagramme btons de la distribution et rpondez aux mmes

questions qu'au numro 6.
8. Il y a eu en une anne 33 540 naissances dans une province du Canada.
17 206 de ces naissances taient des garons et 16 334 des filles. Est-ce
un simple hasard que le nombre de garons et de filles ne soit pas le
mme ? Formulez clairement votre hypothse et explicitez votre
dmarche.
9. Au numro 8, l'cart entre la distribution observe et la distribution
thorique a t trs significatif dans le sens o la valeur calcule de F2
tait de beaucoup suprieure au point critique. Pourtant, la proportion
observe de garons, 17 206 / 33 540 = 51,3 %, n'est pas trs loigne
de 1/2. Quel sens donnez-vous alors trs significatif ?
1 Distributions
27
10. Pour comparer l'aptitude en mathmatiques des Orientaux celle des

Amricains de race blanche, Tsang (1984) a examin les rsultats d'un
chantillon de 10 097 tudiants orientaux au test de mathmatiques du
SAT (Scholastic Aptitude Test). La distribution des scores est donne dans
le tableau suivant, qui prsente galement la distribution, en frquences,
des scores de tous les Amricains de race blanche.
Orientaux
Amricains blancs
(effectifs)
(frquence)
700-800
601
0,045
600-690
2 001
0,172
500-590
3 190
0,314
400-490
2 788
0,301
300-390
1 309
0,148
200-290
208
0,020
Score
Y a-t-il une diffrence significative entre les Orientaux et les Amricains

de race blanche ?
DIVERS
11. Pour savoir si un d est bien quilibr, on le lance 360 fois, et on obtient
la mme distribution qu'au numro 7. Rptez l'exercice. Pouvez-vous
expliquer les conclusions contradictoires ?
28
12. Le tableau suivant donne la distribution des revenus pour les gens ayant
un niveau d'instruction lmentaire (hommes et femmes) au Canada en
1984.
Distribution des revenus selon le sexe pour les gens ayant complt les seules tudes
lmentaires - Canada, 1984
Frquence
Revenu
Hommes
Femmes
0 - 1 000
0,028
0,055
1 000 - 5 000
0,085
0,235
5 000 - 10 000
0,315
0,472
10 000 - 15 000
0,121
0,136
15 000 - 20 000
0,119
0,059
20 000 - 25 000
0,111
0,025
25 000 - 30 000
0,092
0,008
30 000 - 35 000
0,082
0,006
35 000 - 50 000
0,047
0,004
SOURCE : Adapt de l'Annuaire du Canada, 1986-87
a) Faites un histogramme pour la distribution des hommes et un autre

pour celle des femmes.
b) Comparez ces deux distributions en utilisant leur polygone des
frquences.
1 Distributions
29
13. Faites un histogramme pour reprsenter la distribution de l'ge des

catholiques d'ge scolaire et prscolaire en 1979.
ge
Effectif
ge
Effectif
ge
Effectif
46 159
59 733
14
83 817
60 271
63 002
15
85 831
62 812
64 828
16
88 157
62 754
10
63 817
17
80 105
64 010
11
65 504
18
84 682
60 204
12
69 365
19
81 404
60 001
13
74 630
20
75 453
SOURCE : Le recensement scolaire. Document statistique 53, Direction des tudes conomiques et dmographiques, Secteur de la
planification, ministre de l'ducation du Qubec
14. En 1976, 184 939 femmes ges de 15 65 ans se sont maries au

Canada. Cette population de nouvelles maries est divise en trois
sous-populations : les clibataires, les veuves et les divorces. Voici la
distribution de l'ge pour chacune des sous-populations.
Rpartition des mariages au Canada selon l'ge et l'tat civil de l'pouse - 1976
tat civil
ge
Clibataires
15-19
44 827
20
86
44 933
20-24
81 345
175
2 558
84 078
25-29
21 774
391
6 162
28 327
30-34
5 216
394
4 785
10 395
35-39
1 768
425
2 958
5 151
40-44
833
529
2 121
3 483
45-49
521
795
1 589
2 905
50-54
383
932
1 125
2 440
55-59
265
1 041
563
1 869
60-64
176
947
235
1 358
Total
157 108
5 649
22 182
184 939
SOURCE : Annuaire du Canada, 1980-1981
Veuves
Divorces
Toutes
30
Comparez les trois distributions en construisant trois polygones des

frquences superposs.
15. Une quipe de chercheurs dispose de donnes sur la population
suivante : l'ensemble de tous les accidents qui ont eu lieu au Qubec en
1980 et qui ont entran des blessures corporelles. Pour la plupart des
variables, il tait ais d'obtenir les donnes pour la population entire.
Pour certaines autres variables, comme celles identifiant la position
exacte du vhicule lors de l'accident, il tait difficile d'en dterminer les
valeurs et on ne pouvait se permettre de le faire pour une population
entire. Il a donc fallu prlever un chantillon pour tudier la distribution
de ces variables-l. On a prlev un chantillon de 600 accidents.
Malheureusement, l'chantillon n'a pas t prlev de faon purement
alatoire, ce qui faisait douter de sa reprsentativit ; on a choisi une
variable particulire, la variable gravit de la blessure , dont on
connaissait la distribution pour la population entire ainsi que pour
l'chantillon. Les deux distributions sont les suivantes :
Blessure
Frquence
(population)
Frquence
(chantillon)
Mortelle
Trs grave
Grave
Pas grave
TOTAL
0,20
0,30
0,30
0,20
0,10
0,30
0,40
0,20
a) Formulez convenablement
reprsentatif.
l'hypothse
que
l'chantillon
est
b) Testez cette hypothse et exprimez clairement votre conclusion.

16. La population des mnages canadiens a t divise en deux
sous-populations : les mnages dont le chef de famille est un homme ;
les mnages dont le chef de famille est une femme. Voici
approximativement la distribution de l'ge du chef de famille pour les
deux sous-populations. (Les donnes, tires de l'Annuaire du Canada
1980-1981, ont t lgrement modifies pour les besoins de cet
exercice.)
1 Distributions
31
Rpartition des mnages canadiens selon l'ge et le sexe du chef de la famille - 1976 (en milliers)
Sexe du chef de famille
ge
Tous
Masculin
Fminin
15 - 24
431
154
585
25 - 34
1 457
222
1 679
35 - 44
1 185
154
1 339
45 - 54
1 115
190
1 305
55 - 64
841
238
1 079
65 - 74
567
286
853
75 - 84
153
172
325
5 749
1 416
7 165
Tous
Construisez deux polygones des frquences qui permettent de comparer

les deux populations. Interprtez les diffrences.
17. Une firme de comptables agrs est charge de surveiller un imprimeur
de billets de loterie. Les billets sont numrots de 10 000 99 999. L'un
de ces billets, choisi au hasard par l'imprimeur, doit tre le billet gagnant
du gros lot. Les comptables observent les billets gagnants de 72 loteries
conscutives. Leur objectif est de savoir si les numros gagnants sont
rellement choisis au hasard. Voici les donnes :
10 252
17 642
58 391
57 278
76 217
13 841
91 276
21 367
45 222
64 112
33 914
39 126
77 319
23 440
91 328
21 478
67 315
38 277
77 319
44 839
32 187
85 432
99 877
34 512
34 156
52 111
18 394
27 831
78 989
49 721
96 543
45 678
45 220
72 115
67 313
34 218
15 268
76 677
95 212
53 217
68 221
32 175
46 317
57 322
25 681
47 362
94 323
67 212
42 178
64 392
28 491
18 349
56 122
21 167
95 121
77 777
64 568
69 212
56 319
57 100
86 341
12 224
96 131
21 121
20 351
24 876
87 719
83 212
82 119
83 314
12 133
31 211
Quelle est votre conclusion ?
32
18. Les deux tableaux suivant prsentent la mme distribution, mais avec
des classes formes de faons diffrentes. Il s'agit de la distribution de
l'ge de la population canadienne de moins de 90 ans. Construisez, sur
la mme chelle, un histogramme correspondant chacun des tableaux.
(Un histogramme n'admet pas d'espaces vides entre les classes. Donc,
dans le graphique, les limites des classes ne devraient pas tre
identiques celles du tableau. Puisque l'ge signifie l'ge au dernier
anniversaire , les intervalles devraient tre [0, 5], [5, 10], etc.)
Deux distributions de l'ge, population canadienne de moins de 90 ans
ge
Effectif (en
milliers)
ge
Effectif (en
milliers)
0-4
1 816
0-4
1 816
5-9
2 254
5-9
2 254
10-14
2 311
10-14
2 311
15-19
2 114
15-19
2 114
20-24
1 889
20-24
1 889
25-29
1 584
25-29
1 584
30-34
1 305
30-34
1 305
35-39
1 264
35-44
2 527
40-44
1 263
45-54
2 292
45-49
1 239
55-64
1 732
50-54
1 053
65-89
1 707
55-59
955
TOTAL
21 531
60-64
777
65-69
620
70-74
457
75-79
326
80-84
204
85-89
100
TOTAL
21 531
1 Distributions
33
19. Dans le cadre d'une tude sur les habitudes de lecture des lves du
secondaire, des chercheurs ont fait complter un questionnaire 1 687
lves . Avant d'analyser les rponses aux questions principales - celles
traitant des habitudes de lecture - les chercheurs ont procd quelques
comparaisons entre les donnes de leur chantillon et celles du
recensement du Canada, afin de se rassurer sur la reprsentativit de
leur chantillon. L'une des variables examines est le sexe. Selon le
recensement, la proportion de garons dans la population est de 51,95 %.
Dans l'chantillon, le nombre de garons est de 847, soit 50,21 %.
L'chantillon semble-t-il reprsentatif ? (Qualifier un chantillon de
reprsentatif est un abus de langage, car le terme suggre que
l'chantillon est en tous points une rplique exacte de la population, chose
impossible. Voir le numro 15 pour une interprtation correcte du terme.)
20. Les chercheurs (numro 19) ont aussi tudi la rpartition de leur
chantillon selon le niveau scolaire et le sexe. Voici les distributions
conjointes qu'ils ont obtenues :
Population
chantillon
Sexe
Niveau
scolaire
Sec.1
0,104
0,088
Sec. 2
0,089
Sec. 3
0,106
Sec. 4
Sec. 5
TOTAL
Sexe
TOTAL
TOTAL
0,192
0,107
0,099
0,206
0,113
0,202
0,105
0,101
0,206
0,095
0,201
0,110
0,105
0,215
0,110
0,092
0,202
0,100
0,099
0,199
0,092
0,111
0,203
0,086
0,088
0,174
0,501
0,499
1,000
0,508
0,492
1,000
Rpondez la mme question qu'au numro 19.

21. Les chercheurs mentionns au numro prcdent ont examin aussi la
rpartition de l'chantillon et de la population selon l'ge. Voici les deux
distributions en pourcentages :
ge
12
13
14
15
16
17
18+
TOTAL
Population
13,53
19,47
20,79
20,58
16,83
5,81
2,55
99,56
chantillon
9,2
19,9
20,1
19,5
20,2
8,2
2,3
99,4
Rpondez la mme question qu'au numro 19.
Rapport d'enqute sur les habitudes de lecture des lves du secondaire, Direction gnrale du
dveloppement pdagogique, ministre de l'ducation du Qubec
34
22. Aprs avoir prlev un chantillon de familles dans la zone

mtropolitaine de Montral , des chercheurs se proposent d'valuer leur
procdure de slection de l'chantillon. Pour ce faire, ils examinent la
distribution de la variable scolarit du chef de mnage dans
l'chantillon et dans la population. Voici les deux distributions :
Scolarit
TOTAL
0-7 ans
8 ans ou plus
Recensement canadien
1971
242 187
307 544
549 731
Enqute sur les vacances

1978
162
625
787
Quelle est votre conclusion ?

23. Dans une tude clbre, des donnes ont t prleves sur 6 587
suicides en France. Voici la distribution des suicides selon le jour de la
semaine :
Jour
TOTAL
Effectif
1 001
1 035
982
1 033
905
737
894
6 587
a) Testez l'hypothse selon laquelle les suicides se rpartissent

uniformment sur les jours de la semaine.
b) Selon une certaine conjecture, les taux de suicide diminuent
l'approche d'un week-end. Plus prcisment, le taux quotidien global
pour l'ensemble des jours du vendredi au dimanche est infrieur au
taux quotidien global pour l'ensemble des jours du lundi au jeudi.
Est-ce que cette conjecture est vrifie par les donnes ?
c) Testez l'hypothse selon laquelle chacun des jours du lundi au jeudi
a le mme taux de suicide.
d) Testez l'hypothse selon laquelle chacun des jours du vendredi au
dimanche a le mme taux de suicide.
e) Essayez de rsumer en une phrase ou deux l'ensemble des
conclusions tires ci-dessus.
Vacances et tourisme, Cahier no 3, Centre de recherches urbaines et rgionales, les Presses de l'Universit du
Qubec.
1 Distributions
35
24. On affirme souvent que la qualit d'un produit manufactur dpend du

jour de la semaine o il a t fabriqu. Des donnes sont prleves pour
voir si c'est bien vrai. Au cours d'une longue priode, on inspecte la
production de 500 000 appareils de radio produits dans la mme usine :
90 000 ont t produits un lundi, 109 000 un mardi, 106 000 un
mercredi, 105 000 un jeudi et 90 000 un vendredi. De ces 500 000
appareils, 800 ont t trouvs dfectueux. Les 800 appareils dfectueux
se rpartissent comme ceci : lundi, 200 ; mardi, 144 ; mercredi, 128 ;
jeudi, 136 ; vendredi, 192.
a) Testez l'hypothse selon laquelle le taux de dfectuosit est le mme
pour tous les jours de la semaine.
b) Testez l'hypothse selon laquelle le taux de dfectuosit est le mme
le lundi et le vendredi.
c) Testez l'hypothse selon laquelle le taux de dfectuosit est le mme
le mardi, le mercredi et le jeudi.
d) Testez l'hypothse selon laquelle le taux quotidien global de
dfectuosit le lundi et le vendredi est le mme que le taux quotidien
global du mardi au jeudi.
*25. Les parts du march de 4 grandes marques de dtergent, A, B, C et D
sont, respectivement, de 10 %, 20 %, 30 % et 10 % ; une multitude
d'autres compagnies se partagent les 30 % qui restent. Le fabricant de la
marque A mne depuis plusieurs mois une campagne publicitaire dans le
magazine X. Pour valuer l'effet de cette publicit, il prlve un
chantillon de 500 lecteurs du magazine X, les interroge sur la marque
de savon qu'ils utilisent, et obtient les rsultats suivants :
Marque
Autres
TOTAL
Effectif
80
100
130
50
140
500
a) Supposons qu'une seule question intresse le fabricant de la marque

A : Les lecteurs du magazine X emploient-ils le savon A en plus
grande proportion que l'ensemble des consommateurs ? Faites un
test pour rpondre cette question.
b) Supposons qu'en a) vous avez conclu que les lecteurs du magazine X
utilisent effectivement le savon A en plus grande proportion. Est-ce
qu'on peut conclure que la publicit a un effet, ou bien est-ce que des
doutes raisonnables persistent ?
36
c) Supposons qu'en fait les lecteurs du magazine X emploient en plus

grande proportion le savon A, et supposons que ce sont les annonces
qui les ont attirs vers ce produit. Un analyste, en examinant les
donnes du tableau ci-dessus, conclut que ce sont surtout les
utilisateurs du savon C qui ont t attirs vers le savon A. Faites un
test pour savoir si cette conclusion est justifie.
*26. Au cours d'une ngociation, la partie patronale affirme que les employs
abusent des congs de maladie. Pour appuyer cette affirmation, elle
prsente les donnes suivantes, qui reprsentent la rpartition de 500
absences d'un jour, chacune sous prtexte de maladie. (Le patron a
dlibrment omis tous les cas d'absence de plus d'un jour la fois, car
il est prt concder que ceux-l sont rellement dus des maladies).
Jour
TOTAL
Effectif
129
80
82
81
128
500
Le patron fait remarquer que les absences sont particulirement

frquentes les lundis et vendredis, ce qui laisse souponner que dans
certains cas les absences n'avaient pour motif que celui de prolonger un
week-end.
a) Faites un test pour dterminer si les absences sont rellement plus
frquentes les lundis et vendredis.
b) Le syndicat accepte le rsultat en (a), mais il rplique que cela ne
dmontre pas qu'il y ait eu des abus. Son argument : il rappelle que
seules les absences d'un jour ont t retenues les absences de deux
jours conscutifs ou plus ont t omises, y compris celles du vendredi
au lundi suivant. Donc, les absences du mardi, du mercredi et du
jeudi reprsentent des maladies qui ont dur un seul jour, alors que
les absences du lundi et du vendredi comptent non seulement des
maladies d'un jour mais galement des maladies de 2 jours et de 3
jours. Le syndicat prlve alors des donnes sur la dure d'une
maladie mineure et trouve la distribution suivante :
Dure (en jours)
TOTAL
Frquence
0,5
0,2
0,1
0,2
Faites un test qui permet de dmolir l'argument du patron.
Mesures de tendance
centrale et de dispersion
2.1
2.2
2.3
2.4
2.5
2.6
Mesures de tendance centrale

La moyenne arithmtique
Le mode
La mdiane
Les quantiles
Mesures de dispersion
La variance
Calcul de la variance
L'cart interquartile
Cas d'une distribution
Le mode
La mdiane et les quantiles
La moyenne arithmtique
La variance
Les moustaches
Transformation linaire
Variable centre rduite ou cote Z
Moyennes pondres et moyennes ajustes
RSUM
EXERCICES
38
Introduction L'histogramme et le polygone des frquences permettent de

visualiser aisment les caractristiques essentielles d'une distribution. Ils
nous permettent d'identifier approximativement le point autour duquel les
valeurs se concentrent et dans quelle mesure elles se dispersent, de voir si la
distribution est symtrique ou non. Cependant, toute cette information,
qu'un graphique permet de saisir en un coup d'oeil, est ncessairement
imprcise. Nous attacherons donc une importance particulire aux
caractristiques que l'on peut mesurer. Une de ces caractristiques est la
tendance centrale ; une autre est la dispersion.
2.1
MESURES DE TENDANCE CENTRALE

La tendance centrale d'une distribution est la valeur autour de laquelle se
concentrent en gnral les donnes. Il y a plusieurs faons de rendre cette
notion prcise, c'est--dire, de la mesurer. Nous prsentons ici quatre
mesures de tendance centrale : la moyenne arithmtique, le mode, la
mdiane et les quantiles. Chacune de ces mesures rpond sa faon la
question trop vague : quel est l'ordre de grandeur d'une donne typique ?
La moyenne arithmtique La mesure de tendance centrale la mieux connue et

la plus importante est la moyenne arithmtique, ou moyenne tout court.
tant donn n nombres x1 , x 2 , , x n leur moyenne arithmtique x est dfinie
par :
n
x1 x 2 x n
i 1
En mots, la moyenne arithmtique est la somme des donnes, divise par le

nombre de donnes.
Remarque La notation (sigma) est explique en annexe pour ceux qui ne la
connaissent pas. Pour simplifier la notation nous nous permettrons, lorsque
cela ne risque pas de crer d'ambiguts, d'omettre l'indice et les bornes de
sommation. Ainsi, nous crirons :
ou
au lieu de
n
i 1
x i ou
x .
i
i 1
2 Mesures de tendance centrale et de dispersion
Exemple 1
39
Dans une rue o habitent 21 mnages, on prend note du nombre d'enfants

dans chaque mnage. On obtient les donnes suivantes :
0
La moyenne arithmtique du nombre d'enfants est :

x
0 111111 2 2 2 2 2 2 2 2 2 2 2 3 3 4
21
38
21
1, 8
Le nombre moyen d'enfants est de 1,8. La figure 2.1 illustre la distribution

du nombre d'enfants. La position de la moyenne montre bien qu'il s'agit d'un
nombre autour duquel les donnes se concentrent.
i
La notion de moyenne prsente beaucoup d'analogies avec la notion de
centre de gravit que l'on rencontre en physique. Si l'on imagine que chaque
bton d'un diagramme a une masse proportionnelle sa hauteur et que l'on
dsire que le diagramme puisse se tenir en quilibre sur un pivot plac sous
l'abscisse, c'est sous x que le pivot doit tre plac.
Le mode Dans la figure 2.1, on constate que la valeur 2 est trs frquente,
et on pourrait bien vouloir la considrer comme valeur centrale. Ce genre de
situation se rpte assez souvent pour justifier l'introduction d'une nouvelle
mesure de tendance centrale, le mode. Le mode est la valeur de la variable
ayant la plus grande frquence.
40
FIGURE 2.1
Distribution du nombre d'enfants
Nombre de mnages
12
10
8
6
4
2
0
0
Exemple 2
2
3
1,8
Nombre d'enfants
Le mode ne se rvle utile que lorsqu'il est plutt prononc, sinon il joue mal
son rle de mesure de tendance centrale. Considrez les donnes suivantes :
3 3 14 15 16 17 18 19 20
Leur mode est 3, mais on peut difficilement dire que c'est une valeur centrale
ou une valeur reprsentative de l'ensemble des donnes.
i
Exemple 3
Le mode a l'avantage d'tre utilisable avec les donnes qualitatives. Ainsi la

variable langue maternelle au Qubec a pour mode le franais .
i
Exemple 4
Dans certaines situations, ni le mode ni la moyenne arithmtique ne peuvent

servir de mesure de tendance centrale. Considrez les revenus annuels de
douze ouvriers et celui du propritaire d'une usine (en milliers de dollars) :
24,0 24,4 24,8 25,0 25,6 26,2 26,4 27,0 27,2 27,6 28,0 28,4 157,5
Chaque donne est un mode, de sorte que cette mesure est ici sans intrt.
Quant la moyenne arithmtique, elle vaut 36,3, un nombre loign de
toutes les donnes. L'utilisation d'une autre mesure de tendance centrale
semble ici souhaitable.
i
Remarque Il arrive parfois que deux ou plusieurs valeurs soient les plus
frquentes, ex quo. Chacune de ces valeurs est alors un mode et on a affaire
une distribution bimodale ou multimodale.
41
La mdiane La mdiane est la donne qui se situe au centre de la srie

lorsque celle-ci est crite en ordre croissant ou dcroissant. Par exemple, la
mdiane des donnes
2
5
6
9
11
est 6. Lorsque le nombre de donnes est pair, on dfinit la mdiane comme
la moyenne arithmtique entre les deux donnes centrales. Par exemple, la
mdiane des donnes
1
2
4
6
8
9
13 14 17 20
est
89
8 , 5.
2
L'avantage principal de la mdiane, par rapport la moyenne arithmtique,
est qu'elle n'est pas indment influence par quelques donnes extrmes. La
mdiane des donnes de l'exemple 4 est 26,4, une valeur plus raisonnable
que la moyenne arithmtique de 36,3.
Les quantiles La mdiane spare l'ensemble de toutes les valeurs de la

variable en deux groupes d'gale frquence (soit 1 ). Il s'avre intressant de
2
gnraliser ce concept pour obtenir des points qui divisent les valeurs en n
groupes d'gale frquence. C'est ainsi qu'on obtient la notion de quantile.
De faon gnrale, si D est un nombre compris entre 0 et 1, le quantile
d'ordre D est le point tel qu'une proportion D des donnes se trouve en
dessous et une proportion 1 D se trouve au-dessus . En pratique, on
utilise les quantiles suivants :
x
les quartiles Q1, Q2, Q3 qui sont les quantiles d'ordre
, ...,
Notons
que Q2 n'est autre que la mdiane ;

x
les dciles D1, D2, ..., D9 qui sont les quantiles d'ordre
x
les centiles C1, C2, ..., C99 qui sont les quantiles d'ordre
10
1
100
10
100
10
, ...,
;
99
100
42
Exemple 5
Considrons les 27 donnes suivantes :

1 1 2 3 3 4 4 5 5 5 5 5 5 6 6 6 7 7 7 8 9 9 9 9 9 9 9
Alors Q1 = 4, Q2 = 6, Q3 = 9. En effet, Q1 est la 7e donne, Q2 est la 14e et Q3
la 21e. En gnral, on se convaincra aisment que, quand les n donnes sont
ordonnes, le quantile d'ordre D est
x
x
2.2
soit la donne dont le rang est l'entier le plus prs de Dn
1
2
soit, si Dn est entier, la moyenne des donnes de rangs respectifs Dn

et Dn 1 .
i
MESURES DE DISPERSION
Une moyenne donne l'ordre de grandeur d'un ensemble de donnes, mais
cette information se rvle presque toujours insuffisante. Considrez, par
exemple, une classe dont la moyenne un examen est 60. Cette classe peut
tre forme presque entirement d'lves trs faibles et d'lves trs forts. Le
nombre 60 n'tant qu'une moyenne, il peut cacher plusieurs ralits. Un
indice de la dispersion des donnes par rapport la moyenne s'impose.
On se convaincra, dans les trois exemples qui suivent, qu'une moyenne qui
n'est pas accompagne d'un indice de dispersion est beaucoup moins
loquente.
Exemple 6
Un patient apprend de son mdecin que sa pression intra-oculaire est de 19

alors que la pression moyenne pour ceux de son ge et de son sexe est
de 17. Que peut-il conclure ? Le fait que ce patient s'carte de la moyenne
n'est pas ncessairement inquitant, puisqu'en gnral, les donnes d'une
population sont presque toutes distinctes de la moyenne. Mais s'carte-t-il
trop de la moyenne ? Pour le savoir, il faudrait qu'il sache de combien les
autres membres de la population s'cartent de la moyenne. En d'autres
termes, il lui faut une mesure de la dispersion des donnes par rapport la
moyenne.
i
Exemple 7
La temprature moyenne Montral est de 6,9qC. Cela n'empche pas la

temprature de baisser 30qC en hiver et de monter 30qC en t.
i
Exemple 8
Le service d'urgence d'un hpital traite en moyenne 5 patients par heure.

Puisque la dispersion du nombre d'arrives de malades ou de blesss est en
gnral trs grande, il se peut trs bien que, durant une certaine heure, il n'y
43
ait qu'une seule arrive ou mme aucune et que, durant l'heure suivante il y
en ait 10 ou 15. Si l'on veut viter que le service soit trop souvent dbord,
on doit l'organiser de telle sorte qu'il soit en mesure de traiter, par moments,
beaucoup plus que 5 patients par heure. La demande moyenne d'un service
est un indice inadquat des ressources ncessaires sa prestation.
i
La variance Soit xl, x2, ..., xn une srie de n donnes et x leur moyenne. La
variance s2 de ces donnes est la moyenne arithmtique des carrs des
carts la moyenne :
s
( xi
x)
n
L'cart-type s est la racine carre de la variance :
( xi
x)2
n
C'est l'cart-type que nous utiliserons comme mesure de dispersion.

Exemple 9
Les donnes
3
ont pour moyenne x
calculs) :
s
5 . Leur variance est (voir le tableau 2.1 qui illustre les
( 3 5) 2 ( 4 5) 2 ( 4 5) 2 ( 4 5) 2 ( 6 5) 2 ( 9 5) 2
6
4 1 1 1 1 16
6
4
44
TABLEAU 2.1
Calcul de s2
xi
xi x
( xi x ) 2
3
4
4
4
6
9
2
1
1
1
1
4
4
1
1
1
1
16
24
( xi x ) 2
Distribution des donnes
3
2
Effectifs
FIGURE 2.2
0
1
x 2s
xs
Leur cart-type est donc : s
x
4
xs
x 2s
10
11
x 3s
La figure 2.2 illustre la distribution de ces donnes au moyen d'un

diagramme btons. L'abscisse du graphique a t gradue en utilisant x et
s afin de bien montrer leur rle respectif dans la description numrique de la
distribution.
i
45
L'interprtation de la valeur d'un cart-type n'est pas aussi aise que celle
d'une moyenne. En comparant les carts-types de deux sries de donnes,
on peut arriver certaines conclusions qualitatives.
Exemple 10 Voici les revenus moyens des familles pour 5 rgions du Canada, en 1951 et
en 1978 en dollars constants (1971) :
Rgion
Atlantique
Qubec
Ontario
Prairies
ColombieBritannique
1951
3 810
5 337
5 913
4 940
5 559
1978
9 744
11 569
12 921
12 129
13 320
L'cart-type est de 723,44 $ en 1951 et de 1 253,99 $ en 1978. Puisque

l'cart-type est ici une mesure des disparits entre les rgions, on peut
conclure que ces disparits se sont largies entre 1951 et 1978. Il faut noter,
cependant, que mme en dollars constants, les revenus sont en moyenne
beaucoup plus levs en 1978. On trouve en effet x = 5 111,80 $ en 1951 et
x = 11 936,60 $ en 1978.
Mme si, numriquement, l'cart-type est plus grand en 1978 qu'en 1951,
on observe cependant que l'cart-type relatif s X qui tait de 0,142 en 1951
n'tait plus que de 0,105 en 1978. Les valeurs de 1978 sont donc
relativement moins disperses que celles de 1951.
i
En somme, la comparaison des cart-types doit tre relativise pour les
ordres de grandeur ; aprs tout, exprims en grammes, les poids d'un
chantillon d'lphants seront infiniment plus disperss que ceux d'un
chantillon de souris... ce qui ne veut pas dire qu' en soi les poids des
lphants sont plus disperss que ceux des souris.
Calcul de la variance La formule

s2
( xi
x)
n
pour la variance d'une srie de donnes constitue la dfinition de la variance
et elle montre clairement ce que la variance mesure. Comme formule de
calcul, cependant, elle ne se rvle pas trs pratique. D'autres formules,
quivalentes celle-ci, sont en gnral plus faciles utiliser. En voici
quelques-unes :
46
x i2
nx 2
n
x i2
s2
( xi ) 2 / n
n
x i2
s2
x2
n
s2
TABLEAU 2.2
x2 x2
Calcul d'une variance

xi
x i2
3
4
4
4
6
9
9
16
16
16
36
81
174
30
Ainsi, par exemple,
s
2
i
(
x )
i
/n
174 900 / 6
174 150
4.
Remarque Si l'on dispose d'une calculatrice qui possde au moins deux

mmoires, l'emploi de ces dernires formules vite d'avoir introduire deux
fois la liste des observations. On peut en effet affecter une mmoire au calcul
de x i2 et une autre celui de x i . Ces deux sommes, convenablement
traites, permettent d'obtenir rapidement la variance s 2 . Cette procdure est
schmatise par le tableau 2.2 (o l'on reprend les donnes de l'exemple 9).
Remarque Une mise en garde s'impose : ne jamais arrondir trop tt les
rsultats intermdiaires. L'exemple 11 illustre le genre de pril auquel on
s'expose en arrondissant trop la valeur de x dans le calcul de s 2 .
47
Exemple 11 Considrons les trois observations suivantes :

136 137 139
2
Un calcul rapide donne x = 137,333 3 ... et x

s2
x2 x 2
trouve s
= 18 862. On obtient donc
1, 555 5 ..., ce qui est correct. Si l'on arrondit x 137,3, on

18 862 (137 , 3 )
10 , 71 , valeur prs de 7 fois trop grande et
carrment errone. Une imprcision apparemment anodine sur la valeur de

x peut facilement ruiner, comme on le voit, le calcul de s 2 .
i
Remarque On aura sans doute trouv naturelle notre dfinition de la vari1
ance comme une sorte de moyenne ( ) des carrs des carts la moyenne
n
(( x i x ) 2 ) . Certains auteurs et certains fabricants de calculatrices, toutefois,
utilisent plutt un facteur
dans cette dfinition. Nous reviendrons au

n 1
chapitre 8 sur les raisons techniques, qui motivent le choix de l'une ou l'autre
de ces formules. Qu'il vous suffise, pour l'instant, de vrifier quelle formule est
utilise dans votre calculatrice.
L'cart interquartile Il arrive que l'information donne par x et s ne fournisse

pas un portrait aussi prcis qu'on le voudrait de la ralit : c'est
particulirement vrai lorsqu'il y a plusieurs donnes extrmes ou quand la
distribution est trs peu symtrique. On utilise alors l'cart interquartile, E,
dfini par
E = Q3 Q1
Les deux exemples qui suivent montrent bien comment l'cart interquartile
mesure la dispersion de la population, en valuant la largeur de l'intervalle
qui contient la moiti des valeurs et en ngligeant les valeurs extrmes.
Exemple 12 Considrons les donnes suivantes :
2 2 2 2
22
Selon la rgle nonce la page 42, le rang du 1er quartile est l'entier le plus
prs de 9/4 + 1/2, soit 3. On voit que Q1 = 2, Q2 = 3 et Q3 = 4. Donc
E = 4 2 = 2.
i
48
Exemple 13 Avec les donnes suivantes,

8 1
22
on trouve, en procdant de faon analogue,

i
E = Q3 Q1 = 6 2 = 4.
Remarque On utilise quelquefois, mais beaucoup plus rarement, l'cart

interdcile (D9 D1) et l'cart intercentile (C99 C1).
2.3
CAS D'UNE DISTRIBUTION

Dans les sections prcdentes, on a dfini les mesures de tendance centrale
et de dispersion pour une srie de donnes x1 , x 2 ..., x n . Ces notions
s'appliquent galement aux distributions, puisque la diffrence entre une distribution et une srie de donnes est une simple question de prsentation.
Exemple 14 Considrons la distribution suivante du nombre d'enfants dans les mnages

d'une rue :
Nombre d'enfants
TOTAL
Effectif
11
21
On peut dterminer les mesures de tendance centrale et de dispersion

l'aide des dfinitions et formules des sections prcdentes ; il suffit de
prsenter cette distribution sous sa forme originale, celle d'une srie de
donnes :
0 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 3 3 4
En pratique, cette opration est inutile, souvent trs laborieuse et parfois
impossible. On peut trouver directement les mesures de tendance centrale et
de dispersion l'aide de procds ou de formules que l'on dduit facilement
de ceux des sections prcdentes.
i
Le mode Le mode se trouve plus aisment partir d'une distribution qu'

partir d'une srie de donnes. Dans l'exemple 14, le mode est videmment 2,
car cette valeur, observe 11 fois, est la plus frquente.
49
Dans le cas d'une distribution o les valeurs sont groupes, nous ne

parlerons pas de mode, mais plutt de classe modale. Si les classes sont
toutes de mme largeur, la classe modale est celle qui a le plus grand effectif
ou la plus grande frquence. Si les classes sont de largeur variable, on se
rfre l'histogramme et la classe modale correspond alors au rectangle le
plus lev. Dans l'exemple illustr par la figure 1.5 (page 12), la classe
modale est l'intervalle (20, 25), mme si la classe (25, 35), qui est deux fois
plus large, a un effectif suprieur.
La mdiane et les quantiles On peut reprer la donne centrale ou les

donnes centrales sans ranger les donnes en srie. Dans l'exemple 14, on
sait que la mdiane est la 11e donne. La premire est un 0 ; les 6
suivantes sont des 1 ; ensuite, de la huitime la dix-huitime, les
donnes sont des 2 . Donc, la onzime donne est un 2 , et c'est la
mdiane. De faon tout fait analogue, on voit que le ler quartile Q1 est 1 ,
et le 3e, Q3, est 2 .
Pour les valeurs groupes, la mdiane et les divers quantiles peuvent tre
estims, par interpolation. Comme l'illustre l'exemple 15, l'ide de base consiste faire comme si les observations de chaque classe taient uniformment
rparties dans cette classe. Graphiquement, aprs avoir identifi la classe
contenant la mdiane ou le quantile cherch, il suffit de dterminer quel
endroit il faut dcouper l'histogramme pour que la surface de la partie
gauche reprsente exactement la proportion dsire de la population.
Exemple 15 Supposons que l'on cherche Q1 et Q3 de la distribution suivante :
x
Frquence
0dx5
5 d x 10
10 d x 15
15 d x 20
20 d x 25
0,10
0,17
0,34
0,31
0,08
On voit immdiatement que Q1 est dans la deuxime classe, Q3 dans la

quatrime. En effet, puisque les trois premires classes contiennent une
proportion totale de 61 % de la population et les quatre premires 92 %, c'est
donc dans le quatrime que se situe le point sous lequel il y a 75 % de la
population, c'est--dire Q3.
50
Recherche de Q1
Prsentons d'abord le problme graphiquement :
FIGURE 2.3
10
15
20
25
Q1
On voit que la rpartition de l'aire ombrage correspond l'quation suivante :
0,25 = (aire du ler rectangle) + (aire de la partie du 2e rectangle gauche de
Q1).
Le rapport de cette dernire aire sur l'aire totale du 2e rectangle (soit 0,17)
est gal au rapport de la longueur Q1 5 sur la longueur (5) de la base.
L'quation peut donc se rcrire
0 , 25
0 ,10
Q1 5
( 0 ,17 ) .
5
Aprs quelques manipulations algbriques, on trouve
Q1
5 ( 0 , 25 0 ,10 )
5
0 ,17
| 9 , 41.
Recherche de Q3
Un raisonnement et un calcul analogues nous donnent
Q3
5 ( 0 , 75 0 , 61)
15 | 17 , 26
0 , 31
On notera que le terme 0,61 correspond la frquence totale des classes qui
prcdent la quatrime.
i
51
La moyenne arithmtique Soit x1 , x 2 , ..., x k , les valeurs distinctes d'une

variable, n1 , n 2 , ..., n k les effectifs correspondants, et n
ni
. Alors la
moyenne arithmtique est donne par :

k
xi ni
x
i 1
.
n
Exemple 16 Considrons les donnes de l'exemple 14 ; on peut les prsenter en un

tableau :
Donc x
xi
ni
xi ni
0
1
2
3
4
TOTAL
1
6
11
2
1
21
0
6
22
6
4
38
38 21 | 1, 8 .
Remarquez que la formule ci-dessus peut s'crire

k
ni
x n
i 1
Posons f i
n i n ; f i est la frquence de la valeur x i . On peut calculer la
moyenne arithmtique partir des frquences seulement : les effectifs ne

sont pas indispensables. Si f 1 , f 2 , ..., f k sont les frquences des valeurs x1 ,
x 2 , ..., x k , alors la moyenne arithmtique est donne par :
x
x f
i
Lorsque les valeurs sont groupes, les mmes formules s'appliquent, sauf
qu'alors les x i reprsentent les points milieux des classes. Dans ce cas, la
valeur qu'on obtient pour x n'est qu'une approximation de la vritable
moyenne. On a d faire comme si les observations de chaque classe taient
52
uniformment rparties l'intrieur de cette classe (ou comme si elles

taient toutes concentres au centre de la classe). Avec des donnes
groupes, c'est le mieux qu'on puisse faire. Il va de soi que si l'une des
classes extrmes se rend jusqu' l'infini, son point milieu doit tre remplac
par une valeur raisonnable.
La variance Soit x1 , x 2 , ..., x k les valeurs d'une variable, n1 , n 2 , ..., n k les

f 1 , f 2 , ..., f k les frquences. On peut dduire plusieurs formules
effectifs et
pour la variance des formules de la section prcdente :

2
s2
( xi x ) ni
n
2
( xi x ) f i
2
x i n i x i n i
n
2
i
2
x fi x
x2 x 2 .
Exemple 17 Voici la distribution du revenu familial de 1 000 Qubcois dont le revenu,
en 1981, tait compris entre 2 000 $ et 25 000 $.
Revenu X
(en milliers de dollars)
2dx<4
4dx<6
6 d x < 10
10 d x < 15
15 d x < 20
20 d x < 25
Point milieu
3,0
5,0
8,0
12,5
17,5
22,5
Effectif
100
116
177
225
217
165
1 000
La figure 2.4 reprsente l'histogramme de cette distribution :
Frquence
0,100
0,116
0,177
0,225
0,217
0,165
1,000

FIGURE 2.4
53
Distribution du revenu familial de 1 000 Qubcois
100 116
177
225
10
217
15
165
20
25
Comme le montre clairement l'histogramme, c'est la classe (4, 6) qui est la

classe modale mme si ce n'est pas cette classe qui a reu le plus
d'observations. En effet, les six classes tant de largeur respective 2, 2, 4, 5,
5 et 5, les hauteurs des rectangles de l'histogramme sont respectivement
proportionnelles :
50 58 44,25 45 43,4 33
C'est donc le second rectangle qui est le plus haut.
La moyenne arithmtique peut tre estime par
x
x i ni
n
(3 u 100) (5 u 116) (8 u 177) (12,5 u 225) (17,5 u 217) (22,5 u 165)
1 000
12 618 , 5
1 000
12 , 618 5
ou encore par :
x
xi f i
( 3 u 0 ,100 ) ( 5 u 0 ,116 ) ( 8 u 0 ,177 ) (12 , 5 u 0 , 225 ) (17 , 5 u 0 , 217 ) ( 22 , 5 u 0 ,165 )
12 , 618 5
54
De mme, x 2 peut tre estim par :

x
xi f i
2
( 3 u 0 ,100 ) ( 5 u 0 ,116 ) ( 8 u 0 ,177 ) (12 , 5 u 0 , 225 ) (17 , 5 u 0 , 217 )

( 22 , 5 2 u 0 ,165 )
200 , 271 75
On obtient donc s 2
x2 x 2
41, 045 2 et s
s2
6 , 406 7 .
i
Rappelons encore que la moyenne et la variance calcules partir de

donnes groupes ne constituent que des approximations des valeurs
vritables qui, elles, sont inaccessibles puisqu'on ne dispose pas de la liste
dtaille de toutes les observations individuelles.
Les moustaches Les techniques descriptives reprsentent toujours un

compromis : entre la ncessit de condenser les donnes et celle de prserver
l'information, et entre l'attrait visuel d'un dessin et la prcision des mesures
numriques. On peut imaginer plusieurs prsentations intermdiaires entre
la distribution complte, d'une part, et une ou deux mesures statistiques,
d'autre part. Une tendance moderne consiste rsumer les donnes par cinq
indices : le centre des donnes, leurs limites et les limites de la moiti
centrale des donnes. Le choix le plus naturel serait la mdiane, les limites
infrieure et suprieure des donnes, et le premier et troisime quartiles.
Ainsi, on sparerait la distribution en quatre classes de frquences gales.
Cette approche est attrayante par sa simplicit et s'avre satisfaisante dans
la plupart des cas. Nous ne la prsentons pas ici, cependant, car elle est un
peu trop simple : elle peut l'occasion cacher certaines caractristiques qui
mritent d'tre mises en vidence. En particulier, elle ne permet pas de
dtecter des donnes exceptionnelles extrmement grandes ou
extrmement petites. De telles donnes sont significatives et on a intrt
les isoler et les examiner de prs.
55
Considrons les donnes suivantes, qui reprsentent les revenus annuels, en

milliers de dollars, de 29 fermes :
1,3
1,7
1,9
3,1
4,2
4,5
9,4
10,3
10,4
21,7
22,2
24,8
29,0
29,5
29,7
33,5
37,5
38,7
44,4
46,3
49,2
58,3
60,9
61,8
70,0
71,1
85,9
169,3
181,6
Ces donnes sont prsentes dans l'histogramme de la figure 2.5, dans

lequel on voit que certaines des donnes sont excessivement grandes. La
mdiane n'est pas affecte par ces donnes extrmes ; ce sera donc le
premier repre. La mdiane est la 15e donne, soit 29,7.
Il serait naturel ensuite de considrer Q1 et Q3 comme autres repres. Mais
pour des raisons que nous ne discuterons pas ici, nous choisirons plutt
deux autres points, gnralement assez semblables Q1, et Q3, que nous
appellerons charnires. Ce sont les mdianes des deux moitis de donnes
spares par la mdiane. La situation est schmatise par la droite suivante,
o l'chelle est celle des rangs et non celle des donnes :
Donne
1,3
10,3
29,7
58,3
181,6
Rang
15
22
29
L'une des charnires est la mdiane des donnes de rang 1 15, l'autre est
celle des donnes de rang 15 29. Ce sont donc les donnes de rang 8 et de
rang 22, soit 10,3 et 58,3. Les chiffres 10,3 ; 29,7 et 58,3 situent les donnes
centrales.
FIGURE 2.5
Revenus annuels de 29 fermes

8
7
6
Effectif
56
5
4
3
2
1
0
20
40
60
80
100 120
Revenus
140
160
180
200
Nous devons ensuite dterminer des nombres qui situent les extrmits de la
distribution. Comme nous l'avons dit plus haut, la plus petite et la plus
grande donnes pourraient servir, 1,3 et 181,6 dans l'exemple. Mais nous ne
sommes pas trs satisfaits du chiffre 181,6 : c'est bien la plus grande
donne, mais elle est beaucoup trop grande. La prsenter comme limite, c'est
cacher le fait que trs peu de donnes sont de cet ordre de grandeur. Nous
cherchons plutt des limites normales , donc des points qui ne s'loignent
pas trop des charnires. Pour des raisons thoriques, nous dfinirons une
distance normale comme une distance qui ne dpasse pas une fois et demie
l'cart entre les charnires. Dans les donnes ci-dessus, l'cart entre les
charnires est
58,3 - 10,3
48
et donc un cart normal aux charnires est

1,5 u 48 72 .
Toutes les donnes qui s'cartent de la charnire la plus proche de plus de

72 seront considres anormales et donc isoles. L'intervalle l'intrieur
duquel toutes les donnes sont normales est donc
(10,3 - 72 ; 58,3 72) ,
soit
(-61,7 ; 130,3) .
57
FIGURE 2.6 Moustache reprsentant les revenus annuels de 29 fermes (en milliers de dollars)
0
1,3 10,3
25
29,7
50
75
58,3
100
125
150
85,9
175
200
169,3 181,06
Nous n'allons pas nous en tenir ces limites, pour des raisons videntes la
premire limite est ngative, ce qui n'a pas de sens ; et les deux sont trop
loignes des donnes contenues dans l'intervalle. Nous prsenterons plutt
la plus petite donne et la plus grande donne comprises dans cet intervalle.
La plus petite donne dans l'intervalle (-61,7 ; 130,3) est 1,3 ; la plus grande
est 85,9. Nous prsenterons donc, en dfinitive, les cinq repres suivants :
1,3 ; 10,3 ; 29,7 ; 58,3 ; 85,9.
Nous ajoutons cela l'information qu'il y a deux donnes extrmes, soit :
169,3 et 181,6
Ces chiffres les cinq repres et les deux donnes extrmes peuvent tre
prsents dans un graphique comme celui de la figure 2.6, un type de
graphique que nous appelons moustache. Le rectangle, dont les cts
gauche et droit reprsentent les deux charnires, est divis par une droite
verticale situe au niveau de la mdiane. Des tiges s'tendent vers la gauche
et vers la droite, la premire aboutissant la limite infrieure 1,3 ; la
seconde la limite suprieure 85,9.
Une moustache rvle les caractristiques essentielles d'une distribution : le
rectangle est long ou court selon que les donnes sont concentres ou
disperses ; la position du rectangle est celle de la partie centrale des
donnes. En particulier, lorsque la distribution est symtrique, la barre se
trouve en plein centre et ses deux parties sont gales. Mais une moustache
n'est pas uniquement visuelle : une chelle permet de reprer les cinq
indices et les donnes extrmes. La moustache permet de voir qu'environ la
58
moiti centrale des donnes se situe entre 10,3 et 58,3 (ou peu prs, selon
le dtail de l'chelle) ; que presque toutes les donnes sont entre 1,3 et 85,9 ;
et que celles qui ne s'y trouvent pas sont 169,3 et 181,6.
Dans n'importe quelle analyse, des donnes telles que ces deux dernires ne
doivent pas passer inaperues. Dans cet exemple, nous devrions tenter
d'expliquer pourquoi ces fermes sont si grandes compares aux autres. Les
chiffres sont-ils errons ? Si non, s'agit-il d'une autre forme de culture ?
S'agit-il de fermes coopratives ou corporatives ? Si oui, devrait-on traiter
cette catgorie comme une strate part ? Seul le contexte permet d'expliquer
ces donnes ; mais la moustache a permis de les signaler.
Remarque Lorsque le nombre de donnes est impair, la mdiane intervient
dans le calcul des deux charnires. Sinon, les charnires sont calcules
partir de deux moitis disjointes. Le calcul des mdianes se fait selon les
conventions tablies la section 2.1. Lorsque le nombre de donnes est pair,
la mdiane est la moyenne arithmtique des deux donnes centrales. Cela
s'applique aussi bien au calcul des charnires qu' celui de la mdiane de
l'ensemble des donnes.
2.4
TRANSFORMATION LINAIRE
Le passage des degrs Fahrenheit aux degrs Celsius, la relation entre les
valeurs respectives de deux monnaies, la relation entre la distance
parcourue par un taxi et le montant indiqu au compteur ne constituent que
trois exemples d'une des transformations mathmatiques les plus utilises.
De faon gnrale, soit X une variable, a et b deux constantes et soit Y une
variable dfinie en fonction de X par l'quation
Y
a bX .
Cette transformation linaire associe chaque valeur x i de X une valeur

y i de Y par le calcul y i a bx i . Alors la moyenne et la variance de chacune
des deux variables sont donnes en fonction l'une de l'autre par
y
et par
s Y2
a bx
b 2 s X2 .
59
De cette dernire quation on obtient l'cart-type de Y :

sY
b sX
o b est la valeur absolue de b.

Exemple 18 Soit X le salaire des employs d'une compagnie. Supposons que x = 18 500 $
et s = 2 000 $. Supposons que chaque employ recevra l'anne prochaine une
augmentation de 15 % du salaire, plus un montant forfaitaire de 1000 $. Soit
Y le revenu des employs l'anne prochaine. Chaque salaire xi se verra
transform en un revenu yi calcul comme ceci :
1 000 1,15 x i
yi
En d'autres termes, la variable Y est lie la variable X par l'quation

1 000 1,15 X
Donc, l'anne prochaine, le revenu moyen des employs sera :

y
1 000 1,15 x
1 000 1,15 (18 500 )
22 275
L'cart-type sera :
sY
1,15 s X
1,15 ( 2 000 )
2 300
2.5
VARIABLE CENTRE RDUITE OU COTE Z

La transformation linaire particulire que nous tudions ici est souvent
utile ; elle permet de passer d'une variable X une variable Z centre
rduite, ainsi appele parce que sa moyenne est 0 et son cart-type, 1. Soit
donc une variable X et soit Z une autre variable, dfinie en fonction de X par
l'quation
X x
sX
60
Notons que Z est souvent appele la cote Z de X. C'est une transformation

linaire qu'on peut crire sous la forme Z = a + bX :
Z
x
sX
1

s
X
La moyenne de Z est donc :

x
sX
et son cart-type est :
sZ
1

s
X
s
X
s
X
Exemple 19 Vous passez un test psychologique et vous obtenez le score x = 70. Si vous
ne connaissez pas bien ce test, vous ne pouvez pas interprter ce rsultat. Si
l'on vous dit que la moyenne de la population est x = 60, vous avez un
premier lment d'information utile : vous savez que vous vous situez
x x 70 60 10 units au-dessus de la moyenne. Mais vous ne savez pas
encore si cet cart la moyenne est important ou non. Pour pouvoir
l'valuer, il faut que vous ayez une mesure de l'cart typique , et c'est
prcisment ce que mesure l'cart-type. Si l'on vous dit que l'cart-type est
sX = 5, alors vous savez que votre cart la moyenne est de 2 fois l'cart
typique. Ce chiffre, 2 , est votre cote Z. Elle s'interprte mieux que le score
brut de 70.
i
La cote Z s'avre particulirement utile lorsqu'on traite de variables dont la
distribution ne nous est pas familire. Il n'est peut-tre pas ncessaire de
calculer une cote Z pour savoir si un Canadien ayant un revenu de 80 000 $
par an est ais ou non. Mais une cote Z serait certainement utile pour situer
un Russe dont le revenu est de 4 000 roubles par annes. Si la cote Z
correspondant 4 000 roubles est 2, le Russe se situe 2 carts-types au
dessus de la moyenne et il est plutt ais relativement ses compatriotes.
En effet, quelle que soit l'unit de mesure originale, une cote Z de 2
reprsente une valeur importante.
En quel sens est-ce important ? C'est important dans le sens o la
proportion des membres d'une population qui se situe 2 carts-types ou
plus de la moyenne est petite. Ceci dcoule d'un thorme, d au
61
mathmaticien russe P. L. Tchebychev, duquel on peut dduire, entre

autres, qu' 2 carts-types ou plus de la moyenne on ne retrouve jamais plus
de 1 4 1 2 2 de la population ; qu' 3 carts-types ou plus de la moyenne on
ne retrouve jamais plus de 1 9
1 3 2 de la population ; et qu' 4 carts-types
ou plus de la moyenne on ne retrouve jamais plus 1 16
1 4
de la
population. Voici l'nonc de ce thorme :

Thorme de Tchebychev : Soit k un nombre suprieur 1, et soit p la
proportion des membres de la population dont la cote Z est soit suprieure
ou gale k, soit infrieure ou gale -k. Alors p n'est jamais suprieure
1/k2.
Il convient de prciser que, dans la plupart des cas, la valeur vritable de p
est beaucoup plus petite que la borne qu'on obtient en utilisant l'ingalit de
Tchebychev.
Exemple 20 Considrons une variable X de moyenne x = 100 et d'cart-type sX = 10.
Alors le thorme de Tchebychev permet d'affirmer que : au plus 1 2 2 1 4
des individus seront au moins 2 carts-types de x , donc hors de l'intervalle
(80, 120) ; au plus 1 3 2 1 9 des individus seront hors de l'intervalle (70,
130) ; au plus 1 4 2
etc.
1 16 des individus seront hors de l'intervalle (60,140) ;
Exemple 21 Une chane de supermarchs annonce tous les jeudis des ventes prix
rduits. Le grant de l'un de ces supermarchs dcide un jour de mettre une
annonce supplmentaire dans un journal local. Habituellement, ce grant
reoit en moyenne 2 000 clients le jeudi ; ce jeudi-l, il en reoit 2 400.
Peut-il conclure que son annonce dans le journal local a eu un effet ? La
question est de savoir si cet cart de 400 est suffisamment grand pour tre
significatif, c'est--dire, pour tre attribu plus qu'un simple hasard.
Supposons que l'cart-type du nombre de clients reus le jeudi est s = 80.
Alors le nombre 2 400 correspond une cote Z de (2 400 2 000)/80 = 5.
Cette cote Z importante porte croire que l'annonce a bien eu l'effet voulu.
62
2.6
MOYENNES PONDRES ET MOYENNES AJUSTES

La moyenne d'une srie de donnes est la somme des donnes divise par le
nombre de donnes. Cependant, lorsque les donnes sont elles-mmes des
moyennes, chaque donne doit tre pondre, c'est--dire qu'elle doit tre
affecte d'un poids qui reflte son importance.
Exemple 22 Les gains hebdomadaires moyens, en dollars, pour les 10 provinces

canadiennes, en 1985, taient les suivants :
405,89 306,74 381,99 401,98 449,89 455,32 408,06 438,20 496,72 504,43
La moyenne de ces 10 nombres est 424,92 $. Mais est-ce la moyenne des
gains hebdomadaires pour l'ensemble du Canada ? Non, parce que chacune
des 10 moyennes est base sur un nombre diffrent d'individus. La moyenne
qui convient est une moyenne pondre. Le tableau 2.3 donne les gains
hebdomadaires ainsi que la distribution de la population active selon la
province.
TABLEAU 2.3
Gains hebdomadaires pour les dix provinces canadiennes, 1985

Province
Terre-Neuve
le-du-Prince-douard
Nouvelle-cosse
Nouveau-Brunswick
Qubec
Ontario
Manitoba
Saskatchewan
Alberta
Colombie-Britannique
Gains
(en dollars)
Proportion de la
population active
405,89
306,74
381,99
401,98
449,89
455,32
408,06
438,20
496,72
504,43
0,018
0,005
0,031
0,024
0,251
0,379
0,041
0,039
0,099
0,113
1,000
La moyenne pondre se calcule en prenant la somme des produits des

moyennes par les frquences.
Moyenne (405,89 u 0,018) (306,74 u 0,005) ... (504,43 u 0,113)
455,81
63
La moyenne pondre n'est pas une nouvelle sorte de moyenne ; nous

voulons uniquement attirer l'attention sur l'importance, dans le calcul d'une
moyenne de moyennes, de prendre en compte le poids relatif de chacun des
termes. La situation se complique lorsqu'on veut comparer les moyennes
pondres respectives de deux populations diffremment rparties. Pour
viter dans ce cas les aberrations que peuvent produire les variations de
frquences, on choisit souvent d'utiliser une pondration commune. On parle
alors de moyennes ajustes.
Exemple 23 Un chantillon de 1 731 francophones bilingues et de 191 anglophones
bilingues a t prlev. Le tableau 2.4, adapt d'un texte de Franois
Vaillancourt*, donne leurs salaires annuels moyens, en dollars, pour l'anne
1970, selon la catgorie d'emploi.
TABLEAU 2.4
Salaires des francophones et anglophones, par catgorie d'occupation

Francophones
Anglophones
Salaire
Salaire
Occupation
(en
(en
dollars)
dollars)
Effectif
Effectif
Cadres et ingnieurs
Sant / ducation
Employs de bureau
Vendeurs
Employs de production
TOTAL
10 243
8 505
5 924
7 498
6 242
261
147
272
218
833
1 731
13 505
7 784
5 841
8 882
6 292
41
12
35
32
71
191
Effectif
total
302
159
307
250
904
1 922
Afin de comparer francophones et anglophones, nous calculons la moyenne

de chaque groupe. Ensuite, pour pondrer, nous utilisons les effectifs
chantillonnaux, supposant que ceux-ci sont peu prs proportionnels aux
effectifs des populations respectives. Pour les francophones, la moyenne est :
(10 243 u 261) ( 8 505 u 147 ) ( 5 924 u 272 ) ( 7 498 u 218 ) ( 6 242 u 833 )
7 146
1 731
Un calcul analogue pour les anglophones donne 8 285 $. Cette diffrence de
1 139 $ entre francophones et anglophones pourrait tre l'effet de deux
facteurs : 1) les francophones occupent des emplois moins payants ; 2) pour
une mme catgorie d'emploi, les francophones sont moins bien pays. Il est
vident que le premier facteur joue un rle important ici. On trouve, par
*
Dpartement de sciences conomiques et centre de recherche en dveloppement conomique, Cahier 7904,

Universit de Montral, 1979
64
exemple, que 21 % des anglophones sont des cadres et ingnieurs alors que
seulement 15 % des francophones le sont. D'autre part, 48 % des
francophones sont des employs de production alors que seulement 37 %
des anglophones le sont. Cela a pour effet de baisser la moyenne des
francophones. Nous voudrions calculer deux moyennes de telle sorte que la
diffrence entre francophones et anglophones ne puisse pas tre attribue
des effets comme ceux-ci. En d'autres termes, nous voudrions que la
diffrence entre les deux ne soit pas affecte par des diffrences de
pondration.
La solution consiste employer une mme pondration pour les deux
moyennes. Quelle pondration ? Trois choix s'offrent nous : la pondration
des francophones, la pondration des anglophones ou une pondration qui
reflte la distribution de la catgorie d'emploi dans la population combine
des francophones et des anglophones. Ces mthodes sont toutes valables,
mais nous considrons ici la dernire seulement. Nous supposons encore
une fois que l'ensemble des deux chantillons reprsente bien la population
des anglophones et francophones runis.
Utilisant la pondration donne par les effectifs totaux, la moyenne ajuste
pour les francophones est :
(10 243 u 302 ) ( 8 505 u 159 ) ( 5 924 u 307 ) ( 7 498 u 250 ) ( 6 242 u 904 )
7 170
1 922
et la moyenne ajuste pour les anglophones est :

(13 305 u 302 ) ( 7 784 u 159 ) ( 5 841 u 307 ) ( 8 882 u 250 ) ( 6 292 u 904 )
7 814
1 922
Remarquez que la diffrence s'amenuise : elle est de 644 $ au lieu de

1 139 $. La diffrence de 1 139 $ est en partie due au fait que la distribution
de la catgorie d'emploi n'est pas la mme dans les deux populations, tandis
que la diffrence de 644 $ ne peut tre attribue qu'au fait que, pour une
catgorie d'emploi donne, les francophones sont en moyenne moins bien
pays.
i
65
RSUM
1. Soit x1 , x 2 , x n une srie de donnes. La moyenne arithmtique est
dfinie par :
xi
Le mode est la valeur ayant la plus grande frquence. Supposons que les
donnes sont ranges en ordre croissant ou dcroissant. La mdiane est
la donne centrale, lorsque n est impair ; elle est la moyenne
arithmtique des deux donnes centrales lorsque n est pair. Au moins
une moiti des donnes est infrieure ou gale la mdiane ; et au moins
une moiti est suprieure ou gale la mdiane.
Le quantile d'ordre D est soit la donne dont le rang est l'entier le plus
1
prs de Dn
; soit, si Dn est entier, la moyenne des donnes de rangs
2
respectifs est Dn et Dn + 1.
En prenant pour D des multiples de 1/4, on obtient les quartiles ; en
prenant des multiples de 1/10 on obtient les dciles ; en prenant des
multiples de 1/100 on obtient les centiles.
La variance s 2 se dfinit par l'une ou l'autre des formules quivalentes
suivantes :
s
( xi x )
n
2
x i nx
xi ( xi )
x x .
L'cart-type s est la racine carre de s 2 .
L'cart interquartile E est la diffrence des 3e et 1er quartiles :
E = Q3 Q1
2. Soit x1 , x 2 , x k les valeurs distinctes d'une variable, n1 , n 2 , n k les
effectifs correspondants et f 1 , f 2 , , f k les frquences correspondantes.
66
Soit n
n i l'effectif total. Le mode est la valeur x laquelle correspond la
frquence f i la plus grande. On peut reprer la mdiane en imaginant les n

donnes crites au long.
La moyenne arithmtique se calcule par l'une ou l'autre des formules
suivantes :
x
xi ni
xi f i .
La variance est calcule par l'une ou l'autre des formules suivantes :

s2
( x i x ) 2 ni
x 2 ( x i ni ) 2 n
x2 x 2 .
Les mmes formules s'appliquent aux donnes groupes en prenant pour

x i le point milieu de la i-me classe. Les rsultats, cependant, sont
approximatifs.
3. Soit X une variable de moyenne x et de variance s 2X . Soit Y
a bX o a
et b sont des constantes. Alors la moyenne y , la variance s Y2
et
l'cart-type sY de Y sont donns par :

y
a bx
s Y2
b 2 s X2
sY
b sX
4. Soit X une variable de moyenne x et d'cart-type s X . La nouvelle

variable
Z
X x
sX
est centre rduite, car de moyenne nulle et de variance 1. On l'appelle

souvent cote Z. Soit p la proportion des membres d'une population dont
la cote Z est soit suprieure ou gale k, soit infrieure ou gale k, o
k est un nombre suprieur 1. Alors p n'est jamais suprieure 1 k 2 .
5. Une dfinition gnrale de x est x
x i f i , o les f i reprsentent des
poids qui refltent l'importance relative de chaque valeur et dont la

somme vaut 1. Ces poids sont souvent les frquences d'une distribution,
67
mais lorsque les x i sont des moyennes de sous-populations, les f i sont

alors proportionnels aux tailles des sous-populations. Dans ce cas, x est
dite moyenne pondre des x i . Parfois, les moyennes de deux
populations ou plus sont calcules avec une pondration commune,
habituellement celle qui s'appliquerait la runion de ces populations.
Ces moyennes sont appeles moyennes ajustes.
EXERCICES
MESURES DE
TENDANCE
1. Calculez la moyenne arithmtique et la mdiane des donnes

suivantes. Dterminez aussi le mode, s'il existe.
CENTRALE
a) 2 2 3 3 3 4 4 4 4 4 4 5 5 6 7 8
b) 7,1 8,2 9,4 11,2 14,5 18,3 12,5
c) 2,8 2,7 3,9 4,7 2,8 1,9 7,8 8,4
2. Dterminez la mdiane et le mode de chacune des sries suivantes :
a) 20 21 22 23 24
b) 20 21 22 23 38
c) 5 21 22 23 24
3. Dterminez les trois quartiles de chacune des sries suivantes :
a) 0 1 1 1 2 3 3 3 3 4 7 9 9 9 12
b) 10 8 2 4 10 6 6 4 6
c) 2 2 2 2 2 2 2 8 10 12 20 30 40
4. Dterminez la moyenne arithmtique, la mdiane et les quartiles des
sries suivantes :
a) 1 2 3 4 ... 31
VARIANCE,
CART-TYPE ET
CART
INTERQUARTILE
b) 20 19 18 ... 1 0 1 2 ... 20
5. Calculez la variance et l'cart-type de chacune des sries donnes aux
numros 1 et 2.
6. Laquelle des deux sries suivantes vous semble la plus disperse ?
Confirmez votre rponse en calculant l'cart-type de chacune.
A : 40 49 50 51 60
B : 48 49 50 51 52
68
7. Laquelle des deux sries suivantes vous semble la plus disperse ?

Confirmez votre rponse en calculant l'cart-type de chacune.
A : 40 50 60 70 80
B : 40 59 60 61 80
8. La srie B ci-dessous est obtenue en ajoutant 10 chaque membre de la
srie A. Intuitivement, comment se comparent les deux carts-types ?
Confirmez votre intuition en calculant les deux carts-types.
A : 0 5 10 15 20
B : 10 15 20 25 30
9. La srie B ci-dessous est obtenue en multipliant par 5 chaque membre
de la srie A. Intuitivement, comment se comparent les deux
carts-types ? Confirmez votre intuition en calculant les deux
carts-types.
A : 0 5 10 15 20
B : 0 25 50 75 100
10. Calculez la variance de la srie suivante en employant les trois formules
donnes dans la section 2.2.
5 8 12 16 19
11. Calculez l'cart interquartile de chacune des sries donnes aux numros
3 et 4.
12. Comparez les diverses mesures de tendance centrale et de dispersion que
l'on peut utiliser pour dcrire la srie suivante de notes (sur 10) un
examen de statistique.
7 7 0 10 4 8 8 8 4 7 7 8 0 4 4 8 8 8 8
69
13. Les donnes suivantes reprsentent les revenus moyens des mnages
dans 100 subdivisions de recensement. Construisez une moustache pour
les reprsenter. Quelles sortes de quartiers seront au-del des limites ?
13 441
13 489
13 893
14 052
15 383
16 333
16 347
16 370
16 480
16 510
16 870
17 186
17 353
17 428
17 465
17 617
17 648
17 825
17 875
18 151
18 269
18 365
18 540
18 542
18 555
18 712
18 905
18 966
18 982
19 182
19 366
19 498
19 533
19 725
19 806
19 974
20 139
20 230
20 271
20 306
20 364
20 495
20 754
20 798
20 799
20 877
20 883
21 160
21 232
21 240
21 295
21 410
21 440
21 580
21 597
21 722
21 787
21 888
21 909
22 137
22 196
22 323
22 350
22 361
22 436
22 496
22 533
22 681
22 845
22 914
23 504
23 548
23 580
23 598
24 130
24 299
24 423
24 476
25 002
25 364
26 248
26 385
26 713
26 736
26 789
27 651
28 002
28 041
28 698
28 881
30 214
32 720
33 532
33 750
34 406
35 136
38 275
39 307
44 853
49 754
14. Les donnes suivantes reprsentent les revenus nets, exprims en

pourcentage des ventes, de 74 compagnies. Tracez une moustache pour
les reprsenter.
0,1
0,7
0,8
1,0
1,4
1,8
2,0
2,0
2,3
2,4
MESURES
D'UNE
DISTRIBUTION
15
2,6
2,8
2,9
3,0
3,1
3,2
3,3
3,4
3,4
3,5
3,5
3,5
3,6
3,7
3,7
3,8
3,8
3,8
3,9
4,1
4,1
4,2
4,3
4,3
4,4
4,4
4,5
4,6
4,6
4,7
4,7
4,8
4,8
4,8
4,9
4,9
5,2
5,3
5,5
5,5
5,6
5,7
6,5
6,7
6,9
6,9
7,4
7,6
7,7
7,7
7,7
7,8
7,9
7,9
8,0
8,1
8,2
8,2
8,4
8,8
9,4
15,2
18,5
25,3
Dterminez la moyenne arithmtique, la mdiane, le mode, la variance et

l'cart-type de la distribution suivante :
Valeur
TOTAL
Effectif
10
Employez les formules de la section 2.3, puis recommencez les calculs en

appliquant les formules de la section 2.2 la srie :
0 5 5 5 7 7 77 8 8
Examinez de prs les deux sries de calculs pour constater que les deux
mthodes reviennent au mme.
70
16. Laquelle des deux variables suivantes vous semble la plus disperse ?
Justifiez votre rponse l'aide de graphiques et des deux carts-types :
Variable X
x
TOTAL
Effectif
10
TOTAL
Effectif
10
Variable Y
17. Dterminez la moyenne arithmtique, le mode, la mdiane, la variance et

l'cart-type de la distribution suivante :
Valeur
Frquence
TOTAL
0,1
0,4
0,2
0,2
0,l
18. Dterminez l'cart interquartile de chacune des distributions suivantes.

a)
TOTAL
Effectif
11
37
b)
Frquence
TRANSFORMATIONS
LINAIRES
19
0dx<4
4dx<8
8dx<16
16dx<20
0,12
0,37
0,19
0,32
Soit x1 , x 2 , x 3 , x 4 , x 5 , la srie suivante :

5 7 11 13 15
Construisez une nouvelle srie y1 , y 2 , y 3 , y 4 , y 5 , en multipliant chaque
terme de la premire srie par 2 puis en ajoutant 10 au produit.
numrez les lments de cette deuxime srie. Calculez la moyenne x
et la variance s X2 de la premire srie, ainsi que la moyenne y et la
variance s Y2
s
2
Y
2
X
4s .
de la deuxime srie. Vrifiez que
2 x 10
et que
71
20. Calculez la moyenne et l'cart-type de la srie :

2 5 7 9 12
Employez la moyenne et l'cart-type obtenus pour calculer la moyenne et
l'cart-type de la srie :
2 012 2 030 2 042 2 054 2 072
21. La moyenne et la variance d'une srie de tempratures quotidiennes, en
degrs Celsius, sont respectivement 18 et 25. Dterminez la moyenne et
la variance de la mme srie, exprime en degrs Fahrenheit
(qF = 32 + 9 qC).
5
COTE Z
22. Votre note est de 68 dans une classe o la moyenne est de 54 et

l'cart-type est de 14. Quelle est votre cote Z ?
23. Calculez la cote Z de chaque membre de la srie 5 7 8 9 11, puis calculez
la moyenne et la variance des 5 cotes Z.
24. Un mdecin vous dit que votre pression intra-oculaire est de 23. Pour
une population de 100 000 personnes de votre ge, la pression moyenne
est de 17 avec un cart-type de 2,5. Combien, au maximum, y a-t-il de
personnes dans la population qui ont une pression au moins aussi
loigne de la moyenne que la vtre ?
MOYENNES
PONDRES
OU AJUSTES
25. Deux cent cinquante tudiants rpartis en six groupes ont suivi un cours
de statistique. Le nombre d'tudiants et la note moyenne de chaque
groupe sont indiqus dans le tableau suivant :
Groupe
Nombre d'tudiants
Moyenne du groupe
1
2
3
4
5
6
47
38
30
55
40
40
63
61
68
54
72
73
Calculez la moyenne des 250 tudiants.
72
26. Le propritaire de deux concessions de vente d'automobiles analyse le

rendement de ses deux concessions. La concession X a vendu 313
voitures un prix moyen de 16 262 $ ; la concession Y a vendu 295
voitures un prix moyen de 13 831 $. Avant de reprocher au grant de
la concession Y de vendre les voitures un prix trop bas, le propritaire
examine le dtail des ventes par catgories de voitures. Le
concessionnaire X a vendu 43 voitures de catgorie A, 50 de catgorie B,
70 de catgorie C et 150 de catgorie D. Le concessionnaire Y a vendu 10
voitures de catgorie A, 20 de catgorie B, 65 de catgorie C et 200 de
catgorie D. Le prix moyen, en milliers de dollars, pour chaque
concessionnaire et pour chaque catgorie de voitures est donne par le
tableau suivant :
Prix moyen par catgorie de voitures (en milliers de dollars)
A
30
22
15
11
31
23
14
12
Calculez une moyenne pour chaque concessionnaire de faon que la

diffrence entre les deux moyennes ne soit pas affecte par la diffrence
dans les distributions des catgories de voitures.
27. Soit X le revenu annuel des corporations multinationales dont le sige
social est situ au Canada ; et soit Y le revenu annuel des petites et
moyennes entreprises du Canada. D'aprs vous, l'cart-type de X est-il
suprieur ou infrieur celui de Y ? Discutez.
28. Calculez l'cart-type des tempratures en janvier et l'cart-type des
tempratures en juillet Montral partir des donnes suivantes :
Tempratures moyennes Montral - janvier et juillet, 1965-1976 (en qCelsius)
Anne
Janvier
Juillet
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
10,0
9,4
5,6
12,2
7,2
13,3
11,1
6,7
6,1
9,8
6,3
11,9
20,0
21,7
22,2
22,2
21,7
23,3
21,7
21,7
21,7
23,3
21,0
23,9
SOURCE : Annuaire du Qubec, 1971, 1980
73
29. Voici la distribution du nombre de familles par logement pour la rgion

mtropolitaine de Montral en 1981 :
Nombre de familles
Effectif
0
1
2 et plus
293 390
724 975
8 560
TOTAL
1 026 925
SOURCE : Recensement du Canada, 1981
a) Quel est le mode de cette variable ?

b) Quelle est la mdiane ?
30. Dites lesquelles des propositions suivantes sont vraies. Pour celles qui ne
sont pas vraies, trouvez un contre-exemple.
a) 50 % des donnes sont infrieures la mdiane et 50 % sont
suprieures la mdiane.
b) 50 % des donnes sont infrieures ou gales la mdiane.
c) Au plus 50 % des donnes sont infrieures ou gales la mdiane.
d) Au moins 50 % des donnes sont infrieures ou gales la mdiane.
e) Au plus 50 % des donnes sont infrieures la mdiane.
31. Voici les distributions du nombre de personnes par mnage, pour la
rgion mtropolitaine de Montral et pour la ville de Montral :
Effectif
Nombre de personnes
Rgion mtropolitaine
Ville de Montral
1
2
3
4 et 5
de 6 9
10 ou plus
120 370
201 110
148 510
240 630
91 035
4 370
84 100
109 905
70 735
93 975
34 265
1 746
TOTAL
806 025
394 726
a) Calculez la mdiane et le mode pour la ville de Montral.

b) Est-il possible d'en faire autant pour la rgion mtropolitaine ?
32. Soit A la srie des 365 tempratures quotidiennes Montral en 1981 et
B la srie des 365 tempratures quotidiennes Miami en 1981. D'aprs
vous, laquelle des deux sries a une plus grande variance ?
74
33. Deux supermarchs, A et B, reoivent en moyenne le mme nombre de

clients par jour. Cependant, l'cart-type est beaucoup plus lev au
supermarch A. D'aprs vous, lequel des deux supermarchs aura des
dpenses en personnel plus leves ?
34. Dans une rgion du globe un peu aride, on enregistre la prcipitation
quotidienne pendant 60 jours conscutifs. La moyenne des 60 donnes
est gale 0. Que vaut l'cart-type ?
35. Un test de dextrit manuelle donne un score moyen de 60 pour la
population. Un score de 65 est donc suprieur la moyenne. Dans lequel
des deux cas suivants un score de 65 est-il plus spectaculaire ?
a) L'cart-type de la population est gal 1.
b) L'cart-type de la population est gal 20.
36. Le tableau suivant donne la rptition des revenus en 1984 des familles
canadiennes ayant un revenu infrieur 60 000 $.
Revenu
Frquence
< 5 000 $
5 000 - 9 999
10 000 - 11 999
12 000 - 14 999
15 000 - 16 999
17 000 - 19 999
20 000 - 21 999
22 000 - 24 999
25 000 - 26 999
27 000 - 29 999
30 000 - 31 999
32 000 - 34 999
35 000 - 36 999
37 000 - 39 999
40 000 - 44 999
45 000 - 49 999
50 000 - 59 999
0,017
0,063
0,037
0,072
0,047
0,062
0,040
0,062
0,047
0,067
0,045
0,069
0,045
0,062
0,092
0,072
0,101
Estimez la moyenne et la mdiane de ces revenus, ainsi que l'cart-type,

les quartiles et l'cart interquartile.
37. Considrons les variables X et Y, o X reprsente la proportion
quotidienne de garons parmi les nouveaux-ns d'un petit hpital et Y la
proportion quotidienne parmi tous les nouveaux-ns canadiens. D'aprs
vous, laquelle des deux variables a le plus grand cart-type ? Discutez.
75
38. La variance d'une variable dpend-elle de l'unit de mesure ? Considrez,

par exemple, les tailles d'une population. La variance change-t-elle selon
que les tailles sont exprimes en pouces ou en centimtres ? La cote Z
d'une personne change-t-elle selon que les tailles sont exprimes en
pouces ou en centimtres ?
39. Deux tudiants terminent un cours de comptabilit. L'tudiant A, qui a
suivi le cours avec le charg de cours X a obtenu la note 69 l'examen
final ; l'tudiant B, avec le charg de cours Y, a obtenu la note 75. Pour
la classe de X, la moyenne est de 60 et l'cart-type de 3 ; pour Y la
moyenne est galement de 60, et l'cart-type de 10. Lequel des deux
tudiants a eu le meilleur rsultat ?
40. Dans un cours, il y a deux examens de mme importance : un intra et un
final. La note moyenne de la classe est de 60 pour les deux examens,
mais l'cart-type est de 10 l'intra et de 20 au final. Un tudiant a eu 60
l'intra et 80 au final ; un autre a eu 80 l'intra et 60 au final. Lequel
est le meilleur ? Discutez.
41. Un marchand se plaint la ville du fait que certains travaux effectus
par la municipalit ont caus une diminution de la circulation sur la rue
du marchand et donc une baisse dans ses recettes. Pour appuyer sa
plainte, il signale que ses recettes sont en moyenne de 20 000 $ par jour,
et que le jour des travaux elles n'taient que de 19 500 $. La ville
rplique qu'un cart de 500 $, pour des recettes moyennes de 20 000 $,
est trop petit et donc ne dmontre rien. Le marchand calcule alors
l'cart-type de ses recettes quotidiennes. Il trouve s = 100 $. Qui a
raison ?
42. Une succursale de banque reoit constamment les dpts sous la forme
de rouleaux de 40 pices de 25 . Pour s'assurer que ces rouleaux
contiennent bien 40 pices, le grant conoit l'ide de mesurer les
longueurs des rouleaux dposs et de rejeter ceux qui seraient trop longs
ou trop courts. Pour fixer des critres, il mesure plusieurs centaines de
rouleaux de 40 pices. Il trouve que leurs longueurs ont une moyenne de
65 mm avec un cart-type de 0,99 mm. Ds lors, il dcide de rejeter tout
rouleau de moins de 62,03 cm et de plus de 67,97 mm. Quel est, au
maximum, le pourcentage des rouleaux contenant rellement 40 pices
qu'il rejettera ?
43. Un vrificateur doit faire une estimation du montant total des comptes
payer. Il y a en tout 10 570 comptes, rpartis en 3 strates , selon
l'importance du compte : il y a 70 comptes dans la strate 1, 500 comptes
dans la strate 2 et 10 000 comptes dans la strate 3. Pour estimer le
montant total il procde par chantillonnage. Dans la strate 1, il choisit
au hasard 20 comptes. Il trouve que le montant moyen par compte est de
76
3 010,75 $. De la strate 2, il tire 200 comptes et trouve une moyenne de

580,60 $. De la strate 3, il tire 300 comptes et trouve une moyenne de
89,78 $. Supposez que ces moyennes chantillonnales sont de bonnes
estimations des vraies moyennes des strates. Estimez alors le montant
total des comptes payer.
44. Un taux de mortalit est essentiellement une moyenne : il reprsente le
nombre de dcs par 1 000 habitants en une anne donne. Le tableau
suivant donne le taux de mortalit pour des hommes et des femmes de 5
ans et plus en 1971, par groupe d'ge. Il donne galement la distribution
de l'ge des Canadiens de 5 ans et plus.
a) Calculez le taux de mortalit pour les hommes et pour les femmes en
pondrant selon les frquences ci-dessus.
b) Lorsqu'on calcule le taux de mortalit des hommes en utilisant la
distribution de l'ge des hommes (qui n'est pas donne ici), on obtient
le taux de 8,5 ; un calcul analogue pour les femmes donne un taux
de 6,1. Interprtez les diffrences que vous trouvez entre ces taux et
ceux que vous avez calculs en a).
Taux
ge
5-9
10 - 14
15 - 19
20 - 24
25 - 29
30 - 34
35 - 39
40 - 44
45 - 49
50 - 54
55 - 59
60 - 64
65 - 69
70 - 74
75 - 79
80 - 84
85 +
Frquence
Hommes
Femmes
0,6
0,5
1,4
1,8
1,5
1,6
2,2
3,6
5,7
9,3
14,6
22,9
34,7
51,9
79,0
118,8
198,5
0,4
0,3
0,6
0,6
0,6
0,9
1,3
2,1
3,0
4,6
7,2
11,0
17,3
28,3
48,1
82,4
163,3
0,114
0,117
0,107
0,096
0,080
0,067
0,064
0,064
0,062
0,053
0,048
0,039
0,032
0,023
0,016
0,010
0,008
1,000
45. Le tableau suivant donne, pour les hommes et pour les femmes, le
revenu annuel moyen en dollars pour l'anne 1971, selon le nombre de
semaines de travail. Il s'agit des personnes de 15 ans et plus ayant
travaill plein temps. Les effectifs sont en milliers.
a) Calculez le revenu moyen des hommes et le revenu moyen des
femmes.
77
b) Calculez, pour les hommes et pour les femmes, les moyennes

ajustes pour le nombre de semaines de travail.
Hommes
Nombre de
semaines
1 -13
14 - 26
27 - 39
40 - 48
49 - 52
Effectif
274,5
352,3
442,4
736,0
3 541,1
Femmes
Revenu
(en dollars)
1 591
2 973
4 788
7 162
8 230
Effectif
234,0
258,7
236,3
323,2
1 276,5
Revenu
(en dollars)
845
1 889
3 026
4 026
4 932
SOURCE : Annuaire du Canada 1976-1977
46. Le tableau suivant donne le montant de l'impt fdral pay en 1974 et

en 1973 par les contribuables dont le revenu a t d'au moins 2 000 $.
Catgorie de
revenu (X)
(en milliers de
dollars)
2dX<3
3dX<5
5dX<7
7 d X < 10
10 d X < 15
15 d X < 25
25 d X < 50
50 d X
Nombre de contribuables
(en milliers)
Impt fdral pay

(en millions de dollars)
1973
1974
1973
1974
571,0
1 702,6
1 662,0
1 975,3
1 669,0
599,9
142,9
34,9
427,8
1 381,7
1 594,4
1 985,8
2 155,2
1 037,7
224,5
50,0
13,8
322,3
777,6
1 721,0
2 582,2
1 713,0
937,9
765,0
1,2
158,2
594,4
1 519,4
3 089,6
2 796,9
1 384,2
1 071,3
a) Comparez, pour chaque tranche de revenu, l'impt moyen pay par

les contribuables en 1973 et en 1974.
b) Comparez, pour l'ensemble de tous les contribuables (de revenu
suprieur 2 000 $), l'impt moyen pay en 1973 et en 1974.
Distributions deux
variables qualitatives
3.1
3.2
3.3
3.4
3.5
3.6
Distribution conjointe
Distribution marginale
Distribution conditionnelle
Indpendance
Dpendance et causalit
Un test d'indpendance
x Les effectifs thoriques
x Le khi-deux
RSUM
EXERCICES
3 Distributions deux variables qualitatives
79
Introduction Certaines tudes statistiques, conues des fins trs prcises,

se concentrent sur un seul caractre des units observes. Lorsqu'on fait des
prlvements rguliers pour contrler la qualit d'une production, on
s'intresse gnralement un seul indice de qualit. Cela peut tre une
variable qualitative qui identifie un article comme tant acceptable ou non ;
ou une variable quantitative mesurant une caractristique de l'article,
comme le poids net du contenu, pour une bote de conserve ; ou la force de
rupture, pour un matriau ; ou la concentration de matires grasses, pour
un morceau de fromage.
Beaucoup d'autres tudes, cependant, ont un objectif plus large ou plus
vague ; elles accumulent alors des donnes sur plusieurs variables. Un questionnaire rempli par un certain nombre de rpondants, par exemple,
engendre autant de variables qu'il contient de questions. Dans ces cas-l,
l'intrt peut porter non seulement sur chacune des questions comme telle,
mais galement on peut mme dire surtout sur les liens qui peuvent exister entre les variables. En fait, certaines tudes ont pour unique but d'tablir
l'existence d'un lien entre certaines variables. L'pidmiologue qui prlve des
donnes sur la consommation de cigarettes et l'tat des poumons ne cherche
pas savoir quelle est la consommation de cigarettes de la population, ni
quel est l'tat des poumons de cette population. Il cherche savoir s'il y a un
lien entre la consommation de cigarettes et l'tat des poumons. L'information
qu'il possde sur ces deux variables doit donc tre prsente de faon faire
ressortir ce lien.
3.1
DISTRIBUTION CONJOINTE
Soit X et Y deux variables qualitatives dfinies sur une mme population. On
peut prsenter la distribution de chacune l'aide des moyens dcrits dans le
chapitre 1. L'information contenue dans ces deux distributions distinctes se
rvle toutefois insuffisante si l'objectif consiste tudier la relation entre les
variables. Pour cela, l'information essentielle prend la forme d'une
distribution conjointe.
Le tableau 3.1 prsente la distribution conjointe de deux variables dfinies
pour l'ensemble des bbs au Qubec en 1983 ; les variables sont :
X : sexe (garon, fille)
Y : poids la naissance (faible, moyen, lev, trs lev)
80
Nous avons dj examin sparment les distributions des poids pour les
filles et pour les garons, et les avons mme compares en utilisant les polygones de frquences (voir fig. 1.6, page 13). Ici, nous les tudions conjointement, en tant que variables qualitatives. Tout comme la distribution d'une
seule variable, la distribution conjointe de deux variables fait correspondre
un effectif une valeur , sauf qu'ici la valeur est en fait un couple : une
valeur de X et une valeur de Y. Par exemple, au couple (fille, lev), la distribution du tableau 3.1 fait correspondre l'effectif 27 566, ce qui veut dire qu'il
y a eu en 1983 au Qubec 27 566 bbs qui taient des filles et qui avaient
un poids lev la naissance.
TABLEAU 3.1
Sexe (X) et poids la naissance (Y) des bbs qubcois 1983

Y : poids la naissance
X : Sexe
Faible
Moyen
lev
Trs lev
(0,5-2 kg)
(2-3 kg)
(3-4 kg)
(4+ kg)
TOTAL
Garons
830
8 615
30 784
4 839
45 068
Filles
862
11 183
27 566
2 348
41 959
1 692
19 798
58 350
7 187
87 027
TOTAL
SOURCE : Bureau de la statistique du Qubec
TABLEAU 3.2
Sexe (X) et poids des bbs (Y) Qubec 1983

X : Sexe
Faible
Moyen
lev
Trs lev
TOTAL
Garons
0,009
0,099
0,354
0,056
0,518
Filles
0,010
0,128
0,317
0,027
0,482
0,019
0,227
0,671
0,083
1,000
TOTAL
Une distribution conjointe peut galement s'exprimer en frquences : il suffit

de diviser chaque effectif par l'effectif total. Le tableau 3.2 exprime, en
frquences, la distribution du tableau 3.1.
3.2
DISTRIBUTION MARGINALE
Le tableau 3.1 (ou 3.2) contient bien plus d'information que ne
contiendraient deux tableaux donnant l'un la distribution de X, l'autre celle
de Y. Du reste, ces deux distributions, appeles distributions marginales
dans ce contexte, se retrouvent intgralement dans les marges du tableau
81
3.1 (ou 3.2). Les effectifs (frquences) de la distribution de X sont les sommes
des lignes du tableau 3.1 (ou 3.2). Les effectifs (frquences) de la distribution
de Y sont les sommes des colonnes du tableau 3.1 (ou 3.2). Ainsi, la
distribution marginale de Y est (voir tableau 3.2) :
Y
Faible
Moyen
lev
Trs lev
TOTAL
Frquence
0,019
0,227
0,671
0,083
1,000
Cette distribution est simplement la distribution de Y. Il n'y a pas de

diffrence entre distribution de Y et distribution marginale de Y .
L'adjectif marginale est employ dans ce contexte pour distinguer la distribution marginale de la distribution conditionnelle, que nous introduisons
maintenant.
3.3
DISTRIBUTION CONDITIONNELLE
La distribution conjointe de deux variables X et Y contient toute l'information
ncessaire l'tude de la relation entre les variables. Mais elle ne met pas
cette relation clairement en vidence. La notion de relation ou de
dpendance entre deux variables s'exprime en termes de distributions
conditionnelles. Une distribution conditionnelle de Y est la distribution de Y
confine une tranche de la population, cette tranche tant dfinie par une
valeur de X. Par exemple, la distribution conditionnelle de Y tant donn X =
garon est la distribution de Y limite l'ensemble des garons. D'aprs le
tableau 3.1, la distribution de Y pour cette sous-population (les garons) est
la suivante :
Y
Effectif
Faible
Moyen
lev
Trs lev
TOTAL
830
8 615
30 784
4 839
45 068
L'analyse qui suit rclame que l'on exprime cette distribution en frquences.
Lorsqu'on divise chaque effectif par l'effectif total, on obtient la distribution
suivante :
Distribution conditionnelle de Y tant donn X = garon
Y
Faible
Moyen
lev
Trs lev
TOTAL
Frquence
0,019
0,191
0,683
0,107
1 000
82
On peut dterminer de la mme faon la distribution conditionnelle de Y

tant donn X = fille. Afin d'tudier la dpendance entre les deux variables,
on juxtapose les distributions conditionnelles de Y tant donn chacune des
valeurs de X. Le tableau 3.3 donne les deux distributions conditionnelles
(ainsi que la distribution marginale).
TABLEAU 3.3
Distributions conditionnelles des poids la naissance (Y) tant donn le sexe (X)
(en frquences)
X : sexe
Garons
Filles
Toutes naissances
TABLEAU 3.4
TOTAL
Faible
Moyen
lev
Trs lev
0,019
0,021
0,019
0,191
0,266
0,227
0,683
0,657
0,671
0,107
0,056
0,083
1,000
1,000
1,000
Distributions conditionnelles du sexe (X) tant donn le poids (Y) la naissance (en frquences)
Faible
Moyen
lev
Trs lev
Toutes naissances
X : sexe
TOTAL
Garon
Fille
0,491
0,435
0,528
0,673
0,518
0,509
0,565
0,472
0,327
0,482
1,000
1,000
1,000
1,000
1,000
Le tableau 3.3 permet de donner un sens prcis la proposition le poids

des bbs la naissance dpend de leur sexe . Cette proposition signifie, en
gros, que le poids n'est pas le mme chez les garons et chez les filles. Plus
prcisment, les distributions conditionnelles ne sont pas identiques. Le
tableau 3.3 met cette observation en vidence, et cela nous fait dire que le
poids dpend du sexe : la distribution conditionnelle de Y change selon que
X = garon ou X = fille .
Une fois tabli qu'il y a dpendance, on s'interroge alors sur la nature de
cette dpendance. On peut dire alors qu'il y a presque la mme frquence de
trs petits bbs, il y a sensiblement plus de filles de poids moyen et
sensiblement plus de garons de poids lev.
Nous avons jusqu'ici fait jouer des rles apparemment diffrents nos deux
variables. En ralit, il n'existe aucune raison mathmatique pour
prfrer une variable une autre. Du point de vue technique, une
information aussi valable est donne par les distributions conditionnelles de
X par rapport aux valeurs de Y. Ces distributions (de mme que la
distribution marginale) sont prsentes au tableau 3.4.
83
De mme que le tableau 3.3 indique que Y dpend de X, le tableau 3.4

indique que X dpend de Y ; en effet, les distributions conditionnelles de X
tant donn chaque valeur de Y sont diffrentes. Mathmatiquement, les
deux propositions ( Y dpend de X , X dpend de Y ) sont aussi vraies (ou
fausses) l'une que l'autre, et toujours simultanment vraies (ou fausses).
Intuitivement, une de ces propositions est, le plus souvent, plus naturelle
que l'autre car on attribue spontanment une des deux variables un rle
de cause, l'autre un rle d'effet. Dans le cas prsent, puisque, s'il y a
dpendance, c'est le poids qui dpend du sexe et non l'inverse, on prfre
prsenter les distributions conditionnelles du poids de chaque sexe.
3.4
INDPENDANCE
En gnral, lorsque les distributions conditionnelles de Y tant donn les
valeurs de X ou les distributions conditionnelles de X tant donn les valeurs
de Y sont diffrentes, on dit que Y dpend de X (ou que X dpend de Y, le
choix entre ces deux affirmations dpendant du contexte intuitif). Dans le
cas contraire, c'est--dire quand les distributions conditionnelles de Y (ou
celles de X) sont identiques, on dit que les deux variables X et Y sont
indpendantes. L'indpendance peut se caractriser de plusieurs faons ;
nous en donnons ici les plus utilises.
a) Si X et Y sont indpendantes, alors les distributions conditionnelles de Y
(exprimes en frquences) sont identiques entre elles, quelle que soit la
valeur de X, et sont alors ncessairement identiques la distribution
marginale de Y.
b) Si X et Y sont indpendantes, alors les distributions conditionnelles de X
(exprimes en frquences) sont identiques entre elles, quelle que soit la
valeur de Y, et sont alors ncessairement identiques la distribution
marginale de X.
c) Si X et Y sont indpendantes, alors, dans le tableau donnant leur
distribution conjointe, l'effectif de chaque case est en fonction des totaux
de la ligne et de la colonne dans lesquelles se trouve la case. L'effectif de
la case situe l'intersection de la ligne i et de la colonne j est gal :
(total de la ligne i) u (total de la colonne j) y (effectif total).
d) Si X et Y sont indpendantes, alors, pour chaque case du tableau, la
frquence de cette case est gale au produit des frquences marginales
de la ligne et de la colonne qui se rencontrent cette case.
84
Exemple 1
Considrons les deux variables :

X : langue maternelle
Y : quotient intellectuel.
Supposons que la distribution conjointe de ces deux variables (obtenue d'un
chantillon de 120 tudiants) est la suivante :
Franais
Anglais
Autres
TOTAL
Y : quotient intellectuel
TOTAL
Infrieur 100
Suprieur ou gal 100
18
27
9
54
22
33
11
66
40
60
20
120
Les distributions conditionnelles de Y sont :

Infrieur 100
Franais
Anglais
Autres
TOTAL
0,45
0,45
0,45
0,45
TOTAL
Suprieur ou gal 100

0,55
0,55
0,55
0,55
1,00
1,00
1,00
1,00
Puisque les distributions conditionnelles sont gales, nous concluons que les
variables sont indpendantes : le quotient intellectuel ne dpend pas de la
langue maternelle. Remarquez que les distributions conditionnelles sont non
seulement identiques l'une l'autre, mais aussi la distribution marginale.
On observe le mme phnomne dans les distributions conditionnelles de X
tant donn Y :
Infrieur 100
Franais
Anglais
Autres
TOTAL
1/3
1/2
1/6
1
Suprieur ou gal 100

1/3
1/2
1/6
1
1/3
1/2
1/6
1
Finalement, remarquez que l'effectif 18 de la case situe la premire

ligne, premire colonne est gal 40 u 54 y 120 (c'est--dire, au produit du
total de la premire ligne par le total de la premire colonne, divis par
l'effectif total). Le lecteur peut vrifier cette proprit pour les autres cases. i
85
Remarque Les donnes de l'exemple 1 sont fictives, et pour une bonne raison.
En pratique, des donnes comme celles-ci, avec des distributions
conditionnelles tout fait identiques, ne se produisent jamais. La dfinition
d'indpendance donne ici reprsente une situation idalise qui ne se reflte
pratiquement jamais dans des donnes relles. En pratique, on ne devrait pas
conclure que les variables sont dpendantes ds qu'on observe les moindres
petits carts entre les distributions conditionnelles. Car enfin, des variables
indpendantes, cela existe ! Nous aborderons cette question dans la section
3.6 ; pour l'instant, nous continuerons ne dclarer indpendantes que les
variables dont les distributions conditionnelles sont strictement identiques.
3.5
DPENDANCE ET CAUSALIT
Il est rare que l'on tudie la dpendance entre deux variables sans envisager,
par le fait mme, la possibilit d'un lien de causalit entre les variables.
Considrez, par exemple, les nombreuses tudes qui tablissent, d'une faon
ou d'une autre, l'existence d'un lien entre l'tat de sant et la consommation
de cigarettes. Si, par des moyens statistiques, on dmontre qu'il existe un
lien entre ces deux variables, on rsiste difficilement la tentation de
conclure que la cigarette cause la maladie. Si cette conclusion est
vraisemblable, elle n'est pas vidente, et il demeure important de se rendre
compte des risques qu'il y a identifier trop htivement une variable la
cause, l'autre l'effet. Il peut arriver que la dpendance entre deux variables
soit due, non pas l'effet de l'une sur l'autre, mais l'effet simultan d'une
troisime variable sur les deux premires. Nous illustrons ce phnomne,
encore une fois, l'aide d'un exemple idalis.
Exemple 2
Imaginez une exprience faite avec 300 rats atteints d'une certaine maladie.
Soit X la pression artrielle et Y une variable qui identifie les consquences
ventuelles de la maladie. Supposons que l'exprience donne les rsultats
suivants :
X : pression artrielle
leve
Normale
TOTAL
Y : consquences de la maladie
Succombe
136
64
200
TOTAL
Survit
44
56
100
180
120
300
On constate que le taux de mortalit est de 75,6 % parmi ceux qui ont une
pression leve alors qu'il n'est que de 53,3 % parmi ceux ayant une
pression normale. Peut-on conclure que la pression leve est la cause de ce
taux de mortalit plus lev ? C'est possible, mais avant de tirer cette
conclusion on dcide d'examiner une fois de plus les donnes la lumire de
86
l'information qu'on possde sur l'ge des rats. Il y en a 100 qu'on classifie
comme jeunes et 200 qu'on classifie comme vieux . Pour chacun de ces
deux groupes, on dresse un tableau comme le tableau ci-dessus. On obtient
les rsultats suivants :
Jeunes
Succombe
Survit
8
32
40
12
48
60
leve
Normale
TOTAL
TOTAL
20
80
100
Vieux
Succombe
leve
Normale
TOTAL
128
32
160
TOTAL
Survit
32
8
40
160
40
200
Parmi les jeunes, le taux de mortalit est de 40 %, quelle que soit la

pression. Parmi les vieux, le taux de mortalit est de 80 %, quelle que soit la
pression. Donc, contrairement la conclusion suggre par le premier
tableau, la pression n'agit pas de faon directe sur la mortalit. C'est
apparemment l'ge qui agit en mme temps sur la pression et sur la
mortalit.
i
3.6
UN TEST D'INDPENDANCE
Nous attaquons maintenant la question souleve dans la remarque relative
l'exemple 1 (page 84). Deux variables sont indpendantes, selon la dfinition,
si la distribution conditionnelle de l'une tant donn la valeur de l'autre ne
dpend pas de la valeur de cette seconde variable. Or, en pratique, cette
situation ne se produit presque jamais : une certaine dpendance se
manifeste invitablement dans les donnes, mme si les deux variables sont,
en thorie, parfaitement indpendantes (par exemple, les rsultats de
plusieurs lancers simultans d'un d rouge et d'un d vert). Si la dpendance
qui se manifeste dans les donnes exprimentales est si faible qu'elle peut
tre attribue au simple jeu du hasard, rien ne s'oppose ce que les deux
variables soient en ralit parfaitement indpendantes. Cela tient au fait que
toute affirmation relative la dpendance ou l'indpendance de variables
87
se fait propos d'une population, que l'on doit considrer mathmatiquement comme infinie et abstraite et non concrte et finie. Affirmer que
deux variables sont indpendantes (dans la population thorique), malgr
des distributions conditionnelles observes non identiques ne constitue donc
pas une contradiction. Nous illustrons ces notions l'aide des donnes du
tableau 3.5.
TABLEAU 3.5
Distribution de l'ge de la mre (X) et du sexe de l'enfant (Y) naissances au Canada, 1971
X : ge de la mre
19 ans et moins
De 20 24 ans
De 25 29 ans
30 ans et plus
Population totale
Y : sexe de l'enfant
TOTAL
Masculin
Fminin
20 956
63 927
56 153
38 751
179 787
19 524
60 383
52 671
36 503
169 081
40 480
124 310
108 824
75 254
348 868
SOURCE : Recensement du Canada, 1971.
TABLEAU 3.6
Distributions conditionnelles du sexe de l'enfant (Y) tant donn l'ge de la mre (X)
X : ge de la mre
19 ans et moins
De 20 24 ans
De 25 29 ans
30 ans et plus
Population totale
Masculin
0,518
0,514
0,516
0,515
0,515
TOTAL
Fminin
0,482
0,486
0,484
0,485
0,495
1,000
1,000
1,000
1,000
1,000
Ce tableau donne, pour la population de 348 868 naissances qui ont eu lieu
au Canada en 1971, la distribution conjointe des deux variables suivantes :
X : ge de la mre
Y : Sexe de l'enfant
88
On s'attend ce que ces variables soient indpendantes : il n'y a aucune

raison de croire que l'ge de la mre a une influence sur le sexe du bb.
Toutefois, on se propose de le vrifier de faon empirique. On calcule donc
les distributions conditionnelles du sexe du bb tant donn l'ge de la mre.
Les rsultats sont dans le tableau 3.6.
Comme on devait s'y attendre, les distributions conditionnelles ne sont pas
rigoureusement identiques : le pourcentage de garons est 51,8 pour les
mres de 19 ans et moins, et 51,4 pour les mres de 20 24 ans. Quelle
crdibilit peut-on accorder ces carts ? Peut-on affirmer, par exemple,
qu'une femme de 19 ans et moins a plus de chances d'avoir un garon ? La
rponse, comme nous le verrons plus bas, est non : on ne peut pas affirmer
qu'une femme de 19 ans et moins a plus de chances ni mme un tout petit
peu plus de chances d'avoir un garon.
Nous n'affirmons pas que la frquence observe des garons est la mme
dans chaque groupe d'ge ; nous affirmons que la probabilit d'avoir un
garon peut tre la mme pour chaque groupe d'ge.
Si les probabilits sont gales pour chaque groupe d'ge, alors les frquences
devraient tre peu prs gales. Si les frquences ne sont pas gales mais
presque, on attribue la diffrence au hasard. Si elles sont trs diffrentes, le
hasard devient une explication peu convaincante, et il faut alors remettre en
question l'hypothse de dpart l'hypothse selon laquelle les probabilits
sont gales.
Le reste de cette section est consacr une procdure, semblable celle
prsente au chapitre 1, qui permet de juger de l'importance des carts entre
les frquences chantillonnales et de dcider si ces carts peuvent tre
attribus au hasard ou non.
On commence par formuler une hypothse, appele hypothse nulle.
L'hypothse nulle, dans cette section, est l'hypothse que les deux variables
sont indpendantes. La procdure ensuite suit les mmes tapes que la
procdure dcrite au chapitre 1.
a) On construit un tableau d'effectifs thoriques. Ce tableau indique les
effectifs auxquels on s'attend lorsque l'hypothse nulle est vrife.
89
b) On calcule une mesure F2 des carts entre les effectifs thoriques et

les effectifs observs. On rejette l'hypothse nulle si la valeur de F2 est
suprieure un point critique trouv comme dans le tableau 1.8
(page 18).
Les effectifs thoriques Les effectifs thoriques sont les effectifs auxquels
on s'attend lorsque les variables sont indpendantes. Il existe une faon
mcanique de les calculer, nous l'illustrerons dans l'exemple suivant. Plus
loin, nous montrerons, l'aide des donnes sur les naissances, par quel
raisonnement on arrive aux effectifs thoriques. Lorsque les variables sont
indpendantes, les distributions conditionnelles sont identiques non
seulement entre elles mais galement la distribution marginale. Autrement
dit, les proportions de garons et de filles devraient tre les mmes pour
chaque groupe d'ge que pour la population entire. La proportion de
garons pour la population entire est, d'aprs le tableau 3.5, 179 787 y
348 868 = 0,515 343 9 (C'est le nombre qu'on retrouve, avec moins de
dcimales, au bas du tableau 3.6). Si les variables sont indpendantes, ce
mme pourcentage devrait s'appliquer tous les groupes d'ge.
Parmi les 40 480 mres de 19 ans et moins, le nombre de garons devrait
tre
40 480 u 0,515 343 9 = 20 861
Parmi les 124 310 mres de 20 24 ans, le nombre de garons devrait tre
124 310 u 0,515 343 9 = 64 062
Parmi les 108 824 mres de 25 29 ans, le nombre de garons devrait tre
108 824 u 0,515 343 9 = 56 082
Nous venons de calculer les effectifs thoriques correspondant trois des
huit cases du tableau 3.5. On pourrait, par le mme raisonnement, remplir
les cinq cases qui restent, mais on peut galement le faire par soustraction
car les effectifs marginaux restent inchangs. Donc, si parmi les 40 480
enfants ns d'une mre de 19 ans et moins on s'attend avoir 20 861
garons, alors on s'attend avoir 40 480 20 861 = 19 619 filles. Le tableau
3.7 donne les effectifs thoriques (sous l'hypothse d'indpendance).
90
TABLEAU 3.7
ge de la mre (X) et sexe de l'enfant (Y) effectifs thoriques

X : ge de la mre
TOTAL
Masculin
Fminin
20 861
64 062
56 082
38 782
179 787
19 619
60 248
52 742
36 472
169 081
19 ans et moins
De 20 24 ans
De 25 29 ans
30 ans et plus
Population totale
40 480
124 310
108 824
75 254
348 868
Le khi-deux Les effectifs observs doivent maintenant tre compars aux

effectifs thoriques. Comme mesure globale de l'cart entre le tableau des
effectifs observs (tableau 3.5) et le tableau des effectifs thoriques (tableau
3.7), nous utilisons la mesure F2 employe au chapitre 1 :
F2
(O T ) 2
On peut aussi considrer cette quantit comme une mesure de la

dpendance qui se manifeste dans les donnes : si la dpendance est forte,
les effectifs observs s'cartent des effectifs thoriques et F2 prend une valeur
grande. Si la valeur F2 est trs grande, c'est que les donnes prennent une
allure de dpendance qui est trop forte pour tre attribue au hasard.
Nous calculons la valeur de F2 :
F2
( 20 956 20 861) 2
(19 524 19 619 ) 2
20 861

( 56 153 56 082 )
56 082
( 63 927 64 062 ) 2
19 619
2
( 52 671 52 742 )
52 742
( 60 383 60 248 ) 2
64 062
2
( 38 751 38 782 )
38 782
60 248
2
( 36 503 36 472 ) 2
36 472
0 , 433 0 , 460 0 , 284 0 , 302 0 , 090 0 , 096 0 , 025 0 , 026

1, 72
Il s'agit maintenant de dterminer si cette valeur est trop grande , c'est-dire, de la comparer un certain point critique. Le point critique dpend
du nombre de degrs de libert Q, lequel est fonction du nombre de lignes et
de colonnes dans le tableau. Il est donn par :
Q = (nombre de lignes 1) u (nombre de colonnes 1)
91
Cette formule peut tre dmontre, mais il faudrait pour cela recourir des
techniques passablement avances relevant de la thorie des probabilits. Par
contre, on peut l'illustrer, par exemple, dans le tableau 3.5 : tout en
respectant les totaux des lignes et des colonnes, on peut remplir librement
(4 1) x (2 1) = 3 cases. Voici, schmatiquement, 3 faons de le faire (vrifiez)
x
x
x
x
x
x
x
Dans notre tableau, il y a 4 lignes et 2 colonnes. Donc, le nombre de degrs

de libert est :
Q = (4 1) u (2 1) = 3 u 1 = 3
D'aprs le tableau 1.8 (page 18), le point critique est 7,82. Puisque la valeur
1,72 obtenue pour F2, n'est pas suprieure 7,82, nous ne rejetons pas
l'hypothse nulle. Voici deux faons d'noncer cette conclusion :
a) La dpendance qui se manifeste dans les donnes, et qui est mesure
par F2 est assez faible pour pouvoir tre attribue au hasard
seulement et non une vraie dpendance.
b) Les carts observs entre les donnes observes et les donnes
thoriques (issues de l'hypothse d'indpendance) et mesurs par le
F2 ne sont pas assez forts pour entraner le rejet de l'hypothse
d'indpendance.
Exemple 3
Les donnes du tableau 3.8 portent sur 252 couples maris amricains,
classifis selon le rang social du pre du mari (X) et le rang social du pre de
l'pouse (Y).
92
TABLEAU 3.8
chantillon de 252 couples amricains - rang social du pre du mari (X) et du pre de l'pouse (Y)
Y : rang social du pre de l'pouse
X : rang social du pre du mari
Professionnel
ou grant
Professionnel ou grant
Commis ou ouvrier spcialis
Ouvrier non spcialis
TOTAL
Commis ou
ouvrier
spcialis
44
21
12
77
39
38
24
101
Ouvrier non
spcialis
TOTAL
13
29
32
74
96
88
68
252
SOURCE : Katz (1978)
Les variables sont-elles indpendantes ? L'hypothse nulle est qu'elles le sont.

Pour calculer les effectifs thoriques, nous utilisons la formule mcanique
qui dcoule de l'indpendance (voir le dbut de la section 3.4, caractristique
c) : lorsque les variables sont indpendantes, l'effectif d'une case est gal au
produit du total de la ligne par le total de la colonne, divis par l'effectif total.
Le tableau 3.9 prsente l'ensemble des effectifs thoriques ainsi obtenus.
TABLEAU 3.9
Effectifs thoriques
TOTAL
96 u 77
96 u 101
29 , 333
252
252
88 u 77
26 , 889
252
68 u 77
20 , 778
252
TOTAL
38 , 476
28 ,191
96
25 , 841
88
19 , 968
68
252
88 u 101
252
68 u 101
35 , 270
27 , 254
88 u 74
252
68 u 74
252
252
77
96 u 74
101
74
252
La valeur de F2 est :
F2
( 44 29 , 333 ) 2
29 , 333
( 39 38 , 476 ) 2
38 , 476
7 , 334 0 , 007 8 ,186 7 , 25

28 , 76
(13 28 ,191) 2
28 ,191

( 32 19 , 968 ) 2
19 , 968

TABLEAU 3.10
93
Distributions conditionnelles de Y tant donn X

Y : rang social du pre de l'pouse
X : rang social du pre du mari
Professionnel ou grant
Commis ou ouvrier spcialis
Ouvrier non spcialis
Professionnel
ou grant
Commis ou
ouvrier
spcialis
Ouvrier non
spcialis
TOTAL
0,46
0,24
0,18
0,41
0,43
0,35
0,13
0,33
0,47
1,00
1,00
1,00
Puisque Q = (3 1)(3 1) = 2 u 2 = 4, le point critique est 9,49. La valeur de

F2 tant bien suprieure au point critique, nous rejetons l'hypothse nulle. Il
semble bien y avoir une dpendance entre les deux variables. Le tableau
3.10 qui donne les distributions conditionnelles de Y tant donn X rvle la
nature de cette dpendance : grosso modo, les hommes de rang social lev
pousent des femmes de rang social lev, et vice-versa.
i
Remarque Il n'est pas toujours ncessaire d'effectuer le calcul complet du F2 ;
dans l'exemple prcdent, on voit que la somme des trois premiers termes est
15,527, ce qui suffit assurer que le F2 dpasse le point critique et conclure
la dpendance.
Mise en garde La procdure dcrite dans cette section est base sur des
calculs de probabilit approximatifs et n'est valable que pour des chantillons
assez grands. En pratique, on vite d'employer le test du khi-deux lorsque le
tableau des effectifs thoriques comprend des effectifs infrieurs 5, ou
encore on regroupe certaines classes afin que tous les effectifs thoriques
soient au moins gaux 5.
RSUM
1. La distribution conjointe de deux variables X et Y fait correspondre
chaque paire (x, y), o x est une valeur de X et y une valeur de Y, un
effectif ou une frquence. D'un tableau qui donne la distribution
conjointe de X et Y on peut obtenir, en prenant la somme des lignes et la
somme des colonnes, la distribution de X et la distribution de Y. Ces
distributions sont alors appeles distributions marginales. La
distribution conditionnelle de Y tant donn X = x, est la distribution
de Y confine une tranche de la population, l'ensemble de tous ceux
94
pour qui X = x. Il existe donc une distribution conditionnelle de Y pour

chaque valeur de X. De mme, il y a une distribution conditionnelle de X
pour chaque valeur de Y.
2. Deux variables X et Y sont indpendantes si et seulement si elles
satisfont l'une ou l'autre des quatre conditions quivalentes suivantes :
a) Les distributions conditionnelles de Y, exprimes en frquences, sont
identiques entre elles et sont donc identiques la distribution
marginale de Y.
b) Les distributions conditionnelles de X, exprimes en frquences, sont
identiques entre elles et sont donc identiques la distribution
marginale de X.
c) Pour toute ligne i et toute colonne j, l'effectif de la case situe
l'intersection de la ligne i et de la colonne j est gal :
(total de la ligne i) u (total de la colonnej) y (effectif total)
d) Pour toute ligne i et toute colonne j, la frquence de la case situe
l'intersection de la ligne i et de la colonne j est gale au produit des
frquences marginales de la ligne i et de la colonne j.
3. Une dpendance entre deux variables n'est pas ncessairement due
l'effet de l'une sur l'autre. Elle peut rsulter de l'effet simultan d'une
troisime variable sur les deux premires. On peut parfois liminer cet
effet lorsqu'on dispose des donnes ncessaires, en gardant cette
troisime variable fixe.
4. Pour tester l'hypothse que deux variables sont indpendantes, on
procde de la faon suivante :
a) On dresse un tableau d'effectifs thoriques. Les effectifs thoriques
sont calculs partir des effectifs marginaux en employant la
dfinition 2 c) ci-dessus.
b) On mesure l'cart entre le tableau des effectifs thoriques et le
tableau des effectifs observs par :
F2
(O T ) 2
T
95
c) On rejette l'hypothse d'indpendance si la valeur de F2 est

suprieure un point critique trouv dans le tableau 1.8 (page 18).
Le nombre Q de degrs de libert est donn par :
Q = (nombre de lignes 1) u (nombre de colonnes 1)
Le test du khi-deux est approximatif. On devrait viter de l'employer
s'il y a des effectifs thoriques infrieurs 5.
EXERCICES
DISTRIBUTIONS
CONJOINTE,
MARGINALE ET
CONDITIONNELLE
1. Consultez le tableau 3.2 (page 80) et dites lesquelles des affirmations

suivantes propos des bbs qubcois ns en 1983 sont vraies. Pour
celles qui sont fausses, dterminez le vrai pourcentage.
a) 51,8 % des bbs taient des garons.
INDPENDANCE
b) 1,9 % des bbs avaient un poids faible.

c) 9,9 % des garons avaient un poids moyen.
d) 5,6 % des bbs taient des garons et avaient un poids trs lev.
e) 12,8 % des bbs de poids moyen taient des filles.
2. a) Montrez que les variables de l'exemple 1 (page 84) sont
indpendantes en vrifiant que l'effectif d'une case est gal au produit
du total de la ligne par le total de la colonne, divis par l'effectif total.
b) Exprimez la distribution conjointe du mme exemple en frquences.
Les frquences vrifient une proprit analogue celle qu'on
demande de vrifier en a). Quelle est-elle ? noncez-la clairement.
3. Dterminez, partir du tableau 3.5 (page 87) :
a) la distribution marginale de l'ge de la mre.
b) la distribution marginale du sexe de l'enfant.
c) chacune des distributions conditionnelles possibles.
4. Dterminez, partir du tableau 3.8 (page 92), la
conditionnelle de X tant donn chacune des valeurs de Y.
distribution
5. Le tableau 3.11 donne, pour une population de 68 297 mariages ayant

eu lieu au Canada en 1984, la distribution de la religion de l'poux (X) et
de la religion de l'pouse (Y). Dressez un tableau qui expose clairement la
forte dpendance existant entre ces variables.
96
TABLEAU 3.11
Religion de l'poux (X) et de l'pouse (Y) quatre principales religions, Canada 1984
X : religion de
l'poux
Y : religion de l'pouse
TOTAL
Anglicane
Baptiste
Catholique
glise Unie
5 469
480
4 106
2 673
12 728
500
2 031
806
563
3 900
4 270
861
23 632
5 023
33 786
2 740
613
4 898
9 632
17 883
Anglicane
Baptiste
Catholique
glise Unie
Total
12 979
3 985
33 442
17 891
68 297
TABLEAU 3.12
Mortinaissances et naissances vivantes selon l'ge de la mre 1974

ge de la mre
Naissances vivantes
Mortinaissances
< 20
38 626
316
20-24
111 409
757
25-29
119 239
836
30-34
48 142
402
35-39
14 133
232
40-44
3 333
81
> 45
226
10
6. Le tableau 3.12 donne, pour un ensemble de naissances ayant eu lieu au

Canada en 1974, la distribution de l'ge de la mre (X) et de l'tat du
bb (Y : mort, vivant).
a) Dterminez les distributions conditionnelles de Y tant donn les
valeurs de X.
b) Dterminez les distributions conditionnelles de X tant donn les
valeurs de Y.
c) Comme faon d'exposer la dpendance entre deux variables, laquelle
des deux sries de distributions conditionnelles vous semble plus
naturelle ?
DPENDANCE
ET CAUSALIT
7. Un fabricant de dtersifs, avec la coopration de cent supermarchs, se

livre une exprience dans le but d'tudier l'effet sur les ventes de deux
variables : l'emballage (bleu ou rouge) et l'emplacement sur l'talage (au
niveau des yeux ou au niveau des chevilles). Chaque magasin expose le
produit, soit dans l'emballage bleu, soit dans l'emballage rouge ; et soit au
niveau des yeux, soit au niveau des chevilles. Aprs deux semaines, on
value les ventes dans chaque magasin : on les qualifie de bonnes ou
de mauvaises selon les critres propres chaque magasin (pour tenir
compte des particularits du magasin). Voici les rsultats :
97
Emplacement
Niveau des yeux
Niveau des chevilles
Emballage
Emballage
Ventes
Bonnes
Mauvaises
Bleu
Rouge
Bleu
Rouge
4
6
36
4
8
32
2
8
Dressez des tableaux qui permettent de rpondre clairement aux

questions suivantes :
a) Est-ce que l'emballage a un effet sur les ventes ?
b) Est-ce que l'emplacement a un effet sur les ventes ?
8. Supposons que dans le cadre d'une tude sur la discrimination sexuelle,
le service du personnel d'une compagnie prlve un chantillon de 900
employs qu'il classifie selon le sexe (X), le salaire (Y) et la catgorie
d'emploi. La question est de savoir si les femmes sont moins bien payes
que les hommes. Chacun des exemples suivants montre qu'on peut
arriver des conclusions diffrentes selon qu'on spare les deux
catgories d'emploi ou non. Dans chacun des cas suivants, tirez vos
conclusions partir des deux tableaux. Combinez ensuite les deux
tableaux pour voir quelle conclusion vous seriez arrivs si vous n'aviez
pas spar les catgories d'emploi.
a) Emplois techniques
X : sexe
Femmes
Hommes
Emplois administratifs
Y : salaire
< 30 000
t 30 000
25
150
100
125
b) Emplois techniques
X : sexe
Femmes
Hommes
X : sexe
Femmes
Hommes
Y : salaire
< 30 000
t 30 000
75
50
100
275
Y : salaire
< 30 000
t 30 000
22
150
78
150
X : sexe
Femmes
Hommes
Y : salaire
< 30 000
t 30 000
268
82
132
18
98
c) Emplois techniques
X : sexe
Femmes
Hommes
TEST DU
KHI-DEUX
Y : salaire
< 30 000
t 30 000
125
75
175
25
X : sexe
Femmes
Hommes
Y : salaire
< 30 000
t 30 000
15
85
85
315
Essayez d'expliquer les contradictions sans employer de langage

technique.
9. Testez, avec les donns du tableau 3.11, l'hypothse que la religion de
l'poux et celle de l'pouse sont indpendantes. Exprimez clairement
votre conclusion.
10. Testez, avec les donnes du tableau 3.12, l'hypothse que le taux de
mortinatalit ne dpend pas de l'ge de la mre.
11. la page 25 du rapport cole et luttes de classes au Qubec publi
par la Centrale des enseignants du Qubec, les auteurs affirment qu'il
existe une relation trs nette entre la scolarit et la classe sociale
d'appartenance et que les pres de classe sociale suprieure ont aussi
une formation suprieure . L'un des tableaux fournis l'appui de ces
affirmations donne la distribution de la classe sociale et du niveau de
scolarit du pre de 5 582 lves du secondaire. Faites un test pour
dterminer si les affirmations sont justifies.
Sans
rponse
lmentaire
ou moins
Secondaire
Collgial
Universitaire
lves de
classe
suprieure
108
192
152
137
10
599
lves de
classe
intermdiaire
527
667
392
118
20
1 724
1 752
1 076
318
44
69
3 259
Scolarit
lves de
classe
infrieure
TOTAL
Remarque Cette dpendance entre le niveau de scolarit et le niveau de la

classe sociale n'a rien d'tonnant puisqu'elle est impose par la dfinition
mme de classe sociale. La classe sociale d'un lve est dfinie selon
l'occupation du pre. Or, le rang social attribu une occupation est
fortement li la scolarit ncessaire pour y accder.
99
12. la page 24 du rapport cit l'exercice 11, les auteurs affirment que le
phnomne drop-out et surtout l'abandon des tudes touchent davantage
les enfants de classe sociale infrieure . Cette affirmation est base sur
les donnes suivantes, qui reprsentent une classification de 6 930
lves de l'lmentaire, du secondaire et du collgial selon leur classe
sociale :
Classe
Niveau
TOTAL
Suprieure
lmentaire
Secondaire
Collgial
31
599
123
Intermdiaire
Infrieure
112
1 724
334
256
3 259
492
399
5 582
949
a) Dterminez les distributions conditionnelles qui ont pu mener la

conclusion cite plus haut.
b) Faites un test pour dterminer si la conclusion est justifie.
DIVERS
13. Les donnes suivantes sur les renouvellements des abonnements la

revue American History Illustrated en janvier et fvrier 1979 ont t
recueillies par Wagner (1982). Les variables sont X (janvier, fvrier) et Y
(abonnement renouvel ou non). Voici la distribution conjointe des deux
variables :
X : mois
Y : abonnement renouvel
Oui
Non
janvier
21 749
21 071
fvrier
4 733
2 155
a) Le taux de renouvellement s'est-il amlior en fvrier par rapport

janvier ?
b) Les tableaux suivants prsentent les distributions sparment pour
chaque catgorie d'abonnement. Les catgories sont : A, cadeaux ; B,
anciens renouvellements ; et C, service commercial d'abonnement.
A
X : mois
Oui
janvier
2 918
676
fvrier
704
180
Non
100
B
X : mois
Oui
Non
janvier
14 488
3 876
fvrier
3 907
1 233
C
X : mois
Oui
janvier
4 343
16 519
fvrier
122
742
Non
Peut-on maintenant dire que le taux de renouvellement s'est amlior

entre janvier et fvrier ? Expliquez la contradiction apparente entre
les rsultats en a) et en b).
14. Voici la rpartition de 6 459 francophones qubcois selon la
connaissance de l'anglais et l'origine ethnique (Vaillancourt et Lefebvre,
1979) :
Origine ethnique
TOTAL
Unilingues
Connaissent l'anglais
TOTAL
Franaise
Anglaise
Autres
3 156
2 667
5 823
142
193
335
116
185
301
3 414
3 045
6 459
a) Testez l'hypothse qu'il n'y a pas de diffrence entre les gens d'origine
franaise, anglaise et autres quant au pourcentage d'unilingues.
b) Faites un test pour comparer seulement ceux d'origine anglaise et
ceux d'origine franaise.
15. Dans une certaine exprience en marketing (Carefoot, 1982), on a choisi
800 consommateurs (le groupe exprimental) leur entre dans un
supermarch. On a incit ces consommateurs venir visionner 5
annonces publicitaires dans une roulotte installe sur le terrain de
stationnement avant de faire leurs emplettes. la sortie, ils prsentaient
une carte magntique qui, l'aide d'un appareil branch la caisse
enregistreuse, permettait de dresser une liste complte de leurs achats.
On pouvait donc savoir lesquels des articles dont les consommateurs
101
avaient vu les annonces ont t achets par chacun d'eux. Paralllement,

on a choisi un groupe tmoin de 800 personnes qui on n'a pas fait
visionner les annonces. Dans le tableau suivant, on donne pour trois des
cinq articles annoncs le nombre de personnes dans chaque groupe qui
l'ont achet.
Article
Savon A
Crales B
Dner congel C
Groupe tmoin
Groupe exprimental
15
31
12
17
44
24
Pour chacun des produits, testez l'hypothse que l'annonce n'a pas
d'effet. Cette exprience, faite avec un chantillon de 800 personnes pour
chaque groupe, se rvle plutt onreuse. la lumire des rsultats
obtenus pour le dner congel, peut-on dire que des chantillons de cette
taille taient ncessaires ?
16. Les donnes suivantes proviennent d'une tude (Lynn, 1981) qui visait
dterminer les caractristiques de ceux qui lisent les annonces publicitaires
(les lecteurs ) et de ceux qui ne les lisent pas (les non-lecteurs ). Dans
chacun des cas, dites s'il y a un lien entre la variable indique et le fait de
lire les annonces ou pas.
Lecteur ou non des annonces publicitaires
tat matrimonial
Mari
Pas mari
Lecteur
Non-lecteur
666
216
200
48

Scolarit
Secondaire ou moins
Universit
Lecteur
Non-lecteur
593
276
159
96

Sexe
Femmes
Hommes
Lecteur
Non-lecteur
377
504
177
79
102

Taille de la famille
1
2
3
4
5+
Lecteur
Non-lecteur
100
302
192
170
118
27
87
55
54
34
17. Pour comparer l'aptitude en mathmatique des tudiants orientaux et

des tudiants amricains de race blanche, Tsang (1984) a examin la
distribution des rsultats au test de mathmatiques du SAT (Scholastic
Aptitude Test) de 10 097 tudiants orientaux et de 502 990 tudiants
amricains de race blanche. Les distributions pour les deux populations
sont donnes dans le tableau suivant :
Origine
Score au SAT-mathmatiques
Orientaux
700-800
600-690
500-590
400-490
300-390
200-290
Amricains de race blanche
601
2 001
3 190
2 788
1 309
208
10 097
22 564
86 521
158 049
151 466
74 498
9 892
502 990
Testez l'hypothse que la distribution des scores des Orientaux est la

mme que celle des Amricains de race blanche.
18. Dans le cadre d'une tude sur les pressions exerces par les sectes
fondamentalistes sur la programmation la tlvision, Rubens (1981) a
fait remplir un questionnaire 440 sujets. Le questionnaire lui a permis
de classer chaque sujet selon son degr de fondamentalisme . Il a en
outre pos un certain nombre de questions d'opinion. Testez l'hypothse
d'indpendance entre le degr de fondamentalisme et chacune des
opinions exprimes.
Rglementation de la presse
Il faudrait qu'il y ait plus de rglementation
pour rgir le contenu des journaux
D'accord
Pas d'accord
Degr de fondamentalisme
Zro
Faible
Fort
Trs fort
15
81
25
70
35
60
38
7

Bibliothque
Tout livre devrait tre autoris dans les
bibliothques
D'accord
Pas d'accord
Tlvision
Tout sujet devrait pouvoir tre trait la
tlvision
D'accord
Pas d'accord
103
Zro
Faible
Fort
Trs fort
85
13
77
20
59
36
52
47
Zro
Faible
Fort
Trs fort
88
8
80
15
67
27
56
37
19. Le tableau suivant donne la rpartition de 7 187 francophones du

Qubec selon le lieu de naissance et la connaissance de l'anglais.
(Vaillancourt et Lefebvre, 1979).
a) Testez l'hypothse que la proportion d'unilingues est la mme parmi
ceux qui sont ns au Qubec et parmi ceux venant d'un pays
anglophone.
b) Considrez comme appartenant un mme groupe ceux qui sont ns
au Qubec et ceux qui sont ns dans un pays francophone. Testez
l'hypothse que dans ce nouveau groupe, la proportion d'unilingues
est la mme que parmi ceux des pays anglophones et que parmi ceux
des autres pays.
Lieu de naissance
Qubec
Pays
francophones
Pays
anglophones
Autres pays
Taille de
l'chantillon
6 868
133
164
22
Nombre
d'unilingues
3 770
72
32
20. Considrez la distribution conjointe suivante :

X
x1
x2
TOTAL
Y
y1
y2
0,3
0,4
0,7
0,1
0,2
0,3
TOTAL
0,4
0,6
1,0
104
a) Dressez le tableau des distributions conditionnelles de Y.

b) Testez l'hypothse d'indpendance en supposant que :
i)
l'effectif total est 100 ;
ii) l'effectif total est 1 000.

c) Expliquez pourquoi il y a une diffrence entre vos deux rponses.
21. Les donnes suivantes portent sur 17 060 diplms d'universit (Service
gnral des communications, Relance l'Universit , ministre de
l'ducation du Qubec, 1979). Les diplms sont classs selon leur
statut en 1978 et la scolarit de leur pre :
Statut du diplm
Scolarit du pre
TOTAL
Aux tudes
Au travail
Inactif ou en
chmage
Secondaire ou
moins
808
11 160
591
12 559
Plus que le
secondaire
544
3 727
230
4 501
1 352
14 887
821
17 060
TOTAL
a) Testez l'hypothse selon laquelle il n'y a pas de dpendance entre le

statut du diplm et la scolarit du pre. S'il y a dpendance,
dcrivez-en la nature.
b) Y a-t-il une dpendance entre le statut du diplm et la scolarit du
pre parmi ceux qui ne sont pas aux tudes ?
22. Utilisez les donnes du tableau 3.11 pour tester tour de rle chacune
des hypothses suivantes :
a) la probabilit qu'un homme pouse une coreligionnaire est la mme
pour les quatre religions ;
b) 50 % des femmes baptistes pousent des coreligionnaires ;
c) 50 % des mariages entre Catholiques et Baptistes sont des mariages
entre un homme catholique et une femme baptiste.
23. Les donnes suivantes portent sur 289 usines portoricaines qui ont
ferm leurs portes entre 1973 et 1980 pour l'une des raisons suivantes :
A, problmes de march ; B, problmes financiers ; et C, problmes
d'oprations. Les usines sont classes selon le nombre d'employes (X) et
la raison principale pour laquelle elles ont ferm leurs portes (Y).

X : nombre d'employes
5-9
10-49
50+
105
Y : raison principale de la fermeture de l'usine

A
35
58
48
27
39
16
5
32
29
SOURCE : Constas (1981)
Dressez un tableau qui prsente ces donnes sous une forme plus
instructive, et discutez les conclusions qu'on peut en tirer.
24. En 1974, 4 974 hommes baptistes se sont maris, dont 2 222 des
coreligionnaires. Connaissant les donnes pour 1984 (tableau 3.11),
pouvez-vous dire que la tendance chez les hommes baptistes pouser
des coreligionnaires a chang entre 1974 et 1984 ? Commentez.
25. Les donnes suivantes portent sur 17 059 diplms d'universit en 1974
1975, rejoints en 1978 (Service gnral des communications, Relance
l'Universit , ministre de l'ducation du Qubec, 1979). Les diplms
sont classs selon leur statut en 1978 et leur langue maternelle.
Statut du diplm
Langue
maternelle
Franais
Anglais
Autres
TOTAL
Aux tudes
448
757
217
1 422
Au travail
2 294
11 267
1 234
14 795
Inactif ou en
chmage
145
547
150
842
TOTAL
2 887
12 571
1 601
17 059
a) Testez l'hypothse selon laquelle le statut du diplm ne dpend pas

de sa langue maternelle.
b) Testez l'hypothse selon laquelle parmi ceux qui ne sont pas aux
tudes, le taux de chmage ou d'inactivit est le mme pour les
francophones, les anglophones et les allophones.
26. On met parfois l'hypothse que le succs d'un savant dpend en partie
de son rang dans l'ordre de sa naissance parmi ses frres ou ses surs.
Les donnes suivantes sur les gagnants de prix Nobel ont t recueillies
par Clark et Rice (1982) dans le but de vrifier une hypothse
particulire, celle que les scientifiques ont une tendance plus grande que
les non-scientifiques tre des premiers-ns. Les prix en physique,
chimie, mdecine et conomie sont considrs comme prix scientifiques ;
les prix de littrature et de la paix sont non scientifiques. Les gagnants
de prix Nobel qui sont fils uniques sont exclus.
106

Statut dans la famille
Prix
TOTAL
Premier-n
Scientifique
Non-scientifique
TOTAL
51
17
68
Cadet
62
45
107
113
62
175
L'hypothse de Clark et Rice est-elle vrifie ?

27. La distribution suivante a t dresse par Haberman (1978) partir de
donnes fournies par le National Opinion Research Center de l'Universit
de Chicago. Les variables sont le nombre d'annes de scolarit (X) et
l'attitude face l'avortement (Y).
X : scolarit
Moins de 8 ans
Entre 9 et 12 ans
Plus de 12 ans
Y : attitude face l'avortement

Pour
Mixte
Contre
31
171
116
23
89
39
56
177
74
a) Testez l'hypothse selon laquelle X et Y sont indpendantes.

b) Les donnes ci-dessus portent sur deux groupes : des catholiques et
des protestants du nord des tats-Unis. Voici la distribution pour
chaque groupe :
Catholiques
X : scolarit
Moins de 8 ans
Entre 9 et 12 ans
Plus de 12 ans

Pour
Mixte
Contre
8
65
37
10
39
18
24
89
43
Protestants
X : scolarit
Moins de 8 ans
Entre 9 et 12 ans
Plus de 12 ans

Pour
Mixte
Contre
23
106
79
13
50
21
32
88
31
La conclusion tire en a) doit-elle tre modifie ?

28. Pour tudier l'effet de certaines maladies sur le sommeil, Kaye, Kaye et
Madow (1983) ont interrog 30 personnes souffrant du cancer, 27
personnes souffrant de maladies du coeur et 24 personnes en bonne
sant. Ils leur ont pos la question suivante : Avez-vous de la difficult
107
vous endormir ? Le nombre de rponses affirmatives a t 12 pour

ceux qui souffraient de cancer, 22 pour ceux qui souffraient de maladie
de coeur, et 6 pour les personnes en bonne sant.
a) Le cancer a-t-il un effet sur le sommeil ?
b) Les maladies de coeur ont-elles un effet sur le sommeil ?
29. Le tableau suivant prsente la rpartition de 151 voyages entrepris par
des familles montralaises, selon la direction prise et le niveau de
scolarit du chef de famille.
Direction prise
Qubec
Reste du Canada
et continent
amricain
Hors continent
22
11
33
36
40
76
12
30
42
Scolarit
0-11 ans
12 ans+
TOTAL
TOTAL
70
81
151
a) Y a-t-il une dpendance entre la direction prise par les voyageurs et

le niveau de scolarit ?
b) Si oui, peut-on quand mme dfendre la thse que le niveau de
scolarit, comme tel, n'a pas d'influence sur le choix des vacances ?
c) Quelles donnes devrait-on prlever et quelle analyse devrait-on faire
pour dfendre une telle thse ? Dressez une srie de tableaux avec
des donnes fictives, desquelles on pourrait dduire i) que le niveau
de scolarit n'a pas d'influence sur la direction prise par les
voyageurs, et ii) que le revenu a une influence sur la direction prise
par les voyageurs.
30. Une certaine secte religieuse au Canada a des pratiques sexuelles qui,
selon certains, favorisent les naissances de garons. On a constat en
effet que parmi 50 enfants ns de cette secte en 1971, 31 taient des
garons. Sachant qu'au Canada cette anne-l 179 781 garons et
169 081 filles sont ns, peut-on affirmer que la probabilit qu'un enfant
de cette secte soit un garon est suprieure la probabilit qu'un enfant
canadien le soit ? ( enfant canadien peut inclure les enfants de cette
secte ou pas la secte est trop petite pour changer perceptiblement les
proportions). Devrait-on employer un test d'ajustement (le test vu au
chapitre 1) ou un test d'indpendance ? Discutez.
108
*31. Arthur affirme pouvoir prdire le temps qu'il fera demain d'aprs
certaines sensations qu'il ressent dans ses articulations. Pour voir si
c'est bien vrai, on observe ses prdictions pendant 150 jours. Il a prdit
de la pluie 100 fois, et de ces 100 fois il a effectivement plu 70 fois. Les
50 autres fois il a prdit du beau temps et le temps a t beau 20 fois.
Peut-on conclure qu'il a vraiment des capacits de prdiction du temps ?
a) Un statisticien amateur procde de la faon suivante : il observe que
les prdictions ont t correctes 90 fois sur 150. Il considre donc ses
effectifs observs comme tant 90 et 60, et il les compare aux effectifs
thoriques 75 et 75, l'aide d'un test d'ajustement. Il trouve F2 = 6
avec 1 degr de libert, ce qui est significatif. Pourquoi cette
procdure est-elle incorrecte ?
b) Faites le test correctement.
*32. La conclusion tire au numro 26 (que les scientifiques ont une plus
forte tendance tre premiers-ns) pourrait bien tre un artifice. Pour
diverses raisons, dont peut-tre les annes auxquelles les diffrents prix
ont t dcerns, les scientifiques sont ns de familles moins
nombreuses. Ce seul fait pourrait suffire expliquer pourquoi ils sont
plus souvent premiers-ns. Considrez les donnes fictives suivantes. On
prlve un chantillon de 360 scientifiques, dont 300 appartiennent
des familles de 2 enfants et 60 des familles de 3 enfants ; et un
chantillon de 360 non-scientifiques, dont 60 appartiennent des
familles de 2 enfants et 300 des familles de 3 enfants. Quel est
thoriquement le nombre de premiers-ns parmi les non-scientifiques ?
*33. Pour rsoudre le problme 17, un tudiant procde de la faon suivante.
Il dtermine la distribution de frquences pour les Amricains de race
blanche :
0,045 ; 0,172 ; 0,314 ; 0,301 ; 0,148 ; 0,020. Il fait ensuite un test
comme celui prsent au chapitre 1 pour tester l'hypothse que la
distribution du score pour les Orientaux est identique celle qu'il a
dtermine pour les Amricains de race blanche.
a) Savez-vous pourquoi ce test n'est pas applicable ?
b) Faites le test de la faon dcrite dans ce numro, et comparez votre
rsultat celui du numro 17. Pouvez-vous expliquer pourquoi les
deux rsultats sont si semblables ?
109
34. Pour comparer deux bires, on fait une exprience avec 100 amateurs de
chaque marque. Chaque groupe affirme connatre la diffrence entre les
deux et prfrer nettement la sienne. On demande chaque sujet
d'identifier sa prfrence, aprs avoir got les deux. Voici les rsultats :
Habituellement boivent
TOTAL
A
65
45
110
35
55
90
100
100
200
Ont prfr
TOTAL
Les hypothses suivantes sont exprimes dans le langage de tous les

jours. Exprimez-les plus formellement et puis testez-les si possible. Ce ne
sont pas ncessairement des hypothses nulles .
a) Les buveurs de la bire B ne connaissent pas la diffrence entre les
deux bires.
b) Les buveurs de la bire A ne connaissent pas la diffrence entre les
deux bires.
c) Les buveurs de la bire A discriminent mieux entre les deux marques
que les buveurs de la bire B.
d) Il n'y a pas de diffrence discernable entre les deux bires.
Droite des moindres

carrs et corrlation
4.1
Droite des moindres carrs

x Principe des moindres carrs
x Droite des moindres carrs
4.2
4.3
Corrlation
Un test d'indpendance
x Le test
x Conditions de validit
RSUM
EXERCICES
4 Droite des moindres carrs et corrlation
111
Introduction Les mthodes du chapitre 3 sont conues essentiellement pour

des donnes qualitatives. Ces mthodes pourraient servir l'analyse de
donnes quantitatives puisqu'on peut toujours, en groupant les valeurs
d'une variable quantitative, rduire celle-ci une variable qualitative. On
peut toutefois viter la perte d'information qu'entranerait un tel
regroupement en employant des mthodes propres aux variables
quantitatives.
Lorsque deux variables quantitatives sont dpendantes, il est possible,
quand les circonstances sont favorables, d'exprimer la dpendance l'aide
d'une quation mathmatique. Dans ce chapitre, nous tudions le cas
particulier o la dpendance peut tre exprime par une quation linaire.
Nous commenons par montrer comment dterminer l'quation qui relie une
variable l'autre. Ensuite, nous dfinissons une mesure de la dpendance
entre deux variables quantitatives. Finalement, nous prsentons un test
statistique permettant de dterminer si une dpendance observe dans un
chantillon est significative ou non.
4.1
DROITE DES MOINDRES CARRS

Typiquement, l'analyse de la dpendance entre deux variables quantitatives
dbute avec des donnes couples comme celles du tableau 4.1. Ce tableau
donne, pour un ensemble de 41 maisons vendues Outremont au
printemps 1981, les valeurs de deux variables :
X : L'valuation municipale, en milliers de dollars
Y : Le prix la vente, en milliers de dollars.
Il est certain que nous allons observer une dpendance entre ces deux
variables. La figure 4.1, qui prsente les donnes du tableau 4.1 sous la
forme d'un nuage de points, le confirme. Chaque maison vendue est
reprsente par un point dont l'abscisse est X, l'valuation municipale, et
l'ordonne est Y, le prix la vente. La figure montre qu'il y a une relation
entre X et Y en ce sens que, en gros, lorsque X crot, Y crot. Elle indique
aussi que la relation est peu prs linaire : l'oeil, il semble possible de
tracer une droite qui passe assez bien dans l'ensemble des points du nuage.
Notre objectif est de trouver l'quation de la droite s'approchant le plus
possible des points. Pour ce faire, nous allons d'abord dfinir une mesure de
la distance entre les points et une droite ; nous allons ensuite montrer
112
comment trouver l'quation de la droite qui minimise cette distance.
Principe des moindres carrs En gnral, les donnes prennent la forme de n

couples (xl, yl) (x2, y2), , (xn, yn) que l'on peut reprsenter par autant de
points sur un plan cartsien. L'quation d'une droite est de la forme
y = a + bx.
TABLEAU 4.1
FIGURE 4.1
valuation (X) et prix (Y) de 41 maisons vendues Outremont printemps 1981

X
45,3
55,6
102,7
38,2
63,6
63,6
41,6
31,3
181,4
89,3
54,9
65
60
140
50
60
80
74
79
275
162
136
136,4
77,5
111,2
186,1
69,3
32,5
92,3
36,6
87,4
44,0
235
125
112
268
150
45
142
69
100
123
88,8
58,1
98,0
39,3
58,8
42,2
45,2
117,4
117,3
122,9
117
160
188
88
103
65
77
188
156
225
29,3
82,0
79,0
64,4
78,0
75,1
86,8
143,5
85,4
86,6
58
132
198
90
110
114
149
315
130
135
Nuage de points (donnes du tableau 4.1) travers par la droite des moindres carrs calcule
dans l'exemple 3
y
350
300
250
200
150
100
50
x
50
100
150
200

FIGURE 4.2
113
Distances verticales une droite

y
d3
( x3 ,y 3 )
( x 3 , y 3 )
( x1 , y 1 )
d1
( x 2 , y 2 )
d2
( x2 ,y 2 )
( x 1 , y 1 )
X1
X2
X3
Soit une droite donne y = a+ bx, et soit d1, d2, ..., dn les distances verticales
entre les points et la droite. Ces distances sont reprsentes par les traits
verticaux dans la figure 4.2.
La somme des carrs de ces distances servira de mesure globale de la
distance entre les points et la droite. On dfinit formellement la distance D
entre les points et la droite par
D
d 12 d 22 d n2
d i2 .
Si l'on dnote par y i la hauteur de la droite au point x i , c'est--dire

y i
a bx i
alors d i est donn par

di
et
y i y i
y i y i
2
y i y i
114
FIGURE 4.3
Calcul de la distance verticale une droite
10
(3,10
1
(3,9)
(1,8)
8
7
(2,7)
-2
(2,5)
(1,5)
5
4
3
2
1
0
0
Nous souhaitons que cette distance soit petite : plus elle est petite, mieux la
droite est ajuste aux donnes. Puisque notre objectif est de trouver une
droite qui s'ajuste le mieux possible aux donnes, nous devons chercher la
droite pour laquelle la distance D est minimale.
Nous commettons un lger abus de langage en utilisant le terme distance
pour dsigner la quantit D. En toute rigueur, nous devrions plutt affecter
ce terme
D . Ces considrations d'ordre terminologique sont cependant
sans grande consquence puisque minimiser D ou minimiser

mme.
Exemple 1
D revient au
Considrons les points (1, 8), (2, 5) et (3, 10) ainsi que la droite y
(voir figure 4.3).
Les trois points correspondants sur la droite ont pour ordonne :
y 1
3 2 (1)
5;
y 2
3 2( 2)
7 ; y 3
3 2 ( 3)
9.
3 2x
115
Les carts verticaux sont :

d1
85
57
3; d 2
10 9
2; d3
1.
La distance D est donc :

D
d 12 d 22 d 32
3 2 2 2 12
14 .
La droite y = 3 + 2x n'est pas la meilleure possible. Le lecteur peut vrifier

que la droite y = 6 + x donne une distance D = 11, plus petite que la distance
D = 14 obtenue avec y = 3 + 2x. La droite y = 6 + x passe donc mieux parmi
les trois points que la droite y = 3 + 2x. Toutefois, elle n'est encore pas aussi
proche que possible. On peut montrer que la droite qui minimise D est
y = 17 3 + x. La distance correspondante est D = 32 3 = 10 2 3 . Aucune autre
droite ne peut donner une distance aussi petite que celle-ci.
Le principe des moindres carrs est le principe selon lequel on choisit,

parmi toutes les droites possibles, celle qui minimise la somme des carrs
des distances verticales, c'est--dire, celle qui minimise la distance D. Cette
droite est appele droite des moindres carrs ou droite de rgression.
Droite des moindres carrs On peut dmontrer que les coefficients a et b de la

droite des moindres carrs y = a + bx sont donns par les formules
suivantes :
b
a
x i x y i y
x i x
y bx .
En utilisant les identits

x i x y i y 6x i y i 6x i 6y i
6x i y i n x y
6 x i x
6x i 6x i
2
6x i2
nx ,
on peut trouver plusieurs expressions quivalentes pour b. En voici quelques

unes qui sont, en gnral, plus faciles employer que la formule originale
116
car elles permettent d'obtenir b en fonction des quatre sommes 6x i , 6x i2 , 6y i

et 6x i y i .
n6x i y i 6x i 6y i
n6x i2
6x i
6x i y i - 6x i
6y i
2
2
6x i - 6 x i n
6xi y i nx y
2
6xi nx
xy x y
2
x x
xy
Exemple 2
6x i y i ; x 2
1
n
6x i2 .
Pour illustrer les calculs, nous prenons les donnes de l'exemple 1 :

x
10
Des calculs simples donnent les rsultats suivants :

6x i
6x i2
6y i
23
6x i y i
1 4 9 14
48 .
8 10 30
Donc :
b
n6x i y i ( 6x i )( 6y i )
n6x i2
( 6x i )
23
3 (14 ) ( 6 )
6
1
3
3
y bx
3 ( 48 ) ( 6 )( 23 )
23 6
17
1,
5 32 .
Donc, la droite des moindres carrs est

y
a bx
5 32 x .
117
L'quation de la droite des moindres carrs est une expression qui permet
d'estimer la valeur de Y qui correspond une valeur de X donne. Il suffit de
remplacer X par la valeur en question dans l'expression y a bx .
Exemple 3
Nous utilisons les donnes du tableau 4.1 pour trouver l'quation qui
permettra d'estimer le prix la vente (Y) d'une maison d'Outremont partir
de son valuation (X). Les calculs donnent :
6x i
6y i
3 238 , 9
6x i y i
508 455 , 6
5 348
41
6x i2
313 698 , 21
6y i2
864 988
Donc :
6 ( x i x )( y i y )
6( xi x )
6x i y i ( 6x i )( 6y i ) n
2
6x i ( 6x i )
57 833 , 009 76
85 976 , 643 9
85 976 , 643 9
1, 486 636 166
57 833 , 009 76
a
y bx
5 348
41
1, 486 636 166
3 238 , 9
41
12 , 998 393 2
La droite des moindres carrs est donc approximativement

y
13 1, 49 x .
Cette quation peut servir estimer le prix de vente d'une maison partir de
son valuation. Par exemple, nous estimons qu'une maison value 70 500 $
se vendra :
y
c'est--dire, 118 045 $.
13 1, 49 ( 70 , 5 ) 118 , 045
Dans les formules pour la droite des moindres carrs, on ne peut intervertir
les x i et les y i . Chacune des variables joue un rle qui lui est propre. La
variable X, appele variable explicative (ou variable indpendante), servira
ventuellement estimer Y. La variable Y, appele variable explique (ou
variable dpendante), est celle dont on voudra estimer la valeur.
118
4.2
CORRLATION
Il est toujours possible de dterminer la droite des moindres carrs en
utilisant les formules de la section prcdente condition, toutefois, que
les x i ne soient pas tous identiques. Cela ne veut pas dire que les
estimations faites partir de la droite des moindres carrs seront bonnes :
elles seront bonnes seulement dans la mesure o la relation entre X et Y est
linaire et forte, c'est--dire, dans la mesure o les points du nuage sont
proches d'une droite de pente non nulle.
Le coefficient de corrlation, not r, est une mesure de dpendance
linaire dfinie par l'une ou l'autre des formules suivantes :
6 ( x i x )( y i y )
6( xi x )2
6(y i y )2
n6x i y i ( 6x i )( 6y i )
2
2
n6x i ( 6x i )
xy x y
x2 x2
r
2
2
n6y i ( 6y i )
SX
y2 y2
SY
Le coefficient de corrlation jouit des proprits suivantes :

1. 1 d r d 1. Le coefficient de corrlation est toujours compris entre 1 et 1.
2. r = 1 si et seulement si tous les points se situent sur une droite de pente
positive ; r = 1 si et seulement si tous les points se situent sur une
droite de pente ngative. En d'autres termes, les valeurs extrmes 1 et
1 dnotent une corrlation parfaite entre X et Y.
3. Si X et Y sont indpendantes, alors r = 0. La rciproque n'est pas vraie :
le coefficient de corrlation peut tre nul sans que les variables soient
indpendantes. Dans ce cas, cependant, la dpendance n'est pas linaire.
4. r = 0 si et seulement si b = 0.
119
5. Plus les points du nuage s'alignent le long d'une droite de pente non
nulle, plus r est loign de 0.
Exemple 4
Pour les donnes de l'exemple 3, le coefficient de corrlation est :

r
n6x i y i ( 6x i )( 6y i )
2
2
n 6x i ( 6x i )
2
2
n 6y i ( 6 y i )
41( 508 455 , 6 ) ( 3 238 , 9 )( 5 348 )

41( 313 698 , 21) ( 3 238 , 9 )
3 525 042 , 4
41( 864 988 ) ( 5 348 )
0 , 87
2 371 153 , 4 6 863 404
Le coefficient de corrlation est assez proche de 1, ce qui indique une forte

corrlation positive entre X et Y.
i
La figure 4.4 illustre, pour diffrentes dispositions de points, la droite de
rgression qui s'y ajuste le mieux. Pour chaque cas on donne aussi la valeur
approximative du coefficient de corrlation r.
Commentaires Le graphique (a) de la figure 4.4 illustre un cas de corrlation
ngative parfaite tous les points sont exactement aligns le long d'une droite
de pente ngative : r = 1.
Le graphique (b) illustre une corrlation positive trs forte pour laquelle
r = 0,98. Dans le graphique (c), l'alignement des points est moins rigoureux
mais la tendance est encore trs nette : r = 0,8. Dans le graphique (d) la
tendance linaire est beaucoup plus faible : r = 0,3.
Les graphiques (e) et (f) illustrent deux cas d'indpendance. La droite de
rgression y est horizontale et r = 0. On pourrait tre tent, dans le graphique
(f), de prfrer l'ajustement d'une droite verticale plutt que celui de la droite
horizontale qui a t trace. Rappelons toutefois que le critre utilis pour
quantifier la qualit de l'ajustement d'une droite dans un nuage de points est
la somme des carrs des carts verticaux entre la droite et chacun des points.
Dans le graphique (f), c'est vraiment la droite horizontale qui minimise la
somme des carrs des carts verticaux. En fait, les graphiques (e) et (f)
illustrent fondamentalement le mme cas ; il suffit de comprimer ou de dilater
l'chelle des X on celle des Y pour passer librement de l'un l'autre cas. Si,
par exemple, X est mesure en kilogrammes et Y est mesure en dollars, le
choix des chelles est arbitraire.
120
FIGURE 4.4
Diffrents cas de rgression
121
Le graphique (g) donne lui exemple o la relation entre X et Y n'est pas

linaire. Globalement, on y observe tout de mme que les petits X donnent de
petits Y et que les grands X donnent de grands Y. Sensible cette tendance, le
coefficient de corrlation a pris la valeur 0,8 comme dans le graphique (c).
Le graphique (h) montre clairement que r = 0 n'implique pas que les variables
soient indpendantes. Ici, la dpendance entre X et Y est trs prononce : les
petits X, comme les grands X, donnent de grands Y alors que les X moyens
donnent de petits Y.
4.3
UN TEST D'INDPENDANCE
Revenons l'exemple des maisons d'Outremont. Dans la section 4.1,
exemple 3, nous avons dtermin la droite de rgression pour estimer le prix
partir de l'valuation. Dans la section 4.2, exemple 4, nous avons
dtermin le coefficient de corrlation pour nous assurer que la droite de
rgression donnera de bonnes estimations. Ayant trouv un coefficient de
corrlation de 0,87, nous avons conclu que la dpendance entre X et Y est
assez forte pour permettre des estimations relativement bonnes.
Cette conclusion tait un peu htive, car le coefficient de corrlation de 0,87
ne mesure que le dpendance qui se manifeste dans l'chantillon. Or, les
valeurs chantillonnales sont dtermines en bonne partie par le hasard : le
prix auquel se vend une maison est le fruit d'une ngociation dont l'issue est
imprvisible. Il se peut que deux variables soient fondamentalement
indpendantes et que le hasard seul soit responsable de la dpendance
observe dans l'chantillon. Dans le contexte de notre exemple, cette
hypothse est peu vraisemblable, d'abord parce qu'on sait a priori que le prix
d'une maison est fortement li son valuation, et ensuite parce que le
coefficient de corrlation est lev. Dans plusieurs cas, cependant, on ne sait
pas a priori si les variables sont dpendantes ou non, et le coefficient de
corrlation n'est ni trs prs ni trs loin de 0.
Pour ces cas-l, nous avons besoin d'un test pour dcider si le coefficient de
corrlation est assez grand pour tre significatif.
Le test Le test se base sur un raisonnement analogue celui des autres tests
statistiques : si r est petit (en valeur absolue), on attribue la dpendance au
hasard ; si r est grand (en valeur absolue), on attribue la dpendance
chantillonnale une dpendance relle entre les variables. Il s'avre plus
122
commode, cependant, de baser le test non pas sur r lui-mme mais sur une
autre quantit, fonction de r, qui crot lorsque r crot. C'est la quantit
dfinie par
Z
n2
1 r2
Lorsque r est grand, Z est grand et lorsque r est petit, Z est petit. De plus,
r = 0 si et seulement si Z = 0. Donc, un test bas sur Z est quivalent un
test bas sur r. Toutefois, Z a l'avantage d'tre une variable centre rduite et
peut donc tre interprte peu prs comme une cote Z. Une valeur de 3 ou
de 3 est trs loigne de 0 et indique une dpendance relle entre les
variables. Une valeur de 1 ou de 1, par contre, n'est pas excessive : elle peut
tre due au hasard.
Il est habituellement raisonnable de rejeter l'hypothse d'indpendance quand
Z se trouve l'extrieur de l'intervalle (2,2). Si l'hypothse d'indpendance
est vraie, la valeur de Z a tendance tre petite, presque certainement dans
l'intervalle (2,2). Auquel cas on ne rejette pas l'hypothse d'indpendance,
et on a raison. Il peut arriver que Z se trouve l'extrieur de l'intervalle
(2,2), mme si X et Y sont indpendantes. Dans ce cas, on rejette
l'hypothse d'indpendance tort. La probabilit d'une telle erreur est
voisine de 5 %, un risque gnralement considr acceptable.
Si l'hypothse d'indpendance est fausse, Z a tendance sortir de l'intervalle
(2,2), ce qui conduit, comme il le faut, au rejet de l'hypothse. Si Z est dans
l'intervalle, on accepte l'hypothse d'indpendance tort. La probabilit
d'accepter tort, contrairement rejeter tort, ne peut pas tre borne par
une quantit relativement petite comme 5 %. C'est pourquoi on accepte
l'hypothse avec circonspection. Il s'agit plutt d'un non-rejet que d'une
acceptation.
Remarque Si n est vraiment grand, on n'a pas rellement utiliser la
transformation Z. En convenant de rejeter l'hypothse d'indpendance si
nr 2 ! 4 on arrive encore plus rapidement la conclusion et le risque d'erreur
est encore voisin de 5 %.
123
Dans l'exemple des maisons vendues Outremont, la valeur de Z est

Z
41 2 u 0 , 87
11, 02 .
1 ( 0 , 87 ) 2
Pour une cote Z, cette valeur est norme. Ceci veut dire que r est trop grand
pour qu'on puisse attribuer la dpendance observe au hasard. La
dpendance entre les variables est relle.
Le test bas sur nr 2 conduit la mme conclusion : nr 2 31, 03 tant
beaucoup plus grand que le point critique 4, l'hypothse d'indpendance est
vigoureusement rejete.
Conditions de validit On peut dmontrer rigoureusement la validit du test

que nous venons de dcrire si on suppose que certaines conditions (portant
sur la distribution conditionnelle de Y) sont ralises. Or, ces conditions
qu'on peut noncer de faon fort prcise n'admettent pas, en pratique, de
vrification facile. Si l'on peut employer le test quand mme, c'est parce que
les conditions qui assurent sa validit perdent de leur importance lorsque
l'chantillon est grand. C'est donc la seule mise en garde que nous faisons
propos de l'emploi de ce test : il faut que l'chantillon soit assez grand.
Nous n'allons pas prciser le sens de grand . Un chantillon de taille 200
est, toutes fins pratiques, grand . Un chantillon de taille 20 est grand
ou pas assez, selon que les conditions voques plus haut sont vrifies ou
non. Si les conditions sont vrifies, le test est parfaitement valide ; si elles
ne le sont qu' peu prs, le test est approximatif ; si elles ne le sont pas du
tout, le test est en principe non valide. Dans ce dernier cas, on peut quand
mme calculer la valeur de Z, mais la conclusion qu'on en tire doit alors tre
exprime avec circonspection.
Remarque La notion d'indpendance a t dfinie formellement pour des variables qualitatives au chapitre 3 : X et Y sont indpendantes si les distributions
conditionnelles de Y sont identiques. La mme dfinition s'applique aux
variables quantitatives. Pour concrtiser, supposons que X est la taille et Y le
poids de chaque individu d'une population d'adultes. Si x est une valeur
donne de X, alors x dtermine une sous-population : l'ensemble de tous ceux
pour qui X prend la valeur x. La distribution conditionnelle de Y tant donn
X = x est la distribution de Y pour la sous-population en question. Par exemple,
la distribution conditionnelle de Y tant donn X = 160 est la distribution du
124
poids de tous ceux dont la taille est de 160 cm. Il y a autant de

sous-populations, et donc autant de distributions conditionnelles de Y, qu'il y a
de valeurs de X.
On dit que X et Y sont indpendantes si ces distributions conditionnelles sont
identiques.
RSUM
1. Lorsqu'un graphique indique qu'il pourrait y avoir une relation linaire
entre deux variables quantitatives X et Y, il convient de mesurer le degr
de dpendance linaire l'aide du coefficient de corrlation r, que l'on
peut calculer par l'une ou l'autre des formules suivantes :
r
6 ( x i x )( y i y )
6( x i x ) 2
n6x i y i ( 6x i )( 6Y I )
6( yi y ) 2
n6x I2 ( 6x i ) 2
n6y i2 ( 6y i ) 2
2. Si les donnes ne constituent qu'un chantillon de la population vise, on

peut vouloir tester l'hypothse que dans la population, les variables
sont indpendantes. Pour effectuer ce test, on calcule
Z
n2 r
1 r2
et on rejette l'hypothse d'indpendance si Z est trop loign de 0. Les

valeurs de Z sont interprtes comme celles d'une cote Z. En gnral, on
rejette l'hypothse d'indpendance quand Z ! 2 . Le risque d'erreur est
alors voisin de 5 %.
Si n est assez grand, ce critre de dcision se ramne rejeter
l'hypothse d'indpendance si nr 2 ! 4 .
3. La dpendance linaire entre deux variables est exprime par la droite
des moindres carrs y = a + bx. C'est la droite qui minimise la somme
des carrs des distances verticales entre les points et la droite. Les
coefficients b et a sont donns par :
6 ( x i x )( y i y )
6 ( xi x )
n6x i y i ( 6x i )( 6y i )
2
i
n6 x ( 6 x i )
125
6x i y i n x y
2
6x i
n x2
y bx .
EXERCICES
DROITE DES
1. Tracez le nuage de points qui reprsente les donnes suivantes :
MOINDRES
CARRS
12
Calculez la distance D entre le nuage de points et chacune des droites

suivantes :
a) y = 1 + 2x
b) y = 2 + 2x
c) y = 3 + 1,1x
Dterminez la droite des moindres carrs ; ensuite calculez la distance D

entre les points et la droite des moindres carrs.
2. Dterminez la droite des moindres carrs pour les donnes suivantes :
x
11
13
12
Faites un graphique.
3. Sans faire de calculs, dterminez la droite des moindres carrs pour les
donnes suivantes :
x
13
4. Lorsque n = 2, quelle est la distance D entre les deux points et la droite

des moindres carrs ? (Supposez que x1 z x 2 .)
5. Pour les donnes suivantes, calculez la somme 6 ( y i y i ) et la somme
des carrs D
6 ( y i y i ) 2 .
10
15
16
21
126
6. Dans une certaine ville, un chauffeur de taxi prend note du nombre de

kilomtres (X) et du montant peru en dollars (Y) pour chacune des 10
courses qu'il a faites durant la journe. Voici les donnes :
x
1,5
2,6
5,4
3,8
1,5
0,7
1,8
1,9
2,7
5,1
3,75
4,3
5,7
4,9
3,75
3,35
3,9
3,95
4,35
5,55
a) Tracez un nuage de points.

b) Dterminez la droite des moindres carrs.
c) Interprtez les coefficients a et b.
7. Si, dans les formules pour a et b on changeait X et Y, est-ce qu'on
obtiendrait la mme droite ? Vrifiez votre rponse l'aide des donnes
de l'exercice 1.
8. On prend note du score X dans un test d'aptitude et de la note Y en
mathmatiques de 10 tudiants. Voici les rsultats :
x
11
13
14
15
16
17
19
20
23
25
11
16
17
16
18
19
La droite de rgression est y = 7,10 + 1,13x. Estimez la note en

mathmatiques d'un tudiant dont le score est 5. Pouvez-vous rconcilier
votre rsultat avec le bon sens ?
COEFFICIENT
DE
CORRLATION
9. Calculez le coefficient de corrlation pour les donnes de l'exercice 2.

10. Que peut-on dire de la valeur d'un coefficient de corrlation calcul
partir de 2 couples seulement ?
11. partir du nuage de points de l'exercice 6, donnez la valeur du
coefficient de corrlation.
12. Faites le graphique et calculez le coefficient de corrlation pour les
donnes suivantes :
x
10
22
18
14
10
10
14
18
22
D'aprs le graphique, les variables sont-elles indpendantes ?

13. Si l'on fait subir une transformation linaire chacune des variables X et
Y, le coefficient de corrlation ne change pas en valeur absolue. Vrifiez
cette affirmation l'aide des donnes de l'exercice 2 en calculant le
coefficient de corrlation entre 2 + 4x et 30 + 2y. Calculez galement le
coefficient de corrlation entre 2 + 4x et 30 2y.
127
14. En examinant les formules pour le coefficient de corrlation, dites si r

change lorsque X et Y sont permuts.
TEST
15. Considrez une population de 9 lments dont les valeurs de X et Y sont :
D'INDEPENDANCE
(1,1), (1,2), (1,3), (2,1), (2,2), (2,3), (3,1), (3,2), (3,3)

On peut considrer cette population comme forme de 3 souspopulations celle pour laquelle x = 1, celle pour laquelle x = 2, et celle
pour laquelle x = 3. Supposons qu'on prlve de cette population un
chantillon de taille 3 en choisissant au hasard un individu dans chaque
sous-population, et qu'on calcule le coefficient de corrlation
chantillonnal r. Montrez, en choisissant des chantillons appropris,
que r peut tre gal 1, 0, ou 1. Trouvez aussi un chantillon pour
lequel r prend une valeur diffrente de celles-ci. (Suggestion : faites un
graphique.) Quel est le coefficient de corrlation de la population ?
16. Avec un chantillon de taille 30, peut-on dclarer que les variables sont
rellement dpendantes ?
a) Si r = 0,1
b) Si r = 0,2
c) Si r = 0,3
d) Si r = 0,4
e) Si r = 0,2
f)
Si r = 0,5
17. Supposons que dans un chantillon de taille n on obtient r = 0,4. Peut-on

dclarer que les variables sont rellement dpendantes ?
a) Si n = 5
DIVERS
b) Si n = 15
c) Si n = 20
d) Si n = 30
18. Un sondage est fait auprs des pres de 17 lves d'une cole. De
chacun on obtient l'information suivante : le nombre d'annes de
scolarit, et le nombre de revues ou livres lus en un mois. Voici les
donnes :
Scolarit
Nombre de revues ou de livres
Scolarit
Nombre de revues ou de livres
10
17
10
18
16
11
16
19
14
19
14
12
13
12
13
128
a) Laquelle des variables est la variable indpendante naturelle ?

b) Faites le graphique et calculez le coefficient de corrlation.
c) Dterminez la droite des moindres carrs.
d) Testez l'hypothse que le nombre de revues et de livres lus n'a pas de
rapport avec la scolarit.
19. Voici les donnes de l'A.P.A. sur la cylindre (X) et la consommation
d'essence (Y) de 25 modles de voitures. La cylindre est exprime en
litres, la consommation en litres par 100 km.
Modle
Modle
Mazda GLC
Tercel
Honcla Civic
Datsun 310
Datsun Nissan
Fiat 2000
Mazda 626
Saab 900
Skylark
Celebrity
Camaro
Toyota Sup.
Datsun 280ZX
1,5
1,5
1,5
1,5
2
2
2
2
2,5
2,5
2,5
2,8
2,8
8,0
8,0
8,0
9,3
9,5
11,0
11,0
11,5
10,3
10,5
10,4
12,8
12,0
Pontiac 6000
Pontiac Phoenix
Cougar
BMW 733i
Thunderbird
Impala
M. Benz 380SL
Granacla
Olds Delta 88
Mustang
Lincoln
Olds 98
2,8
2,8
3,3
3,3
3,3
3,8
3,8
3,8
3,8
5
5
5
11,0
11,5
12,0
14,0
12,5
12,4
13,7
13,0
13,0
14,5
14,0
14,8
a) Faites le graphique et calculez le coefficient de corrlation.

c) Estimez la consommation d'essence d'une voiture dont le moteur est
de 4 litres.
6x
72 , 8 ; 6y
288 , 7 ; 6x 2
240 , 54 ; 6y 2
3 429 , 57 ; 6xy
887 , 92.
20. Le tableau suivant donne, pour 15 trimestres conscutifs, les valeurs des
deux variables suivantes :
X : L'indice d'offre d'emploi (1969 = 100). Il s'agit d'un indice calcul
partir des offres d'emploi parues dans les 18 plus grands
journaux canadiens.
Y : Le taux de chmage.
129
Anne
Trimestre
Anne
Trimestre
1978
1
2
3
4
1
2
3
4
159
154
161
187
175
186
198
196
8,40
8,50
8,40
8,16
7,96
7,70
7,13
7,23
1980
1
2
3
4
1
2
3
204
195
204
210
231
221
241
7,50
7,70
7,50
7,40
7,30
7,15
7,13
1979
1981

6x
2 922 ; 6y
115 ,16 ; 6x
578 368 ; 6y
887 , 516 4 ; 6xy
22 277 , 22 .
21. Le tableau suivant donne, pour les fils de cuivre, le diamtre en cm (X) et
l'amprage maximal tolr (Y).
X
1,30
1,40
1,52
1,65
1,85
1,98
245
285
330
385
425
480
2,08
2,21
2,41
2,79
3,05
3,45
530
575
660
740
845
1 000

c) Estimez l'amprage maximal tolr par un fil de diamtre 2,50.
22. Les donnes suivantes, provenant du ministre de l'Agriculture, des
Pcheries et de l'Alimentation, portent sur une exprience visant
dterminer la relation entre le taux de semis d'avoine (X, en kg/ha) et le
nombre de plantules par mtre carr (Y). Les donnes portent sur 17
parcelles de terre.
X
90
95
95
95
95
100
232
208
220
150
203
252
105
106
108
113
113
114
237
298
279
237
210
211
114
120
120
126
133
201
304
275
284
313
130
a) Faites un graphique et calculez le coefficient de corrlation.

c) Estimez le nombre de plantules auquel on peut s'attendre lorsqu'on
sme un taux de 118 kg/ha.
d) Pourquoi la relation ne peut-elle tre linaire que pour un intervalle
restreint de valeurs de X ?
6x
1 842 ; 6y
4 114 ; 6x
202 020 ; 6y
1 027 372 ; 6xy
451 252.
23. Dans un chantillon de 18 personnes, on prend note du poids (X, en kg)

et du taux de cholestrol (Y, en mg par 100 ml de sang). Voici les
donnes
X
50
56
58
64
64
68
262
250
265
280
264
256
72
76
78
82
82
86
281
293
271
261
296
268
93
94
95
101
104
108
277
300
305
310
286
301
a) Faites un graphique et calculez le coefficient de corrlation.

c) Testez l'hypothse selon laquelle le taux de cholestrol et le poids
sont indpendants.
6x
1 431 ; 6y
5 026 ; 6x 2
118 895 ; 6y 2
1 409 064 ; 6xy
403 552 .
24. Au service du personnel d'une compagnie d'assurances, un analyste

tente de savoir quels sont les facteurs qui dterminent le succs des
vendeurs. L'une des hypothses est que l'aptitude verbale reprsente un
facteur important, et pour l'prouver il prlve un chantillon de 30
vendeurs qui il fait passer un test d'aptitude verbale. Les tableaux
suivants donnent le score (X) pour les 30 vendeurs, ainsi que leurs
ventes annuelles (Y) en dizaines de milliers de dollars.
131
22
24
29
33
25
31
35
38
27
36
30
20
50
40
80
50
80
30
40
20
41
48
43
46
56
44
57
59
52
54
180
100
140
120
160
160
140
180
100
120
80
65
82
90
60
70
85
68
73
77
320
350
280
400
400
320
350
280
300
300
a) Calculez le coefficient de corrlation et testez l'hypothse selon

laquelle X et Y sont indpendantes.
b) Supposons que vous appreniez qu'avant de tirer l'chantillon,
l'analyste a spar les vendeurs de la compagnie en trois groupes, le
premier comprenant les vendeurs de moins de 5 annes d'exprience ;
le deuxime les vendeurs ayant de 5 10 annes d'exprience ; et le
troisime, enfin, les vendeurs ayant plus de 10 annes d'exprience. Il
a ensuite prlev un chantillon de 10 vendeurs dans chaque groupe.
Supposons que les trois colonnes du tableau ci-dessus correspondent
au premier, au deuxime et au troisime groupe, respectivement.
Analysez, la lumire de ces faits, la relation entre le score d'aptitude
verbale et les ventes. Expliquez la contradiction entre cette conclusion
et celle que vous avez tire en a).
Premier groupe
6x
300 ; 6y
440 ; 6x 2
9 270 ; 6y 2
23 600 ; 6xy
13 200
Deuxime groupe
6x
500 ; 6y
1 400 ; 6x 2
25 372 ; 6y 2
204 00 ; 6xy
57 056 ; 6y 2
1 106 600 ; 6xy
70 000
Troisime groupe
6x
750 ; 6y
3 300 ; 6x 2
247 500
25. Dans un collge, certains tudiants suivent un cours de rattrapage en

mathmatique pour se prparer au cours de calcul. Pour valuer l'utilit
du cours, on prlve un chantillon d'tudiants ayant suivi le cours de
rattrapage, et un chantillon d'tudiants ne l'ayant pas suivi. Aprs qu'ils
132
aient tous suivi le cours de calcul on observe leurs notes (Y). On constate
que ceux qui ont suivi le cours de rattrapage (le groupe A, disons) ont
une moyenne infrieure celle de ceux qui ne l'ont pas suivi (le groupe
B) : 58,8 pour le groupe A et 68,2 pour le groupe B. Dans d'autres
circonstances, ces rsultats auraient men l'tonnante conclusion que
le cours de rattrapage a eu un effet ngatif. Dans ce cas, les tudiants
qui ont suivi le cours taient faibles au dpart c'est prcisment la
raison pour laquelle ils l'ont suivi. Leur faible note en calcul ne dmontre
donc pas que le cours leur a t inutile ou nuisible. Pour tudier la
question plus fond, on prlve des donnes sur la note en
mathmatiques (X) obtenues la dernire anne du secondaire. Voici les
donnes sur X et sur Y pour les deux groupes.
Groupe A
Groupe B
50
51
52
53
54
55
56
57
60
68
57
46
59
58
52
51
65
62
61
77
70
71
74
77
78
81
83
83
87
91
60
53
64
66
64
66
76
75
75
83
Ces donnes permettent-elles de tirer des conclusions sur l'utilit du

cours de rattrapage ? (Ne vous proccupez pas des problmes
d'chantillonnage : supposez que tous les coefficients que vous calculez
sont de bonnes estimations des coefficients correspondants dans la
population.) (Suggestion : faites un graphique.)
Groupe A
6x
556 ; 6y
588 ; 6x 2
31 164 ; 6y 2
35 234 ; 6xy
33 021
682 ; 6x 2
63 619 ; 6y 2
47 228 ; 6xy
54 730
Groupe B
6x
795 ; 6y
133
26. Pour un chantillon de 15 familles de 4 personnes on prlve des

donnes sur 2 variables :
X : Le revenu hebdomadaire net.
Y : Les dpenses en nourriture.
Voici les donnes :
X
150
175
210
220
220
80
60
85
70
79
225
230
250
260
275
88
89
81
86
86
290
320
370
380
500
88
90
89
92
95
a) Calculez le coefficient de corrlation.

b) Dterminez la droite des moindres carrs et interprtez les valeurs de
a et de b.
c) Estimez les dpenses en nourriture d'une famille dont le revenu
hebdomadaire net est de (i) 150 $ ; (ii) 500 $.
d) Une faon classique d'exploiter le lien entre deux variables est base
sur le rapport de la somme des Y la somme des X. Ce rapport ici
vaut 6y 6x 1 258 4 075 0 , 309 , ce qui veut dire qu'en moyenne
30,9 % du revenu est dpens en nourriture. En appliquant ce
pourcentage au revenu d'une famille on obtient une estimation de ses
dpenses en nourriture. Employez cette mthode pour faire les
estimations demandes en (c). Quels sont les inconvnients de cette
approche ?
e) Croyez-vous que la droite des moindres carrs puisse fournir de
bonnes estimations des dpenses pour les familles avec un revenu
hebdomadaire de 5 000 $ ?
f)
Faites un test pour dterminer si les variables X et Y sont rellement

dpendantes.
6x
4 075 ; 6y
1 258 ; 6x 2
1 221 075 ; 6y 2
106 638 ; 6xy
349 370 .
27. Une faon d'tudier les dterminants gntiques d'un trait humain
consiste mesurer ce trait sur des jumeaux qui ont vcu spars. Dans
une telle tude, 36 paires de jumeaux ayant t spars trs jeunes
passent un test d'aptitudes. On obtient les scores qui paraissent au
tableau voisin.
134
X = score du premier jumeau, Y = score du second.

n
36 ; 6x
887 ; 6y
2
828 ; 6x
2
24 381 ; 6y
21 746 ; 6xy
22 509 .
Dterminez le coefficient de corrlation r entre les aptitudes du premier

et du second jumeau. La corrlation est-elle significative ? Discutez.
28. Pour tenir compte de certaines caractristiques d'un contexte on peut
vouloir poser d'emble l'galit a = 0, pour ne considrer que le modle
y = bx. Dans ce cas, pour calculer b, il suffit de remplacer x et y par 0
dans la formule pour b donne dans ce chapitre. On a alors
b 6x i y i 6x i2 . Utilisez cette formule pour dterminer le coefficient b dans
le problme prcdent.
Paire
Premier
Second
Paire
Premier
Second
Paire
Premier
Second
1
2
3
4
5
6
7
8
9
10
11
12
5
8
15
13
14
12
14
15
21
18
22
23
3
6
12
14
5
24
7
23
12
22
25
28
13
14
15
16
17
18
19
20
21
22
23
24
21
23
23
25
25
26
26
27
26
28
28
29
16
29
20
31
19
26
23
25
25
23
32
32
25
26
27
28
29
30
31
32
33
34
35
36
31
30
31
32
32
30
32
36
36
33
37
40
23
29
33
27
31
19
27
27
31
25
36
38
*29. Certaines associations ne peuvent pas tre reprsentes par une

quation linaire. La concentration d'un mdicament dans le sang, par
exemple, ne diminue pas de faon linaire aprs son absorption, car le
taux d'limination du produit est proportionnel la quantit prsente
dans le sang. Certains arguments thoriques rendent plausible
l'hypothse que la concentration y est lie la dure x depuis
l'absorption par une quation de la forme
y
ae bx .
Le problme est encore de trouver a et b partir du tableau ci-dessous,

qui prsente des donnes sur la concentration y du mdicament dans le
sang diffrents moments (x). Les mthodes de ce chapitre peuvent tre
utilises, condition de transformer la variable Y en une variable Y' qui,
elle, est linaire en X. C'est la transformation logarithmique qui a cet
135
effet. Par l'quation exponentielle ci-dessus, nous avons log y = log a

bx. Donc la variable Y' = log Y s'exprime comme fonction linaire
y ' a ' b ' x
o a' = log a et b' = b.
X
Nombre
d'heures
Concentration
(mg/ml)
Nombre
d'heures
Concentration
(mg/ml)
Nombre
d'heures
Concentration
(mg/ml)
0,5
1,0
1,5
2,0
2,5
3,0
0,091 6
0,089 8
0,080 5
0,059 0
0,057 8
0,053 4
3,5
4,0
4,5
5,0
5,5
6,0
0,052 3
0,031 7
0,038 4
0,037 6
0,030 8
0,029 3
6,5
7,0
7,5
8,0
8,5
9,0
0,025 5
0,023 5
0,023 1
0,019 6
0,016 7
0,016 6
Le tableau donne les concentrations prleves chaque demi-heure

pendant 9 heures aprs la consommation.
a) Construisez un nuage de points pour montrer que la relation entre X
et Y n'est pas linaire.
b) Dterminez a' et b', les coefficients de la droite de rgression entre Y'
et X.
c) Dterminez les paramtres a et b de l'quation exponentielle

y ae bx .
d) Utilisez l'quation pour estimer la concentration 2 heures et 15
minutes aprs la consommation.
n 18 ; 6x i
6log y i
85 , 5 ; 6x i2
>
527 , 25 ; 6x i log y i
59 195 ; 6 log y i
30 598 ;
199 908.
*30. Cet exercice montre une faon de quantifier la distribution des

ressources dans une population, comme les terres arables, le capital, le
revenu. Considrons la proportion X de la population qui est la plus
dmunie et notons par Y la proportion des ressources que cette partie de
la population possde. Avec des statistiques, on peut obtenir pour une
srie de valeurs de X une valeur de Y correspondante. La forme de la
courbe reliant X Y renseigne sur le degr d'ingalit de la distribution.
L'galit parfaite se traduit par la droite y = x qui passe de (0, 0) (1, 1).
136
En gnral, la courbe se situe au-dessous de la droite, rejoignant

cependant les points (0, 0) et (1, 1), et passe trs bas au-dessous de la
droite dans des situations de profondes ingalits. Un modle possible
pour cette courbe est l'quation
y
o b est un paramtre qui doit tre estim. Une galit est alors mesure
par la valeur de b, qui est toujours suprieure ou gale 1. Le tableau
suivant donne la valeur de y pour certaines valeurs de x.
X
0,25
0,30
0,35
0,40
0,45
0,032
0,055
0,079
0,115
0,173
0,50
0,55
0,60
0,65
0,70
0,180
0,259
0,275
0,367
0,453
0,75
0,80
0,85
0,90
0,95
0,588
0,618
0,650
0,843
0,860
>
n 15 ; 6log x i
>
6 log y i
8 774 ; 6 logx i
43 274 ; 6log x i log y i
7 535 ; 6log y i
20 714 ;
18 037.
Pour dterminer la valeur de b, on peut faire les transformations

y' = log(y), x' = log(x). On a alors la relation
y ' bx '
o b peut tre estim en utilisant la formule propose l'exercice 28.
Dterminez b.
*31. Une conseillre pdagogique reoit les donnes suivantes sur 15 classes
de mathmatique sous sa juridiction. Son but est de dterminer si un
certain jeu qu'elle a conu amliore l'apprentissage des mathmatiques.
La variable X reprsente le nombre d'heures passes pendant l'anne
jouer au jeu ; et Y est la note moyenne de la classe un examen de
mathmatique. Remarquez que chaque y i est une moyenne d'un nombre
variable de notes. Par consquent, les formules pour calculer a et b
changent. Nous pouvons toujours les crire sous la forme suivante :
b
( xy x y ) ( x x )
et
y bx ; mais les moyennes impliques
doivent tre pondres : par exemple, xy

Calculez a et b pour les donnes suivantes.
6n i x i y i n et x 2
6n i x i2 n .
137
Effectif
Effectif
Effectif
22
28
33
20
27
2
8
14
20
26
70
68
80
86
85
31
27
37
19
32
4
10
16
22
28
66
74
71
69
90
36
30
41
28
25
6
12
18
24
30
63
76
89
81
92
32. Un spcialiste dveloppe un test dans le but d'tablir une relation entre
la dextrit manuelle et l'aptitude mentale des lves du secondaire.
l'occasion d'une analyse prliminaire il fait passer des tests 25 lves,
obtenant pour chacun le score (X) un test d'aptitude et le score (Y) un
test de dextrit manuelle. Pour s'assurer d'une bonne reprsentation, il
choisit un groupe de chaque niveau du secondaire. Il obtient les rsultats
suivants :
Secondaire 1
b
a
r
Z
Secondaire 2
Secondaire 3
Secondaire 4
Secondaire 5
26
28
32
36
38
25
29
27
25
27
0,04
27,8
0,12
0,20
42
43
44
46
49
37
35
34
35
39
56
57
59
61
62
43
47
45
46
44
68
69
72
73
75
54
56
55
53
55
80
82
84
87
92
61
66
63
62
63
0,39
18,5
0,54
1,11
0,04
42,7
0,06
0,11
0,07
59,3
0,17
0,29
0,01
64,0
0,03
0,05
Pour le groupe au complet :

6x
1 461 ; 6y
1 126 ; 6x 2
94 457 ; 6y 2
54 950 ; 6xy
71 868.
Selon les rsultats ci-dessus, il n'y a rien de significatif. Vrifiez que

nanmoins, le coefficient de corrlation obtenu en runissant les 25
donnes est 0,98, fortement significatif. Dessinez un nuage de points
dans lequel vous reprsenterez chaque classe par un symbole diffrent
et, partir de ce dessin, interprtez la contradiction entre les conclusions
bases sur chaque classe et celle base sur l'ensemble des classes.
Tchez d'viter le langage technique dans vos explications.
*33. Une facult universitaire considre la possibilit d'imposer un test
d'admission. Elle fait passer le test un ensemble de 46 tudiants dj
138
inscrits, et calcule le coefficient de corrlation entre le rsultat (X) et la

moyenne obtenue au premier trimestre (Y). Voici les rsultats :
X
5
10
12
12
13
15
18
19
21
23
24
35
29
37
38
29
35
44
38
50
25
27
29
30
32
35
36
36
38
42
60
44
52
57
56
60
67
56
39
39
41
41
42
43
45
45
46
52
70
72
67
61
75
72
79
67
47
48
49
49
51
52
52
53
56
65
81
73
69
75
87
70
85
90
57
57
58
59
59
60
60
61
62
90
70
85
86
92
95
80
90
85
Le coefficient de corrlation, qui est ici 0,95, encourage l'administration

de l'universit utiliser le test l'avenir. Cette information aurait t
perdue en grande partie si l'on avait procd immdiatement
l'utilisation du test. Supposons, par exemple, que l'universit ait refus
l'admission tous les candidats qui n'avaient pas obtenu un score de 50
ou plus. Il lui resterait pour son exprience les 14 sujets admis. Le
coefficient de corrlation pour ceux-ci n'est que 0,46. Faites un nuage de
points montrant les 46 sujets, puis indiquez ceux qui seraient admis
avec ce critre. Expliquez par un argument graphique pourquoi le
coefficient de corrlation baisse tellement.
*34. On tudie l'effet de la scolarit sur la tendance tre libral sur des
questions conomiques. On prlve des sujets appartenant trois
classes sociales, A, B et C ; A reprsente la classe ouvrire, B la petite
bourgeoisie, C la classe dirigeante. On recueille les donnes suivantes,
o X est le nombre d'annes de scolarit et Y est le score dans un test de
libralisme.
Pour le groupe au complet :
6x
404 ; 6y 1 084 ; 6x 2
6 138 ; 6y 2
45 656 ; 6xy 14 533 .
Pour chaque groupe, la relation entre la scolarit et le libralisme est

forte et significative. Vrifiez, cependant, que lorsqu'on runit les trois
groupes on obtient un coefficient de corrlation de 0,03, ce qui est
parfaitement non significatif. Dessinez un nuage de points dans lequel
vous reprsenterez chaque classe par un symbole diffrent. partir de ce
dessin, interprtez la contradiction entre les conclusions bases sur
chaque groupe et celle base sur l'ensemble des groupes. Tchez d'viter
le langage technique dans vos explications.

Classe A
Classe B
139
Classe C
5
6
6
7
8
8
10
10
7
8
25
30
30
20
50
55
65
60
40
45
11
12
13
14
15
16
17
17
14
15
20
20
20
25
55
40
55
59
30
40
16
17
18
19
20
21
18
18
19
19
15
20
25
35
45
55
35
25
25
20
8,37
6,91
7,30
20,8
63,1
105,0
0,89
0,89
0,84
5,56
5,44
4,36
*35. Dans le tableau 4.2 nous prsentons des donnes prleves en 1977 sur
les salaires au moment de l'engagement de 93 employs, dont 32 sont de
sexe masculin et 61 de sexe fminin . Les salaires sont ceux auxquels les
employs ont t engags ; l'exprience est le nombre de mois
d'exprience pralable dans un domaine connexe ; la priode est la date
d'engagement, exprime en nombre de mois depuis le ler janvier 1969.
Voici les moyennes des diffrentes variables pour les hommes et pour les
femmes.
Salaires (1 000 $)
ducation
Exprience
Priode
Femmes
Hommes
Tous
5,139
11,97
99,81
17,44
5,957
13,53
103,05
15,34
5,420
12,51
100,93
16,72
On a prlev ces donnes dans le but de dterminer s'il y a eu

discrimination dans les engagements. premire vue, les moyennes
salariales pourraient appuyer l'hypothse d'une discrimination, mais on
constate que les femmes ont moins de scolarit et moins d'exprience
que les hommes et ces diffrences pourraient expliquer les diffrences
salariales. D'autre part, les femmes ont t engages en moyenne plus
tard que les hommes, ce qui devrait avoir pour consquence d'augmenter
Roberts, H.V. (1979), Harris Trust and Savings Bank : An analysis of employee compensation, Report 7946,
Center for Mathematical Studies in Business and Economics, University of Chicago, Graduate School of Business.
140
leur salaire et non de les diminuer. Il est vident que toute comparaison
de salaires devrait tre faite partir de moyennes ajustes. Dans cet
exercice on vous demande de calculer des moyennes salariales ajustes.
a) Vrifiez que la droite de rgression du salaire (Y) sur la scolarit (X) et
le coefficient de corrlation sont
pour les femmes, Y = 4,382 + 0,063X, r = 0,27
pour les hommes, Y =4,120 + 0,136X, r = 0,37
et que la dpendance est significative dans les deux cas. Calculez la
valeur de Y qui correspond X = 12,51, pour les hommes et pour les
femmes. Les valeurs obtenues sont des moyennes ajustes. Le
concept est identique celui prsent au chapitre 2, mais la
technique change du fait que la variable pour laquelle on ajuste est
quantitative. Interprtez les rsultats.
b) On fait des oprations analogues pour obtenir des moyennes
salariales ajustes qui tiennent compte de la diffrence de priode.
Vrifiez que la droite de rgression du salaire (Y) sur la priode
d'engagement (X) et le coefficient de corrlation sont
pour les femmes, Y = 4,752 + 0,022X, r = 0,43
pour les hommes, Y = 5,550 + 0,027X, r = 0,37
Vrifiez que la dpendance est significative dans les deux cas et
calculez des moyennes ajustes. Commentez.
c) Vrifiez que la droite de rgression du salaire (Y) sur l'exprience (X)
et le coefficient de corrlation sont
pour les femmes, Y = 4,927 + 0,002 1X, r = 0,34
pour les hommes, Y = 5,964 0,000 1X, r = -0,01
Vous constatez que la dpendance n'est pas significative pour les
hommes, ce qui pose un dilemme. moins d'attribuer ce qu'on
observe ici un accident du hasard, nous devons expliquer le fait
que le salaire dpend de l'exprience pour les hommes mais pas pour
les femmes. Cette question ne peut tre tranche ici, mais le lecteur
pourrait trouver instructif de se livrer ses propres spculations.
Autre problme : comment ajuster les donnes ? S'il est certain que Y
ne dpend pas de X, alors ajuster n'a pas de sens. D'autre part, cette
conclusion n'est jamais vraiment certaine. Il est donc raisonnable de
141
procder comme aux deux numros prcdents, d'autant plus que

l'ajustement se rvle presque sans effet. Vous pouvez confirmer ceci
en calculant les moyennes ajustes pour les femmes et pour les
hommes.
TABLEAU 4.2
Salaire initial, scolarit, exprience et date d'engagement de 61 femmes

Femmes
Salaire
(mille $)
3,99
4,02
4,29
4,38
4,38
4,38
4,38
4,38
4,44
4,50
4,50
4,62
4,80
4,80
4,80
4,80
4,80
4,80
4,80
4,80
4,80
4,80
4,89
5,10
5,10
5,10
5,10
5,10
5,10
5,16
5,22
Scolarit
(annes)
12
10
12
8
8
12
12
12
15
8
12
12
8
12
12
12
12
12
12
12
12
16
8
8
12
12
15
15
16
12
8
Exprience
(mois)
0,0
44,0
5,0
6,2
7,5
0,0
0,0
4,5
75,0
52,0
8,0
52,0
70,0
6,0
11,0
11,0
63,0
144,0
163,0
228,0
381,0
214,0
318,0
96,0
36,0
59,0
115,0
165,0
123,0
18,0
102,0
Priode
(mois)
1
7
30
7
6
7
10
6
2
3
19
3
20
23
12
17
22
24
12
26
1
15
25
33
15
14
1
4
12
12
29
Salaire
(mille $)
5,22
5,28
5,28
5,28
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,52
5,52
5,58
5,64
5,70
5,70
5,70
5,70
5,70
6,00
6,00
6,12
6,30
6,30
Scolarit
(annes)
12
8
8
12
8
8
12
12
12
12
12
12
15
15
15
15
12
12
12
12
12
12
15
15
15
12
15
12
12
15
Exprience
(mois)
127,0
90,0
190,0
107,0
173,0
228,0
26,0
26,0
38,0
82,0
169,0
244,0
24,0
49,0
51,0
122,0
97,0
196,0
132,5
55,0
90,0
116,5
51,0
61,0
241,0
121,0
78,5
208,5
86,5
231,0
Priode
(mois)
29
11
1
11
34
33
11
33
22
29
27
1
13
27
21
33
17
32
30
9
23
25
17
11
34
30
13
21
33
15
142
TABLEAU 4.2
Salaire initial, scolarit, exprience et date d'engagement de 32 hommes

Salaire
(mille $)
4,62
5,04
5,10
5,10
5,22
5,40
5,40
5,40
5,40
5,40
5,70
6,00
6,00
6,00
6,00
6,00
Scolarit
(annes)
12
15
12
12
12
12
12
12
15
15
15
8
12
12
12
12
Exprience
(mois)
11,5
14,0
180,0
315,0
29,0
7,0
38,0
113,0
17,5
359,0
36,0
320,0
24,0
32,0
49,0
56,0
Hommes
Priode
Salaire
(mois)
(mille $)
22
6,00
3
6,00
15
6,00
2
6,00
14
6,00
21
6,00
11
6,00
3
6,00
8
6,30
11
6,60
5
6,60
21
6,60
2
6,84
17
6,90
8
6,90
33
8,10
Scolarit
(annes)
12
12
15
15
15
15
15
16
15
15
15
15
15
12
15
16
Exprience
(mois)
252,0
272,0
25,0
35,5
56,0
64,0
108,0
45,5
72,0
64,0
84,0
215,5
41,5
175,0
132,0
54,5
Priode
(mois)
11
19
13
32
12
33
16
3
17
16
33
16
7
10
24
33
d) Revenons aux deux droites de rgression en a). Nous avons trouv

que pour X = 12,51 le salaire moyen des femmes est infrieur celui
des hommes. Toutefois les deux droites de rgression ne sont pas
parallles et elles se rencontreront pour une certaine valeur de X ; et
au-dessous de ce point, ce sont les femmes qui ont le plus gros
salaire. Pour quelle valeur de X les deux droites se rencontrent-elles ?
La conclusion dtermine en a) change-t-elle ? Pourquoi ou pourquoi
pas ?
e) Les techniques utilises ici ne sont malheureusement pas adquates,
puisqu'elles ne permettent pas de rconcilier les conclusions en a) et
en b). On devrait pouvoir ajuster les moyennes pour tenir compte
simultanment de la diffrence de scolarit et de la diffrence de
priode. Il existe une gnralisation des concepts prsents dans ce
chapitre qui permet d'exprimer la dpendance entre le salaire (Y) et
plusieurs autres variables. Une rgression utilisant plusieurs
variables porte le nom de rgression multiple. En particulier, nous
pouvons exprimer la dpendance entre le salaire (Y), d'une part, et la
scolarit (X1) et la priode (X2), d'autre part. Les quations pour les
femmes et les hommes sont :
pour les femmes, Y = 3,882 8 + 0,071 0X1 + 0,023 3X2
pour les hommes, Y = 3,885 8 + 0,125 2 X1 + 0,024 6X2
Dterminez les moyennes ajustes et commentez.
Variables alatoires et
probabilits
5.1
5.2
5.3
5.4
5.5
Espace chantillon et vnement

Espace chantillon
vnement
Probabilits
Lois des probabilits
Indpendance
Indpendance de plusieurs vnements
Probabilits conditionnelles
Variables alatoires
Esprance et variance
Proprits lmentaires de E(X) et de Var(X)
RSUM
EXERCICES
144
Introduction Nous avons vu, dans les premiers chapitres, comment prsenter
des donnes quantitatives tires d'une population et comment en extraire
certaines caractristiques. Nous avons vu aussi que dans la plupart des cas,
une tude statistique se restreint la considration d'un chantillon et
l'tablissement des conditions mathmatiques selon lesquelles les
conclusions tires de l'examen de l'chantillon peuvent s'tendre la
population entire. Une telle dmarche suppose l'usage d'un certain nombre
d'outils mathmatiques, et en particulier de ceux qui rgissent l'tude des
phnomnes alatoires et des probabilits.
On peut prvoir le moment exact d'une clipse de soleil, on peut aussi
dterminer l'avance la trajectoire d'un projectile si l'on connat les
conditions de son envol. De tels phnomnes sont dterministes. De
nombreux autres phnomnes par contre sont alatoires , c'est--dire qu'on
ne peut pas en prvoir l'issue. Ainsi en est-il des jeux de hasard, comme du
nombre de naissances qui surviendront l'an prochain dans une clinique
donne d'obsttrique. C'est cette dernire catgorie de phnomnes qu'tudie
la statistique.
Nous nous intresserons donc dans ce chapitre aux expriences alatoires,
c'est--dire toute opration dont on peut dcrire, ou numrer, l'ensemble
des rsultats possibles, mais dont on ne peut prvoir lequel arrivera. Cela
nous amnera naturellement dfinir les probabilits et en tudier les lois
lmentaires, ainsi que les variables alatoires, c'est--dire les quantits
dont la variation est soumise au hasard.
5.1
ESPACE CHANTILLON ET VNEMENT

Espace chantillon Pour dcrire le comportement du rsultat d'une
exprience alatoire, il faut d'abord dterminer l'ensemble de tous les
rsultats possibles. Cet ensemble porte le nom d'espace chantillon, not :
(lettre grecque omga).
: = {1, 2, 3, 4, 5, 6}.
Exemple 1
On lance un d ordinaire.
Exemple 2
On lance deux fois un d. Il y a 36 rsultats possibles.

: = {(1, 1), (1, 2), ..., (6, 6)}
Du latin ala : coup de d, chance.
5 Variables alatoires et probabilits
Exemple 3
145
On choisit une personne au hasard et on observe la couleur de ses yeux.

: = {bleu, brun, gris, autre couleur} .
Comme le montre l'exemple 3, la dtermination de l'espace chantillon :

n'est pas toujours unique. On aurait trs bien pu considrer d'autres
couleurs, dfinir autrement les classes, etc. Il faut toutefois s'assurer que
l'ensemble : qu'on a choisi contient vraiment tous les rsultats possibles de
l'exprience et ne contient chacun qu'une fois.
Au fond, cette dtermination de : est un problme de modlisation crer un
modle d'une situation concrte, c'est d'abord se concentrer sur les aspects
essentiels ou pertinents de cette situation, quitte ne pas prendre en
compte les aspects secondaires ou ngligeables.
Exemple 4
On choisit une personne au hasard et on observe le nombre de frres et

surs qu'elle a. Ici, il est commode de prendre : = {0, 1, 2, ... }. Il est bien
vident que personne n'a un million de frres et soeurs, mais il est bien
dlicat de choisir une borne qui ne serait pas arbitraire.
i
vnement Un vnement est un sous-ensemble de l'espace chantillon. Le

plus souvent, un vnement peut aussi se dfinir au moyen d'une
proposition affirmative du genre la boule est bleue ou le rsultat est
impair . Les deux reprsentations sont fondamentalement quivalentes :
toute proposition, qui peut tre vraie ou fausse selon le rsultat de
l'exprience, on fait correspondre le sous-ensemble de : compos des
rsultats pour lesquels la proposition est vraie.
Exemple 5
On lance trois fois un sou. Il y a 8 rsultats possibles et on a

: = {PPP, PPF, PFP, FPP, PFF, FPF, FFP, FFF} .
Plusieurs vnements peuvent tre considrs. En voici quelques-uns
prsents la fois sous forme de proposition et sous forme de
sous-ensemble.
Proposition
Sous-ensemble correspondant
On a exactement deux faces.
{PFF, FPF, FFP}
On n'a que des piles.
{PPP}
On a le mme nombre de piles que de faces.
(sous-ensemble vide)
On a plus de piles que de faces.
{PPP, PPF, PFP, FPP}
On a moins de 4 faces.
: (tout l'espace chantillon)
146
Il va sans dire qu'il y a souvent plusieurs faons de dire la mme chose.

L'vnement avoir deux piles est le mme que avoir une seule face et
chacun d'eux correspond au mme sous-ensemble {PPF, PFP, FPP}.
L'vnement impossible, correspondant au sous-ensemble vide , de mme
que l'vnement certain, correspondant :, peuvent aussi s'noncer de
bien des faons ! La reprsentation des vments au moyen des
sous-ensembles de : a l'avantage de se prter facilement toutes les
oprations qu'on peut faire sur les ensembles.
i
Avant d'aller plus loin, rappelons le sens et la porte des symboles utiliss.
Si A et B sont deux sous-ensembles de :, alors :
AB
(runion de A, B) est form des lments de : qui

appartiennent A ou B.
AB
(intersection de A, B) est form des lments de : qui

appartiennent A et B.
Ac
(complment de A) est form des lments de : qui

n'appartiennent pas A.
AB
(diffrence de A, B) est form des lments de A qui

n'appartiennent pas B. A B = A Bc.
On utilise les diagrammes de Venn pour visualiser les oprations sur les
ensembles.
A
B
AB
A
B
AB
A
B
AB
147
148
La reprsentation gomtrique suivante peut s'avrer particulirement utile

quand plus de deux ensembles sont en cause :
:
C
(A B) (A C)
Quand on joint deux propositions au moyen d'un ou , on en obtient une

nouvelle, qui sera vraie si l'une ou l'autre des deux premires propositions
est vraie et qui ne sera fausse que si les deux propositions initiales sont
fausses. Cette nouvelle proposition correspond au sous-ensemble A B,
form par l'union des sous-ensembles A et B correspondant aux deux
propositions de dpart.
Exemple 6
La proposition compose l'lve choisi est dou ou l'lve choisi est

travailleur correspond essentiellement aux lves qui russissent.
i
D'autre part, quand deux propositions sont jointes par un et , il faut que
les deux soient vraies pour que la nouvelle proposition le soit. Cette nouvelle
proposition correspond donc au sous-ensemble A B.
Exemple 7
La proposition La personne est rousse et la personne est une femme est

vraie (et n'est vraie que) pour une femme rousse.
i
Enfin, la ngation d'une proposition en donne une nouvelle qui est vraie si la
premire est fausse, et fausse si la premire est vraie. Ce nouvel vnement
est donc le complment du premier.
Exemple 8
La proposition il est faux que la personne est rousse correspond toutes

les autres personnes : blondes, brunes, etc.
i
Exemple 9
149
On lance deux fois un d.
(1,1) (1, 2 ) (1, 3 ) (1, 4 ) (1, 5 ) (1, 6 )
( 2 ,1) ( 2 , 2 ) ( 2 , 3 ) ( 2 , 4 ) ( 2 , 5 ) ( 2 , 6 )
( 3 ,1) ( 3 , 2 ) ( 3 , 3 ) ( 3 , 4 ) ( 3 , 5 ) ( 3 , 6 )
( 4 ,1) ( 4 , 2 ) ( 4 , 3 ) ( 4 , 4 ) ( 4 , 5 ) ( 4 , 6 )
( 5 ,1) ( 5 , 2 ) ( 5 , 3 ) ( 5 , 4 ) ( 5 , 5 ) ( 5 , 6 )
( 6 ,1) ( 6 , 2 ) ( 6 , 3 ) ( 6 , 4 ) ( 6 , 5 ) ( 6 , 6 )
Considrons les trois vnements :

A = La somme des points gale 5.
B = La face 2 est apparue au moins une fois.
C = Les deux ds donnent la mme face.
Ces vnements correspondent aux sous-ensembles :
A = {(l, 4), (2, 3), (3, 2), (4, 1)}
B = {(l, 2), (2, 2), (3, 2), (4, 2), (5, 2), (6, 2), (2, 1), (2, 3), (2, 4), (2, 5),
(2,6)}
C = {(l, 1), (2, 2), (3, 3), (4,4), (5, 5), (6, 6)}
On trouve alors, entre autres :
A B = {(l, 4), (2, 3), (3, 2), (4, 1), (1, 2), (2, 2), (4, 2), (5, 2), (6, 2), (2, 1),
(2, 4), (2, 5), (2, 6)}
A B = {(2, 3), (3, 2)}
A C = {(1, 4), (2, 3), (3, 2), (4, 1), (1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}
AC=
Bc = {(1, 1), (1,3), (1, 4), (1, 5), (1, 6), (3, 1), (3, 3), (3, 4), (3, 5), (3, 6),
(4,1), (4,3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 3), (5, 4), (5, 5), (5, 6),
(6,1), (6,3), (6,4), (6,5), (6, 6)}
Ac Cc = (A C)c = c = :
A B = {(1, 4), (4, 1)}
150
5.2
PROBABILITS
Afin de complter le modle probabiliste qui permettra de dcrire le comportement du rsultat de l'exprience alatoire considre, il faut maintenant
trouver une faon de dterminer la probabilit de chacun des vnements
que nous aurons considrer.
On peut dj dire que la probabilit d'un des rsultats d'une exprience
alatoire sera une mesure de l'importance de ce rsultat dans l'ensemble de
tous les rsultats possibles de l'exprience.
Il est souvent commode de se reprsenter la probabilit d'un vnement
comme une sorte de poids . Un poids total de 1 est rparti sur les lments
de l'espace chantillon.
Plus le poids d'un rsultat est grand, plus grande est la probabilit que
l'exprience alatoire donne ce rsultat. Une fois dtermine la probabilit de
chacun des rsultats, c'est--dire de chaque lment de :, il sera ais de
calculer la probabilit d'un vnement, c'est--dire d'une partie de :.
Notons par P(r) la probabilit (ou le poids) du rsultat r. Les probabilits
ngatives (ou suprieures 1) tant manifestement absurdes, on doit avoir,
pour tout lment r de : :
0 d P ( r ) d 1.
Notons au passage qu'on a rarement P(r) = 0 car si un rsultat est

impossible, on n'avait pas le mettre dans :. Il arrive cependant qu'on ne
sache pas l'avance quelle sera la probabilit de chacun des lments de : ;
ou encore qu'il soit naturel, pour effectuer des comparaisons, d'utiliser un
mme espace chantillon pour des expriences alatoires lgrement
diffrentes. Il est alors bien commode de pouvoir attribuer une probabilit
nulle certains rsultats plutt que de les retirer de l'espace chantillon.
Une autre contrainte, dj implicitement reconnue, est que la somme des
probabilits de tous les rsultats doit donner exactement 1.
P (r )
1.
r :
Remarque La notation
r :
P ( r ) reprsente la somme des valeurs de P(r)
pour tous les lments r de l'ensemble :.
151
Quand la probabilit de chacun des rsultats lmentaires est dtermine, la

probabilit de n'importe quel vnement A (sous-ensemble de Q) s'obtient en
calculant la somme des probabilits des lments qui le constituent.
P ( A)
P ( r ).
r A
Le poids d'un objet est bien la somme des poids de ses parties ; ainsi en
est-il de la probabilit d'un vnement.
Exemple 10 On lance un d. : = {1, 2, 3, 4, 5, 6}. Si on suppose que le d est bien
quilibr, chacun de ces 6 rsultats doit avoir la mme probabilit. Le poids
total de 1 sera donc divis en 6 parties gales et on obtient :
P (1)
P ( 2)
P ( 3)
P ( 4)
P (5)
P (6)
1
6
L'vnement le rsultat est pair correspond l'ensemble A = {2, 4, 6} et on

calcule :
P ( A)
P(r )
P ( 2) P ( 4) P ( 6)
1
6
r A
Il y a donc une chance sur deux que le rsultat du d soit un nombre pair
(et une chance sur deux qu'il soit impair).
i
Il arrive frquemment que, par un simple argument de symtrie, on puisse
facilement admettre que tous les lments de : sont quiprobables. La
probabilit de chaque rsultat est alors ncessairement 1/n, o n est le
nombre d'lments de :. Dans ce cas, appel modle uniforme, la
probabilit de n'importe quel vnement A s'obtient par la formule :
P ( A)
nombre de rsultats favorables A

nombre total des rsultats possibles
Card ( A )
Card ( : )
o la notation Card(A) dsigne la cardinalit de A, c'est--dire le nombre

d'lments de l'ensemble A. Rappelons que cette formule commode ne peut
tre utilise que si le modle uniforme est satisfait, c'est--dire si tous les
lments de : ont la mme probabilit.
152
C'est ce qui arrive dans la plupart des situations relies aux jeux de hasard :
les faces d'un d, les cartes d'un jeu sont au dpart quiprobables. Les
calculs de probabilit se ramnent alors des problmes de dnombrement.
La symtrie de telles situations, c'est--dire le fait que chaque rsultat ait la
mme importance, permet alors d'attribuer une probabilit a priori
chacun des rsultats.
Exemple 11 Un vase contient 3 boules blanches et 7 boules noires. On tire une boule au
hasard. Considrons l'vnement A = la boule tire est blanche .
En utilisant des indices qui permettent de bien distinguer chacune des
boules, on peut crire :
: = {b1, b2, b3, n1, n2, n3, n4, n5, n6, n7}
et
A = {b1, b2, b3}
Toutes les boules ayant exactement le mme statut, le modle uniforme peut
tre appliqu et on obtient :
P ( A)
Card( A )
Card( : )
10
Exemple 12 Considrons une classe qui compte 25 lves, dont 5 sont blonds et
20 bruns. Alors l'exprience observer la couleur des cheveux d'un lve tir
au hasard est de mme nature que celle de l'exemple 11. On aura
P( blond ) = 5
0 , 2 et P( brun ) = 20
0 ,8 .
i
25
25
La plupart des situations concrtes, par contre, ne dbouchent pas sur des
rsultats aussi symtriques et ne permettent pas d'identifier des probabilits
a priori. La probabilit de chaque rsultat doit alors tre estime de faon
empirique ; c'est le plus souvent la frquence de ce rsultat, telle que calcule
partir de donnes dj disponibles ou des rsultats d'une suite
d'expriences ad hoc.
Exemple 13 Supposons que nous nous demandions quelles sont les chances qu'il pleuve
un 10 juillet. L'exprience alatoire ici est l'observation du temps le 10 juillet
et, pour simplifier, on peut dire que : = {pluie, beau temps}. Nous
consultons les archives mtorologiques et nous y trouvons qu'il a plu
22 fois durant les 117 dernires annes, un 10 juillet. Personne ne sera alors
surpris si nous disons qu'une estimation raisonnable de la probabilit qu'il
pleuve un 10 juillet est de 22 sur 117 , donc de 0,188.
i
153
Remarque La distinction entre le cas empirique et le cas a priori peut se

rvler dlicate ; c'est ainsi qu'on pourrait attribuer a priori la probabilit 1
2
au rsultat avoir un garon lors d'une naissance, alors qu'en ralit la
probabilit (empirique) est lgrement suprieure 1 .
2
Quelle que soit la faon dont les probabilits sont obtenues (de faon
empirique ou a priori), elles obiront un certain nombre de lois, que nous
allons maintenant prsenter. Chacune de ces lois pourrait tre formellement
dmontre, mais il nous a plutt sembl prfrable d'en donner une illustration gomtrique. On conviendra, pour ce faire, qu'une fois : reprsent
par un rectangle d'aire 1, un vnement quelconque A sera reprsent par
une surface d'aire P(A). Cette illustration (ou reprsentation) permet de
visualiser parfaitement aussi bien les lois ci-dessous que toute autre relation
impliquant des probabilits.
Lois des probabilits

LOI 1 : P(:) = 1
L'vnement certain a probabilit 1.
LOI 2 : P(O) = 0
L'vnement impossible a probabilit 0.
LOI 3 : P(Ac) = 1 P(A)
La probabilit qu'un vnement ne se produise pas est 1 moins la
probabilit qu'il se produise.
Illustration
A
C
154
L'aire de AC vaut celle de : moins celle de A. tant donn notre convention,

P(AC) = 1 P(A).
LOI 4 : P(A B) = P(A) + P(B) P(A B)
Illustration
L'aire de A B s'obtient en additionnant les aires de A et de B ; mais alors

l'aire de la partie commune (A B) est compte 2 fois (1 de trop). D'o
P(A B) = P(A) + P(B) P(A B).
L'illustration ci-dessus suggre que la loi 4
particulirement simple quand A et B sont disjoints :
prend
Si A B = , on dit que A et B sont incompatibles ; dans ce cas

P(A B) = P(A) + P(B).
Illustration
A
une
forme
155
LOI 5 : P(A B) = P(A) P(A B)

En effet, on peut crire A = (A B) (A BC) et, puisque les vnements B
et BC sont incompatibles, les vnements A B et A BC le sont aussi. En
vertu de la remarque prcdente, on trouve donc que P(A) = P(A B) +
P(A BC). Enfin, utilisant la dfinition de A B, on obtient :
P(A B) = P(A BC) = P(A) - P(A B)
Illustration
Indpendance Nous voulons

intersection : P(A B).
B
AB
AB
maintenant
valuer
la
probabilit d'une
Deux cas peuvent alors se prsenter, selon que A et B ont, ou non, de

l'influence l'un sur l'autre. Voyons d'abord en dtail le cas o A et B n'ont
pas d'influence rciproque (le second cas sera dvelopp la section 5.3).
Deux vnements A et B sont dits indpendants s'ils n'ont aucune influence
l'un sur l'autre ; autrement dit, si la probabilit de l'un n'est d'aucune faon
modifie par le fait que l'autre soit ou non ralis. Cette dfinition de
l'indpendance, verbale et intuitive, se traduit mathmatiquement par la loi
suivante.
LOI 6 : A et B sont indpendants si et seulement si P(A B) = P(A)P(B)
Exemple14
On tire une carte au hasard dans un jeu ordinaire de 52 cartes. Considrons

les vnements :
A = La carte est un j.
B = La carte est un Roi.
156
A et B sont indpendants : en effet Card(:) = 52, Card(A) = 13, Card(B) = 4 et

1
1
Card(A B) = 1. On obtient donc P(A B) = 52
= 13
x 14 = P(A)P(B).
Cela est aussi en accord avec notre intuition : que la carte tire soit ou non
i
un Roi, la probabilit qu'elle soit un j demeure toujours 1 4 .
Remarque Dans le cas d'vnements dont la probabilit est dfinie
empiriquement par leur frquence relative, l'indpendance apparatra,
l'occasion, comme une sorte d'vidence intuitive ; il en est srement ainsi, par
exemple, lors du choix au hasard d'un citoyen canadien adulte, de l'vnement
il a les cheveux blonds et de l'vnement il conduit une voiture 4 portes .
L'indpendance n'est toutefois tablie mathmatiquement que par la
vrification de l'identit
P(A B) = P(A) u P(B)
par exemple, en utilisant le tableau des frquences conjointes, comme au
chapitre 3.
Indpendance de plusieurs vnements La notion d'indpendance se

gnralise plus de deux vnements. On dira que n vnements A1, A2, ...,
An sont indpendants si aucun d'entre eux n'est influenc par la ralisation
ou la non-ralisation des autres. L'nonc mathmatique correspondant est
plus complexe que celui de la loi 6 ; voyons-le dans le cas o n = 3.
LOI 6' : (cas n = 3)
A1, A2 et A3 sont des vnements indpendants si et seulement si
P(Al A2) = P(Al)P(A2)
P(Al A3) = P(Al)P(A3)
P(A2 A3) = P(A2)P(A3)
P(Al A2 A3) = P(Al)P(A2)P(A3).
La proprit la probabilit de l'intersection gale le produit des probabilits
individuelles doit donc tre vrifie pour les vnements pris 2 2 et 3 3.
Dans le cas de n vnements, ladite proprit devra tre vrifie pour les
vnements pris 2 2, 3 3, ... n n.
157
Exemple 15 Dans une manufacture, trois systmes d'alarme sont installs de telle faon
que n'importe lequel des trois va sonner si quelque chose d'anormal se
produit. Si chacun des trois systmes a une probabilit de 0,95 de bien
fonctionner, quelle est la probabilit que l'alarme soit dclenche si c'est
ncessaire ?
Solution
P(l'alarme sonne)
= P(au moins un des systmes fonctionne)
= 1 P(aucun des systmes ne fonctionne)
En supposant que les trois systmes fonctionnent indpendamment, on a :
P(aucun des systmes ne fonctionne)
= P(1er ne fonctionne pas et 2e non plus et 3e non plus)
= P(1er ne fonctionne pas) u P(2e non plus) u P(3e non plus)
= 0,000 125.
Donc P(Falarme sonne) = 1 0,000 125 = 0,999 875.
5.3
PROBABILITS CONDITIONNELLES
Quand deux vnements A et B sont indpendants, on value la probabilit
que l'un et l'autre se produisent par la formule P(A B) = P(A)P(B). Dans la
mesure o un calcul de probabilit se ramne trs souvent un exercice de
dnombrement, cette identit correspond au principe de base de la
combinatoire, qu'on pourrait formuler ainsi :
Si une opration peut tre faite de n faons et si une deuxime peut l'tre
indpendamment de m faons, alors les deux ensembles peuvent tre faites
de m u n faons.
Ainsi, quelqu'un ayant 4 pantalons et 5 chemises peut arborer 20 (= 4 u 5)
tenues vestimentaires diffrentes. Toutefois, il peut arriver que le choix de la
chemise dpende du pantalon choisi, ce qui modifie les calculs. En somme, il
arrive que des vnements ne soient pas indpendants. Voyons d'abord un
exemple technique avant d'laborer une formule pour le calcul de P(A B)
dans les cas de dpendance.
158
Exemple 16 On lance un d. Posons

A = le rsultat est pair ;
B = le rsultat est plus grand ou gal 5 ;
C = le rsultat est plus grand ou gal 3 .
On a A = {2,4,6}, B = {5,6}, C = {3,4,5,6}, et A C = {4,6}, B C = {5,6}.
On trouve donc que :
P(A)P(C) =
P(B)P(C) =
3
6
4
6
2
6
1
3
=
4
6
P(A C) (A et C sont indpendants).

=
2
9
2
6
= P(B C) (B et C ne sont pas

i
indpendants).
Deux vnements, tels B et C dans l'exemple 16 ci-dessus, qui ne sont pas

indpendants, sont dits dpendants. Voyons un exemple qui suggre une
faon de calculer alors P(A B).
Exemple 17 Un sac contient 3 boules noires et 2 boules blanches. On tire
successivement (sans remise) deux boules du sac. Quelle est la probabilit
que ces deux boules soient noires ?
Dfinissons les deux vnements suivants :
A = La premire boule est noire.
B = La deuxime boule est noire.
L'vnement qui nous intresse, les deux boules sont noires , est
l'vnement A B. On veut calculer P(A B).
On conviendra aisment que, pour que A B soit ralis, il faut d'abord que A
soit ralis, ce qui se produira avec une probabilit gale 35 . Il faudra
ensuite que la seconde boule soit noire aussi. Or, on a dj, en ralisant A,
retir une boule noire du sac qui ne contient, pour le second tirage, que 4
boules : 2 blanches et 2 noires. La probabilit que la seconde boule soit noire
sachant que la premire boule tait noire est donc 24 . La probabilit que les
deux boules soient noires s'obtient alors en calculant P(A B) =
3
5
3
10
.i
159
Dans l'exemple qui vient d'tre prsent, nous avons calcul P (A B) au

moyen de la formule :
P(A B) = P(A)P(B|A)
La barre verticale se lit quand , sachant que ou tant donn que .
Cette formule gnrale s'applique toutes les situations. Par symtrie, on
peut aussi l'crire sous la forme :
P(A B) = P(B)P(A|B)
La probabilit que deux vnements se ralisent est le produit de la
probabilit que l'un deux se ralise par la probabilit que le second se ralise
aussi sachant que le premier vnement est ralis. Le terme P(A|B) dsigne
la probabilit conditionnelle de A sachant que B est ralis. En divisant
par P(B) les deux membres de l'galit P(A B) = P(B)P(A|B) on obtient :
P( A B)
P( A B)
(si P(B) z 0).
P(B)
Symtriquement, P(B|A) est la probabilit conditionnelle de B sachant que A
est ralis. On obtient de la mme faon
P ( B A)
P( A B)
(si P(A) z 0).
P ( A)
Comme le montrent ces formules, les probabilits conditionnelles P(A|B) et
P(B|A) mesurent respectivement l'importance relative de A B par rapport
B et A.
Le traitement des probabilits conditionnelles est donc tout fait analogue
ce qu'on a dj fait, dans le chapitre 3, au sujet des distributions
conditionnelles : la donne d'une condition B fait qu'on ne considre plus, de
l'espace chantillon :, que la tranche o la condition B est ralise.
Exemple 18 On lance un d qui donne X points. Calculer : P(X est pair |X t 4).
Dfinissons les vnements :
A = X est pair .
B = X t 4 .
160
Dans l'espace chantillon : = {1,2,3,4,5,6}, les vnements A, B et A B

sont : A = {2,4,6}, B = {4,5,6} et A B = {4,6}.
On trouve donc :
P( A B)
P( A B)
P(B)
Cette rponse est en accord avec l'intuition : si X t 4, trois valeurs seulement

sont possibles, 4, 5, et 6, parmi lesquelles deux sont paires et une seule est
impaire.
i
Exemple 19 On lance deux ds. Calculer :
P(la somme des points est t 9|la face 6 ne parat pas).
Dfinissons les vnements :
A = La somme des points est t 9.
B = La face 6 ne parat pas .
Rsultat du deuxime d
Rsultat du premier d
1
2
3
4
5
6
L'espace chantillon : est un ensemble de 36 lments. On peut le

reprsenter par la grille ci-dessus.
Le lancement des deux ds correspond au choix alatoire de l'une ou l'autre
des 36 cases (quiprobables) de la grille. Marquant d'un A ou d'un B les
cases pour lesquelles les vnements correspondants sont raliss, on
obtient la nouvelle grille qui parat la page oppose.
L'observation des lettres de cette grille donne P(A) =

P(A B) =
3
36
10
36
, P(B) =
161
25
36
et
. On trouve donc :
P( A B)
P( A B)
P(B)
25
36
25
36
Si la face 6 ne parat sur aucun d, il y a donc 3 chances sur 25 que la

somme des points soit suprieure ou gale 9.
i
On a dj vu que deux vnements A et B sont indpendants si P(A B) =
P(A)P(B). Si A et B sont indpendants on obtient donc :
P( A B)
P( A B)
P ( A) P ( B )
P(B)
P(B)
P( A B)
P ( A) P ( B )
P ( A)
P ( A)
P ( A)
et
P ( B A)
P(B)
ce qui nous redonne la dfinition intuitive de l'indpendance : deux

vnements sont indpendants si la ralisation de l'un ne modifie pas la
probabilit de ralisation de l'autre.
Rsultat du premier d
Rsultat du deuxime d
1
AB
AB
AB
162
Dans plusieurs situations, les vnements considrs sont notoirement

indpendants. Quand ce n'est pas le cas, des informations supplmentaires
peuvent nous aider ; l'exemple qui suit illustre une faon simple d'utiliser de
telles informations.
Exemple 20 Soient A et B deux vnements tels que :
P(A) = 0,5 ; P(B) = 0,3 ; P(A B) = 0,2.
Trouver :
a) P(A B)
b) P(Ac B)
Solution
a) D'aprs la loi 4,
P( A B)
P ( A) P ( B ) P ( A B )
0,5 0,3 0, 2
0,6
b) Dans une situation comme celle-ci, il est commode de considrer le

tableau suivant (qui n'est rien d'autre qu'un tableau de distribution
conjointe) :
Bc
P(A Bc)
P(Ac Bc)
P(Bc)
B
P(A B)
P(Ac B)
P(B)
A
Ac
P(A)
P(Ac)
1
o il est facile de voir que chaque ligne (chaque colonne) est forme
d'vnements incompatibles ; par exemple, A B et Ac B sont
incompatibles (car A et Ac le sont) et leur union (A B) (Ac B) est
gale B. On a donc
P(B) = P(A B) + P(Ac B).
Si l'on revient au problme pos, on complte le tableau comme suit :
B
0,2
A
A
B
0,5
A
0,3
1,0
Donc P(Ac B) = 0,1.
0,2
A
c
B
0,5
0,5
0,3 0,7 1,0
0,2 0,3 0,5

c
0,1 0,4 0,5

0,3 0,7 1,0
5.4
163
VARIABLES ALATOIRES
Une variable alatoire est une caractristique numrique rsultant d'une
exprience alatoire. toutes fins pratiques, une variable alatoire est donc
simplement une quantit qui varie au hasard.
Comme pour les variables statistiques dj rencontres dans les quatre
premiers chapitres, les variables alatoires sont conventionnellement
reprsentes par des lettres majuscules habituellement choisies vers la fin
de l'alphabet (X, Y, Z, S, ... ), alors qu'on rserve les premires lettres (A, B,
C, ... ) pour identifier les vnements.
Une variable alatoire peut tre discrte ou continue. Nous ne traiterons ici
que des variables discrtes ; le cas continu sera abord dans le chapitre 7.
Le comportement d'une variable alatoire X discrte est compltement dcrit
par la donne de deux listes :
a) la liste des valeurs x1, x2, ... , xn possibles pour X ;
b) la liste des probabilits p(x1), p(x2), ... , p(xn) de chaque valeur possible.
L'expression p(xi) est une notation concise qui reprsente P(X = xi), la
probabilit que la variable alatoire X prenne la valeur xi. On peut aussi
crire simplement p1, p2, ... pn, au lieu de p(x1), p(x2), ... , p(xn).
Rappelons que le P majuscule s'applique aux vnements ; on peut crire
P(A) ou P(X d 2), jamais p(A) ou p(X d 2). Le p minuscule, lui, s'applique
directement aux nombres ; on peut crire p(3), jamais p(X d 3).
Les probabilits p1, p2, ... pn tiennent le mme rle, dans la description du
comportement de la variable alatoire X, que celui tenu par les frquences f1,
f2, ... fn dans la description de la distribution des donnes exprimentales.
On peut se reprsenter la probabilit pi comme tant la valeur thorique vers
laquelle convergerait la frquence fi si l'on pouvait rpter l'exprience une
infinit de fois.
La fonction p(x) est appele fonction de masse ou fonction de probabilit.
Puisque les nombres p(x1), p(x2), ... , p(xn) reprsentent des probabilits, ils
doivent satisfaire aux deux conditions suivantes :
1.
0 d p(xi) d 1 pour i = 1, 2, ..., n
2.
p ( xi )
n
i 1
164
De mme qu'on pouvait le faire pour illustrer les frquences, on peut

reprsenter la fonction de masse p(x) au moyen d'un diagramme btons.
Exemple 21 Un sac contient 10 billets de banque : 4 billets de 1 $, 3 billets de 2 $, 2
billets de 5 $ et 1 billet de 10 $. On tire un billet au hasard ; il vaut X $.
Les valeurs possibles pour X sont 1, 2, 5, et 10. Les probabilits de chacune
de ces valeurs sont p(l) = 4 10 , p(2) = 3 10 , p(5) = 2 10 et p(10) = 1 10 .
Cette fonction de masse p(x) est illustre par un diagramme btons
(figure 5. 1).
5.5
ESPRANCE ET VARIANCE
Combien de points, en moyenne, un d donne-t-il ? Pour rpondre cette
question, imaginons que le d est lanc un trs grand nombre de fois ;
disons 6 000 fois. Normalement, chacune des faces devrait apparatre
environ 1 000 fois. Ce sont l les effectifs thoriques que nous savons dj
calculer.
Puisque chacune des valeurs 1, 2, 3, 4, 5, 6 apparatra environ 1 000 fois, la
somme des 6 000 rsultats obtenus du d devrait tre voisine de :
(1 000 u 1) + (1 000 u 2) + (1 000 u 3) + (1 000 u 4) + (1 000 u 5) + (1 000 u 6) = 21 000
Illustration d'une fonction de masse p(x) au moyen d'un diagramme btons

p (x )
0,5
0,4
Frquence
FIGURE 5.1
0,3
0,2
0,1
0
1
10
11
165
Le rsultat moyen sera donc voisin de :

21 000
6 000
3, 5
On conviendra sans peine que si l'on pouvait lancer le d une infinit de fois,
la moyenne de tous les rsultats serait exactement 3,5. Cette moyenne
thorique porte le nom d'esprance mathmatique.
En fait, on n'a pas vraiment besoin d'imaginer une infinit d'observations
d'une variable alatoire X pour pouvoir en calculer l'esprance
mathmatique, note E(X). On n'a qu' appliquer la formule
E( X )
x i p ( x i ).
Cette formule est analogue celle qu'on a dj amplement utilise pour

calculer la moyenne x partir des frquences fi :
x
xi f i
En y remplaant les frquences exprimentales fi par les frquences

thoriques (ou probabilits) p(xi), la formule donne, plutt que la moyenne
exprimentale x , la moyenne thorique E(X).
Exemple 22 Considrons encore le sac et les billets dcrits dans l'exemple 21. On
obtient :
E( X )
xi p ( xi )
4
3
2
1
1 u 2 u 5 u 10 u

10
10
10
10
3.
En moyenne, le billet tir du sac vaut donc 3 $, mme si les billets de 3 $

n'existent pas ! Si on rptait 1 000 fois l'exprience, en replaant le billet
tir afin de ne pas modifier la composition du sac, la valeur totale des 1 000
billets tirs serait voisine de 3 000 $.
i
L'esprance mathmatique d'une variable alatoire X est aussi reprsente
par l'expression Px (P = mu, le m grec) ou par P, s'il n'y a pas d'ambigut. Les
notations Px (respectivement P) et E(X) sont quivalentes.
166
L'esprance mathmatique peut aussi s'appliquer une transformation d'une

variable alatoire donne. Par exemple, E(X + 2) dsigne la moyenne
thorique de la variable X + 2 obtenue de X en lui ajoutant 2. De mme,
E(X2) dsigne la moyenne thorique du carr de X.
Une transformation particulirement utile est celle donne par le carr de la
distance entre X et sa moyenne. Elle conduit la variance de X.
Var ( X )
E (( X P ) 2 )
( xi
P ) 2 p ( x i ).
Cette formule permet de calculer la moyenne thorique du carr de l'cart

entre X et sa moyenne thorique. C'est l'analogue direct de la formule
donnant la variance exprimentale s2 :
s2
( xi
x )2 fi
On n'a fait que remplacer les fi par leur quivalent thorique p(xi) ainsi que
remplacer x par son quivalent thorique P.
Exemple 23 Considrons encore le sac contenant 4 billets de 1 $, 3 billets de 2 $, 2 de
5 $ et 1 de 10 $. On a dj calcul, dans l'exemple 22, que P = 3. On peut
maintenant calculer que :
Var ( X )
( xi
2
P ) p ( xi )
2
(1 3 ) ( 0 , 4 ) ( 2 3 ) ( 0 , 3 ) ( 5 3 ) ( 0 , 2 ) (10 3 ) ( 0 ,1)
( 4 u 0 , 4 ) (1 u 0 , 3 ) ( 4 u 0 , 2 ) ( 49 u 0 ,1)
7 , 6.
En moyenne, le billet tir vaut 3 $ ; de plus, comme on vient de calculer, le
carr de la distance entre X et 3 vaut, en moyenne, 7,6. C'est une mesure de
dispersion.
i
La variance Var(x) est aussi note V X2 (V = sigma, le s grec) ou V 2 s'il n'y a
pas d'ambigut. Comme c'tait le cas avec les donnes exprimentales, la
racine carre V X (respectivement V) de la variance thorique est aussi
appele cart-type (ou cart-type thorique).
Exemple 24 Considrons le nombre X de points donns par un d.
On veut calculer P et V.
167
Les valeurs possibles pour X sont 1, 2, 3, 4, 5 et 6 et la probabilit de

chacune de ces valeurs est 1 6 . On trouve donc :
E( X )
xi p ( xi )
1
1
1
1
1
1
1u 2 u 3 u 4 u 5 u 6 u
6
6
6
6
6
6
21
3, 5
conformment ce qu'on a dj vu au dbut de la section 5.5. On trouve

aussi :
2
Var ( X )
( xi
P ) p ( xi )
xi p ( x i )
2
7
1
7
1
7
1
1 u 2 u 6 u
2
6
2
6
2
6
25 1 9 1 1 1 1 1 9 1 25 1
u u u u u
u
4 6 4 6 4 6 4 6 4 6 4 6
70
35
24
12
V2
2 , 916 67
1, 707 8.
i
Remarque On sait dj calculer s2 au moyen de la formule rapide s2 = x 2 x 2 .

La variance thorique V2 se calcule aussi au moyen d'une formule analogue.
On a
V2
E ( X 2 ) ( E ( X )) 2
E( X 2 ) P 2 .
168
Exemple 25 Reprenant le calcul de la variance du nombre X de points donns par un d,

on trouve
E( X 2 )
xi
p ( xi )
2 1 2 1 2 1 2 1 2 1 2 1
1 u 2 u 3 u 4 u 5 u 6 u
6
6
6
6
6
6
91
15 ,166 67.
6
Donc
V2
E( X 2 ) P 2
15 ,166 67 ( 3, 5 ) 2
2 , 916 67
valeur obtenue, aprs un calcul plus lourd, dans l'exemple 24.
Proprits lmentaires de E(X) et de Var(X) Comme nous l'avons dj fait

remarquer, bien qu'une dfinition mathmatique soit toujours suffisante
pour les fins de calcul, son application mcanique conduit souvent des
calculs fort longs, qu'on peut abrger en dveloppant, sous forme de
formules , quelques consquences simples de la dfinition. C'est ainsi
qu'en partant de la dfinition de E, nous pouvons dduire des formules pour
E(bX), E(a + bX), E(X Y), et qu'en partant de la dfinition de Var, nous
dduisons des formules pour Var(bX), Var(a+ bX), Var(X Y). Nous donnons
ces formules sans dmonstration : certaines sont d'ailleurs analogues aux
formules que nous connaissons dj pour x et s2.
1. E(bX) = bE(X)
2. E(a + bX) = a + bE(X)
3. E(X Y) = E(X) E(Y)
4. Var (a + bX) = b2Var(X)
5. Si X et Y sont indpendantes, alors
Var(X Y) = Var(X) + Var(Y).
Nous n'avons pas encore formellement dfini ce qu'taient des variables
alatoires indpendantes. Intuitivement, deux variables alatoires X et Y
sont indpendantes si elles n'ont aucune influence l'une sur l'autre,
169
c'est--dire si le comportement conditionnel de l'une n'est pas affect par la

valeur prise par l'autre. Techniquement, le critre d'indpendance que nous
avons utilis pour les vnements peut tre adapt aux variables alatoires
et devient, dans le cas discret : X et Y sont indpendantes si, pour toutes
valeurs x et y on a
P(X = x et Y = y) = P(X = x)P(Y = y).
Avec cette dfinition, on peut montrer que si X et Y sont indpendantes, tout
vnement A qui ne porte que sur X et tout vnement B qui ne dpend que
de Y sont indpendants.
Les formules qui permettent de calculer l'esprance et la variance d'une
somme (ou d'une diffrence) de deux variables alatoires se gnralisent
directement une somme arbitrairement longue. On obtient les formules
suivantes :
1. Pour l'esprance :
E(X1 X2 ... Xn) = E(X1) ... E(Xn)
2. Pour la variance :
Si X1, ..., Xn sont indpendantes,
Var(X1 ... Xn) = Var(X1) +... + Var(Xn)
Exemple 26 On lance 1 000 ds. Posons Y = Le nombre total de points obtenus . On
veut calculer E(Y) et Var(Y). Posons Y = X1 + X2 + ... + X1 000, o X1, X2, ...,
X1 000 dsignent les rsultats successifs de chacun de ces lancers. Dans
l'exemple 24, on a dj calcul que chacun de ces Xi a une esprance de 3,5
et une variance de 2,916 67. On trouve donc
E (Y )
E ( X 1 X 2 X 1 000 )
E ( X 1 ) E ( X 2 ) E ( X 1 000 )
3, 5 3, 5 3, 5
1 000 u 3, 5
3 500.
170
En vertu de l'indpendance des variables X1 + X2 + ... + X1 000 on trouve aussi

Var (Y ) Var ( X 1 X 2 X 1 000 )
Var ( X 1 ) Var ( X 2 ) Var ( X 1 000 )
1 000 u 2 , 916 67
2 916 , 67.
L'cart-type V vaut donc
2 916 , 67
54 , 01 .
En lanant 1 000 ds on obtient donc en moyenne 3 500 points. On a de

plus calcul que le nombre de points obtenus (Y) est en gnral de 3 500
54.
i
Exemple 27 Dans une serre exprimentale, une parcelle de terre est dcoupe en 4 carrs
identiques. Sans engrais, la production de tomates pour chaque carr est
une variable d'esprance 600 kg et d'cart-type 60 kg. En utilisant un
certain engrais, l'esprance sera de 630 kg avec un cart-type 80 kg.
Supposons que 2 carrs sont sems sans engrais et 2 avec engrais.
a) Soit T la production totale des 4 carrs. Quelle est l'esprance et l'carttype de T ?
b) Soit X la production moyenne des deux lots avec engrais et Y la
production moyenne des deux lots sans engrais. Quelle est l'esprance et
l'cart-type de la diffrence X Y ?
Solution : Soit X1, X2 et Y1, Y2 les productions des lots avec et sans engrais,
respectivement. Alors E(X1) = E(X2) = 630, Var(Xl) = Var(X2) = (80)2 ; E(Y1) =
E(Y2) = 600, Var(Y1) = Var(Y2) = (60)2.
Nous supposerons que ces 4 variables sont indpendantes, puisque la
culture dans un carr n'est pas affecte par celle d'un autre.
a) T = X1 + X2 + Y1 + Y2. Donc E(T)= E(X1 + X2 + Y1 + Y2) = E(X1) + E(X2) + E(Y1)
+ E(Y2) = 630 + 630 + 600 + 600 = 2 460.
Var(T) = Var(X1 + X2 + Y1 + Y2) = Var(X1) + Var(X2) + Var(Y1) + Var(Y2) =
(80)2 +(80)2 +(60)2 +(60)2 =2 000.
Donc, l'cart-type de T est
20 000 = 141,42.
b) X = (1/2)( X1 + X2), Y = (1/2)( Y1 + Y2), E(X) = (1/2)(E(X1 + X2)) =

(1/2)(630 + 630) = 630, E(Y) = 600.
171
Var ( X )
1
Var ( X 1 X 2 )

2
2
1
>Var ( X 1 ) Var ( X 2 ) @

2
2
1
( 80 2 80 2 )

2
3 200
Var(Y) = 1 800. Donc E(X Y) = 630 600 = 30 et Var(X Y) = Var(X) + Var(Y)
= 3 200 + 1 800 = 5 000. L'cart-type de X Y est donc
5 000 = 70,71.
RSUM
1. L'espace chantillon d'une exprience alatoire est l'ensemble de tous
les rsultats possibles de cette exprience.
2. Un vnement est un nonc relatif au rsultat d'une exprience.
Chaque vnement correspond un sous-ensemble de l'espace
chantillon.
3. chaque rsultat r est associe une probabilit P(r) qui est un nombre
compris entre 0 et 1. La somme des probabilits de tous les rsultats de
l'exprience vaut 1. La probabilit d'un vnement A est la somme des
probabilits des lments de A.
4. Si tous les lments de : sont quiprobables (modle uniforme), la
probabilit d'un vnement A peut tre obtenue en calculant :
P ( A)
5.
nombre de rsultats favorables A
Card( A )
nombre total de rsultats possibles
Card( : )
I P(:) = 1 o : est l'espace chantillon (vnement certain).

II P() = 0 o est l'ensemble vide (vnement impossible).
III P(Ac) = 1 P(A), o Ac est le complment de A.
IV P(A B) = P(A) + P(B) P(A B).
V P(A B) = P(A) P(A B).
172
VI Deux vnements A et B sont indpendants si et seulement si

P(A B) = P(A)P(B).
6. A et B sont dits incompatibles si A B = . Dans ce cas,
P(A B) = P(A) + P(B)
7. P(A B) = P(A)P(B|A) = P(B)P(A|B) o P(B|A) dsigne la probabilit que
B se produise sachant que A s'est produit :
P( A | B)
P( A B)
(si P(B) z 0)
P( B)
ou
P ( B | A)
P( A B)
(si P(A) z 0)
P ( A)
8. Si deux vnements A et B sont indpendants, alors
P(A|B) = P(A) et P(B|A) = P(B).
9. On appelle variable alatoire une caractristique numrique des
rsultats d'une exprience alatoire. Une variable alatoire est donc une
quantit qui varie au hasard.
10. Soit X une variable alatoire discrte dont l'ensemble des valeurs
possibles est {x1, x2, ..., xn}. On appelle fonction de masse p la fonction
dfinie par
p(xi) = P(X = xi).
11. L'esprance mathmatique E(X) de X est dfinie par
P
E( X )
xi p ( xi )
et sa variance Var(X) est dfinie par

V2
Var ( X )
( xi
E ( X )) 2 p ( x i )
E ( X 2 ) ( E ( X )) 2 .
12. L'esprance et la variance d'une variable alatoire jouissent des

proprits suivantes :
I E(bX) = bE(X)
II E(a + bX) a + bE(X)
173
III E(X Y) = E(X) E(Y)

IV Var(a + bX) = b2Var(X)
V Si X et Y sont indpendantes, alors
Var(X Y) = Var(X) + Var (Y).
13. Deux variables alatoires discrtes X et Y sont indpendantes si, pour
toutes valeurs de x et y on a
P(X = x et Y = y) = P(X = x)P(Y = y).
Si X et Y sont indpendantes, il suit que tout vnement A qui porte
uniquement sur X et tout vnement B qui porte uniquement sur Y sont
indpendants.
EXERCICES
ESPACE
CHANTILLON
1. Pour chacune des expriences alatoires suivantes, donnez une description rigoureuse de : ; si possible, numrez-en les lments.
a) Lancer 4 sous et observer le rsultat.
b) Interroger des gens sur le parti fdral qu'ils favoriseraient s'il y avait
lection le lendemain.
c) Observer la temprature maximale un 10 janvier.
d) Observer la temprature maximale un 12 juillet.
e) Lancer 3 ds et observer la somme des nombres obtenus.
f)
Tirer un chantillon de 10 pneus dans la production d'une firme N et

compter le nombre de pneus dfectueux.
g) Observer le type d'habitat d'un Qubcois choisi au hasard.

2. une personne choisie au hasard, on pose un certain nombre de
questions sur la peine capitale. Considrons les vnements suivants :
A : La personne choisie rpond oui la question : tes-vous en
faveur de la peine de mort pour le meurtre d'un policier ?
B : La personne choisie rpond oui la question : tes-vous en
faveur de la peine de mort pour un meurtre commis par un
dtenu en prison ?
174
C : La personne choisie rpond oui la question : tes-vous en

faveur de la peine de mort pour tout meurtre ?
D : La personne choisie rpond oui la question Y a-t-il des
crimes pour lesquels vous favorisez la peine de mort ?
E : La personne choisie rpond oui la question : tes-vous en
faveur de l'abolition totale de la peine de mort ?
a) Dcrivez en mots les vnements suivants :
i) A C
ii) A B
iii) D E
iv) A E
b) Quelle est la relation entre les vnements C et A ?

PROBABILIT
3. Un sac contient 2 billes identiques sauf pour la couleur : une verte et

une jaune, et une balle de golf blanche. On tire au hasard un des 3
objets du sac :
a) Peuton dire a priori que P(j) = P(v) = P(b) ?
b) Lesquelles des affirmations suivantes sont vraies ?
i) P(v) = P(j)
ii) P(b) = 1
iii) P(v) + P(j) + P(b) = 1
iv) P(b) = 0
v) P(v) = P(b)
vi) Si P(v) = 1/4, P(b) = 1/2.
4. Une exprience alatoire a quatre rsultats possibles : r1, r2, r3, r4.
Lesquelles des donnes suivantes sont acceptables, et pourquoi ?
a)
b)
c)
d)
P(r1)
P(r1)
P(r1)
P(r1)
=
=
=
=
0,2 ; P(r2) = 0,3 ; P(r3) = 0,4 ; P(r4) = 0

0,2 ; P(r2) = 1,0 ; P(r3) = 0,1 ; P(r4) = 0,1
0 ; P(r2) = 0 ; P(r3) = 0 ; P(r4) = 1
1/2 ; P(r2) = 1/2 ; P(r3) = 1/2 ; P(r4) = 1/2
5. On choisit au hasard une personne parmi les tudiants d'une classe;

considrons les vnements suivants :
A : La personne choisie est une fille.
B : La personne choisie est un garon.
C : La personne choisie a les yeux bleus.
D : La personne choisie a les cheveux blonds.
Dcrivez en mots le contenu de chacun des lments suivants :
A B, A C, Ac, C D, Cc D, A C D, A - C, D - C, D - B.
6. Soit P(A) = 0,3 ; P(B) = 0,5; P(A B) = 0,7. Trouvez :
a) P(A B)
b) P(Ac Bc)
c) P(B Ac)
175
7. Un architecte soumet un projet deux bureaux X, Y. Supposons que la

probabilit que X accepte le projet est de 0,5, celle que Y refuse est de 0,6
et celle que le projet soit rejet par au moins un bureau est de 0,7.
Trouvez la probabilit :
a) que les bureaux X et Y acceptent le projet ;
b) que X accepte le projet, mais Y le refuse ;
c) qu'au moins un des bureaux accepte le projet.
8. On prend au hasard un enfant dans une classe. Considrons les
vnements suivants :
M : L'enfant
F : L'enfant
D : L'enfant
G : L'enfant
est
est
est
est
un garon.
une fille.
droitier.
gaucher.
Si P(M) = 0,5 ; P(G) = 0,1 et P(F G) = 0,03, dterminez P(F), P(D),

P(F G), P (F D).
9. On choisit une personne au hasard. Les vnements A et B ci-dessous
sont-ils incompatibles ? Sont-ils, d'aprs vous, indpendants ? L'un est-il
contenu dans l'autre ?
a) A : La personne choisie est une femme.
B : La personne choisie est un homme.
b) A : La personne choisie est pour l'abolition du droit de grve dans le
secteur public.
B : La personne choisie est d'avis que le droit de grve est un droit
inalinable de tous les travailleurs.
c) A : La personne choisie est pour l'abolition du droit de grve pour
tous les travailleurs.
B : La personne choisie est pour l'abolition du droit de grve dans le
secteur public.
d) A : La personne choisie a les cheveux blonds.
B : La personne choisie a un quotient intellectuel suprieur 100.
e) A : La personne choisie mesure plus de 1,50 m.
B : La personne choisie mesure plus de 1,30 m.
176
f)
A : La personne choisie mesure moins de 1,70 m.

B : La personne choisie mesure plus de 5 m. (Utilisez la dfinition
mathmatique de l'indpendance)
g) A : La personne choisie mesure moins de 1,70 m.

B : La personne choisie a les yeux bleus.
10. Une bote renferme 8 billes rouges, 3 blanches et 9 vertes. Si l'on extrait
sans remise 3 billes au hasard, calculez la probabilit que :
a)
b)
c)
d)
e)
les 3 billes soient rouges.

les 3 billes soient blanches.
les 2 premires billes soient rouges, la 3e blanche.
au moins une des billes soit blanche.
les billes soient tires dans l'ordre rouge, blanche, verte.
11. Une tudiante suit un cours de marketing et un cours de statistique. La

probabilit qu'elle russisse en marketing est de 0,5 et en statistique de
0,7 ; la probabilit qu'elle russisse les deux cours est de 0,3. Calculez
chacune des probabilits suivantes :
a) Elle russit au moins un des deux cours.
b) Elle choue les deux cours.
c) Elle choue en statistique et russit en marketing.
VARIABLES
ALATOIRES
12. De chaque exprience alatoire suivante, isolez une ou deux variables

alatoires et donnez-en les valeurs possibles.
a) D'une urne contenant 3 billes rouges et 4 vertes, tirer une bille.
b) D'une urne contenant 5 billes rouges et 6 vertes, tirer trois billes.
c) D'une assemble o sigent 10 femmes et 8 hommes, extraire un
comit de 4 personnes.
d) Choisir un tudiant au hasard dans la classe.
13. On lance 4 pices de monnaie ; soit X le nombre de faces. Dterminez la
fonction de masse de X et faites-en une reprsentation graphique.
Calculez E(X) et Var(X).
14. On assigne un numro distinct chacun des 1 000 invits un party
de bureau. On procde ensuite au tirage au hasard d'un numro ; le
gagnant reoit un cadeau de 100 $.
a) Soit X le gain d'un des invits. Dterminez E(X) et Var(X).
b) Soit X le gain d'un couple d'invits. Dterminez E(X) et Var(X).
177
15. On assigne un numro distinct chacun des 1 000 invits un party

de bureau. On procde ensuite au tirage alatoire de deux numros, sans
remise ; le premier gagnant reoit un cadeau de 1 000 $, le second
100 $.
a) Soit X le gain d'un des invits. Dterminez E(X) et Var(X).
b) Soit X le gain d'un couple d'invits. Dterminez E(X) et Var(X).
16. Un d est pip de telle sorte que tous les nombres ont la mme chance
d'apparatre, sauf le 1 qui a trois fois plus de chances d'apparatre que
chacun des autres.
a) Calculez la probabilit d'avoir un nombre < 4.
b) Si vous jouez systmatiquement le 1, gagnant 5 $ quand il sort et
perdant 1 $ dans les autres cas, quelle est votre esprance de gain ?
17. Soit X la valeur dans un an d'une action de la compagnie A et Y la valeur
dans un an d'une action de la compagnie B. Supposons que E(X) = 30,
Var(X) = 25, E(Y) = 40, Var(Y) = 16, et que, de plus, X et Y sont
indpendantes.
a) Dterminez la valeur totale dans un an de
i) 8 actions de A et 9 actions de B ;
ii) 12 actions de A et 6 de B.
b) Discutez l'hypothse que X et Y sont indpendantes.
18. Votre ami et vous achetez chacun un billet de loterie. Soit X1 votre gain
brut et X2 le sien. Supposons que X1 et X2 sont indpendantes, les deux
de moyenne 1,50 $ et d'cart-type 10 $. Vous dcidez de partager les
gains ventuels. Soit X votre gain sous cette hypothse. Calculez E(X) et
Var(X) ; comparez avec l'esprance et la variance de X, et X2.
DIVERS
19. Soient A et B deux vnements incompatibles ; dites pourquoi la

situation suivante est impossible :
P(A) = 0,4,
P(B) = 0,3,
P(Ac Bc) = 0,2
20. Une bote contient 5 billes, dont 2 sont marques [1], 1 est marque [2] et
2 sont marques [3]. On tire une bille et on note X son numro ; on tire
une deuxime bille (sans remettre la premire) et on note Y son numro.
Trouvez :
a) E(X)
b) E(Y)
c) E(X + Y)
178
21. Si l'on suppose que les trente lves d'une classe constituent un choix
parfaitement alatoire d'une certaine population, quelle est la probabilit
qu'au moins un lve appartienne au premier centile de la population en
intelligence ?
22. Un petit restaurateur emploie 3 serveurs. Il constate que les 5 dernires
assiettes casses accidentellement l'ont t par le mme serveur, Louis
Lacasse. Peut-il conclure que Louis est particulirement maladroit ?
23. Un marchand de parapluies peut gagner 400 $ par jour quand il pleut, et
perdre 100 $ par jour s'il fait beau. Sachant qu'il y a 3 fois plus de beaux
jours que de jours de pluie, quelle est son esprance de gain quotidien ?
24. On retourne l'une aprs l'autre les 52 cartes d'un jeu ; quelle est la
probabilit que le premier roi rencontr soit
a) la 1re carte retourne.
b) la 3e carte retourne.
c) la 50e carte retourne.
25. Dans une classe de maternelle compose de 15 garons et de 10 filles,
deux enfants sont choisis successivement au hasard pour reprsenter la
classe un concours. Calculez la probabilit :
a)
b)
c)
d)
que 2 garons soient choisis ;

qu'une fille soit choisie en premier, un garon en deuxime ;
qu'un garon soit choisi au 1er tirage ;
qu'un garon soit choisi au 2e tirage.
26. D'un jeu de 52 cartes, on tire une 1ere carte, puis une 2e sans remettre la
1ere dans le jeu. valuez les probabilits suivantes :
a)
b)
c)
d)
P (1ere carte soit un as).

P (les 2 cartes soient un as).
P (au moins une des cartes soit un as).
P (aucune des 2 cartes ne soit un as).
27. On vous propose le jeu suivant : vous payez 2 $ pour tenter de deviner le
rsultat du lancer d'un d quilibr. Si vous devinez correctement, on
vous donne K $ plus votre mise ; sinon vous perdez votre mise. Quelle
doit tre la valeur de K pour que votre esprance de gain soit nulle ?
179
28. Soit A et C des vnements indpendants. Si P(A) = 1 3 et P(C) = 1 5 ,

calculez :
a) P(Ac C)
b) P(A Cc)
29. Soit A et B deux vnements tels que P(A) = 0,4 et P(B) = 0,3. Dterminez
P(A B) pour chacune des hypothses suivantes :
a) P(A B) = 0,1
b) A et B sont incompatibles
c) P(A|B) = 0,8
d) P(A Bc) = 0,15
e) B A
30. Une bote contient 2 billes noires et 3 blanches. On tire une bille la fois
(sans remise) jusqu' ce qu'apparaisse une bille noire. Soit X le nombre
de tirages requis. Trouvez E(X).
31. Un solide a quatre faces, numrotes de 1 4. Sachant que P(l) = P(3) = p
et P(2) = P(4) = 2p :
a) Trouvez l'esprance mathmatique de : X = Le nombre qui apparat
sur la face infrieure quand on lance le solide.
b) Si vous lancez ce solide 2 fois et que vous notiez la somme des
rsultats obtenus, en identifiant les sous-ensembles suivants de : :
A = {somme paire}, B = {somme impaire}, C = {somme suprieure 5},
valuez :
i) P(B)
ii) P(A B)
iii) P(Bc A)
iv) P(C|B)
v) P(B C)
32. On suppose que le poids (en kg) des adultes se distribue avec une
moyenne de 64 et un cart-type de 12. Soit X le poids total de 14
personnes qui s'entassent dans un ascenseur. Calculez E(X) et Vx.
33. Si l'on suppose que le poids, en grammes, des ufs est de moyenne 56 et
de variance 20, quelle est l'esprance mathmatique et la variance du
poids d'une douzaine d'ufs ?
34. Dans le problme prcdent, si on place au hasard 6 ufs dans chaque
plateau d'une balance, quelle est l'esprance et la variance de la
diffrence de poids entre la premire et la deuxime demi-douzaine ?
180
35. Une compagnie d'assurances offre une police d'annulation de voyage. La

prime est de 25 $ par personne ; le cot pour la compagnie d'assurance
est de 800 $ en cas d'annulation. Supposons que, d'aprs les
statistiques, la probabilit qu'un client annule son voyage est de 0,02.
Soit X le gain de la compagnie lorsqu'elle assure une personne (en
ngligeant tous les frais autres que le versement ventuel de 800 $).
a) Calculez E(X) et Var(X).
b) Soit X1 et X2 les gains associs deux clients et X = X1 + X2 le gain
total. Dterminez Var(X) si
i)
les deux clients sont trangers l'un l'autre ;
ii) les deux clients appartiennent la mme famille, et une

annulation entrane automatiquement l'autre. (On suppose que la
probabilit que le couple annule est 0.02.)
36. Au numro prcdent, supposons que le cot d'annulation C est
variable, mais que la probabilit d'annulation demeure fixe 0,02. La
compagnie voudrait conserver en profit 30 % des primes recueillies. Quel
pourcentage de C doit-elle exiger comme prime ?
*37. Un jury est form de 3 juges. Les 2 premiers sont des juges honntes qui
prennent la bonne dcision avec probabilit p(p > 1 2 ). Le 3e juge prend
sa dcision au moyen d'un pile ou face . La dcision du jury est prise
la majorit simple. Quelle est la probabilit que le jury prenne la bonne
dcision ?
Quelques lois discrtes
6.1
6.2
6.3
6.4
6.5
Factorielle et combinaisons
Loi binomiale
Fonction de masse
Justification de la formule
Esprance mathmatique et variance d'une variable binomiale
Justification de la formule
Loi hypergomtrique
Loi gomtrique
Loi de Poisson
Approximation de la loi binomiale par la loi de Poisson
Conditions d'application de la loi de Poisson
RSUM
EXERCICES
182
Introduction Nous avons vu au chapitre 5 qu'il est possible de dvelopper la

fonction de masse d'une variable alatoire particulire partir des lois
lmentaires des probabilits. Cette approche signifie que chaque nouveau
contexte prsente un problme nouveau que l'on rsout indpendamment
des autres. Or, il est vident que certains problmes ont des similitudes
entre eux qui font que la solution de l'un est solution de l'autre. On pargne
beaucoup de temps et d'efforts en reconnaissant, dans un problme donn,
une structure probabiliste dj identifie, car il suffit alors d'appliquer une
solution dj dveloppe.
C'est ce que nous ferons dans ce chapitre : nous identifierons des grandes
classes de variables alatoires et pour chacune nous dvelopperons une
fonction de masse gnrale. La fonction de masse sera exprime l'aide
d'une formule mathmatique, qui permet de passer d'une valeur de la
variable sa probabilit en effectuant un calcul relativement simple. Il est
possible ainsi d'viter les tableaux dans lesquels sont numres toutes les
valeurs d'une variable et leur probabilit et qui, au chapitre 5, taient notre
seul moyen de prsenter une fonction de masse. Nous donnerons, en outre,
une expression pour la moyenne et la variance de chacune des lois tudies.
Avant d'aborder l'tude de ces lois nous prsentons quelques notations qui
seront utiles pour la suite.
6.1
FACTORIELLE ET COMBINAISONS
Certaines des formules que nous utiliserons par la suite exigent qu'on
calcule le produit des entiers 1, 2, 3, ..., n. Pour simplifier l'criture, on
reprsente ce produit par le symbole n!, appel factorielle n :
n! = 1 u 2 u ... u (n 1) u n.
Par exemple,
3! = 1 u 2 u 3 = 6,
6! = 1 u 2 u 3 u 4 u 5 u 6 = 720.
Cette dfinition, videmment, ne s'applique qu'aux entiers positifs. Ajoutons
l'utile convention suivante :
0! = 1.
6 Quelques lois discrtes
183
Un autre calcul qui figure dans les formules de ce chapitre est celui
symbolis par nx
et dfini par
nx
n!
x!( n x )!
o x et n sont des entiers non ngatifs et x d n. Par exemple,

5
3
La quantit nx
5!
5!
1u 2 u 3 u 4 u 5
4u5
3! (5 - 3)!
3!2!
(1u 2 u 3 )(1u 2 )
1u 2
10.
est appele nombre de combinaisons de x objets parmi n. On
trouvera, la page 397, une table des nombres
,
n
x
aussi appels
coefficients du binme de Newton. L'ensemble de ces nombres forme le

triangle de Pascal. La premire ligne du tableau, correspondant n = 0,
donne 00 ; la deuxime, correspondant n = 1, donne 10 et 11 ; la
troisime, correspondant n = 2, donne
,
2
0
2
1
gnral, pour n = 0, 1, , 20, le tableau donne
; ainsi de suite. En
, , ..., . Chaque
et
2
2
n
0
n
1
n
n
ligne du tableau peut tre facilement calcule partir de la ligne prcdente

en prenant les sommes des paires de nombres successifs, ainsi :
n=7
n=8
21
28
35
56
35
70
21
56
28
part le nombre 1 aux deux extrmits, chaque nombre dans la ligne n = 8

est la somme des deux nombres situs juste au-dessus. Le lecteur peut
vrifier qu'il obtiendra bien la ligne n = 9 partir de la ligne n = 8 en
utilisant la mme technique.
Il est intressant de noter la signification des symboles n! et

n
x
dans la
solution des problmes de dnombrement.

Le nombre n! reprsente le nombre de permutations de n objets.
Exemple 1
Combien y a-t-il de faons de placer 3 personnes, A, B, et C, sur un banc de

trois places ? Le schma suivant montre pourquoi la rponse est 3! = 6.
184
Premire place
Deuxime place
Troisime place
Il y a trois choix possibles pour la premire place : A, B, ou C. Pour chacun

de ces choix, il y en a deux pour la deuxime. Finalement, les occupants des
deux premires places ayant t choisis, il ne reste plus qu'une seule
possibilit pour la troisime. Donc, le nombre de permutations gale 3 u 2 u
1, soit 3!.
i
La solution du problme de l'exemple 1 est clairement gnralisable
n'importe quel nombre d'objets.
Le nombre
reprsente le nombre de faons de choisir, sans tenir compte

n
x
de l'ordre, x objets parmi n. Nous ne le dmontrerons pas.

Exemple 2
Combien y a-t-il de faons de choisir, sans tenir compte de l'ordre, trois

livres parmi six ?
Solution : On cherche la valeur de
6

3

. Par la formule
6
3
n
x
6!
1u 2 u 3 u 4 u 5 u 6
3! ( 6 3 )!
(1u 2 u 3 ) u (1u 2 u 3 )
n!
x !( n x ) !
on obtient :
20.
Cette valeur s'obtient aussi directement de la table des coefficients du

binme de Newton, la case dtermine par les valeurs n = 6 et x = 3. Si les
6 livres sont dsigns par les lettres a, b, c, d, e et f, les 20 choix possibles
de 3 livres sont :
abc, abd, abe, abf, acd, ace, acf, ade, adf, aef,
bcd, bce, bcf, bde, bdf, bef, cde, cdf, cef, def.
6.2
185
LOI BINOMIALE
Considrons les quatre expriences alatoires suivantes :
a) On lance 20 pices de monnaie et on obtient X faces .
b) On lance 36 ds ; Y est le nombre de 1 .
c) Il y a 10 naissances dans un hpital ; U est le nombre de filles.
d) 45 % des gens sont en faveur d'un projet de loi. Dans un chantillon de
100 personnes choisies au hasard, on en trouve W qui sont en faveur du
projet de loi.
Ces quatre expriences alatoires ont en commun un certain nombre de
caractristiques fondamentales :
chacune des variables X, Y, U et W peut tre considre comme tant le

nombre de succs obtenus en un certain nombre n d'essais,
chacun des n essais a la mme probabilit de donner un succs.
Une autre caractristique fondamentale - parfois vidente, parfois pas - est

la suivante :
les essais sont indpendants.
Ces caractristiques communes sont assez fondamentales pour que les

variables X, Y, U et W, malgr leurs diffrences superficielles, aient un
comportement probabiliste de mme type. On dit qu'elles sont toutes de
mme loi, la loi binomiale. Leurs fonctions de masse ne sont pas identiques,
mais nous verrons plus bas qu'elles sont de mme forme. Elles se
distinguent l'une de l'autre par la valeur de deux quantits appeles des
paramtres :
n : le nombre d'essais, et
p : la probabilit, chaque essai, d'obtenir un succs.
Une variable qui reprsente le nombre de succs obtenus lors de n essais
indpendants est de loi binomiale avec paramtres n et p, note B(n, p).
Vrifions les conditions qui dfinissent la loi binomiale dans chacun des
exemples ci-dessous.
186
a) Le nombre X de faces en 20 lancers d'une pice de monnaie. Il y a

n = 20 essais, le succs est obtenir face , la probabilit d'obtenir face
est p = 1/2.
L'indpendance des preuves ici est indiscutable : il suffit de raliser que
le fait d'avoir eu, disons face , un certain essai n'a aucun effet sur la
probabilit d'avoir face au prochain. On dit alors que X est de loi
B(20, 1/2).
b) Le nombre Y de 1 en 36 essais. Ici n = 36, le succs est obtenir 1 ,
la probabilit de succs est p = 1/6. L'indpendance est ici aussi
vidente. Alors Y est de loi B(36, 1/6).
c) Le nombre U de filles parmi 10 nouveaux-ns. Il y a n = 10 essais, le
succs est avoir une fille , et la probabilit de succs est, d'aprs les
statistiques, voisine de p = 0,487. Il est presque certain que les essais
sont indpendants, la seule condition qu'il n'y ait pas de jumeaux
homozygotes dans l'chantillon. U est de loi B(10; 0,487). En pratique, on
utilisera souvent la loi B(10; 0,5) comme approximation.
d) Le nombre W de personnes en faveur du projet de loi dans un chantillon
de 100 personnes. Si l'on envisage l'chantillonnage comme une
succession de 100 tirages dans la population, alors il y a n = 100 essais,
le succs est la personne choisie est en faveur du projet de loi , et la
probabilit de succs est p = 0,45 chaque tirage. L'indpendance des
preuves n'est vrifie que si les tirages sont effectus avec remise. Si les
tirages se font sans remise, chaque tirage modifie la composition de la
population et donc rduit ou augmente la probabilit de succs aux
essais suivants. La variable W n'est alors plus de loi binomiale. Toutefois,
lorsque la population est trs grande, la dpendance entre les preuves
est trs faible et la loi binomiale peut alors tre utilise comme
approximation.
Fonction de masse La fonction de masse p(x) d'une variable alatoire X de loi

B(n,p) est donne par la formule
p( x)
p
n
x
(1 p ) n x pour x
0 , 1, 2 , , n .
Avant de justifier cette formule, nous donnons un exemple pour illustrer son
application.
Exemple 3
187
Un archer atteint la cible avec une probabilit de 60 %. Il tire 7 flches.

Tracer le diagramme btons de la fonction de masse p(x) o X reprsente le
nombre de coups au but.
X est de loi B(7; 0,6). Par la formule donnant p(x) on obtient
p (0)
7!
(0,6 ) (0, 4 )
1u 0 , 001 638 4
0 , 001 638 4
7 u 0 , 002 457 6
0 , 017 203 2
0!7!
p (1)
7!
(0, 6 )1 (0 , 4 ) 6
1! 6!
p (2)
7!
(0,6 ) (0, 4 )
21u 0 , 003 686 4
0 , 077 414 4
(0,6 ) (0, 4 )
35 u 0 , 005 529 6
0 ,193 536 0
(0, 6 ) (0, 4 )
35 u 0 , 008 294 4
0 , 290 304 0
21u 0 , 012 441 6
2!5!
p (3)
7!
3! 4!
p( 4)
7!
4!3!
p (5)
7!
(0, 6 ) (0, 4 )
0 , 261 273 6
5! 2!
p(6)
7!
(0, 6 ) (0, 4)
7 u 0 , 018 662 4
0 ,130 636 8
1u 0 , 027 993 6
0 , 027 993 6.
6!1!
p (7)
7!
(0, 6) (0, 4)
7!0!
Cette fonction de masse est illustre dans la figure 6.1.
Justification de la formule Avant d'aborder le cas gnral o n et p prennent

des valeurs quelconques, considrons en dtail le cas particulier o n = 4 et
p =1/3.
Exemple 4
On suppose que, dans un certain magasin, un client sur trois paye au

moyen d'une carte de crdit (et 66 32 % des clients payent d'une autre faon :
argent comptant, chque, etc). Quatre clients sont en ligne la caisse. Soit X
le nombre de clients qui, parmi eux, utiliseront une carte de crdit.
Cette variable X est de loi B(4,1/3) car on peut aisment la visualiser comme
tant le nombre de succs obtenus en 4 essais indpendants avec, chaque
fois, une chance sur 3 d'avoir un succs.
FIGURE 6.1
Fonction de masse d'une variable B(7; 0,6)

P (X)
Frquence
188
0,3
0,2
0,1
X
0
0
i
Les valeurs possibles pour X sont videmment les entiers 0, 1, 2, 3 et 4. Il
reste dterminer la probabilit de chacun de ces rsultats. C'est ce que
nous ferons en considrant au long tous les rsultats exprimentaux
possibles, c'est--dire, tous les lments de l'espace chantillon.
Notant par les lettres S (succs : carte de crdit) ou E (chec : pas de carte de
crdit) les rsultats successifs obtenus chacun des 4 essais ; on voit que
les 16 lments de l'espace chantillon correspondent aux 16 mots de 4
lettres qui peuvent tre forms en utilisant uniquement les lettre S et E. Le
tableau 6.1 donne la liste de ces 16 mots, la probabilit de chacun, ainsi que
la valeur de X (le nombre de S) qui lui est associe.
Dans le tableau 6.1, la probabilit d'un mot est calcule en multipliant les
probabilits des rsultats qui le composent. L'indpendance des essais
justifie ces calculs.
Il est maintenant ais de calculer la probabilit de chacune des valeurs
possibles pour X en effectuant la somme des probabilits de chacun des
mots qui donnent cette valeur de X.
Par exemple, la valeur X = 3 est obtenue de quatre mots diffrents (SSSE,
SSES, SESS et ESSS) et la probabilit de chacun de ces mots est de 2/81.
On obtient donc :
p (3)
P(X
3)
4u
81
81
0 , 098 8.

TABLEAU 6.1
189
Les 16 rsultats possibles avec n = 4 et p = 1/3

Mot
Probabilit du mot
SSSS
1
3
1
3
1
81
SSSE
1
3
u u u
2
3
2
81
SSES
1
3
1
3
1
3
2
81
SSEE
1
3
4
81
SESS
1
3
1
3
1
3
1
3
1
3
2
3
1
3
2
3
2
3
2
3
1
3
1
3
2
81
SESE
1
3
2
3
1
3
2
3
4
81
SEES
1
3
2
3
2
3
1
3
4
81
SEEE
1
3
2
3
2
3
2
3
8
81
ESSS
2
3
1
3
1
3
1
3
2
81
ESSE
2
3
1
3
1
3
2
3
4
81
ESES
2
3
1
3
2
3
1
3
4
81
ESEE
2
3
1
3
2
3
2
3
8
81
EESS
2
3
2
3
1
3
1
3
4
81
EESE
2
3
2
3
1
3
2
3
8
81
EEES
2
3
2
3
2
3
1
3
8
81
EEEE
2
3
2
3
2
3
2
3
16
81
De mme, on trouve :
p (0)
16
81
, p (1)
32
81
, p (2)
24
81
, p (3)
8
81
et p ( 4 )
81
La distribution de X est illustre par un diagramme btons (figure 6.2).
Dans l'exemple qui vient d'tre prsent, il a t possible de calculer les p(x)
en considrant individuellement chacun des 24 = 16 cas possibles. Si l'on
avait eu n = 10, le nombre de cas considrer aurait t 210 = 1 024. Avec
n = 20, on en aurait eu plus d'un million ! On conviendra aisment qu'il est
hors de question d'utiliser pareille mthode de calcul pour des valeurs de n
qui sont le moindrement leves. Il serait commode de pouvoir employer une
formule qui permette de calculer directement les p(x) sans qu'on ait remplir
le tableau, souvent monstrueux, des 2n cas possibles.
190
Considrons de nouveau le tableau 6.1. On constate que, pour des valeurs

quelconques de n et de p, chaque mot form de x lettres S et (n x) lettres E
est obtenu avec une probabilit toujours gale px(1 p)n x. Pour calculer
p(x), il suffira donc de savoir dnombrer le nombre de mots forms de
x lettres S et (n - x) lettres E, c'est--dire le nombre de faons de choisir
x espaces parmi n, les x espaces choisis recevant les x lettres S et les (n x)
espaces qui restent recevant des E. Or, ce nombre de faons de choisir x
espaces parmi n est prcisment ce qui est valu par le coefficient nx du
binme de Newton.
FIGURE 6.2
Fonction de masse d'une variable B(4,1/3)

32/81
8/27
16/81
8/81
1/81
x
0
Si une variable X est de loi B(n, p), il y a, comme on vient de le voir,
mots qui
n
x
conduisent X = x. Chacun de ces mots ayant une probabilit px(1 p)n x, on

obtient donc :
p( x )
p
n
x
q nx
pour x = 0, 1, 2, , n
o, pour allger les notations, on a pos 1 p = q. Il convient de rappeler que

p0 = q0 = 1.
Exemple 5
On lance 10 sous et on appelle X le nombre de faces obtenues.

Dterminer la fonction de masse p(x).
Ici, X est de loi B(10, 1/2). On a donc, pour x = 0, 1, 2, .... 10,
p( x)

10
x
10 x
1 1

2 2

10
x
10
1

2
1
.
10x 1 024
191
Le tableau des coefficients du binme de Newton donne donc :

p (0)
, p (1)
1 024
p (4)
210
, p (5)
45
, p (2)
1 024
1 024
p (8)
10
, p(6)
1 024
1 024
120
, p (3)
1 024
252
10
, p (9 )
45
210
120
, p (7)
1 024
1
, p (10 )
1 024
1 024
,
1 024
.
1 024
i
Exemple 6
Dans une manufacture, on inspecte les lots d'articles produits en srie en

utilisant des mthodes d'chantillonnage. Dans chaque lot, dix articles sont
choisis au hasard et le lot est rejet si 2 articles ou plus sont dfectueux. Si
un lot contient exactement 5 % d'articles dfectueux, quelle est la probabilit
que le lot soit accept ? Refus ?
Dans cet exemple, X est B(10; 0,05) et le lot est accept si X = 0 ou 1.
La probabilit que le lot soit accept est donc :
P ( lot accept)
p ( 0 ) p (1)
( 0 ,05 )
10
0
( 0 , 95 ) 10
0 , 598 74 0 , 315 12
( 0 ,05 )
10
1
( 0 , 95 ) 9
0 , 913 86.
La probabilit que le lot soit refus est donne par

P ( lot refus)
p ( 2 ) p ( 3 ) p (10 )
1 p ( 0 ) p (1)
1 0 , 913 86
0 , 086 14.
192
Esprance mathmatique et variance d'une variable binomiale Comme on l'a vu

au chapitre 5, l'esprance mathmatique d'une variable alatoire s'obtient en
calculant
P
x i p ( x i ).
Appliquant cette formule aux rsultats numriques obtenus dans l'exemple

3, o X est B(7; 0,6), on obtient
P = (0 u 0,001 638 4) + (1 u 0,017 203 2) +... + (7 u 0,027 993 6) = 4,2.
tait-il ncessaire de calculer au long chacun des p(x) pour connatre P ?

Heureusement, non. Le rsultat P = 4,2 s'obtient directement du produit
n u p = 7 u 0,6 = 4,2. On admettra facilement que si chaque essai a une
probabilit p de donner un succs, alors, en n essais, on s'attend obtenir
environ n u p succs. C'est l la valeur attendue pour X, son esprance
mathmatique.
De mme, il est possible de trouver une expression particulirement simple
pour la variance V2 d'une variable de loi binomiale. Rappelons qu'en gnral,
la dfinition de la variance est
V2
(xi
P ) 2 p ( x i ),
ce qui donne, pour la variable de l'exemple 3,

V2
( 0 4 , 2 ) 2 u 0 , 001 638 4 ( 7 4 , 2 ) 2 u 0 , 027 993 6
1, 68
Le mme rsultat s'obtient avec la formule

V
npq
7 u 0,6 u 0, 4
1, 68.
Nous avons donc les rsultats gnraux suivants :

Si X est B (n, p), alors
E(X )
np et Var ( X )
V2
npq .
Justification de la formule La formule pour la variance, V2 = npq (o q = 1 p), est

plus malaise justifier que celle pour la moyenne. On peut, bien sr, la
dmontrer algbriquement en dveloppant l'expression
V
x 0
x 0
( x P ) 2 p ( x ) ( x np ) 2 nx p x q n x .
193
Une preuve plus simple peut cependant tre obtenue en remarquant que le
nombre X de succs obtenus en n essais peut s'exprimer sous la forme
X = X1 + X2 + + Xn
o Xi vaut 0 ou 1 selon que le i-ime essai a donn un chec ou un succs.

Puisque chacun de ces Xi vaut 0 ou 1 avec des probabilits respectives de q
et p, on trouve aisment que
E(Xi )
( 0 u q ) (1u p )
et
Var ( X i )
( 0 p ) u q (1 p ) u p
2
p (1 p ) p (1 p )
p (1 p )( p 1 p )
p (1 p )
pq .
Utilisant le fait, vu au chapitre 5, que l'esprance d'une somme de variables

alatoires est la somme des esprances de ces variables, on obtient
E(X )
E( X1 X 2 X n )
p p p
E( X1 ) E( X 2 ) E( X n )
np .
tant donn que les essais sont indpendants, les variables X1, , Xn sont
indpendantes, et puisque la variance d'une somme de variables
indpendantes est la somme des variances de chacune des variables, on
obtient
Var ( X )
Var ( X 1 X 2 X n )
pq pq pq
Exemple 7
Var ( X 1 ) Var ( X 2 ) Var ( X n )
npq .
On suppose que, dans la population d'une grande ville, 30 % des gens sont
partisans d'une certaine option politique. Lors d'un sondage auprs de 1 000
personnes, X personnes se dclarent en faveur de ce parti politique.
Dterminer E(X) et Var(X).
Les preuves ne sont pas strictement indpendantes, puisque les tirages ne
se font pas gnralement avec remise. Cependant, il s'agit d'une grande ville
et d'un chantillon relativement petit. Donc, l'effet d'un tirage sur la
population est ngligeable, la variable X ici considre est peu prs de loi
B(l 000; 0,3),
194
E(X )
V2
Var ( X )
et l'cart-type V vaut
210
np
1 000 u 0 , 3
npq
300
1 000 u 0 , 3 u 0 , 7
210
= 14,49.
Serait-il surprenant d'obtenir X t 350 ? Bien sr, puisque 350 se situe

plus de 3,4 carts-types droite de P, ce qui est vraiment exceptionnel.
6.3
LOI HYPERGOMTRIQUE
Supposons qu'on prlve un chantillon de taille n d'une population de N
individus, dont une proportion p possde une certaine proprit. Notons par
X le nombre d'individus, dans l'chantillon choisi, qui ont la proprit
considre. Alors X est de loi B(n,p), condition que les tirages soient
indpendants. Les tirages sont indpendants s'ils sont faits avec remise ; et
ils sont peu prs indpendants s'ils sont faits sans remise mais dans une
population beaucoup plus grande que l'chantillon.
Supposons, cependant, que la population n'est pas incomparablement plus
grande que l'chantillon. La loi binomiale ne peut plus tre applique. Une
autre loi, appele loi hypergomtrique, s'applique dans ce cas. Nous
commenons par un exemple qui illustre un cas particulier de la loi
hypergomtrique.
Exemple 8
Une petite classe est compose de 5 filles et 3 garons. On tire, au hasard,

quatre tudiants et on note par X le nombre de filles dans cet chantillon.
Calculer P(X = 2).
Nous pouvons rsoudre ce problme en utilisant les techniques de
dnombrement. Considrons l'ensemble : de tous les rsultats possibles ; il
est raisonnable de supposer que les rsultats sont quiprobables. Par
consquent, la probabilit de l'vnement {X = 2}, que nous noterons A, est
calcule en divisant le nombre d'lments dans A par le nombre d'lments
dans :. Puisque : est l'ensemble de tous les chantillons de taille 4 tirs
d'une population de taille 8, il contient 84 = 70 lments. L'vnement A est
l'ensemble de tous les chantillons forms de 2 filles et 2 garons. Le nombre

de faons de choisir les deux filles est 52 = 10 ; pour chacun des 10 choix de

3
2
= 3 faons de choisir les 2 garons. Il y a donc 10 u 3 =

deux filles, il y a
30 faons de choisir 2 filles et 2 garons. Donc P(A) = 30 70 = 3 7 .
i
195
Le cas gnral se rsout de la mme faon. Une population contient N

lments, dont N1 appartiennent une certaine catgorie, disons la catgorie 1. Si l'on note par N2 le nombre d'individus qui n'appartiennent pas la
catgorie 1, alors
N = N1 + N2.
La proportion des individus qui appartiennent la catgorie 1 est

p
N1
Si X est le nombre d'individus qui appartiennent la catgorie 1 dans un

chantillon de taille n, alors on dit que X est de loi hypergomtrique (X
est Hpg(n, N1, N2)).
On voit aisment que :
Xdn
car on ne tire que n individus.
X d N1
car seulement N1 individus ont la proprit voulue.
Xt0
car X ne peut tre ngatif.
X t n N2
car n X d N2 ; le nombre d'individus tirs n'ayant pas

la proprit voulue ne peut tre suprieur N2.
Par un raisonnement semblable celui prsent dans l'exemple 8, on

obtient :
si X est Hpg(n, N1, N2), alors
p( x )

N1
x
N2
nx

N
n
pour max ^0 , n N 2 ` d x d min ^n , N 1 `.
Remarque Il n'est pas ncessaire de vrifier les conditions max{0, n N1} d x

d min{n, N1}, car ds que x sort de cet intervalle, la formule pour p(x) prend
automatiquement la valeur zro. Par exemple, si N1, = 5 et x = 6, le terme
N1
x
, au numrateur de la formule, est gal zro, puisqu'il n'y a aucune

5
6
faon de choisir 6 objets parmi 5.
196
Un calcul algbrique un peu plus pouss permet de montrer que :

si X est Hpg(n, N1, N2), alors
E(X )
np
Var ( X )
npq
N n
N 1
o p
N1
et q
1 p
Exemple 9
N2
Un bloc d'habitation, compos de 16 logements, est mis en vente. L'actuel

propritaire prtend que seulement 4 de ces logements ont un systme
lectrique dfectueux. Un client ventuel, voulant vrifier cette affirmation,
fait inspecter 5 logements choisis au hasard. Dans 3 d'entre eux, on trouve
que le systme lectrique est refaire. Le propritaire a-t-il
(vraisemblablement) menti ?
Si le propritaire a dit vrai, le nombre X de logements avec installations
lectriques dfectueuses, parmi les 5 logements visits, devrait suivre une loi
Hpg(5, 4, 12).
La formule de la fonction de masse donne :
p (0)
792
4 368
p (1)
1 980
p ( 2)
4 368
1 320
p (3)
4 368
264
p( 4)
4 368
12
4 368
La valeur X = 3 exprimentalement obtenue est passablement grande. En

fait, on trouve que P(X t 3) =
276
4 368
| 0,063 2.
Il semble bien que le propritaire ait menti car la probabilit est bien faible
d'obtenir une aussi grande valeur de X.
On aurait pu se contenter de calculer simplement
P = np = 1,25 et V2 = npq(N n)/(N 1) = 0,687 5 (V = 0,829 2).
La valeur observe, X = 3, tant situe 2,11 fois l'cart-type droite de P

peut tre juge significativement grande et conduire la conclusion que le
propritaire a apparemment menti.
i
6.4
197
LOI GOMTRIQUE
Aux sections 6.2 et 6.3, nous avons considr des expriences constitues
d'un nombre fixe d'essais, chaque essai pouvant donner un succs avec
mme probabilit p. La variable alatoire X est le nombre de succs. Ici, nous
considrons une exprience constitue d'une srie d'preuves indpendantes, mais o c'est le nombre d'preuves qui est alatoire et non le nombre
de succs. L'exprience consiste rpter les essais jusqu' ce qu'un premier
succs soit obtenu.
Si l'on dsigne par X le nombre d'essais effectus pour obtenir ce premier
succs, cette variable X est dite de loi gomtrique : X est Gom(p).
La fonction de masse d'une variable de loi gomtrique est aisment
dveloppe. Si x est un entier positif, l'vnement {X = x} se ralise si et
seulement si les x 1 premiers essais ont produit des checs et le x-ime a
produit un succs. En d'autres termes, p(x) est la probabilit du rsultat
EEEE...EES

x 1 fois
La probabilit d'un tel rsultat est

q u q u q u q uq u q u p

q x 1p,
x 1 fois
o
q
1 p.
Nous avons donc le rsultat suivant

si X est Gom(p), alors
p( x )
pq x 1 pour x
1, 2 , 3 ,
Il est possible dans le cas de la loi gomtrique de dterminer une formule

donnant la probabilit des vnements {X > x} et {X d x}. L'vnement {X > x}
se produit si et seulement si les x premiers essais ont conduit des checs.
Par consquent,
P( X ! x)
qx
198
et donc
P( X d x)
1 q x .
1 P ( X ! x )
Il n'est pas aussi facile d'tablir les formules pour l'esprance et la variance
d'une variable de loi gomtrique. Ainsi nous les donnons sans justification :
si X est Gom(p), alors
P( X ! x)
pour x 1, 2 , 3 ,
,V
Exemple 10 Une compagnie ptrolire effectue des forages. On suppose que chaque puit
creus a une chance sur 5 de donner du ptrole. Si l'on dsigne par X le
nombre de puits qui doivent tre creuss pour obtenir (enfin !) un hit ,
tracer le diagramme btons de p(x) et calculer P(X > 7). Dterminer aussi
E(X) et Var(X). Dans cet exemple, X est de loi Gom(1/5). Pour x = 1, 2, 3, ,
on a donc p(x) = 15 u ( 54 )x 1.
p (1)
0,2 p ( 2)
0 ,16 p ( 3 )
0 ,128 p ( 4 )
P ( x ! 7)
0 ,102 4 p ( 5 )
(0,8)
0 , 065 536 ,
0 , 081 92 p ( 6 )
0 , 209 715 2.
Aussi, par les formules appropries,

E(X )
FIGURE 6.3
1
p
5 , Var ( X )
V2
20 et V
20
4 , 472.
Fonction de masse d'une loi Gom(1/5)

P (X)
0,2
0,1
0
0
9 10 11 12 13 14 ...
199
Chaque bton a une hauteur gale 80 % de celle du bton qui le prcde ;

les hauteurs des btons forment donc une progression gomtrique, d'o le
nom donn cette loi de probabilit.
i
Remarque Pour que le modle gomtrique puisse s'appliquer au dernier
exemple, il faut que les lieux de forage soient suffisamment loigns les uns
des autres pour qu'on puisse raisonnablement supposer que les rsultats des
forages sont indpendants. Si on effectue tous les forages au mme site,
l'indpendance de leurs rsultats est loin d'tre assure et la loi gomtrique
ne convient plus la description du comportement de la variable X.
6.5
LOI DE POISSON
Il arrive frquemment qu'on ait considrer le nombre d'vnements qui se
produisent, non pas en un nombre fixe d'essais (ce qui relve de la loi
binomiale) mais plutt durant un certain intervalle de temps. Par exemple, le
nombre d'appels tlphoniques reus par un standardiste entre 10 heures et
11 heures ; ou encore le nombre de crevaisons subies par une flotte de taxis
durant une certaine semaine ; ou le nombre de particules mises, en une
seconde, par une substance radioactive. C'est alors la loi de Poisson, plutt
que la loi binomiale, qui s'applique.
Une variable alatoire X suit une loi de Poisson avec moyenne O (lambda)
si sa fonction de masse est
p( x )
e O Ox
pour x
0 , 1, 2 , 3 ,
x!
o e est une constante mathmatique fondamentale voisine de 2,718 28.

Exemple 11 Une compagnie d'assurances reoit, en moyenne, 4,2 rclamations par jour.
Dterminer la probabilit que, durant une certaine journe, le nombre de
rclamations reues soit infrieur ou gal 2.
Solution : Nous supposons que X, le nombre de rclamations reues, suit
une loi de Poisson avec moyenne O = 4,2 (X est Poisson(4,2)).
200
On trouve donc que

P ( X d 2)
p ( 0 ) p (1) p ( 2 )
( 4,2) 0 ( 4,2)1 ( 4,2) 2

e 4 , 2
0!
1!
2!
0 , 210 24
La loi de Poisson ne s'applique pas uniquement au nombre d'vnements

dans un intervalle de temps. L'exemple suivant montre qu'il peut tre
question d'espace aussi bien que de temps.
Exemple 12 Un dactylographe fait, en moyenne, 2 fautes de frappe par page de texte
dactylographi. Il vient de taper un texte qui couvre 1,5 page. Quelle est la
probabilit que le texte contienne moins de 2 fautes ?
Le nombre moyen de fautes attendu sur un texte de 1,5 page est O = 3.
Utilisant la loi de Poisson, on trouve
P ( X 2)
p ( 0 ) p (1)
3 0 31

e 3
0!
1
!
0 ,199 15.
Pour connatre la distribution d'une variable alatoire qui suit une loi de
Poisson, il suffit de connatre sa moyenne P = O. La variance V2 s'obtient
aussi directement de O.
Si X est de loi Poisson(O), alors
E(X )
O et Var ( X )
O.
Dans les deux exemples prcdents, le choix de la loi de Poisson a t fait de

faon plutt dsinvolte. Les conditions dans lesquelles la loi de Poisson
s'applique ne sont pas toujours videntes. Pour mieux dcrire ces conditions
nous ferons d'abord un rapprochement avec la loi binomiale.
Approximation de la loi binomiale par la loi de Poisson La loi de Poisson est

souvent prsente comme un cas limite de la loi binomiale ; c'est le cas o n
augmente indfiniment (tend vers l'infini) alors que p diminue (tend vers 0)
simultanment, de telle sorte que le produit O = np demeure fixe. Dans ces
conditions, on peut dmontrer que la loi binomiale tend vers la loi de
Poisson. Cette notion de convergence d'une binomiale nous permettra plus
bas de cerner les conditions qui permettent l'emploi de la loi de Poisson.
201
Toutefois, cette loi a une application plus immdiate : si n est grand et p

petit, alors une variable de loi B(n, p) est approximativement de loi de
Poisson(O) o O = np. Ceci nous permet de remplacer la formule
p
n
x
(1 p ) n x
par
e O Ox
x!
avec O = np lorsqu'on calcule P(X = x).

Exemple 13 On suppose que 3 % des appareils fabriqus par une certaine compagnie
sont dfectueux. Appelons X le nombre d'appareils dfectueux dans un lot de
60 appareils choisis au hasard dans la production.
En toute rigueur, X est de loi B(60; 0,03) et, pour x = 0, 1, ..., 60, p(x)
s'obtient par la formule p ( x ) 60
( 0 , 03 ) x ( 0 , 97 ) 60 x .
x
On obtient p(0) = 0,160 8 ; p(l) = 0,298 4 ; p(2) = 0,272 3 ; p(3) = 0,162 8 ;

p(4) = 0,071 7 ; p(5) = 0,024 9 ; p(6) = 0,007 0 ; p(7) = 0,001 7 ; p(8) = 0,000 3 ;
p(9) = 0,000 1 ; etc.
Puisque p = 0,03 est petit et n = 60 est assez grand, la loi de Poisson(O) avec
O = np = 1,8 donnera, par la formule p(x) = e -1,8(1,8)x/x!, des probabilits trs
voisines des valeurs exactes obtenues de la loi binomiale. L'utilisation de la
loi de Poisson (1,8) donne :
p(0) = 0,165 3 ; p(l) = 0,297 5 ; p(2) = 0,267 8 ; p(3) = 0,160 7 ; p(4) = 0,072 3 ;
p(5) = 0,026 0 ; p(6) = 0,007 8 ; p(7) = 0,002 0 ; p(8) = 0,000 5 ; p(9) = 0,000 1;
etc.
i
Conditions d'applications de la loi de Poisson Une faon de justifier en

pratique la supposition qu'une variable X est de loi de Poisson consiste
montrer que X peut tre considre comme une variable de loi binomiale
avec n trs grand et p trs petit. Voyons ce que ceci implique dans un
contexte particulier. Nous avons dit, par exemple, que le nombre X d'appels
reus par un standardiste entre 10 heures et 11 heures est de loi Poisson.
Pour interprter X comme une variable binomiale, dcoupons l'intervalle de
10 11 heures en un grand nombre de sous-intervalles, disons les 3 600
secondes de l'heure. Considrons ces 3 600 secondes comme 3 600 essais,
chacun avec deux rsultats possibles : il y a eu un appel (succs) et il n'y a
202
pas eu d'appel (chec). Dans ce cas, le nombre d'appels X est le nombre de

succs en n = 3 600 essais. Si les essais sont indpendants, et si la
probabilit d'avoir plus d'un appel dans un sous-intervalle est ngligeable,
alors X est peu prs de loi binomiale. Le nombre d'essais est grand et on
aurait pu le choisir plus grand encore. Si l'on choisit des intervalles plus
courts, chose qu'on peut faire volont, on augmente n et diminue p
simultanment ce sont prcisment les conditions dans lesquelles la loi
binomiale approche la loi de Poisson.
Ainsi donc, nous concluons que le nombre d'appels reus dans une heure
est une variable de loi de Poisson, condition que les suppositions que nous
avons faites soient raisonnables. Malheureusement, nous ne savons pas
toujours si elles le sont. Est-il lgitime de supposer que les essais sont
indpendants ? Et que chacun d'eux n'a que deux rsultats possibles ? Le
contexte peut rendre chacune de ces hypothses plus ou moins plausible,
mais rarement certaine. Lorsqu'il s'agit d'appels tlphoniques, on peut
srement supposer que la probabilit de plus d'un appel dans un intervalle
assez petit est ngligeable. Cette supposition n'est toutefois pas raisonnable
lorsque les vnements peuvent survenir simultanment. Ainsi le nombre
d'accidents dans une ville est peut-tre de loi de Poisson, mais le nombre de
personnes impliques dans des accidents ne l'est pas : un mme instant peut
produire plusieurs victimes.
De mme, l'hypothse d'indpendance ne peut pas tre faite la lgre. Les
arrives chez un marchand de journaux sont-elles indpendantes ? Parfois,
mais on peut facilement imaginer des causes possibles de dpendance : une
personne qui arrive peut tre suivie de ses compagnons ; ou certaines
arrives peuvent en dcourager d'autres si le marchand a des concurrents
ct ; ou encore on peut avoir des arrives massives dues l'arrt d'un
autobus ou la fermeture d'un bureau. Il y a aussi les cas o les
vnements apparaissent selon un rythme rgularis, comme, par exemple,
les passages des autobus. Les passages des taxis, moins rgulariss que
ceux des autobus, se prtent mieux l'application de la loi de Poisson.
Nous avons suppos, dans les exemples ci-dessus que l'intensit du
processus (le nombre moyen d'vnements par unit de temps) demeure
constante. Nous avons nglig les phnomnes du type heure de pointe . Il
peut toutefois se prsenter des problmes o il serait incorrect de ne pas
tenir compte des variations dans l'intensit du processus. Par exemple, le
nombre moyen de vhicules qui, par minute, traversent un certain pont est
203
srement plus lev aux heures de pointe (8 heures et 17 heures) qu'au

milieu de la nuit. Si l'intensit n'est pas constante, le calcul du nombre
attendu d'vnements dans un intervalle de temps donn peut se rvler
assez dlicat.
RSUM
Loi
B (n, p)
Hpg ( n , N 1 , N 2 )
Gom ( p )
Poisson (O )
Valeurs
p(x)
possibles
0 , 1, 2 , ! , n
0dxdn
n N 2 d x d N1
1, 2 , 3 , !
0 , 1, 2 , 3 , !
n
x
q nx
N1
x
N2
nx
np
npq
np
x 1
e O Ox
npq
N n
N 1
N
n
pq
1
p
q
p
x!
Loi binomiale (B(n, p)) : X est le nombre de succs obtenus en n essais

indpendants o p reprsente la probabilit d'un succs, l'un quelconque
des essais.
Loi hypergomtrique (Hpg(n, N1, N2)) : Une population est forme de N1,
individus de type I et N2 individus de type II. X est le nombre d'individus de
type I obtenus dans un chantillon de taille n (parmi tous les N = N1 + N2
individus).
Loi gomtrique (Gom(p)) : X reprsente le nombre d'essais ncessaires
l'obtention d'un premier succs.
Loi de Poisson (Poisson(O)) : X est le nombre d'vnements qui se produisent
durant un certain intervalle de temps .
204
EXERCICES
FACTORIELLE
ET
COMBINAISONS
1. Calculez
a) 5!
b) 7!
c) 8!
d) 10!
2. Calculez
5
a)
2
b)
3

c)
4

100
98
d)
1 000
e)
3. De combien de faons cinq personnes peuvent-elles s'asseoir sur une

banquette d'autobus ?
4. Combien de mots de 6 lettres peut-on former en permutant les lettres
A-B-C-D-E-F ?
5. De combien de faons peut-on choisir trois personnes parmi 8 ? Si les
trois personnes doivent constituer un comit form d'un prsident, un
secrtaire et un trsorier, de combien de faons peuvent-elles tre
affectes ces postes ?
6. De combien de faons peut-on choisir 3 nombres distincts parmi les
nombres entiers 1, 2, ..., 49 ?
7. Un groupe de 11 personnes doit tre spar en deux groupes, le premier
de 5 personnes, le second de 6. Combien y a-t-il de faons de former le
premier groupe ? Le deuxime groupe ? Vous devriez constater dans cet
exercice que 11
= 11
, et comprendre pourquoi en gnral, nx = nn x .
5
6
LOI BINOMIALE
8. On lance 5 pices de monnaie et on observe le nombre X de faces

obtenues.
a) Dressez la liste des 32 lments de : et dterminez la valeur de X
associe chacun de ces rsultats.
b) Reprsentez la fonction de masse p(x) au moyen d'un diagramme
btons.
9. Soit X une variable alatoire B(5, 1/3). Calculez
a) P(X = 2)
b) P(X t 3)
205
10. a) On tire avec remise 4 personnes d'une population dont 20 % sont

gauchers. Quelle est la probabilit qu'exactement 2 soient gauchers ?
b) On lance un d 5 fois. Quelle est la probabilit d'avoir 4 fois un
nombre suprieur 4 ?
c) On tire avec remise 10 boulons d'une caisse qui contient 100 boulons
dont 10 sont dfectueux. Quelle est la probabilit que 9 des 10
boulons tirs soient dfectueux ?
11. On lance une pice de monnaie quilibre 4 fois et X reprsente le
nombre de piles.
a) Dterminez la fonction de masse de X.
b) Calculez la probabilit d'avoir au moins 3 piles.
12. cause d'un certain dfaut gntique, une femme sait qu' chacun de
ses accouchements prochains la probabilit que son enfant soit sain
n'est que 3/4. Elle se demande quelle est la probabilit que sur 5
grossesses elle ait exactement 3 enfants sains. Calculez cette probabilit
en suivant les tapes suivantes :
a) numrez les lments de l'espace chantillon sous forme de
quintuplets du genre (S, M, M, S, M), o S signifie sain et M
signifie malade .
b) Les rsultats numrs
quiprobables ?
dans
l'espace
chantillon
sont-ils
c) Quelle est la probabilit du rsultat (S, S, S, M, M) ?

d) Cette probabilit est-elle la mme pour tous les cas favorables
l'vnement 3 enfants sont sains ?
e) Combien y a-t-il de cas favorables l'vnement 3 enfants sont
sains ?
f)
Quelle est la probabilit que 3 des 5 enfants soient sains ?
13. La probabilit qu'un radar dtecte un avion ennemi est 0,9. Si cinq de
ces radars sont disponibles, quelle est la probabilit :
a) qu'exactement trois d'entre eux dtectent l'avion ennemi ?
b) qu'au moins un d'entre eux dtecte l'avion ennemi ?
206
14. Pour une certaine marque de lampes de tlvision, en moyenne 10 %

brlent durant la priode de garantie. Un marchand a vendu 10 de ces
lampes et X reprsente le nombre de lampes qu'il devra remplacer durant
la priode de garantie.
a) Calculez E(X).
b) Quelle est la probabilit qu'il doive remplacer plus de 2 lampes ?
LOI HYPERGOMTRIQUE
15. On tire 5 cartes d'un jeu ordinaire de 52 cartes. Soit X le nombre de

cartes de coeur parmi ces 5 cartes.
a) Dterminez E(X) et Var(X).
b) Calculez P(X = 1).
c) Calculez P(X t 2).
16. Vous avez besoin de 2 piles pour votre lampe de poche. Vous avez en
rserve 10 piles parmi lesquelles 6 sont bonnes et 4 sont uses . Vous
tirez 2 piles au hasard. Quelle est la probabilit qu'elles soient toutes les
deux bonnes ?
17. On partage un jeu de cartes en deux piles gales (26 cartes par pile). Soit
X le nombre de cartes rouges (coeur ou carreau) dans la premire pile.
b) Est-il surprenant de trouver X > 17 ?
18. Une classe est compose de 3 filles et 5 garons. Un jour, cause d'une
tempte de neige, seulement 4 tudiants sont venus. Soit X le nombre de
filles prsentes au cours. Dterminez la fonction de masse p(x).
LOI
GOMTRIQUE
19. Un couple dcide d'avoir des enfants jusqu' ce qu'il ait un garon.
Quelle est la probabilit qu'il ait 4 enfants ? Quelle est la probabilit qu'il
ait 4 enfants ou plus ? Quelle est l'esprance mathmatique du nombre
d'enfants qu'il aura ?
20. On lance un d jusqu' ce qu'apparaisse la face 6 . Quelle est la
probabilit que le d soit lanc exactement 8 fois ? 8 fois ou plus ?
21. Vous avez besoin de monnaie pour un billet d'un dollar. Si l'on suppose
qu'une personne sur trois peut (et accepte de) vous changer votre billet,
quelle est la probabilit que vous deviez solliciter plus de 4 personnes
avant d'obtenir satisfaction ?
207
22. Un joueur la roulette mise toujours sur le noir, avec l'intention de

s'arrter au premier gain. Quelle est la probabilit qu'il doive jouer plus
de 6 fois ? (On suppose que la probabilit d'avoir noir la roulette est
18/38 = 9/19.
LOI DE
POISSON
23. En moyenne, 300 voitures arrivent un poste de page en une heure. En

supposant que la loi de Poisson s'applique, calculez la probabilit qu'il y
ait au moins 4 arrives en une minute.
24. Calculez P(X = 2) si :
a) X est B(6, 1/2)
b) X est B(30, 1/10)
c) X est B(300, 1/l00)
d) X est B(3 000, 1/1 000)
e) X est Poisson(3).
25. Une standardiste reoit en moyenne 144 appels entre 14 heures et
16 heures. En supposant que la loi de Poisson s'applique, calculez la
probabilit que la standardiste reoive 10 appels entre 14:00 et 14:10.
26. On suppose que, dans une certaine ville, il se produit en moyenne
1,5 dcs par jour. Calculez la probabilit que, la semaine prochaine
(7 jours) il y ait :
a) exactement 8 dcs ;
b) exactement 10 dcs ;
c) exactement 2 jours sans dcs ;
d) au moins un dcs chaque jour.
27. Le taux de naissance au Canada est d'environ 43 par heure. Quelle est la
probabilit que durant les 5 prochaines minutes il y ait 3 naissances ou
plus ? Quelle est la probabilit que 10 minutes s'coulent sans aucune
naissance ?
DIVERS
28. Un psychiatre croit que 75 % de toutes les personnes qui visitent un

mdecin ont des problmes de nature psychosomatique. Afin de vrifier
sa thorie, il choisit 25 patients au hasard et il considre X le nombre de
patients ayant des problmes psychosomatiques.
208
a) Si sa thorie est vraie, que vaut E(X), Var(X) ?

b) Si seulement 10 des 25 patients interviews ont des problmes
psychosomatiques, quelles conclusions tirez-vous au sujet de sa
thorie ? Expliquez.
29. Au coin de la rue, il passe en moyenne un taxi toutes les 3 minutes mais
40 % seulement de ces taxis sont inoccups. J'ai besoin d'un taxi.
a) Quelle est la probabilit que les trois premiers taxis qui passent
soient occups ?
b) Quelle est la probabilit qu'aucun taxi libre n'arrive durant les
20 premires minutes ?
c) Quelle est l'esprance du nombre de taxis occups qui prcderont
l'arrive du premier taxi libre ?
30. Un lot de 120 oranges comporte 10 % de gtes. On forme, au hasard,
10 sacs de 12 oranges chacun.
a) Quelles sont l'esprance et la variance du nombre d'oranges gtes
dans un sac donn ?
b) Quelle est la probabilit qu'un sac donn ne compte que des oranges
saines ?
c) Parmi les 10 sacs, combien devraient, en moyenne, ne compter que
des oranges saines ?
31. En supposant l'quiprobabilit des sexes, dterminez le nombre d'enfants
qu'un couple devrait avoir pour que la probabilit qu'au moins deux
d'entre eux soient des garons, soit suprieure ou gale 0,9.
32. Un couple dcide d'avoir des enfants jusqu' ce qu'il ait au moins un
enfant de chaque sexe.
a) Quelle est la probabilit qu'il ait 4 enfants ?
b) Quelle est la probabilit qu'il ait 4 enfants ou plus ?
c) Quelles sont l'esprance et la variance du nombre d'enfants qu'il
aura ?
Remarque Aprs que la premire naissance soit observe, ce problme se
ramne essentiellement au problme 19 o, possiblement, le mot garon
doit tre remplac par le mot fille .
209
33. Deux quipes de hockey s'affrontent dans une srie 4 dans 7 . L'quipe
A, plus forte, a 2 chances sur 3 de vaincre l'quipe B chacune des
parties. Quelle est la probabilit que l'quipe A gagne la srie ?
34. Deux quipes de hockey, de mme force, s'affrontent dans une srie
4 dans 7 . Soit X le nombre de parties ncessaires la dtermination
de l'quipe championne. Dterminez la fonction de masse p(x), calculez
E(X) et Var(X).
35. On suppose que, dans un certain pays, 50 % des gens sont contre la
peine de mort, 30 % sont pour et 20 % sont sans opinion.
a) Lors d'un petit sondage auprs de 10 personnes, calculez la
probabilit d'obtenir au moins 5 rponses favorables la peine de
mort.
b) Lors d'un sondage, plus ambitieux, auprs de 1 000 personnes,
dterminez l'esprance mathmatique, la variance et l'cart-type du
nombre X de rponses favorables la peine de mort.
c) Convient-il de retoucher les hypothses initiales si, en b, on obtient
X = 250 ? Si l'on obtient X = 315 ?
d) Convient-il de retoucher les hypothses initiales si, avec n = 10, on
obtient X = 4 ? Si, avec n = 1 000 on obtient X = 400 ?
36. Soit a et b deux entiers, a d b et X de loi Gom(p).
Montrez que P(X > b|X > a) = P(X > b a).
37. Une partie liminatoire de hockey oppose les quipes A et B. Durant la
saison rgulire (80 parties), l'quipe A a marqu 320 buts et en a
accord 288 ; l'quipe B a marqu 304 buts et en a subi 256.
a) En supposant que les rsultats de la saison rgulire soient
reprsentatifs des forces relles de chaque quipe, l'offensive
comme la dfensive, combien de points chaque quipe devrait-elle
marquer durant la partie ?
b) Quelle est la probabilit qu'aucun but ne soit marqu durant la
premire priode ?
c) Quelle est la probabilit que l'quipe A marque exactement 2 buts en
premire priode ?
d) Quelle est la probabilit que 6 buts ou plus soient marqus durant la
partie ?
210
e) Quelle est la probabilit que l'quipe B marque au moins un but

chacune des trois priodes ?
38. Afin d'estimer le nombre k de truites qui se trouvent dans un certain lac
on ralise l'exprience qui suit : on prlve 100 truites du lac puis, aprs
les avoir marques, on les remet l'eau. Plus tard on repche 200 truites
du lac et on observe le nombre X de truites marques dans ce second
prlvement.
a) Si X = 5, quelle valeur de k vous parat la plus vraisemblable ?
b) Le rsultat X = 5 vous parat-il tonnant si, en ralit, k = 5 000 ?
20 000 ? 1 000 ? Commentez.
39. On lance un d jusqu' ce que la face 6 soit obtenue pour la 10e fois.
Dterminez l'esprance mathmatique et la variance du nombre de
lancers requis.
Suggestion : Posez X = X1 + X2 + ... + X10 o X1 est le nombre de lancers
ncessaires l'obtention du premier 6 , X2 est le nombre de lancers
supplmentaires ncessaires l'obtention du deuxime 6 , etc.
Justifiez intuitivement l'indpendance des variables X1, X2, ..., X10.
*40. On lance un d ordinaire jusqu' ce que chacune des six faces soit
apparue au moins une fois. Soit X le nombre de lancers requis.
a) Posons X = X1 + X2 + ... + X6 o Xk est le nombre de lancers
supplmentaires ncessaires l'obtention de la k-ime nouvelle face.
Expliquez intuitivement les raisons qui font que ces Xk sont
indpendants et que chaque Xk est de loi Gom(7 k)/6).
b) Dterminez E(X) et Var(X).
41. Dterminez l'esprance mathmatique, la variance et l'cart-type de
chacune des variables alatoires suivantes :
a) Le nombre de faces obtenues en lanant 200 pices de monnaie.
b) Le nombre de personnes nes un lundi dans un groupe de 20
personnes.
c) Le nombre de naissances durant une certaine heure dans un hpital
o, en moyenne, il se produit 12 naissances par jour.
d) Le nombre total de points obtenus en lanant 100 ds.
211
e) Le nombre de cartes de coeur parmi 13 cartes tires d'un jeu de

cartes ordinaire.
f)
Le nombre de fois qu'il faut lancer deux ds afin d'obtenir un 12 .
g) Le nombre de fois qu'il faut lancer trois ds afin d'obtenir un 18 .

42. On lance un d 4 500 fois et on observe le nombre X de fois qu'apparat
le rsultat 6 .
a) Calculez E(X), Var(X) et Vx.
b) Convient-il de supposer que le d est mal quilibr si l'on obtient
X = 722 ? Si l'on obtient X = 822 ?
43. On a fait 24 muffins avec une pte laquelle on a ajout 250 raisins
secs. Quelle est la probabilit qu'un muffin tir de cette production ne
contienne pas plus de 4 raisins secs ?
*44. Soit X le nombre de femmes parmi quatre personnes assises une table
de restaurant. Pour savoir si X est de loi binomiale, on observe la valeur
de X pour 70 tables. Voici la distribution observe de X :
Valeur de X
TOTAL
Nombre de tables
15
15
11
14
15
70
Utilisez un test du khi-deux pour tester l'hypothse que la variable

alatoire X est de loi binomiale de paramtre p = 0,45 (Cette valeur de p
est la proportion habituelle (connue) de femmes parmi les clients de ce
restaurant. Il faudra procder un groupement des classes pour avoir
des effectifs thoriques d'au moins 5). Si vous trouvez que X n'est pas de
loi binomiale, pouvez-vous l'expliquer ?
45. Dans une ville, le nombre d'accidents est en moyenne de 4 par jour.
Donc, si X reprsente le nombre d'accidents en un jour donn,
l'esprance de X est 4. Pour voir si X est de loi de Poisson, on observe le
nombre d'accidents par jour pendant 92 jours. Voici la distribution
observe de X :
Valeur de X
TOTAL
Nombre de jours
12
18
20
13
10
10
92
212
Utilisez un test du khi-deux pour tester l'hypothse que la variable

alatoire X est de loi de Poisson de paramtre O = 4. (Les effectifs
thoriques sont dtermins par la fonction de masse d'une variable de loi
de Poisson ; il faudra procder un groupement des classes pour avoir
des effectifs thoriques d'au moins 5).
46. Un clbre magicien qui prtendait avoir des pouvoirs de perception
extrasensorielle a accept de se livrer une exprience dans laquelle il se
proposait de deviner le rsultat du lancer d'un d. En 12 essais, il a
russi deviner le rsultat 10 fois. Vrifiez que la probabilit d'un
nombre de succs suprieur ou gal 10 est excessivement petite pour
quelqu'un qui rpond au hasard ; et expliquez quelle conclusion ce fait
a tendance mener.
47. Un certain test psychologique consiste lire un paragraphe, et puis
rpondre 20 questions portant sur le texte lu. Un choix de 5 rponses
est donn pour chaque question. Un valuateur, tentant de dmontrer
que le test ne mesure pas l'aptitude la lecture, rpond aux 20
questions sans avoir lu le texte. Il choisit la bonne rponse 8 des
questions. Calculez la probabilit d'avoir 8 succs ou plus, et discutez les
implications sur la qualit du test.
48. Il existe des conjectures selon lesquelles certaines personnes sont
capables, dans une certaine mesure, de surseoir leur mort afin de
pouvoir une dernire fois vivre un des bons moments de la vie.
Dfinissant un anniversaire de naissance comme un de ces bons
moments, des chercheurs ont prlev les dates de naissance et de mort
dans un chantillon de 500 dcs. Ils ont constat que sur ces 500
dcs, 5 sont survenus le jour mme de l'anniversaire du dcd. Ce
nombre est suprieur la normale, mais l'est-il assez pour confirmer les
conjectures ?
*49. Un laboratoire qui effectue sur une grande chelle des tests pour dtecter
un certain anticorps peut pargner de l'effort en faisant un seul test sur
plusieurs spcimens la fois. Lorsque l'anticorps n'est pas prsent dans
l'ensemble des spcimens, c'est parce qu'il n'est prsent dans aucun. On
dclare alors un rsultat ngatif pour tous les patients sans plus de
tests. Si le rsultat est positif, cependant, on analyse chaque spcimen
sparment.
213
a) Si l'on utilise cette approche avec 10 spcimens d'une population

dont une certaine proportion p ont l'anticorps en question (sont
positifs ), quelle est l'esprance du nombre de tests qu'il faudra
effectuer
i)
si p = 0,10
ii) si p = 0,25.
b) Pour quelles valeurs de p l'approche dcrite ici est-elle prfrable

l'approche usuelle (tester les 10 spcimens sparment) ?
c) Si n est le nombre de spcimens qu'on groupe, montrer que
l'approche dcrite ici est prfrable l'approche usuelle si et
seulement si
p < 1 (1/n)1/n.
Calculez la valeur limite de p pour n = 5, 10, 30, 50, 100, et expliquez
intuitivement la dcroissance de vos rponses.
50. On suppose que dans une certaine rgion, la proportion des gens qui
sont en faveur du libre-change est p = 40 %. Lors d'un sondage auprs
de 15 personnes, on trouve X = 11 personnes en faveur du libre-change.
a) Dterminez l'cart absolu |X E(X)| entre la valeur observe de X et
son esprance.
b) Calculez la probabilit d'un cart absolu suprieur ou gal l'cart
calcul en a).
c) tant donn la probabilit calcule en b), y a-t-il lieu de retoucher
l'hypothse que p = 0,4 ?
51. Une compagnie se fait accuser de discrimination pour avoir engag 6
hommes et une femme pour 7 postes identiques alors que des
17 candidats qui s'taient prsents, 9 taient des femmes. Calculez la
probabilit d'avoir si peu de femmes (c'est--dire, une ou moins) en
supposant un choix au hasard. Qu'est-ce que ce calcul de probabilit
peut apporter au dbat ?
52. Dans un village o ont t entreposs des dchets chimiques, on
constate que 8 personnes ont t atteintes d'une certaine sorte de cancer
dans une priode de 5 ans. tant donn que la population du village
n'est que de 8 000, ce nombre semble excessif. Une commission, charge
de dterminer si les dchets chimiques ont contribu hausser le taux,
prlve des donnes sur les populations de plusieurs villages de taille et
214
situation comparables. La commission dcouvre que durant la mme

priode, il y a eu 588 cas dans un bassin de population de 2 350 000
habitants. Considrez ce taux comme un taux normal (et connu sans
erreur) pour calculer la probabilit d'avoir 8 cas ou plus dans une
population de 8 000. Expliquez ce que ce calcul peut contribuer la
question pose par la commission.
53. Si X est de loi B(10; 0,4), et si la cote Z est dfinie comme d'habitude par
Z = (X P)/V, o P = E(X) et V2 = Var(X), calculez a) P(|Z| t 2), et b) P(|Z|
t 3). Comparez avec les bornes fournies par le thorme de Tchebychev.
54. Supposons que le nombre d'erreurs typographiques dans un livre est une
variable de loi de Poisson de paramtre O. On tire une page au hasard, et
on n'y trouve aucune erreur.
a) Calculez P(X = 0) en supposant que O = 5. La valeur O = 5 est-elle
plausible ?
b) Calculez P(X = 0) en supposant que O = 1. La valeur O = 1 est-elle
plausible ?
c) Convenons d'appeler plausible toute valeur de O pour laquelle
P(X = 0) t 0,05. Quel est l'ensemble des valeurs plausibles de O ?
55. Un dfaut dans la fabrication de certaines plaques d'mail se produit
normalement un taux moyen de O = 1,2 par plaque. Afin de s'assurer
que le taux de dfectuosit reste bas, on adopte une procdure de
contrle qui consiste prlever une plaque dans chaque lot de
production et de rejeter le lot si la plaque contient 3 dfauts ou plus.
a) Quelle est la probabilit de rejeter un lot acceptable (c'est--dire, un
lot pour lequel O = 1,2) ?
b) Quelle est la probabilit d'accepter un lot pour lequel O = 3 ?
c) Comment doit-on modifier la procdure si on veut que la probabilit
de rejeter un lot acceptable (O = 1,2) ne soit que de 5 % ?
*56. Une population de comptes recevoir est considre inacceptable si la
proportion p de comptes errons est suprieure 5 %. Un comptable
utilise la procdure de vrification suivante : il tire les comptes, l'un
aprs l'autre, et les vrifie au fur et mesure. Si au x-ime compte tir il
n'a encore trouv aucun compte erron, il dclare que la population est
acceptable ; si le premier compte erron arrive au x-ime tirage ou avant,
il dclare que la population est inacceptable.
215
a) Si x = 10, quelle est la probabilit qu'il dclare acceptable une

population dont la proportion de documents errons est p = 6 % ?
b) Quelle doit tre la valeur de x s'il veut que la probabilit de dclarer
acceptable une population pour laquelle p = 6 % ne soit pas
suprieure 1 % ?
Quelques lois continues
7.1
7.2
7.3
7.4
7.5
Variables continues et fonction de densit

Loi uniforme
Loi exponentielle
Loi normale (ou loi de Laplace-Gauss)
Lecture de la table de la loi N(0, 1)
Calcul gnral avec P et V2 quelconques
Somme et transformation linaire de variables normales
Thorme limite central
Approximation de la loi binomiale par la loi normale
Distribution d'une moyenne
RSUM
EXERCICES
7 Quelques lois continues
7.1
217
VARIABLES CONTINUES ET FONCTION DE DENSIT

On sait dj que le comportement alatoire d'une variable discrte est
compltement dcrit par la donne de l'ensemble de toutes les valeurs qu'elle
peut prendre et de la fonction de masse p(x) qui donne la probabilit de
chacune de ces valeurs.
Il arrive toutefois frquemment que la variable alatoire considre puisse,
du moins en thorie, prendre des valeurs lies les unes aux autres de faon
continue. Par exemple, le poids d'un uf peut tre 56 grammes ou
56,01 grammes ou 55,999 99 grammes. La probabilit qu'un uf pse
exactement 56 grammes (ou tout autre poids prcis donn l'avance) est
zro. Chaque valeur particulire est impossible ; seuls les intervalles
contiennent suffisamment de points pour avoir une probabilit positive. Si
l'on note X le poids, en grammes, de l'uf, on sait qu'il est impossible que X
soit exactement gal 56 mais il se peut trs bien qu'on obtienne
55 < X < 60.
Un autre exemple de variable alatoire continue est le temps d'attente (en
minutes) avant que soit livre la pizza qu'on vient de commander par
tlphone. Il est impossible que ce temps d'attente soit exactement
25,000 0 minutes mais il est tout fait possible que l'attente dure entre 24
et 26 minutes.
Le comportement d'une variable alatoire X continue sera dcrit au moyen
d'une fonction f(x), appele fonction de densit, telle que la probabilit que
X prenne une valeur entre deux bornes donnes a et b soit dtermine par la
surface, entre a et b, sous le graphique de f(x).
L o la fonction f(x) est leve, les valeurs de x sont plus probables, plus
frquentes, que l o f(x) est basse.
La fonction de densit doit possder les deux proprits suivantes :
a) f(x) t 0 pour tout x.
b) La surface totale sous le graphique de f(x) doit tre gale 1.
La premire de ces deux proprits rend impossible l'obtention d'intervalles
de probabilit ngative. La seconde nous assure que
P ( f X f ) 1.
218
L'esprance mathmatique et la variance d'une variable alatoire continue

s'obtiennent de sa fonction de densit par un traitement analogue celui qui
permettait de les obtenir, dans le cas discret, au moyen de la fonction de
masse p(x). Techniquement, il suffit de remplacer les sommes (discrtes) par
des intgrales (continues). Le lecteur qui ne connat pas le calcul intgral n'a
pas s'inquiter : tout peut tre fait en raisonnant directement sur les
graphiques. Qu'il soit suffisant de faire remarquer que l'esprance
mathmatique P correspond au centre de gravit du graphique de la
fonction de densit, c'est -dire, au point o l'on devrait placer un pivot sous
le graphique de f(x), dcoup dans du carton d'paisseur uniforme, pour
qu'il reste en quilibre horizontal.
FIGURE 7.1
Fonction de densit
f(x)
x
a

FIGURE 7.2
219
Visualisation de P en termes de centre de gravit

f(x)
Cette visualisation de l'esprance mathmatique en termes de centre de

gravit, aussi applicable au diagramme btons (dans le cas discret), permet
souvent d'viter d'avoir recours aux techniques du calcul intgral.
Exemple 1
Considrons une variable alatoire continue dont la fonction de densit est
f ( x)
1 2 si 1 x 3
0 sinon
Le graphique de cette fonction de densit apparat la figure 7.3.

On vrifie aisment que f(x) t 0 pour tout x et que la surface totale sous le
graphique se rduit celle d'un rectangle de hauteur 1/2 et de longueur 2.
220
FIGURE 7.3
Densit uniforme entre 1 et 3

f(x)
1/2
x
1
Cette surface totale est donc 1. Enfin, par un simple argument de symtrie,
on voit que P = 2, le point central du rectangle. Si l'on observait un trs
grand nombre de valeurs de X, on sent bien que les petites valeurs de X
(disons, entre 1 et 2) seraient exactement compenses par des valeurs aussi
nombreuses dans la seconde moiti de l'intervalle. Plus le nombre
d'observations sera grand, plus la moyenne des rsultats obtenus aura
tendance s'approcher du point central P = 2.
i
Exemple 2
Considrons une variable alatoire X dont la fonction de densit est :
f ( x)
2 x si 0 x 1
0 sinon
Dterminer P(0,2 < X < 0,8).

La fonction de densit f(x) apparat la figure 7.4.

FIGURE 7.4
221
Calcul de P(0,2 < X < 0,8)

f(x)
2,0
1,6
0,4
x
0,2
0,8
On vrifie aisment que la surface totale sous le graphique de f(x) est bien
gale 1 puisque c'est la surface d'un triangle de base 1 et de hauteur 2.
La probabilit cherche, P(0,2 < X < 0,8) est donne par la surface de la
rgion ombre dans la figure 7.4. Cette surface S s'obtient aisment par
simple tois. Quand x varie de 0,2 0,8, la densit f(x) = 2x varie (en ligne
droite) de 0,4 1,6. La surface cherche est donc celle d'un trapze de base
0,6 et de hauteur moyenne (0,4 + 1,6)/2 = 1.
On trouve donc P(0,2 < X < 0,8) = S = 0,6.
On obtient aussi P ( 0 X 0 , 2 )
0,2 u 0, 4
0 , 04
et P ( 0 , 8 X 1) 0 , 2 u
1, 6 2 , 0
0 , 36
Remarquons que la probabilit qu'une variable alatoire continue

appartienne un certain intervalle n'est aucunement influence par la
nature des ingalits qui limitent l'intervalle. Les points extrmes de
l'intervalle peuvent tre exclus (ingalits strictes) ou inclus (ingalits non
strictes), chaque point isol tant de probabilit nulle. Ainsi, dans
l'exemple 2, on a
P (0,2 X 0,8)
P (0,2 X d 0,8 )
P 0,2 d X 0,8)
P (0,2 d X d 0,8 )
0 , 6.
222
7.2
LOI UNIFORME
Une variable alatoire X est dite de loi uniforme sur l'intervalle (a, b) si sa
fonction de densit est :
f (x)
1 ( b a ) si a x b
0
sinon
La fonction de densit f est illustre la figure 7.5.

FIGURE 7.5
Fonction de densit d'une variable de la loi uniforme sur (a, b)

f(x)
1/(b a)
x
a
La valeur 1/(b - a) a videmment t obtenue du fait que le rectangle doit

tre de surface 1. Il s'agit bien sr d'une gnralisation immdiate de
l'exemple 1.
On utilise la notation X est U(a, b) pour indiquer que la variable alatoire
X est de loi uniforme sur l'intervalle (a, b). Il va de soi que si X est U(a, b)
alors P = (a + b)/2, le point central de l'intervalle accessible . La formule
donnant la variance V2, qui peut s'obtenir par les techniques du calcul
intgral, n'est ici donne que par souci de compltude.
Si X est U(a, b), alors sa moyenne et sa variance s'expriment en fonction de a
et b :
P
ab
2
, V2
(b a) 2
12
223
Notons enfin que la loi uniforme n'est pas d'application trs frquente ; on la
rencontre dans des situations comme celle de l'exemple suivant.
Exemple 3
Quand on regarde une horloge, l'aiguille des secondes peut indiquer

n'importe quelle direction. Si l'on suppose que le nombre X indiqu par
l'aiguille est (en thorie) observ avec une prcision infinie, on a que X est de
loi U(0, 60).
On a alors que
P
E(X)
30 , V 2
Var ( X )
300 | 17 , 320 51.
300 , V
On peut aussi calculer que P(0 < X < 30) = 1/2,

P (1, 3 X 9 ,1)
1
60
7.3
( 9 ,1 1, 3 )
7,8
0 ,13 , etc .
60
LOI EXPONENTIELLE
Une variable alatoire X est dite de loi exponentielle avec moyenne T > 0
(lettre grecque thta) si sa fonction de densit est :
f (x)
1 x T
si x ! 0
e
T
sinon
0
En notation abrge, on crira : X est Exp(T) .

Graphiquement, cette fonction de densit a l'allure illustre par la figure 7.6.
La loi exponentielle se rencontre dans une foule de situations. En particulier,
presque tous les phnomnes alatoires du type temps d'attente avant que
ne se produise un certain vnement admettent la loi exponentielle comme
modle probabiliste.
La loi exponentielle est intimement lie la loi de Poisson. En fait, si des
vnements se produisent selon un processus de Poisson, c'est--dire si le
nombre d'vnements qui se produit, durant un intervalle de temps de
longueur t, suit une loi Poisson(O) avec O = ct, alors le temps d'attente entre
deux vnements conscutifs suivra une loi exponentielle avec T = 1/c.
Intuitivement, on voit que s'il se produit en moyenne c vnements par
heure, il y aura, en moyenne, 1/c heure entre les vnements conscutifs.
224
FIGURE 7.6
Fonction de densit d'une variable Exp(T)

f(x)
1/T
x
0
Exemple 4
Si, la salle d'urgence d'un hpital, il se produit en moyenne 20 arrives

l'heure, on peut supposer que le nombre d'arrives durant une priode de t
heures suivra une loi Poisson(20t). Le temps d'attente entre deux arrives
conscutives suivra alors une loi Exp(1/20).
i
La moyenne et la variance d'une variable de loi exponentielle s'expriment
trs simplement en fonction du paramtre T, tout comme l'aire sous la
courbe droite d'une valeur donne.
Si X est de loi Exp(T), alors

P
et
Exemple 5
T,
P(X ! x)
V
e
x
pour x t 0.
Dans une certaine machine, le fusible de scurit saute, en moyenne, toutes

les 40 heures d'utilisation. Quelle est la probabilit que la machine
fonctionne plus de 70 heures sans que le fusible n'ait tre remplac ?
En supposant que le temps de fonctionnement X (en heures) de la machine
est de loi Exp(40), on obtient
P ( X ! 70 )
70
40
e 1, 75
0 ,173 77.
7.4
225
LOI NORMALE (OU LOI DE LAPLACE-GAUSS)

Une variable alatoire X est dite de loi normale si sa fonction de densit est
1
f (x)
( x P ) 2 / 2V 2
V 2S
o les paramtres P et V2 dsignent respectivement l'esprance et la

variance de X et o e et S sont les constantes mathmatiques bien connues,
dont les valeurs approximatives sont
e | 2,718 281 83, S | 3,141 592 65.
En notation abrge, on crit X est N(P, V2) . La densit f(x) d'une variable
alatoire de loi N(P,V2) a l'allure illustre par la figure 7.7.
FIGURE 7.7
Fonction de densit d'une variable N(P, V2)

f(x)
points d'inflexion
x
PV
P+V
La fonction de densit d'une variable de loi N(P, V2) est symtrique de part et
d'autre de la moyenne P. L'cart-type V est plus malais visualiser : il
correspond la distance entre l'axe de symtrie (x = P) et l'un ou l'autre des
deux points d'inflexion, c'est--dire des deux points o la courbure change de
sens.
Innombrables sont les exemples de variables normales ou pratiquement
normales. Des mesures analogues prises sur des objets semblables ont en
effet souvent tendance se distribuer selon une courbe en cloche : les
valeurs moyennes sont les plus frquentes et, de part et d'autre de ces
valeurs moyennes, les valeurs extrmes sont, symtriquement, de plus en
plus rares.
226
FIGURE 7.8
Quelques exemples de lois normales

f(x)
0,6
0,5
0,4
0,3
0,2
0,1
N(3, 1)
N(0, 1)
N(4, 1)
x
6
f(x)
0,4
0,3
0,2
0,1
N(1, 4)
N(4, 4)
x
-5
f(x)
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
N(3, 1/4)
N(0, 1/4)
N(5/2, 1/4)
0,1
x
6
La loi normale permet alors d'obtenir, sinon une description exacte de la

distribution, du moins une excellente approximation de celle-ci.
227
Si, par exemple, on achte une bote de clous de mme format et qu'on
mesure avec prcision la longueur de chaque clou, on obtiendra plusieurs
mesures, vraisemblablement toutes voisines les unes des autres.
L'histogramme des rsultats obtenus sera semblable celui prsent la
figure 7.9.
Histogramme des longueurs de 160 clous
60
50
50
Effectifs
FIGURE 7.9
39
40
30
30
20
10
15
13
0
47
48
49
50
51
52
53
54
Longueur des clous, en millimtres
Comme l'indique l'histogramme de la figure 7.9, les valeurs anormalement

grandes ou anormalement petites deviennent de plus en plus rares,
symtriquement, de part et d'autre de la bosse correspondant aux valeurs
moyennes. C'est un exemple comme tant d'autres d'un phnomne dont la
reprsentation graphique a indniablement l'allure d'une normale.
Lecture de la table de la loi N(0, 1). la fin de cet ouvrage, on trouve une
table 3 applicable au cas o P = 0 et V2 = 1. Si Z est une variable alatoire de
loi N(0, 1), la table permet de trouver directement les probabilits de la forme
P(Z > z) o z t 0.
Par exemple, P(Z > 0,84) = 0,200 5. Ce rsultat se trouve l'intersection de la
range correspondant z = 0,8 et de la colonne qui permet de raffiner la
seconde dcimale 0,04.
Tirant profit du fait que la densit de Z est symtrique par rapport zro et
que la surface totale sous la courbe donne 1, la table de la loi N(0, 1) est
suffisante pour solutionner tout problme de la forme P(a < N(0, 1) < b).
228
FIGURE 7.10
P(0,67 < N(0, 1) < 1,22) = 0,637 4
0,67
FIGURE 7.11
1,22
P(N(0, 1) > 0,84) = 0,200 5
surface = 0,200 5
z
0
Exemple 6
0,84
Calculer P(0,67 < Z < 1,22) si Z est N(0, 1).

Solution
P ( 0 , 67 Z 1, 22 )
1 P ( Z t 1, 22 ) P ( Z t 0 , 67 )
1 0 ,111 2 0 , 251 4
0 , 637 4.
i
La densit d'une variable N(0, 1) tend trs rapidement vers zro gauche
comme droite. Afin d'illustrer la vitesse de cette convergence, qu'il soit
suffisant d'indiquer que :
P ( N ( 0 ,1) ! 4 , 75 )
229
1
1 000 000
P ( N ( 0 ,1) ! 6 , 00 )
1
1 000 000 000
Calcul gnral avec P et V 2 quelconques. videmment, rares sont les cas o

on a la chance d'avoir P = 0 et V2 = 1. Habituellement, les valeurs de P et V2
sont quelconques et on doit transformer la variable x, de loi N(P,V2) pour que
la table soit utilisable. La transformation requise, heureusement, est simple.
Si X est de loi N(P,V2), alors
Z
X P
est de loi N ( 0 ,1).
Z est simplement la cote Z de X. Cette proprit fondamentale de la loi

normale peut tre nonce sous une autre forme, plus directement
applicable :
P ( a N ( P ,V 2 ) b )
Exemple 7
bP
aP
P
N ( 0 ,1)
V
V
Si l'on suppose que le poids, en grammes, d'un bb la naissance suit une

loi N(3 300,250 000), dterminer la probabilit que le poids d'un certain bb
soit compris entre 3,0 kg et 4,0 kg.
Solution : Dans cet exemple, on cherche P(3 000 < X < 4 000) o X est de loi
N(P,V2) avec P = 3 300 et V = 500.
On trouve
P ( 3 000 X 4 000 )
P ( 3 000 N ( 3 300 , 250 000 ) 4 000 )

4 000 3 300
3 000 3 300
P
N ( 0 ,1)
500
500
P ( 0 , 60 N ( 0 ,1) 1, 40 )
1 P ( N ( 0 ,1) ! 0 , 60 ) P ( N 0 ,1) ! 1, 40 )
1 0 , 274 3 0 , 080 8
0 , 644 9.
Selon nos calculs, environ 64,5 % des bbs psent donc entre 3 kg et 4 kg.i
230
Somme et transformation linaire de variables normales Nous venons de voir

que si X est normale, Z l'est aussi. C'est l une des nombreuses applications
d'une importante proprit de la loi normale, souvent rsume par la phrase
toute combinaison linaire de normales indpendantes est normale , et dont
l'nonc mathmatique comporte les deux parties suivantes :
a) Si X est de loi normale N(P,V2), alors a + bX est normale, de loi
N(a + bP, b2V2).
b) Si X1, ..., Xn, sont des variables normales indpendantes, de lois
respectives N(P1, V 12 ), , N(Pn, V n2 ), alors leur somme X1 + ... + Xn est
normale, de loi
N ( P 1 ... P n , V 12 ... V n2 ).
On voit qu'en particulier, une somme ou une diffrence de deux variables

normales indpendantes est normale.
X Y est N ( P X P Y , V 2X V Y2 )
et
Exemple 8
X Y est N ( P X P Y , V 2X V Y2 ).
On suppose que le poids (en grammes) d'un uf se distribue selon une loi
N(56,20). Quelle est la probabilit que la somme des poids de 12 ufs
dpasse 700 grammes ?
Solution : Le poids total X = X1 + ...+ X12 des 12 ufs est tel que E(X) = E(X1 +
+ X12) = 12 u 56 = 672 et Var(X) = Var(X1 + + X12) = 12 u 20 = 240.
Aussi, X tant une somme de variables normales est de loi normale. X est de
loi N(672,240).
On trouve donc
P ( X ! 700 )
P ( N ( 672 , 240 ) ! 700 )
700 672
P N ( 0 ,1) !
240
P ( N ( 0 ,1) ! 1, 807 )
0 , 035 3.
i
Remarque La dernire valeur a t obtenue de la table de la loi N(0, 1) en
interpolant entre les valeurs trouves pour z = 1,80 et pour z = 1,81.
7.5
231
THORME LIMITE CENTRAL

L'exemple 8 montre bien quel point il est intressant de pouvoir utiliser la
normalit d'une somme de normales. Toutefois, la loi normale jouit d'une
autre proprit, beaucoup plus puissante et spectaculaire, dcrite dans ce
qu'on appelle le thorme limite central. Ce thorme, dj pressenti au
XVIIIe sicle, et auquel furent associs les noms de mathmaticiens aussi
connus que De Moivre, Gauss et Laplace, a t dmontr dans toute sa
gnralit vers 1920 par Lindeberg et Levy. En voici l'nonc, en mots .
Thorme limite central Soit un grand nombre n de variables indpendantes
X1, X2, , Xn. Alors, sous certaines conditions, leur somme X = X1 + ... + Xn,
suit approximativement une loi normale, mme si ces variables ne sont pas
normales.
Les conditions voques dans l'nonc du thorme se ramnent
essentiellement l'exigence qu'aucune des variables ne soit indment
prpondrante sur les autres. En d'autres termes, ce thorme affirme que si
l'on additionne un grand nombre de petites composantes indpendantes,
leur somme est une variable X approximativement normale.
C'est ainsi, sans doute, qu'on peut expliquer pourquoi un grand nombre de
phnomnes naturels ont une distribution peu prs normale. On peut
prsumer, par exemple, que la taille des individus d'une espce donne est
rsultante d'un grand nombre de facteurs, hrdit, climat, alimentation,
etc., qu'on peut considrer indpendants.
Nous admettons que ces conditions ne sont pas faciles vrifier dans les
situations o seule la somme X est observe et non les termes X1, X2, , Xn.
C'est pourquoi nous ne pouvons pas tre srs a priori de la normalit d'une
variable telle la taille ; nous pouvons souponner que la taille suit une loi
normale, mais nous sentons en gnral le besoin de faire confirmer ces
soupons par des donnes empiriques. Cependant, dans la plupart des
applications du thorme limite central, les variables X1, , Xn dont X est la
somme ne sont pas des variables vaguement dfinies et peine perues. Ce
sont, au contraire, des variables observables et, de plus, elles sont de mme
loi. Dans des cas comme ceux-ci, il est prfrable d'invoquer une autre
version du thorme limite central dont les hypothses sont plus faciles
vrifier. L'nonc suit.
232
Thorme limite central (variables de mme loi) Considrons un grand

nombre n de variables indpendantes X1, X2, , Xn de mme loi. Alors leur
somme X = X1 + ... + Xn, suit approximativement une loi normale, mme si ces
variables ne sont pas normales.
Remarquez que nous ajoutons la condition que les variables X1, X2, , Xn
soient de mme loi, mais nous liminons l'allusion d'autres conditions.
Remarque Une condition essentielle au thorme limite central est que n soit
grand : l'approximation sera d'autant meilleure que n sera grand.
Malheureusement, on ne peut pas donner une valeur de n partir de laquelle
l'approximation sera bonne ; d'abord parce que cela exigerait qu'on trouve
une dfinition non arbitraire de bonne ; ensuite parce que la qualit d'une
approximation quelle que soit la faon dont on la mesure dpend fortement
de la distribution des variables dont X est la somme. Pour certains auteurs,
une valeur de n suprieure 30 est suffisante, alors que pour d'autres, il faut
que n dpasse 100. Ces nombres ne sont que des conventions ; ils ne peuvent
avoir de proprits dmontrables que dans des conditions trop prcises pour
tre utiles. L'exprience montre, cependant, que si X1, , Xn suivent une loi qui
n'est pas excessivement asymtrique, leur somme sera assez proche d'une
normale mme avec n relativement petit, par exemple n = 30. Le lecteur pourra
plus loin se faire une ide de la rapidit de la convergence vers une normale
en examinant les quelques cas exposs dans les figures 7.14 et 7.15.
Exemple 9
Considrons la somme X des points obtenus en lanant 100 ds. Les ds

sont indpendants et les variables reprsentant les divers lancers sont de
mme loi. X sera alors approximativement normale, mme si les variables
dont X est la somme ont une distribution uniforme (discrte).
i
Exemple 10 Supposons que le poids (en kg) des adultes se distribue avec une moyenne
de 64 et un cart-type de 12. Dans un ascenseur, une plaque indique
Capacit maximale : 12 personnes ou 1 000 kg . Si 14 personnes
s'entassent dans l'ascenseur, quelle est la probabilit que leur poids total
dpasse 1 000 kg ?
Solution : Si X est le poids total des personnes dans l'ascenseur, alors X est
approximativement normale, avec
P = 14 u 64 = 896 et V2 = 14 u 144 = 2 016.
233
Alors
P ( X ! 1 000 )
P ( N ( 896 , 2 016 ) ! 1 000 )

P ( N ( 0 ,1) ! 2 , 32 )
0 , 010 2.
Approximation de la loi binomiale par la loi normale La rptition d'une

exprience de type binomial fournit un bel exemple d'application du
thorme limite central. Dans ce cas, en effet, plusieurs composantes
indpendantes, toutes de mme loi, sont ajoutes, de sorte que leur somme
est alors proche d'une normale. Rappelons que chacune de ces composantes
reprsente un succs ou un chec .
Exemple 11 On lance 16 sous. Calculer la probabilit que le nombre de faces obtenu soit
compris entre 5 et 10, bornes comprises. On cherche P(5 d X d 10) o X est
de loi B(16, 1/2). La rponse exacte peut tre obtenue en utilisant la fonction
de masse d'une loi binomiale, avec n = 16 et p = 1/2, et en calculant
P ( 5 d X d 10 )
p ( 5 ) p ( 6 ) p ( 7 ) p ( 8 ) p ( 9 ) p (10 )
56 134
0 , 856 54.
65 536
Le thorme limite central permet d'obtenir, en moins d'efforts, une

excellente approximation pour la valeur cherche. Il suffit d'approximer la
distribution de X au moyen d'une loi normale ajuste P = np = 8 et
V2 = npq = 4.
X est approximativement de loi N(8,4) et il ne reste plus qu' calculer
P(5 d X d 10).
Il convient cependant de retoucher lgrement les bornes 5 et 10 pour
compenser le fait que la variable X soit, en ralit, une variable discrte qui
ne prend que des valeurs entires.
La figure 7.12 illustre l'ajustement de la loi N(8,4) l'histogramme de la loi
B(16,1/2). On voit aisment que la rponse cherche, p(5) + p(6) + ... + p(10)
correspond la surface, entre 4,5 et 10,5, sous le graphique en escalier du
diagramme btons. Cette surface est trs voisine de celle, comprise entre
les mmes bornes, sous le graphique continu de la loi normale qui pouse le
diagramme btons.
234
On trouve enfin :
P ( 5 d X d 10 ) | P ( 4 , 5 N ( 8 , 4 ) 10 , 5 )
10 , 5 8
4,5 8
P
N ( 0 ,1)
2
2
P ( 1, 75 N ( 0 ,1) 1, 25 )
1 ( P ( N ( 0 ,1) ! 1, 75 ) P ( N ( 0 ,1) ! 1, 25 ))
1 0 , 040 1 0 ,105 6
0 , 854 3.
On constate que cette rponse est trs voisine de la valeur exacte 0,856 54
obtenue prcdemment en utilisant directement la loi binomiale.
Si l'on avait nglig d'effectuer la correction pour la continuit (c'est--dire,
si l'on avait conserv les bornes 5 et 10 plutt que de les porter 4,5 et
10,5), on n'aurait compt qu' moiti la surface des btons extrmes placs
5 et 10, ce qui aurait donn une rponse (0,774 5) trop petite et beaucoup
moins prcise.
i
L'exemple prcdent, et en particulier la figure 7.12, illustre bien
l'importance de la correction pour la continuit. Lorsqu'on fait
l'approximation de la distribution d'une variable discrte par la loi normale,
il convient, si ncessaire, de retoucher les bornes et de les placer mi-chemin
entre l'vnement tudi et son complment.
FIGURE 7.12
Ajustement d'une loi N(8,4) une loi B(16,1/2)
10
11
12
13
14
15
16
235
Notons toutefois que si la variable approxime est elle-mme continue,

aucune correction pour la continuit n'est requise.
Remarque Le thorme limite central, appliqu l'approximation de B(n,p) par
N(np, npq), nous apprend qu'elle est d'autant meilleure que n est plus grand.
La prcision de l'approximation dpend donc de n, mais aussi de p. C'est
ainsi qu'on dit souvent que la prcision sera bonne si npq > 5. Bien que cette
rgle soit elle-mme approximative (l'exemple 12 la contredit d'ailleurs jusqu'
un certain point, puisque l'approximation y est trs bonne, alors que npq y est
gal 4), la figure 7.13 montre bien comment, pour un n donn, la tendance
est plus prs d'une normale si p est plus prs de 1/2.
regarder de prs le diagramme btons de B(16; 0,1) (figure 7.13) on peut
sans doute se demander si une distribution de Poisson ne fournirait pas ici
une meilleure approximation qu'une loi normale.
FIGURE 7.13
Diagramme btons de B(16; 0,6) et de B(16; 0,1)
0,2
p(x)
0,18
0,16
0,14
B (16; 0,6)
0,12
0,1
0,08
0,06
0,04
0,02
0
0
10
11
12
13
14
15
16
236
0,35
p(x)
0,3
0,25
B (16; 0,1)
0,2
0,15
0,1
0,05
x
0
0
10
Distribution d'une moyenne On a trs souvent, en statistique, estimer la

moyenne P d'une population ; la moyenne chantillonnale X est alors
utilise. Comme nous le verrons en dtail au chapitre 8, il est alors
ncessaire de connatre la distribution de X . Or, le thorme limite central
permet de l'obtenir ; c'est le rsultat suivant :
Si X est la moyenne de n observations indpendantes X1, ..., Xn, o E(Xi) =
P et Var(Xi) =V2, alors, si n est grand, X est approximativement de loi
N(P,V2/n).
Au-del de la normalit, consquence du thorme limite central, ce rsultat
se rvle conforme notre intuition : plus n est grand, plus X aura tendance
tre prs de P et plus la variance de X sera petite ; dans les chantillons de
n observations, les valeurs petites et les valeurs grandes auront tendance
s'quilibrer, faisant apparatre des moyennes X peu disperses.
237
Exemple 12 Si l'on suppose que le poids, en grammes, des ufs suit une loi N(56,20),
quelle est la probabilit que le poids moyen de 100 ufs choisis au hasard
soit entre 55 et 57 grammes ?
Ici, X est de loi N(56, 20/100).
On obtient donc que
P ( 55 X 57 )
P ( 55 N ( 56 ; 0 , 2 ) 57 )
55 56
57 56
P
N ( 0 ,1)
0,2
0 , 2
P ( 2 , 24 N ( 0 ,1) 2 , 24 )
0 , 975 0.
i
Exemple 13 Les figures 7.14 et 7.15 illustrent, pour diffrentes valeurs de n, la
distribution de la moyenne X = (1/n)6Xi. On voit clairement que, plus n est
grand, plus la distribution de X s'approche d'une distribution normale.
Dans la figure 7.14, les variables Xi sont de loi Exp(l).
f (x)
e x si x ! 0
0
si x d 0
Dans la figure 7.15, les variables Xi suivent une loi triangulaire double
avec la fonction de densit :
f (x)
1 x si 0 x 1
x 1 si 1 x 2
sinon
0
238
FIGURE 7.14
Distribution de la moyenne X pour diffrentes valeurs de n

f(x)
f(x)
n=1
n=2
0
1
f(x)
f(x)
n=3
n=5
0
1
f(x)
f(x)
n = 10
n = 30
0
1
0
1

FIGURE 7.14
Distribution de la moyenne X pour diffrentes valeurs de n

f(x)
f(x)
n=1
n=2
0
1
f(x)
f(x)
n=5
n=3
1
0
1
f(x)
f(x)
n = 10
n = 30
0
1
0
1
239
240
RSUM
La probabilit qu'une variable alatoire continue prenne valeur entre deux
bornes a et b est donne par la surface, entre a et b, sous le graphique de la
fonction de densit f(x).
f(x)
Loi
1
U (a, b)
ba
1
Exp (T )
x T
N ( P ,V )
si x ! 0
e ( x P )
V 2S
2
ab
si a x b
P ( a N ( P ,V ) b )
V2
2V
(b a)
12
T2
V2
bP
aP
P
N ( 0 ,1)
V
V
Thorme limite central : Si une variable alatoire X est la somme d'un

grand nombre de petites composantes indpendantes, alors X est
approximativement de loi normale.
Si une variable discrte est approxime par la loi normale, il convient
d'effectuer une correction pour la continuit, c'est--dire, de retoucher les
bornes afin de les placer mi-chemin entre l'vnement tudi et son
complment.
est approximativement de loi N(P, V2/n) o P et V2 dsignent l'esprance
et la variance de chacun des Xl, X2, ..., Xn.
X
EXERCICES
VARIABLES
CONTINUES
ET
FONCTION
DE
Parmi les fonctions f(x) suivantes, lesquelles peuvent servir de fonction de

densit ?
a)
f (x)
b)
f (x)
1 si 3 x 4
0 sinon
DENSIT
1.
c)
f (x)
2 x si 0 x 1
0 sinon
d)
f (x)
1 2 si 6 x 8
0 sinon
f (x)
2 3 si 1 x 0
1
6 si 0 x 2
0 sinon
f)
f (x)
3 2 x si 0 x 1
4
0 sinon
g)
f (x)
x 2 1 si 1 2 x 3 2
0 sinon
e)
f (x)
1 10 si 2 x 10
0 sinon
2. Considrons une variable alatoire continue dont la densit est

f (x)
1 2 si 0 x 2
0 sinon
Calculez les probabilits suivantes :

a) P(X = 1)
b) P(0 < X < 1/2)
c) P(0 < X d 1/2)
d) P(1,4 < X < 3,2)
e) P(2 < X < 1)
f)
P(0,4 < X < 0,5)
241
242
3. Soit X une variable alatoire dont la fonction de densit est

f (x)
x si 0 x 1
1 2 si 2 x 3
0 sinon
Calculez :
LOI UNIFORME
a) P(X < 1,5)
b) P(X < 0,9)
c) P(X > 2,2)
d) P(2 < X < 2)
e) P(1/2 < X < 2/3)
f)
g) P(|X 2| < 0,5)
h) P(|X - 1,5| < 0,9)
4. Soit X une variable alatoire de loi U(3,8). Calculez :

a) P(X > 4)
b) P(X < 4)
c) P(X d 4)
d) P(4 < X d 7)
e) P(4 d X < 9)
f)
g) P(P V, < X < P + V)
h) P(P 2V < X < P + 2V)
i)
LOI
EXPONENTIELLE
P(6 < X < 9)
P(X > P)
Comparez la probabilit calcule en h) avec la borne obtenue de

l'ingalil de Tchebychev.
5. Soit X une variable alatoire de loi Exp(2). Calculez :

a) P(X > 2)
b) P(X t 2)
c) P(X > 5)
d) P(X > 1/5)
e) P(1/5 d X < 5)
f)
g) P(1 d X d 10)
h) P(0,34 < X < 4,75)
P(0 < X < 10)
6. Une certaine machine fonctionne en moyenne 10 jours avant de tomber

en panne. En supposant que ce temps de fonctionnement suive une loi
exponentielle, dterminez la probabilit que :
a) la machine tombe en panne ds le premier jour ;
b) la premire panne survienne durant le quatrime jour ;
c) il n'y ait aucune panne durant les 30 premiers jours.
243
7. Arthur a besoin d'un taxi. Devant sa maison il passe, en moyenne, un

taxi (libre) toutes les 3 minutes (selon un processus de Poisson).
Dterminez la probabilit que :
a) Arthur attende plus de 10 minutes avant d'avoir un taxi ;
b) Arthur trouve un taxi durant les 10 premires minutes ;
c) Arthur trouve un taxi durant les 30 premires secondes.
8. Le service d'urgence d'un hpital reoit, en moyenne, 30 patients par
heure. Dterminez la probabilit que :
a) aucun patient n'arrive durant les 5 prochaines minutes ;
b) exactement 4 patients arrivent durant les 2 prochaines minutes.
Remarque La partie b) se fait en utilisant la loi de Poisson.
LA LOI
NORMALE
9.
Soit X une variable alatoire de loi N(0,1). Calculez :

a) P(X > 1)
b) P(l < X < 1)
c) P(1,96 < X < 1,96)
d) P(0 < X < 2)
e) P(X > 3,09)
f)
g) P(0,7 < X < 0,8)
h) P(0,l < X < 7,2)
i)
j)
P(|X| > 2,58)
P(1,28 < X < 1,28)
P(|X 2| < 0,1)
10. Soit X une variable alatoire de loi N(20,25). Calculez :

a) P(X > 15)
b) P(15 < X < 25)
c) P(16 < X < 26)
d) P(X > 30)
e) P(X < 30)
f)
g) P(31,2 < X < 31,3)
h) P(l < X < 42)
i)
j)
P(|X 20| < 9,8)
P(X < 20,4)
P(|X 23| > 10)
244
11. Soit X une variable alatoire de loi N(0, 1). Dterminez c tel que :
a) P(X > c) = 0,1
b) P(X > c) = 0,01
c) P(c < X < c) = 0,90
d) P(c < X < c) = 0,99
e) P(X > c) = 0,99
f)
g) P(|X| < c) = 0,99
h) P(c < X < c) = 0,999
i)
j)
P(c < X < c) = 0,1
P(X < c) = 0,10
P(c < X < c) = 0,95
12. Soit X une variable alatoire de loi N(10, 16). Dterminez c tel que :
a) P(X > c) = 1 %
b) P(X < c) = 90 %
c) P(|X 10| > c) = 5 % d) P(|X 10| < c) = 90 %

13. On lance 100 sous et on obtient X faces . Calculez les probabilits
suivantes :
a) P(50 d X d 60)
b) P(49 < X < 61)
c) P(X = 54)
d) P(X > 62)
e) P(60 < X d 65)
f)
P(60,3 < X < 65,9)
14. Dans un certain cours, une note finale de 80 % assure un A. Une note de
70 79 donne un B, une de 60 69 un C, une de 50 59 un D et une
note infrieure 50 mrite un E.
Les notes des tudiants se conforment une loi N(68, 225). Quelles
proportions des tudiants devraient avoir un A ? un B ? un C ? un D ?
un E ?
15. Si X est une variable alatoire normale, quelle est la probabilit qu'elle se
situe :
a) moins d'un cart-type de la moyenne ?
b) moins de deux carts-types de la moyenne ?
c) moins de trois carts-types de la moyenne ?
d) Comparez la probabilit obtenue en b) et c) avec la borne fournie par
l'ingalit de Tchebychev.
245
16. Les scores d'une population dans un test d'aptitudes sont distribus
normalement avec moyenne P = 60 et cart-type V = 8. Si votre score est
de 76 :
a) Quelle est votre cote Z ?
b) Quel pourcentage de la population a un score suprieur au vtre ?
c) Quel pourcentage de la population a un score entre 44 et 76 ?
d) Quel pourcentage de la population a un score infrieur 40 ?
17. Soit X et Y deux variables alatoires indpendantes, X de loi N(110, 25),
Y de loi N(100, 35). Calculez
a) P(X + Y < 195)
THORME
LIMITE
b) P(X Y > 25)
18. Soit X une variable de loi B(300; 0,30). Calculez :

a) P(X t 106)
b) P(X > 74)
c) P(X d 98)
d) P(82 < X d 106)
e) P(98 d X d 114)
f)
CENTRAL
P(74 d X < 82)
19. Le poids des pches dans un certain lot est de moyenne 127 grammes et
d'cart-type 20 grammes. Quelle est la probabilit que le poids total de
16 pches soit suprieur 2 200 grammes ?
DIVERS
20. Soit X une variable avec fonction de densit :

f (x)
cx si 0 x 5
0 sinon
Quelle doit tre la valeur de c?

21. Soit X une variable alatoire de loi B(6, 1/3).
Dterminez P(X t 3), P(l d X d 3) et P(X = 3) :
a) au moyen de la formule exacte donnant la fonction de masse.
b) au moyen de l'approximation normale.
c) au moyen de l'approximation par la loi de Poisson.
246
22. Certains cbles d'acier peuvent supporter une tension moyenne de

2 120 kg (avec un cart-type de 100 kg) avant de briser. Pour soulever
une lourde charge de 7 900 kg, on dcide d'utiliser 4 cbles. Quelle est la
probabilit que ce quadruple cble soulve la charge sans se briser ?
23. Un jeu de 52 cartes ordinaires contient 12 figures (les valets, les dames
et les rois). On tire 13 cartes du jeu. Calculez la probabilit que cette
main contienne exactement 4 figures :
a) au moyen de la loi hypergomtrique ;
b) au moyen de la loi normale ajuste P et V2.
24. Supposons que les poids des adultes, en kilogrammes, sont d'cart-type
12 kg. On prlve un chantillon de taille n pour estimer la moyenne
inconnue P de la population par la moyenne chantillonnale X . Quelle
est la probabilit que l'cart entre X et P soit suprieur 5 kg si
a) n = 12
b) n = 25
c) n = 35
d) n = 50
25. Soit X une variable alatoire de loi Exp(T). Quelle est la valeur de T si
P(X > 5) = 0,2 ?
26. Un cultivateur sme des graines de haricot par rangs de 100 graines. On
suppose que 80 % des graines germeront.
a) Quel est le nombre moyen de plants obtenus par rang ?
b) Quelle est la variance du nombre de plants obtenus dans un rang ?
c) Quelle est la probabilit qu'un certain rang contienne plus de
85 plants ?
d) Quelle est la probabilit qu'un certain rang contienne moins de
70 plants ?
e) Le cultivateur a sem 20 000 rangs de haricots. Combien de ces
rangs devraient, normalement, contenir moins de 70 plants ?
f)
Quelle est la probabilit que plus de 100 rangs contiennent moins de

70 plants ?
27. Lorsqu'une machine est rgle pour mettre P grammes de petits pois
dans des botes de conserve, elle n'en met pas exactement P grammes. Le
poids rel du contenu varie selon une loi normale de moyenne P et
d'cart-type V grammes.
247
a) Si P = 300 et V = 4, quelle proportion des botes contiendront plus de

310 grammes de petits pois ?
b) Si V = 4, quelle valeur doit-on rgler P pour que 1 % seulement des
botes contiennent moins de 300 grammes ?
28. Sondage : On veut connatre la proportion p des gens qui, dans la
population gnrale, sont en faveur d'une certaine proposition. Dans un
chantillon de n personnes, on obtient X rponses favorables la
proposition en question. Notons par p = X/n la proportion exprimentale
de rponses favorables.
a) Si n = 100 et p = 0,5, dterminez P( p > 0,6).
b) Si n = 100 et p = 0,4, dterminez P( p > 0,5).
c) Si n = 100 et p = 0,4, dterminez approximativement c afin que :
P(p c < p < p + c) | 90 %.
d) Si n = 1 000 et p = 0,4, dterminez approximativement c afin que :
P(p c < p < p + c) | 90 %.
e) Si p = 0,4, dterminez n afin que P(| p |l < 0,03) |9 0 %
f)
Si p = 0,2, dterminez n afin que P(| p p| < 0,03) | 90 %
g) Si p = 0,5, dterminez n afin que P(| p p| < 0,03) | 90 %

h) Dterminez n afin que P(| p p| < 0,03) t 90 % pour toute valeur
de p.
29. Un terrain est dcoup en 10 lots identiques. Sans engrais, la production
de crales, en tonnes, pour chaque lot, suit une loi N(6, 1). En utilisant
un certain engrais, la production d'un lot sera de loi N(6,3; 1). Parmi les
10 lots, 6 sont sems sans engrais et 4 reoivent de l'engrais.
a) Quelle est la probabilit que les lots sans engrais produisent, en
moyennne, plus de 6,2 tonnes de crales ?
b) Quelle est la probabilit que les lots avec engrais produisent, en
moyenne, moins de 6,2 tonnes de crales ?
c) Quelle est la probabilit que les 6 lots sans engrais produisent, en
moyenne, plus de crales que les 4 lots avec engrais ?
248
30. On lance 20 pices de 5 et 10 pices de 10 . Soit X la valeur totale

des pices qui donnent face.
b) Utilisant l'approximation normale, calculez P(X > 116).
31. Le nombre de litres de peinture ncessaire pour un certain travail suit
une loi N(1,1; 0,04). Est-il prfrable d'acheter un format de 2 litres pour
11 $ ou plutt d'acheter un seul litre (pour 6 $), quitte devoir retourner
en acheter un second si ncessaire ?
32. Deux archers s'affrontent dans un concours de tir l'arc. chaque tir,
Xavier a 50 % de chance d'atteindre la cible. Lgrement plus habile,
Yvon atteint la cible avec une probabilit de 60 %. Chacun tire 20 flches
et le vainqueur sera, videmment, celui qui aura plus de coups au but.
Utilisant l'approximation normale, calculez :
a) la probabilit que Xavier ait plus de 13 coups au but ;
b) la probabilit que Xavier gagne le tournoi ;
c) la probabilit que Yvon gagne le tournoi ;
d) la probabilit d'un match nul.
33. On lance 12 ds et on obtient, en tout, X points.
a) Calculez E(X) et Var(X).
b) Calculez, au moyen de l'approximation normale, P(30 < X < 50).
34. Combien de fois doit-on lancer un d si l'on veut que la moyenne des
points obtenus ait 9 chances sur 10 de se trouver entre 3,0 et 4,0 ?
35. Xavier et Yvonne jouent pile ou face . Xavier lance 10 pices et
Yvonne en lance 12. Le gagnant est celui qui obtient le plus de faces.
a) Quelle est la probabilit que Xavier gagne ?
b
Quelle est la probabilit que Yvonne gagne ?
c) Quelle est la probabilit d'un match nul ?
249
36. Le diamtre intrieur (en millimtres) d'un cylindre est une variable de loi
N(10; (0,001)2). Le diamtre d'un piston est de loi N(9,995; (0,002)2).
Quelle est la probabilit qu'un cylindre et un piston s'accordent s'il faut
que le cylindre soit plus grand que le piston et qu'il n'y ait pas plus de
0,01 mm d'cart entre les deux diamtres ?
37. Supposez que la dure en heures d'une ampoule est de loi exponentielle
avec T = 1 000.
a) Utilisez le thorme limite central pour calculer la probabilit que la
dure moyenne de 300 ampoules soit infrieure 1 100 heures.
b) Calculez approximativement la probabilit que 130 ampoules ou plus
dans un chantillon de 300 aient une dure de plus de 1 000 heures.
38. Soit X une variable de loi exponentielle. Montrez que P(X > 3 | X t 2)
= P(X > 1). Plus gnralement, si a < b, montrez que P(X > b | X t a)
= P(X > b a). Interprtez.
39. Un marchand assume la garantie d'un an qui accompagne la vente d'une
certaine pice lectronique, ayant reu du fabricant l'assurance que la
dure de vie de ces pices est de 2 ans en moyenne. Aprs quelque
temps, il constate que sur 100 pices vendues, il a d en remplacer 40,
un nombre qui lui semble excessif et lui fait douter de l'affirmation du
fabricant. Supposez que le fabricant dit vrai et que la dure de vie est de
loi exponentielle.
a) Dterminez l'esprance du nombre de pices qui doivent tre
remplaces.
b) Calculez la probabilit d'avoir 40 pices ou plus remplacer. Vous
semble-t-il encore vraisemblable que la dure moyenne de vie soit de
2 ans ?
40. Le contenu moyen P des botes de sauce aux tomates produites dans une
usine peut varier d'un lot l'autre, mais nous admettrons que
l'cart-type reste fixe environ 4 ml.
a) Si, pour un lot donn, P = 200 ml, quelle est la probabilit que la
moyenne d'un chantillon de 10 botes soit infrieure 198 ml ?
b) Ne connaissant pas la valeur de P, on contrle un lot de production
en prlevant un chantillon de taille 10. Quelle est la probabilit que
la moyenne de l'chantillon s'carte de P de plus de 1 ml ?
250
c) Supposons qu'on trouve trop forte la probabilit obtenue en b) : on

souhaiterait que la probabilit d'un cart de plus de 1 ml ne soit que
de 1 %. Quelle est la taille de l'chantillon qu'on devrait prlever ?
d) La moyenne P doit tre de 200 ml. Afin de s'en assurer, un inspecteur
dcide de prlever un chantillon de 10 botes et de suivre la rgle
suivante : si le poids moyen de 10 botes est infrieur 198 ml, il
rejette le lot (dclare que P < 200) ; sinon il l'accepte. Quelle est la
probabilit qu'il rejette un lot pour lequel P = 200 ?
e) Comment doit-on modifier la rgle en d) si l'on veut que la probabilit
de rejeter un bon lot (P = 200) ne soit pas suprieure 1 % ?
41. Dterminez la probabilit qu'une variable de loi exponentielle se situe
plus de 2 carts-types de sa moyenne. Comparez cette probabilit avec la
borne donne par l'ingalit de Tchebychev.
42. Le poids du contenu des botes de conserves dans une certaine usine est
de moyenne P = 300 g et d'cart-type V = 4 g. Soit X le poids moyen d'un
chantillon de 8 botes. Calculez
a) la probabilit que X soit suprieure 302,83 g ?
b) la probabilit que l'cart entre X
suprieur 3 g ?
et P (en valeur absolue) soit
43. Au numro prcdent, quelle est la taille minimale de l'chantillon qu'on

devrait prlever pour que la probabilit d'un cart entre X et P de plus
de 1 g soit infrieure 0,05 ?
44. Une succursale de banque reoit rgulirement des dpts sous la forme
de rouleaux de 40 pices de 25 . Pour s'assurer que ces rouleaux
contiennent bien 40 pices, on dcide de mesurer la longueur des
rouleaux dposs et de rejeter ceux qui seraient trop courts. Afin de fixer
un seuil de rejet on mesure l'paisseur d'un trs grand nombre de pices
de 25 . On trouve que l'paisseur moyenne d'une pice est de 1,625 mm
avec un cart-type de 0,16 mm.
a) Supposons qu'on fixe le seuil 64 mm ; on rejette un rouleau si sa
longueur est infrieure 64 mm.
i)
Quelle est la probabilit de rejeter un rouleau qui contient

40 pices ?
ii) Quelle est la probabilit d'accepter un rouleau qui ne contient que

39 pices ?
251
b) Supposons qu'on trouve la probabilit en ii) ci-dessus trop grande ;

on souhaite plutt que la probabilit d'accepter un rouleau qui ne
contient que 39 pices soit d'au plus 5 %. Comment doit-on modifier
le seuil de rejet ?
c) Avec le seuil de rejet choisi en b), quelle est la probabilit de rejeter
un rouleau de 40 pices ? Discutez les avantages et les inconvnients
des deux seuils.
Estimation
8.1
8.2
8.3
8.4
8.5
Estimation ponctuelle
Estimation par intervalle de confiance
Estimation d'une proportion
Estimation d'une moyenne
Cas gnral
Cas o les observations sont de loi normale
Estimation d'un paramtre T quelconque
RSUM
EXERCICES
8 Estimation
8.1
253
ESTIMATION PONCTUELLE
Si l'on veut connatre la proportion relle des gens qui, dans une ville, une
province ou un pays entier ont une certaine caractristique donne, il est
habituellement hors de question d'interroger un un tous les individus
composant la population : ce serait trop long, trop coteux. On se contente
alors d'analyser une partie seulement de la population : un chantillon. Si
l'chantillon est convenablement choisi, il devrait reflter assez fidlement les
qualits de la population entire ; la proportion des gens qui, dans
l'chantillon, possdent la caractristique donne (proportion exprimentale)
devrait tre voisine de la proportion relle pour la population entire
(proportion thorique).
Plus prcisment, si l'on note p la proportion relle (inconnue) qu'on veut
estimer, si l'on note n la taille de l'chantillon (c'est--dire : le nombre
d'individus considrs) et si l'on note X le nombre d'individus qui, dans
l'chantillon, possdent la caractristique qui nous intresse, on a, en supposant la population pratiquement infinie, que X est de loi B(n, p).
La proportion exprimentale de succs sera note
p pour bien la
distinguer de la proportion relle p :

p
n
p est un estimateur de p, c'est--dire une quantit, issue des rsultats
exprimentaux, qui a la proprit d'approximer, numriquement, la valeur

du paramtre inconnu p.
Exemple 1
Deux sondages diffrents, portant sur la mme caractristique, sont

effectus. Dans le premier sondage, avec un petit chantillon de taille n = 5,
on a obtenu X = 3 (et p = X/n = 60 %). Le second sondage, avec un
chantillon plus grand, de taille n = 1 000, a donn X = 600 (et p = 60 %).
Ces deux sondages donnent-ils la mme information ? Non, assurment ! Il
va de soi que, mme si les deux estimateurs ont pris la mme valeur p =
60 %, le second rsultat est beaucoup plus prcis, beaucoup plus fiable que
le premier. D'avoir obtenu X = 3 avec n = 5 n'exclut absolument pas la
possibilit que la valeur relle de p soit, par exemple, 40 % alors que les
rsultats du grand sondage, avec n = 1 000, permettent de rejeter
catgoriquement cette possibilit.
i
254
La prcision d'un estimateur dpend visiblement de la taille de l'chantillon

utilis. Nous y reviendrons dans la prochaine section. Pour l'instant, nous ne
considrons que l'estimation ponctuelle, c'est--dire, la dtermination d'un
estimateur convenable pour un paramtre inconnu.
Un bon estimateur doit possder deux qualits naturelles :
a) L'estimateur doit tre sans biais (ou non biais). Un estimateur est sans
biais si son esprance mathmatique est gale la valeur du paramtre
estimer ; ainsi, il n'aura tendance ni surestimer ni sous-estimer
systmatiquement la valeur du paramtre inconnu. On dit d'un
estimateur sans biais qu'il est bien centr.
b) L'estimateur doit avoir une variance aussi petite que possible, afin
d'tre aussi prcis que possible.
Dans l'exemple 1, la frquence exprimentale p = X/n a servi d'estimateur
pour le paramtre p d'une loi binomiale. On vrifie aisment que p est un
estimateur sans biais pour p. En effet,
E ( p )
E(
X)
E( X )
np
p.
La variance de l'estimateur p est

Var ( p )
Var (
1
n
X)
1
n
Var ( X )
npq
n
pq
On remarque que plus n est grand, plus la variance de p , pq/n, est petite et,
par consquent, plus l'estimation sera prcise, conformment ce que
l'intuition nous a dj permis d'affirmer.
Un autre paramtre relativement facile estimer est la moyenne (thorique)
P d'une loi normale. L'estimateur naturel de P est la moyenne exprimentale
obtenue d'un chantillon X1, X2, ..., Xn de taille n. On montre aisment que
X est sans biais pour P. En effet,
8 Estimation
E( X )
255
1
E ( 6X i )
n
1
n
E ( 6X i )
1
n
6E ( X i )
( P P ... P )
nP
P.
De mme, comme on a dj vu au chapitre 7,

Var ( X )
1
Var ( 6X i )
n
1
n2
Var ( 6X i )
1
n2
(V 2 V 2 ... V 2 )
n2
nV 2
V2
Plus n est grand, plus la variance de X , V2/n, est petite, ce qui est en accord
avec notre intuition : plus nombreuses sont les observations, meilleures sont
les chances que X soit prs du P.
Exemple 2
On suppose que l'ge X, en mois, d'un bb lors de l'apparition de ses

premires dents suit une loi N(P, 2) o P est inconnu. Ayant observ 8 bbs,
on a obtenu les ges suivants :
7,3
5,7
6,4
6,7
8,2
6,0
5,8
8,3
La moyenne de ces 8 observations est X = 6,8 et, puisque la variance de

chaque observation est de 2, la variance de X est V2/n = 2/8 = 1/4. L'carttype de X est donc de 0,5. Si l'on avait dispos de 1 000 observations plutt
que de seulement 8, l'cart-type de X aurait t de
2 1 000 = 0,045 et
l'estimation de P par X aurait t beaucoup plus fiable et plus prcise.
Mise en garde Dans les applications concrtes, il faut videmment prendre

soin que l'chantillon utilis ne soit pas choisi de telle sorte que l'estimation en
soit grossirement affecte. Par exemple, si l'on veut connatre la proportion
des gens qui ont le tlphone, il est hors de question de choisir l'chantillon au
hasard dans ... le bottin tlphonique.
8.2
ESTIMATION PAR INTERVALLE DE CONFIANCE

Il peut s'avrer intressant de savoir que p = 0,60 ou que X = 6,8 mais,
sans aucune indication sur leur degr de prcision, de telles estimations,
purement ponctuelles, ne fournissent qu'une information partielle
256
concernant les valeurs relles des paramtres p et P. Le fait d'avoir obtenu

p = 0,60 nous incite supposer que la vritable valeur de p est
vraisemblablement voisine de 0,60. Est-on pratiquement certain que le
vritable p se situe entre 0,59 et 0,61 ou, au contraire, y a-t-il de fortes
chances qu'il ne se trouve mme pas entre 0,40 et 0,80 ?
L'estimation d'un paramtre inconnu n'est vraiment satisfaisante que si elle
est prsente de telle faon qu'elle fournisse aussi une indication concernant
son degr de prcision. Rappelons qu'un estimateur (comme p ou X ) est
une variable alatoire et que plus la taille (n) de l'chantillon est grande, plus
cet estimateur aura de chances de se trouver prs de la valeur relle du
paramtre qu'il a pour but d'estimer. Si n est suffisamment grand, on sera
pratiquement certain que l'erreur d'estimation (la distance entre p et p ou
entre X et P) sera plus petite qu'un certain cart donn et que, par
consquent, la vritable valeur du paramtre qu'on veut estimer sera
l'intrieur d'un certain intervalle s'tendant de part et d'autre de la valeur
prise par l'estimateur. Il reste prciser, quantifier ce qu'on entend par
tre presque certain ; il reste aussi savoir dterminer les bornes de cet
intervalle de confiance dans lequel on s'attend d'avoir captur la
vritable valeur du paramtre estimer.
En pratique, on convient l'avance de courir un certain risque, not D (lettre
grecque alpha). Cette quantit D (habituellement, on choisit D = 1 %, 5 % ou
10 %) reprsente la probabilit que l'intervalle qu'on obtiendra ne contienne pas
la vritable valeur du paramtre qu'on cherche estimer. La quantit 1 D est
appele le niveau de confiance de l'intervalle et indique la probabilit que le
paramtre inconnu soit rellement l'intrieur de l'intervalle qu'on obtiendra.
Les bornes de l'intervalle de confiance seront deux quantits Y1, et Y2,
calcules partir des rsultats exprimentaux (alatoires) dont on dispose.
En notant par T le paramtre estimer, on veut avoir
P ( Y1 T Y2 )
1D.
Le couple (Y1, Y2) est un intervalle de confiance de niveau 1 - D pour le

paramtre T. Si, par exemple, on a convenu de fixer le risque D 5 %,
l'intervalle de confiance aura 95 chances sur 100 de contenir la vritable
valeur du paramtre T.
8 Estimation
8.3
257
ESTIMATION D'UNE PROPORTION

Dans la premire section de ce chapitre on a vu que la frquence
exprimentale p = X/n est un excellent estimateur (en fait, le meilleur) de la
probabilit thorique p d'une loi binomiale. On a vu aussi que p est sans
biais pour p et que sa variance est
2
V p
pq
Si n est grand on aura, par le thorme limite central, que
p est
2
p
approximativement de loi N(p, V ), c'est--dire,

p p
est N ( 0 ,1).
V p
Ayant convenu d'un risque D donn, on peut trouver, dans la table de la loi
N(0, 1), un nombre cD, tel que
P ( cD
p p
V p
cD ) | 1 D .
Utilisant ce cD, on aura

P ( p cD V p p p cD V p ) | 1 D .
Pour obtenir un intervalle de confiance pour le paramtre p, il faut

reformuler cette expression de telle faon que ce soit le paramtre p (plutt
que son estimateur p ) qui soit isol entre les deux ingalits.
On obtient :
P ( p cD V p p p cD V p ) | 1 D .
L'intervalle ( p cD V p ) a donc une probabilit (approximative) 1 D de

contenir la vritable valeur de p. Il ne s'agit toutefois pas encore de
l'intervalle de confiance dsir et ceci pour la simple raison que, tel
qu'exprim, il est incalculable. En effet, le terme V p
pq n est fonction de
la probabilit thorique p dont la valeur exacte est toujours inconnue.
258
Cette difficult est heureusement facile lever. Il suffit d'estimer son tour
la variance thorique V 2p
pq n par la valeur prise par son estimateur
naturel
V 2p
p q
On peut montrer rigoureusement que cette substitution est licite. En

remplaant l'cart-type thorique V p par son estimateur V p , on obtient
enfin l'intervalle de confiance
( p r cD V p )
( p r cD
p q n )
qui est, approximativement, de niveau 1 D pour le paramtre p.

Exemple 3
Lors d'un sondage auprs de 500 personnes et portant sur leurs opinions
politiques, 180 personnes se sont dclares favorables au parti A. Estimer la
proportion thorique p des gens favorables au parti A au moyen d'un
intervalle de confiance de niveau 90 %.
Solution : On a p = X/n = 180/500 = 0,360.
Aussi, pour avoir D = 10 %, on doit prendre cD = 1,645.
Il ne reste plus qu' employer la formule
p r c
D
p q
n
0 , 360 r 1, 645 0 , 36 u 0 , 64
500
( 0 , 360 r 0 , 035 )
( 0 , 325; 0 , 395 ).
i
Remarque cause d'un conflit de notation avec l'emploi de la virgule dcimale

il convient, quand il y a risque d'ambigut dans la prsentation numrique
d'un couple, de remplacer la virgule centrale par un point-virgule.
Remarque C'est un abus de langage de prtendre qu'un intervalle de
confiance numriquement dtermin a une probabilit de 1 - D de contenir le
paramtre inconnu. Dans l'exemple 3, il serait abusif de conclure qu'il y a
9 chances sur 10 que la valeur du paramtre p soit comprise entre 0,325 et
0,395. Ce n'est pas le paramtre qui est alatoire, ce sont plutt les bornes de
8 Estimation
259
l'intervalle de confiance. Une fois calcules, ces bornes ne sont plus des
variables alatoires. Il n'y a plus de hasard ! Prtendre que le paramtre p a
9 chances sur 10 d'tre situ entre tel et tel nombres donns est une
formulation fautive qui laisse entendre que p est une variable alatoire, ce qu'il
n'est pas. Rendu lgitime par l'usage, cet abus de langage est habituellement
tolr.
Remarque La formule que nous utilisons ne donne que des intervalles de
confiance symtriques, c'est--dire, qui partagent le risque D en deux moitis
gales. Le vritable p a donc une probabilit D/2 de se trouver droite de
l'intervalle (erreur de sous-estimation) et une probabilit D/2 de se trouver
gauche de l'intervalle (erreur de surestimation). Il peut arriver qu'on prfre
partager le risque total D de faon non symtrique. Nous ne traiterons pas de
ce cas ici et chaque fois qu'on parlera d'un intervalle de confiance, celui-ci sera
implicitement suppos symtrique.
Remarque Lorsqu'on estime un paramtre au moyen d'un intervalle de
confiance, deux qualits espres, prcision et scurit, sont en opposition.
On ne peut amliorer l'une sans diminuer l'autre. Si l'on exige beaucoup de
scurit (risque D trs petit), on obtiendra un intervalle de confiance plus large
que si l'on se contente d'une scurit plus raisonnable. Si l'on veut beaucoup
de prcision (intervalle troit), il faudra payer cette prcision par un risque
d'erreur plus considrable. La seule faon d'obtenir la fois une bonne
prcision et une grande scurit est de ne pas lsiner sur la valeur de n, ce qui
n'est pas toujours conomique.
Exemple 4
Avec n = 100, on a obtenu p = 0,21. Calculer les intervalles de confiance de

niveau 50 %, 10 %, 5 %, 1 % et 0,1 % pour p.
Solution : Les cinq valeurs de D donnent des cD, qui valent, respectivement,
0,674, 1,645, 1,960, 2,576 et 3,291.
Les cinq intervalles de confiance sont prsents dans le tableau 8.1.
260
TABLEAU 8.1
D
cD
Intervalle de confiance
Longueur
50 %
0,674
(0, 18; 0,24)
0,06
10 %
1,645
(0,14; 0,28)
0,14
5%
1,960
(0, 13; 0,29)
0,16
1%
2,576
(0,11; 0,31)
0,20
0,1 %
3,291
(0,08; 0,34)
0,26
Lequel de ces cinq intervalles de confiance est le meilleur ? Assurment, un

risque de 50 % est beaucoup trop fort et le premier intervalle n'est pas trs
satisfaisant. De mme, un niveau de confiance de 99,9 % parat exagr et
rend l'intervalle de 30 % plus large que celui obtenu avec D = 1 %. En
gnral, on choisit D entre 1 % et 10 %, selon le contexte et l'importance
relative de nos besoins en prcision et en scurit.
i
Exemple 5
Si l'on sait dj que la valeur du paramtre p est voisine de 0,15 %, combien

d'observations doit-on effectuer pour que l'intervalle de confiance de niveau
95 % pour p soit de rayon (ou demi-longueur) approximatif 0,05 ? 0,02 ?
0,01 ?
Solution : Puisque D/2 = 2 1/2 %, on doit prendre cD = 1,960. Le rayon de
l'intervalle de confiance sera donc l,960 p q / n . On ne sait pas l'avance
quelle sera la valeur de p mais on peut s'attendre ce qu'il prenne une
valeur voisine de p qu'on a suppos voisin de 0,15. Le rayon r de l'intervalle
de confiance devrait donc tre, approximativement,
r | 1, 960 0 ,15 u 0 , 85 / n
0 , 700 / n .
Exprimant n en fonction de r, on obtient n | 0,490/r2 et, en donnant

successivement r les valeurs 0,05, 0,02 et 0,01 on obtient, pour n, les
valeurs 196, 1 225 et 4 900.
i
Remarque Dans l'exemple 5 on voit que, pour un niveau de confiance donn,
le nombre d'observations requises est inversement proportionnel au carr de
la prcision dsire. Pour avoir une estimation dix fois plus prcise, il faut cent
8 Estimation
261
fois plus d'observations. Ce phnomne se manifeste dans presque tous les

problmes d'estimation, pas seulement dans le cas du paramtre p d'une loi
binomiale.
L'exemple 5 prsente une situation passablement idalise : on y suppose
qu'on connat l'avance la valeur (approximative) de p. Quand, dans la
pratique, on veut dterminer le nombre d'observations requises pour que
l'intervalle de confiance soit de la longueur dsire, on n'a pas toujours la
chance de possder une telle information pralable. Le mieux qu'on puisse
faire est de se fier son jugement, de se rfrer des situations analogues
dj rencontres. On peut aussi procder un prsondage de petite taille qui
aura pour seule fonction de fournir une estimation grossire de p grce
laquelle il sera possible de dterminer la taille n qu'il faudra prendre pour le
sondage principal. On peut aussi adopter une attitude conservatrice et
choisir une valeur de n qui nous assurera que, quelle que soit la valeur de n,
l'intervalle de confiance sera d'un rayon au plus gal la prcision dsire.
Exemple 6
Combien d'observations doit-on effectuer afin que, quelle que soit la valeur de
p, l'intervalle de confiance de niveau 95 % pour p soit de rayon au plus
0,05 ? 0,03 ? 0,02 ? 0,01 ?
Solution : Le rayon de l'intervalle de confiance de niveau 95 % est
1, 960 p q / n .
Or, la valeur maximale possible pour p q est 1/4 (quand p = q = 1/2 Quelle
que soit la valeur de p , le rayon maximum de l'intervalle de confiance gale
r max
1, 960
4n
0 , 98
n . Pour avoir r < rmax, il faut prendre n t (0,98/rmax)2.
En donnant successivement rmax les valeurs 0,05, 0,03, 0,02 et 0,01, on

obtient n t 385, n t 1 068, n t 2 401 et n t 9 604.
Remarque Quand paraissent dans les journaux les rsultats d'un sondage
portant sur la popularit des diffrents partis politiques, il est souvent prcis
que l'erreur d'estimation est d'au plus 3 %, 19 fois sur 20. Ce niveau de
prcision est en accord avec le fait que de tels sondages portent
habituellement sur des chantillons de taille lgrement suprieure 1 000.
Pour les principaux partis (ceux dont la popularit est de l'ordre de 30 % ou
50 %) cette erreur maximale de 3 % est correctement value. Pour les partis
marginaux, dont la popularit est de l'ordre de quelques points peine, l'erreur
vraisemblable est considrablement infrieure au 3 % dclar.
262
8.4
ESTIMATION D'UNE MOYENNE

Cas gnral Soit X1, X2, , Xn un chantillon de loi quelconque non spcifie,
pour laquelle la moyenne P et la variance V2 sont inconnues. On veut estimer
la moyenne thorique P au moyen d'un intervalle de confiance de niveau 1
D donn.
On sait dj que, quelle que soit la loi de X, l'estimateur ponctuel P = X est
toujours sans biais pour P. On sait aussi que sa variance est V X2
V 2 n et le
thorme limite central permet d'tablir que, si n est grand,

X est approximativement de loi N ( P , V X2 ).
Ayant convenu d'un risque D donn, on a donc
P ( P cD V
X P cD V
) | 1 D .
o le terme cD, est obtenu de la table de la loi N(0,1). Isolant le paramtre P

au centre des deux ingalits, on obtient
P ( X cD V
L'intervalle ( X r c D V X ) ( X r
cD V
P X cD V
) | 1 D.
) a donc une probabilit voisine de 1 D de
contenir la vritable valeur de P. Il ne s'agit cependant pas encore de

l'intervalle de confiance dsir puisque, tel qu'exprim, il est incalculable : la
valeur de l'cart-type V X
n est inconnue et devra donc tre estime.
Si la moyenne thorique P tait connue, la variance V 2

tre estime par
1
(Xi
n
E (( X P ) 2 ) pourrait
P )2 .
i 1
Puisque la valeur exacte de P est inconnue, il faudra, dans le calcul, la

remplacer par la moyenne chantillonnale X . La variance V2 peut donc tre
estime par
1
n
(Xi
i 1
X )2 .
8 Estimation
263
Cet estimateur naturel a cependant un dfaut : il est biais et a tendance

sous-estimer la valeur vritable de V2. On peut montrer (nous ne le ferons
pas) que l'esprance de cet estimateur est nn 1 V 2 plutt que le V2 dsir. Ce
biais systmatique est heureusement facile corriger : il suffit de diviser
6 ( X i X ) 2 par n 1 plutt que par n. On obtient alors, pour V2 l'estimateur
sans biais
1
V 2
(Xi
n 1
X )2 .
i 1
L'estimateur V 2 peut s'exprimer sous plusieurs formes algbriquement

quivalentes parmi lesquelles les plus commodes sont
V 2
6X i2 nX 2
n 1
n 2
2
X X .
n 1
Revenons l'estimation de P.
On a dj tabli que l'intervalle ( X r c D V X ) ( X r c D V
n ) a une probabilit
1 D (approximativement) de contenir la vritable valeur de P. En y

remplaant l'cart-type thorique (inconnu) V, par sa valeur estime V (ou,
ce qui revient au mme, en remplaant V X
par V X
n ) on
obtient l'intervalle de confiance

( X r c D V )
X
( X r c D V
n)
qui est de niveau (approximatif) 1 D pour P.

Exemple 7
En vue d'estimer le nombre moyen de passagers par vhicule automobile

(conducteur inclus) circulant sur une certaine autoroute, un observateur,
install un poste de page, a recueilli les donnes prsentes dans le
tableau suivant :
TABLEAU 8.2
Nombre de
passagers
Effectif
TOTAL
230
248
117
76
14
688
264
Estimer la moyenne thorique P au moyen d'un intervalle de confiance de

niveau 95 %.
Solution : Le nombre total d'observations est 688. Les effectifs donns
conduisent 6Xi = 1 469 et 6 X i2 = 3 949, ce qui mne X = 2,135,
V 2 = 1,183 et V = 1,088.
Pour avoir D = 5 %, il faut prendre cD = 1,960 et l'intervalle de confiance pour
P est
( X r c D V
( 2 ,135 r 1, 960 u 1, 088 26 , 23 )
n)
( 2 ,135 r 0 , 081)
( 2 , 054 ; 2 , 216 ).
Cas o les observations sont de loi normale Pour estimer, par intervalle de
confiance, la moyenne thorique P d'une loi quelconque non spcifie, nous
venons d'utiliser le fait que, pour n grand,
X P
V
et
X P
V
sont pratiquement de loi N(0, 1).
Si l'chantillon Xl, X2, ..., Xn est form de variables qui sont dj de loi
normale, on peut faire beaucoup mieux : on peut obtenir, pour P, un
intervalle de confiance exact plutt qu'approximatif, mme pour des valeurs
de n qui sont petites.
Dans le cas o les variables Xl, X2, ..., Xn sont de loi normale, on sait que
leur moyenne X est aussi de loi normale et que
X P
V
est exactement de loi N(0, 1).
En remplaant, au dnominateur, l'cart-type thorique V (inconnu) par

l'cart-type chantillonnal V , on obtient une nouvelle variable,
X P
V
qui n'est pas rigoureusement de loi normale.
Il s'agit d'une nouvelle loi, la loi de Student, et c'est dans une table conue
pour cette loi que sera trouve la valeur de cD, telle que
8 Estimation
X P
P cD
cD
V X
265
1D.
Comme c'tait le cas pour la loi F Q2 , la loi de Student, note tQ, est
paramtrise par un nombre de degrs de libert Q. Ici, Q = n 1. La loi tQ
ressemble beaucoup la loi N(0, 1). En fait, quand Q est grand, ces deux lois
s'avrent pratiquement identiques.
Le risque D tant convenu, le nombre cD, tel que P(tQ > cD) = D/2 sera trouv
dans la table 4 de la page 399 l'intersection de la ligne correspondant Q
et de la colonne correspondant D/2. Ce nombre cD ayant t obtenu de la
table de la loi de Student, on a alors
P ( cD V X X P cD V X )
1D.
Isolant P au centre des ingalits, on obtient

P ( X cD V X P X cD V X )
1D.
L'intervalle de confiance de niveau 1 D pour P est donc
( X r cD V X )
c V
X r D
Remarquons que cette formule est rigoureusement identique celle qui

s'applique dans le cas d'une loi non spcifie. La seule diffrence est la
source du cD qui provient de la table de la loi de Student (avec Q = n 1)
plutt que de celle de la loi N(0, 1).
Prcisons que quand la loi de l'chantillon n'est pas spcifie, on prfre tout
de mme prendre cD dans la table de la loi de Student plutt que dans celle
de la loi N(0, 1). Si n est trs grand (comme l'exemple 7), les deux tables
donneront pratiquement le mme cD et le choix de la table importe peu. Si n
est plus modeste, il vaut mieux utiliser le cD (lgrement plus grand, plus
scuritaire) fourni par la loi de Student. Mieux vaut utiliser la solution qui
sera plus prcise si les Xi sont vaguement de loi normale que celle qui est
approximative dans tous les cas.
266
Exemple 8
On veut connatre le temps moyen que dure une face de disque microsillon.
Ayant chronomtr 5 disques (10 faces), on a obtenu les rsultats suivants
(en minutes) :
17,5
22,4
18,6
24,3
19,5
21,6
15,9
20,4
18,7
20,3
Supposant que ces variables sont de loi normale, calculer l'intervalle de

confiance de niveau 90 % pour P.
Solution
Les
donnes
exprimentales
donnent
6X i
199,2
et
6X i2 = 4 022,02. On trouve donc X = 19,92 et V 2 = ( 6X i2 nX 2 ) ( n 1) =

5,995 1.
Avec D = 10 % et Q = n 1 = 9, la table de la loi de Student donne cD = 1,833.
L'intervalle de confiance pour P est donc
c V
X r D
19 , 92 r 1, 833 5 , 995 1
10
(19 , 92 r 1, 42 )
(18 , 50 ; 21, 34 ).
Avec l'abus de langage habituel, il y a donc 90 chances sur 100 que la
vritable valeur de P se trouve entre 18,50 et 21,34.
8.5
ESTIMATION D'UN PARAMTRE T QUELCONQUE

Dans les sections 8.3 et 8.4 nous avons trait de l'estimation, par intervalle
de confiance, d'une probabilit thorique (p) ainsi que d'une moyenne
thorique (P). Dans chacun de ces cas nous avons obtenu, essentiellement,
des intervalles de confiance de la forme
T r c V
D
o T tait l'estimateur naturel pour le paramtre T qu'on voulait estimer, o

cD, tait obtenu de la table de la loi N(0, 1) en fonction du niveau 1 D dsir
2
et o V 2 tait un estimateur de V Var (T ) .
T
Dans la grande majorit des cas, l'estimation d'un paramtre T pour une loi
quelconque se fait de la mme faon. Il suffit de trouver un estimateur
8 Estimation
267
convenable T dont la variance V T2 peut tre estime. Trs souvent, V T2 peut

s'exprimer en fonction de T et l'estimateur V T2 s'obtient alors en remplaant
simplement T par T dans la formule qui exprime V T2 en fonction de T.
C'est prcisment ce qui a t fait lors de l'estimation du paramtre p d'une
loi binomiale. On a utilis l'estimateur p = X/n dont la variance V 2p
pq / n a
pu tre estime par V 2p
p q / n .
Si, pour n grand, l'estimateur T se comporte normalement (ce sera le cas, par
exemple, s'il est fonction de la somme des Xi), la formule gnrale
(T r cD V ) fournira l'intervalle de confiance dsir.
T
Exemple 9
Soit X1, X2, , Xn, un chantillon de loi Exp(T). Dterminer la formule

donnant l'intervalle de confiance pour T.
Solution : Puisque E(Xi) = T, l'estimateur naturel utiliser est T = X , qui est
sans biais pour T. Puisque Var(Xi) = T2, la variance de X est V 2 = T2/n, qui
T
T 2 n
peut tre estime par V X

de confiance (T r cD V T )
( X r cD X
n . On obtient donc, pour T, l'intervalle
n).
Exemple 10 Soit X1, X2, , Xn un chantillon de loi Poisson (O). Dterminer la formule
donnant l'intervalle de confiance pour O.
Solution : Puisque E(Xi) = O, l'estimateur naturel utiliser est O X , qui est
sans biais pour O. Puisque Var(Xi) = O, la variance de X est V X2 O n , qui
peut tre estime par V X2
de confiance ( O r cD V O )
O n
( X r cD
X n . On obtient donc, pour O, l'intervalle

X n).
268
RSUM
Qualits d'un bon estimateur ponctuel :
a) tre sans biais pour le paramtre considr.
b) Avoir une petite variance.
Intervalle de confiance : Couple de variables (Y1, Y2), obtenues de l'chantillon,
tel que P(Y1 < paramtre < Y2) = 1 D.
Loi
Paramtre
Intervalle de
estim
confiance
p q
Binomiale (n grand)
( p r cD
Loi non spcifie

(n grand)
(X r
Loi normale
(solution exacte)
(X r
Loi quelconque
(n grand)
(T r cD V T )
2
V
n
c D V
n
c D V
n
6( X i X )2
6X i2 nX 2
n 1
n 1
n 1
Source du cD
Loi N(0, 1)
Loi tQ de Student
avec Q = n 1
Loi tQ de Student
avec Q = n 1
Loi N(0, 1)
( X 2 X 2 ).
EXERCICES
ESTIMATION
PONCTUELLE
1. Soit X1, X2, ..., Xn un chantillon de loi Exp(T). Montrez que la moyenne X
est un estimateur sans biais pour T et que sa variance est T 2 n .
2. Soit X1, X2, ..., Xn un chantillon de loi Poisson(O). Montrez que la
moyenne X est un estimateur sans biais pour O et que sa variance est
O/n.
8 Estimation
269
3. Considrons un chantillon X1, X2, de taille n = 2.

a) Montrez que chacun des trois estimateurs suivants est sans biais
pour T = PX.
T1
X 1 , T2
( X 1 X 2 ) 2 , T3
5X1 4 X 2 .
b) Dterminez la variance de chacun de ces trois estimateurs (en

fonction de V X2 ). Quel est le plus prcis pour estimer Px ?
ESTIMATION PAR
INTERVALLE DE
CONFIANCE
ESTIMATION D'UNE
PROPORTION
4. Si, pour estimer un certain paramtre T, on utilise un estimateur T qui

est de loi N(T, 1/100), quelle est la probabilit que l'intervalle (T r 0,2)
contienne la vritable valeur de T ?
5. On veut connatre la proportion d'oranges gtes dans un lot d'oranges.
Un chantillon de 300 oranges contenait 18 fruits gts. Estimez p au
moyen d'un intervalle de confiance de niveau 90 %.
6. Lors d'un sondage auprs de 1 000 personnes et portant sur leurs
opinions politiques, 410 personnes se sont dclares en faveur du parti
A, 342 personnes ont favoris le parti B, 78 personnes ont prfr le parti
C et les autres (170) se sont dclares indcises. Calculez un intervalle
de confiance de niveau 95 % pour chacune des quatre proportions.
7. Durant la saison 1988, le joueur de baseball Tim Raines, qui joue pour les
Expos de Montral, a frapp 116 coups srs en 429 prsences au bton,
ce qui lui a donn une moyenne de 0,270. Estimez sa moyenne vritable
(thorique) au moyen d'un intervalle de confiance de niveau 95 %.
8. Un volume traitant du jeu d'checs contient 360 parties de grands
matres. Parmi ces parties, 172 ont ts gagnes par les blancs, 103 par
les noirs et 85 parties ont t nulles. Estimez, par des intervalles de
confiance de niveau 90 %, les trois probabilits considres.
9. On sait qu'une probabilit p est plus difficile estimer quand elle est
prs de 1/2 car cette valeur de p maximise pq qui vaut alors 1/4. Pour
D = 1 %, 5 % et 10 %, dterminez le nombre n d'observations qui assure
que la distance entre p et p sera infrieure 0,10 ; 0,05 ; 0,02 ; 0,01
avec une probabilit au moins gale 1 D. Il y a 3 u 4 = 12 cas
considrer. Trois de ces cas ont t traits dans l'exemple 6. Prsentez les
12 rsultats dans un tableau.
270
ESTIMATION D'UNE
MOYENNE
10. Un archer a tir 20 flches vers une cible. Selon la prcision du tir,
chaque flche donne plus ou moins de points. En ses 20 lancers, l'archer
a obtenu une seule fois 5 points, 3 fois 3 points, 7 fois 2 points, 7 fois 1
point, et a rat 2 fois la cible (aucun point). Estimez, par un intervalle de
confiance de niveau 90 %, la moyenne thorique P de points qu'il obtient
chaque tir.
11. Un leveur de lapins veut connatre le nombre moyen P de lapereaux qui
sont produits par porte. Au cours des quelques derniers mois, 240
lapines ont mis bas, donnant, en moyenne 6,13 lapereaux, avec un
cart-type de 1,31. Estimez P au moyen d'un intervalle de confiance de
niveau 95 %.
12. Un fabricant de pneus d'automobile veut connatre la qualit de sa
production. Dix pneus ont t soumis des preuves de rsistance
l'usure. Les rsultats (en milliers de kilomtres parcourus) sont
95, 108, 86, 92, 94, 101, 79, 89, 91 et 96.
Calculez un intervalle de confiance de niveau 90 % pour la dure
moyenne d'un pneu.
13. Un organisme de protection du consommateur tudie la qualit de
diffrentes marques de piles de lampe de poche. Plusieurs piles ont t
soumises une mme preuve o l'on mesurait leur temps de service.
12 piles de marque A ont dur en moyenne 3,42 heures, avec un
cart-type de 0,39.
8 piles de marque B ont dur en moyenne 4,16 heures, avec un
cart-type de 0,82.
2 piles de marque C ont dur en moyenne 4,02 heures, avec un
cart-type de 1,04.
30 piles de marque D ont dur en moyenne 2,95 heures, avec un
cart-type de 0,53.
Calculez un intervalle de confiance de niveau 90 % pour chaque
moyenne.
ESTIMATION D'UN
PARAMTRE T
QUELCONQUE
14. Dans le service d'obsttrique d'un certain hpital, on a enregistr 472

naissances durant les 100 derniers jours. En supposant que le nombre
de naissances par jour suit une loi Poisson(O), estimez O au moyen d'un
intervalle de confiance de niveau 95 % (estimez O par O X ).
8 Estimation
271
*15. Soit X une variable alatoire de loi B(n, p) o p est connu. On veut
estimer le nombre d'essais n. L'estimateur naturel est n X p , qui est
sans biais.
a) Dterminez la formule donnant l'intervalle de confiance pour n.
b) En n lancements d'un d, la face 6 a t obtenue 25 fois. Estimez n
au moyen d'un intervalle de confiance de niveau 90 %.
*16. Une assemble de 300 personnes vote pour se dsigner un prsident.
Deux candidats, A et B, sont en lice. Aprs dpouillement partiel de 200
bulletins de vote (parmi 300), on constate que A a reu 106 votes et B en
a eu 94. Estimez, au moyen d'un intervalle de confiance de niveau 90 %
le nombre total de votes qui iront au candidat A. (Suggestion : utilisez
l'approximation normale pour la loi hypergomtrique).
DIVERS
17. Soit X1, X2, ..., Xn un chantillon de loi U(0, T). On pose T 2 X . Cet
estimateur est-il sans biais pour T ? Quelle en est la variance ? Cet
estimateur n'est pas le meilleur (voir problme 22).
*18. Soit X1, X2, ..., Xn un chantillon de loi Gom(p). Dterminez un

estimateur convenable pour p.
Suggestion : Dterminez d'abord un bon estimateur pour 1/p.
*19. Soit X une variable alatoire de loi uniforme U(0, T). Montrez que
( 22XD , 2DX ) est un intervalle de confiance de niveau 1 D et pour T.
*20. Soit X1, X2, ..., Xn un chantillon de loi N(P, 4). Quel est le niveau de
l'intervalle de confiance ( X 1, X + 1), pour P, si n = 4 ? si n = 16 ? si
n = 36 ?
*21. Soient T1 , et T2 deux estimateurs, chacun sans biais, pour un mme
paramtre T.
a) Montrez que, pour toute valeur de c, l'estimateur combin
T cT1 (1 c )T2 est aussi un estimateur sans biais pour T.
b) Si T1 , et T2 sont indpendants (par exemple, proviennent d'chantillons diffrents), exprimez V T2 en fonction de V T2 , V T2 , et c.
1
Remarque On peut montrer que c'est en prenant c V 2
T2
V T2 est minimise.
( V 2 V 2 ) , que
T1
T2
272
*22. Soit X1, X2, ..., Xn un chantillon alatoire de loi uniforme U(0, T). Posons
Y = max{ X1, X2, ..., Xn }.
a) Utilisant le fait que E(Y) =
n
T
n 1
, de quelle faon peut-on utiliser Y
pour dfinir un estimateur T qui soit sans biais pour T ?

b) Utilisant le fait que Var(Y) =
nT
( n 1 ) 2 ( n 2 )
, quelle est la variance de
l'estimateur T obtenu en a) ? Cet estimateur est-il meilleur que celui

prsent au problme 17 ?
23. n ds ont t lancs et ont donn, en tout, 117 points. Estimez n au
moyen d'un intervalle de confiance de niveau 90 %.
24. En employant les donnes de la section 1.4, page 15, dterminez un
intervalle de confiance pour la probabilit qu'un enfant naisse lors de la
pleine lune.
25. On prlve un chantillon de 20 paquets de petits pois de format 400 g et
on en pse le contenu. Voici les rsultats :
402
398
398
397
401
394
399
397
399
396
401
398
400
399
402
398
397
394
401
398
Supposons que vous travaillez pour une association de consommateurs

et que vous souponnez le fabricant d'avoir volontairement rduit le
contenu des paquets. Sachant que le fabricant produit 100 000 paquets
par anne, et que 1 kg de petits pois lui cote en moyenne 30 , estimez
le montant d'argent pargn annuellement avec ses pratiques
frauduleuses. Entourez votre estimation d'un intervalle de confiance de
niveau 95 %.
26. L'une des tches d'une usine consiste peindre des grands panneaux de
6 m2 de surface. On a toujours employ une peinture qui cote
actuellement 4 $ le litre. Son pouvoir couvrant est bien connu, car au
cours des annes on a peint 10 000 panneaux et on sait qu'il a fallu
employer 7 500 litres de peinture pour le faire. Il est question maintenant
d'adopter une nouvelle peinture, dont le prix est de 4,50 $ le litre, mais
dont le pouvoir couvrant est possiblement suprieur.
8 Estimation
273
Avec la nouvelle peinture, on peint 10 panneaux, et on mesure avec soin

la quantit de peinture employe pour chacun. Voici les rsultats, en
litres :
0,65
0,62
0,58
0,54
0,56
0,52
0,53
0,59
0,63
0,61
a) Dterminez un intervalle de confiance pour la quantit moyenne de

nouvelle peinture requise pour peindre un panneau (prendre
D = 5 %).
b) Dterminez un intervalle de confiance pour l'pargne moyenne par
panneau qui rsulterait de l'emploi de la nouvelle peinture (prendre
D = 5 %).
c) Dterminez un intervalle de confiance pour le montant de l'pargne
annuelle si on peint 2 000 panneaux par anne (prendre D = 5 %).
27. Dans un chantillon de 300 hommes, on a trouv 90 fumeurs. Dans un
autre chantillon, form de 100 femmes, on a trouv 20 fumeuses.
a) Estimez, par des intervalles de confiance de niveau 95 % chacune des
proportions ph et pf de fumeurs chez les hommes et chez les femmes.
b) Utilisant le fait que les hommes forment 49,3 % de la population (et
les femmes 50,7 %), estimez la proportion p de fumeurs dans la
population. Dterminez V p , V p et dterminez un intervalle de
confiance de niveau 95 % pour p.
*28. Pour chacun de 15 couples maris choisis au hasard on a observ l'ge
de l'poux (X) et l'ge de l'pouse (Y). On a obtenu les donnes du tableau
suivant
TABLEAU 8.3
X (poux)
Y (pouse)
X (poux)
Y (pouse)
X (poux)
Y (pouse)
37
32
39
28
61
55
65
64
25
22
43
42
23
23
40
43
52
47
36
37
45
39
34
33
54
51
31
30
48
51
274
On veut estimer la diffrence moyenne T = PX PY entre l'ge d'un poux

et celui de son pouse (par un intervalle de confiance de niveau 90 %).
a) Posez W = X Y et calculez les 15 valeurs de Wi. Estimez T par T =
2
W et V T par V W . Quel intervalle de confiance obtenez-vous ?
b) Un statisticien amateur estime T par T = W Y et V T2 par V X2 + V Y2 .

Comparez l'cart-type V T qu'il utilise avec celui obtenu en a). Quelle
erreur a-t-il commise ?
Tests d'hypothses
9.1
9.2
9.3
9.4
9.5
Test d'hypothse sur une proportion

Test sur l'galit de deux proportions
x Cas o les donnes sont apparies
Test d'hypothse sur une moyenne
Test sur l'galit de deux moyennes
x Cas o les variances sont supposes gales
x Cas o les donnes sont apparies
Test d'hypothse sur un paramtre T quelconque
x Test sur l'galit de Tx et Ty
RSUM
EXERCICES
276
Introduction Nous avons dj trait, dans les premiers chapitres, de certains

tests d'hypothse : les tests bass sur le calcul de F2 ou sur celui du
coefficient de corrlation r. Chaque fois, une hypothse (appele hypothse
nulle et note H0) tait mise et on se permettait de la rejeter si les rsultats
chantillonnaux s'cartaient trop de ce que l'hypothse permettait de prvoir.
Nous allons maintenant tudier les tests d'hypothse de faon plus
systmatique, sans manquer l'occasion d'en mettre en lumire les
mcanismes mthodologiques. Il n'est peut-tre pas inutile en effet de
rappeler que toute dmarche scientifique (et cela s'entend aussi bien des
sciences physiques que des sciences humaines) procde selon le mme
schma : nonc d'une hypothse, collecte de donnes exprimentales qui
constituent l'chantillon, acceptation ou rejet de l'hypothse partir de la
comparaison entre les donnes de l'chantillon et les rsultats prdits par
l'hypothse. Tire de considrations et de calculs probabilistes, la conclusion
est assortie d'une marge d'erreur, dont on fixe le seuil au dpart.
Ce chapitre est donc au cur de ce manuel, comme la matire qu'il traite est
au cur de la statistique. Hors son importance dans toute dmarche
exprimentale, il est aussi l'occasion d'utiliser fond les techniques
mathmatiques dveloppes dans les chapitres prcdents et (nous
l'esprons) de mieux en apprcier le contenu et la porte. Nous dveloppons
maintenant l'exemple d'une situation qui va nous permettre d'illustrer les
ides et de faire la synthse des techniques propres aux tests d'hypothse.
Nous allons donc supposer qu'une conserverie met sur le march des botes
de petits pois, dont l'tiquette indique que le contenu pse 400 g. Soucieux
de l'image de la compagnie et de sa marge de profit le directeur de la mise
en march se propose de vrifier si le poids rel est bien tel que prtendu. Il
procdera alors selon les grandes tapes suivantes :
1. noncer clairement une hypothse tester. Bien entendu, son hypothse
ici est que le poids moyen P de toute sa production (la population) est de
400 g. H0 : P = 400 g. En gnral, les tests simples usuels sont de ce
type : ils proposent une hypothse qui attribue une valeur dtermine au
paramtre tudi.
H0 : T = T0.
9 Tests d'hypothses
277
2. Se donner un risque d'erreur (D). Au-del d'un certain contenu intuitif, ce

nombre D a d'abord un sens mathmatique, de nature probabiliste, que
nous prcisons plus loin.
3. Tirer un chantillon de la population en gnral et, ici, de la production
totale. Comme nous le verrons au chapitre 10, il y a diverses faons de le
faire ; dans tous les cas, un chantillon devra tre un reflet fidle de la
population.
4. Calculer un estimateur du paramtre. Ici, il s'agira de l'estimateur de P, le
poids moyen X des botes dans l'chantillon. En gnral, on notera T
cet estimateur pour le paramtre T tudi.
5. tudier l'cart entre T0 et T . Si cet cart est grand, l'hypothse H0 sera
rejete ; si cet cart est petit, l'hypothse sera accepte (ou non rejete).
La dlimitation prcise des mots petit et grand dpend du risque D
et est value par un calcul de probabilit. De faon globale, un intervalle
est form autour de T0 et l'on convient que les valeurs de T l'intrieur
de cet intervalle sont proches de T0 (rgion d'acceptation de
l'hypothse) ; les valeurs de T hors de cet intervalle mnent au rejet de
l'hypothse.
acceptation de H0
T0
cart trop grand entre T et T 0
6. Tirer une conclusion. On aura donc rejet H0 ou t dans l'impossibilit de

le faire ; dans ce dernier cas, on affirme, en gnral, avoir accept H0.
Selon le cas, deux types d'erreur sont possibles : on peut rejeter H0 mme
si elle est vraie (risque D), ou encore on peut accepter H0, alors qu'elle est
fausse. Ce second type d'erreur est plus malais valuer, puisqu'il
dpend du degr de fausset de H0. Ces deux risques d'erreur sont, en
gnral, opposs : plus on prend D petit et plus l'on court de risques
d'accepter une hypothse nulle fausse ; inversement, si l'on prend D trop
grand, on risque de rejeter une hypothse nulle vraie.
Pour en terminer avec les petits pois, on voit donc que selon la valeur
observe de X , celui qui mne l'exprience
278
x
ou bien rejettera H0 et conclura que les botes sont trop lourdes ou trop
lgres ; peut-tre fera-t-il recalibrer la chane de production (ou rcrire
les tiquettes ... ). Dans tous les cas, s'il se trompe il occasionnera la
compagnie des frais inutiles ; c'est cette erreur qui a probabilit D ;
x
ou bien ne rejettera pas H0 et conclura que le poids marqu est vraisemblablement correct. Il risque alors de continuer inonder le march de
botes trop lourdes (pertes importantes) ou trop lgres, abusant de la
bonne foi des consommateurs. La probabilit de ce type d'erreur n'est
pas contrle.
Maintenant, nous allons voir comment ces principes gnraux s'appliquent

dans des cas particuliers.
9.1
TEST D'HYPOTHSE SUR UNE PROPORTION
Exemple 1
En 10 000 naissances, on a observ 4 852 filles (et 5 148 garons).

L'hypothse d'quiprobabilit (p = 1/2) est-elle vraisemblable ?
Solution : L'hypothse nulle, si elle est vraie, est telle que le nombre X de
filles doit tre de loi B(10 000, 1/2), c'est--dire de loi approximativement
N(5 000, 2 500). La valeur observe, X = 4 852, est prs de 3 carts-types
gauche de P, valeur statistiquement incompatible avec l'hypothse nulle qui
est rejete.
Le mme test aurait pu tre obtenu en calculant la valeur de p . Sous
l'hypothse nulle, p devrait tre de loi N(1/2, pq/n) = N(1/2, 1/40 000).
Encore une fois, la valeur de p = 0,485 2 se trouve prs de 3 carts-types
gauche de P = 1/2. L'hypothse nulle est rejeter.
On aurait pu aussi utiliser le test du khi-deux, vu au chapitre 1. L'hypothse, encore, aurait t rejete.
i
Prsente dans un cadre plus gnral et plus formel, la situation est la
suivante : on observe une variable X de loi B(n, p) o n est connu et p est
inconnu. On met l'hypothse nulle H0 : p = p0 o p0 est un nombre donn.
On convient l'avance d'un risque D. On sait dj que, si H0 est vraie,
p = X/n sera approximativement de loi N(p0, p0q0/n) o q0 = 1 p0.
Autrement dit, si H0 est vraie, on aura que :
9 Tests d'hypothses
n ( p p 0 )
279
sera approximativement de loi N(0, 1).
p0 q 0
L'hypothse nulle sera rejete si Z est trop grand ou trop petit, c'est--dire si
Z est hors de l'intervalle (cD, cD) o cD est tel que P(cD < N(0, 1) < cD = 1-D.
H0 est rejete si |Z| ! cD ;
H0 est accept si |Z| d cD.
Cette procdure peut tre aussi prsente sous la forme :

H0 est rejete si | p p 0 | !
cD
H0 est accepte si | p p 0 | d
Exemple 2
p0 q 0
n
cD
p0 q 0
On met l'hypothse que 25 % des gens, dans la population, sont gauchers.

Tester cette hypothse avec un risque D = 10 % en utilisant le fait qu'un
chantillon de 120 personnes a donn 18 gauchers.
Solution : On a ici p0 = 0,25, p = 18/120 = 0,15.
Aussi, puisque D = 10%, on prend CD = 1,645. On obtient donc que
cD
p0 q 0 / n
0 , 065 .
Puisque | p p0| = |0,15 0,25| = 0,10 > 0,065, on doit rejeter l'hypothse
nulle. En conclusion, la proportion vritable de gauchers n'est pas 25 % ;
elle est vraisemblablement plus petite.
i
Remarque L'hypothse nulle H0 : p = p0 peut aussi tre teste au moyen de
2
2
F
6 (O T ) / T . Dans l'exemple 2, on a O1 = 18, O2 = 120 18 = 102,
T1 = 120p0 = 30, T2 = 120q0 = 90 et on trouve F2 = 6,4. On peut montrer que F2
est algbriquement quivalent au carr de Z = ( p p0)/ p 0 q 0 / n et observer
que le point critique pour F2, 2,706, est exactement le carr du point critique
utilis pour Z, soit 1,645. Les deux tests sont donc rigoureusement
quivalents.
280
Remarque En utilisant les donnes de l'exemple 2 on obtient, pour p,

l'intervalle de confiance p r c D
p q / n = (0,096; 0,204). La valeur p0 = 0,25,
propose par l'hypothse nulle, n'est pas dans l'intervalle de confiance :

l'hypothse nulle est donc rejete. Il convient d'observer que, dans le calcul de
l'intervalle de confiance, l'cart-type de p , V p
V p
pq / n , a t approxim par
p q / n alors que, pour le test, on utilise plutt la valeur
p 0 q 0 / n . Il peut
donc arriver que, dans certains cas o la dcision est serre, les deux
mthodes ne mnent pas rigoureusement la mme conclusion.
9.2
TEST SUR L'GALIT DE DEUX PROPORTIONS

Lorsqu'on considre deux populations diffrentes, le problme se pose
souvent de savoir si ces deux populations admettent une mme distribution
commune. C'est en comparant deux chantillons, issus de chacune de ces
populations, qu'on pourra accepter ou non l'hypothse selon laquelle les
distributions sont identiques.
Si aucune supposition n'est faite concernant la forme des distributions
compares, le test d'indpendance bas sur le calcul de F2 vu au chapitre 3,
permet d'atteindre une conclusion. Si, comme c'est souvent le cas, on sait
quel genre de loi on a affaire (loi binomiale, par exemple) il vaut mieux tirer
profit de cette information et utiliser un test dans lequel on compare
directement les estimateurs des paramtres qu'on obtient de chacun des
chantillons.
Exemple 3
Dans son dition du 30 mars 1987, la revue TIME rapportait les rsultats
d'une tude effectue par des chercheurs de l'Universit du Maryland et de
l'Universit de Pennsylvanie et qui portait sur le taux de mortalit de
92 patients atteints de troubles cardiaques srieux. 53 de ces patients
possdaient un animal familier (chien, chat, poissons rouges, ... ) ; 3 de ces
patients ont survcu moins d'un an. Parmi les 39 patients qui ne
possdaient pas d'animal familier, 11 sont dcds durant la mme priode
d'un an. Les probabilits de dcs sont-elles gales pour les deux groupes ?
Les rsultats exprimentaux donnent p = 3/53 = 0,057 pour ceux qui
possdent un animal et p = 11/39 = 0,282 pour ceux qui n'en ont pas.
Compte tenu des tailles des deux chantillons, l'cart est-il significatif ?
Nous y reviendrons plus loin, quand nous aurons dvelopp un test qui
permettra de rpondre cette question.
i
9 Tests d'hypothses
281
Considrons deux variables alatoires X et Y, chacune de loi binomiale, X est

B(nX, pX) et Y est B(nY, pY). On veut tester l'hypothse
H0 : pX = pY.
On sait dj que px et py peuvent tre estims par les frquences

chantillonnales p X X / n X et p Y Y / n Y . C'est en comparant p X et p Y
qu'on pourra dtecter si les paramtres pX et pY sont gaux ou non.
L'hypothse selon laquelle ils sont gaux sera rejete si la distance entre p X
et p Y est significativement grande.
On sait dj que, si les tailles nX et nY des deux chantillons sont grandes,
alors
p X est approximativement de loi N ( p X , V p2 ) o V p2
X
et
p Y est approximativement de loi N ( pY , V p2 ) o V p2

Y
pX qX
nX
pY q Y
nY
Puisqu'ils sont issus de deux chantillons diffrents, les estimateurs p X et

p Y sont indpendants et on obtient que :
p X p Y est approximativement de loi N ( p X pY , V p2
V p2 ) ,
Y
ce qui entrane que
p X p Y ( p X pY )
V p2
est approximativement de loi N(0, 1).
V p2
Les variances V p2 et V p2 , qui paraissent au dnominateur, peuvent tre

X
estimes par V p2
grands,
p X q X / n X et V p2
p Y q Y / n Y et on obtient, si nx et ny sont
282
p X p Y ( p X pY )
V p2
V p2
Si l'hypothse H0 : px = py est vraie, le terme (px py), qui parat au

numrateur de l'expression prcdente, prend valeur zro. Il s'ensuit donc
que, si H0 est vraie, la variable
Z
p X p Y
V p2
p X p Y
2
V p
p X q X
nX
p Y q Y
nY
On obtient donc un test de risque D en convenant de rejeter l'hypothse H0 :

px = pY si |Z| > CD,o CD est choisi tel que P ( c D N ( 0 , 1) c D ) 1 D .
Exemple 4
Reprenons l'exemple 3 o on l'avait laiss. Parmi les nX = 53 patients qui

possdent un animal familier, 3 sont dcds, ce qui donne pX = 0,057.
Parmi les nY = 39 patients qui ne possdent pas d'animal familier, 11 sont
dcds et on a p Y = 0,282. On trouve donc que
Z
p X p Y
p X q X
nX
0 , 057 0 , 282
p Y q Y
2 , 86 .
0 , 001 01 0 , 005 19
nY
Mme en prenant D = 1 % (et cD = 2,576) on a |Z| > cD, ce qui conduit au

rejet de H0 : pX = pY. Le taux de mortalit est significativement plus faible
chez les patients qui possdent un animal familier. L'interprtation de cette
conclusion ne relve plus des mathmatiques...
i
Cas o les donnes sont apparies Il arrive parfois que les donnes soient
prleves de telle sorte qu'on doive tester l'hypothse H0 : pX = pY d'une autre
faon. Ce sera le cas, par exemple, si les donnes sont apparies,
c'est--dire, si c'est le mme chantillon qui a servi estimer chacune des
deux proportions pX et pY .
Exemple 5
Supposons qu'on veuille tester si la proportion pX des foyers qui possdent

un four micro-ondes est gale la proportion pY des foyers qui possdent
un magntoscope. Lors d'un sondage portant sur 773 foyers, on a obtenu
pX = 502/773 = 0,649 et pY = 478/773 = 0,618. Pour tester H0 : pX = pY, il
9 Tests d'hypothses
283
serait incorrect d'utiliser le test prcdent qui n'est valide que si les
estimateurs pX et pY sont indpendants, ce qui n'est pas le cas ici , car c'est
le mme chantillon de foyers qui a servi estimer pX et pY. Intuitivement,
les familles riches ont beaucoup de chances de possder les deux
appareils alors que les familles pauvres ont beaucoup de chances de n'en
possder aucun. Pour un foyer tir au hasard, les deux variables qualitatives
possder un four micro-ondes et possder un magntoscope sont
sans doute dpendantes.
La probabilit pX qu'un foyer possde un four micro-ondes est la somme de
deux composantes :
pX = P(possder les deux appareils) + P(four et pas de magntoscope).
De mme, on a
pY = P(possder les deux appareils) + P(magntoscope et pas de four).
L'hypothse nulle H0 : pX = pY peut donc tre reformule d'une autre faon :
H0 : P(four et pas de magntoscope) = P(magntoscope et pas de four).
Pour tester H0, nous ne considrons donc que le sous-chantillon form des
foyers qui possdent un des appareils et ne possdent pas l'autre et nous
allons tester si, parmi ces foyers particuliers, la probabilit p qu'il soit du
type four et pas de magntoscope est gale 1/2. L'hypothse nulle H0 :
pX = pY est devenue H0 : p = 1/2 et l'chantillon a t rduit aux seuls foyers
qui ne possdent qu'un des deux appareils.
Le tableau suivant indique la distribution conjointe des deux variables, pour
les 773 foyers formant l'chantillon :
Pas de magntoscope
Magntoscope
TOTAL
Pas de four M.-O.
Four M.-O.
TOTAL
231
64
295
40
438
478
271
502
773
Parmi les 773 foyers qui forment l'chantillon complet, on en trouve

64 + 40 = 104 qui ne possdent qu'un seul des deux appareils. Dans ce souschantillon de taille n = 104, une proportion p = 64/104 = 0,615 sont du type
four et pas de magntoscope . Pour tester l'hypothse H0 : p = p0 = 1/2, il
suffit de comparer Z
n ( p p 0 ) / p 0 q 0 avec le point critique cD, qui, si on
prend D = 5 %, vaut 1,960. On obtient
284
104 ( 0 , 615 0 , 5 ) / 1
2 , 35 .
Puisque |Z| > cD, l'hypothse nulle est rejete et on conclut que plus de
foyers possdent un four micro-ondes qu'un magntoscope. Remarquons
que si l'on avait (erronment) fait comme si pX et pY taient indpendants, on
aurait obtenu
Z
( p X p Y ) / p X q X / n X p Y q Y / n Y
1, 27
et l'hypothse nulle n'aurait pas t rejete.
9.3
TEST D'HYPOTHSE SUR UNE MOYENNE

Considrons un chantillon X1, X2, .... Xn, form de variables (de loi non
spcifie) dont la moyenne thorique P et la variance thorique V2 sont
inconnues. On veut tester l'hypothse nulle
H0 : P
P0
o P0 est un certain nombre donn.

L'estimateur naturel pour P est P
n suffisamment grand,
X P
V
o V 2
1
n 1
X P
X et, comme on a vu au chapitre 8, pour
est pratiquement de loi N(0, 1).
V / n
6 ( X i X ) 2 est l'estimateur de V2.
Nous savons aussi que, si les observations X1, X2, .... Xn sont de loi normale,
X P
V
X P
V / n
est exactement de loi tQ (Student, avec Q = n 1).
9 Tests d'hypothses
285
Mme si les variables X1, X2, .... Xn ne sont pas rigoureusement de loi
normale, il est prfrable d'utiliser quand mme la loi de Student (plutt que
la loi normale) car elle conduit gnralement des rsultats plus prs des
valeurs exactes. C'est ce que nous ferons dans toute la suite en traitant le
cas d'un chantillon de loi non spcifie comme s'il s'agissait d'un
chantillon de loi normale et en laissant sous-entendu que si l'chantillon
est vraiment de loi normale, les rsultats seront exacts, mme pour les
petites valeurs de n.
Si l'hypothse H0 : P = P0 est vraie, on peut donc considrer que, si n est
assez grand, la variable
X P0
V
X P0
V / n
est pratiquement de loi tQ (Student, avec Q = n 1).
L'hypothse nulle sera rejete si T est trop grand ou trop petit, c'est--dire si
T est hors de l'intervalle (cD, cD) o cD est tel que P(cD < tn1 < cD) = 1 D.
H0 est rejete si |T| > cD.
H0 est accepte si |T| d cD.
Cette procdure peut aussi tre prsente sous la forme :
H 0 est rejete si | X P 0 |
c D V
H 0 est accepte si | X P 0 |d
Exemple 6
n
c D V
Des expriences passes ont permis de dterminer que le temps moyen de

sommeil des gens est de 7,7 heures. Une compagnie pharmaceutique,
voulant tester la valeur d'un nouveau somnifre, a effectu des expriences.
Un chantillon de taille 10, o le somnifre a t utilis, a donn les
rsutats :
7,8 8,3 7,2 9,1 8,4 6,8 7,3 7,7 8,9 9,2
Tester, avec D = 5 %, l'hypothse selon laquelle le nouveau somnifre n'a
aucun effet sur la dure moyenne du sommeil, c'est--dire H0 : P = P0 = 7,7.
286
Solution : n = 10, 6X i = 80,7 et 6X i2 = 657,61, ce qui donne X = 8,07 et

V = 0,840 7. De ces valeurs on obtient
T
n ( X P0 )
10 ( 8 , 07 7 , 7 )
1, 392.
0 , 840 7
Puisque Q = n 1 = 9 et D = 5 %, on obtient, de la table de la loi de Student,

cD = 2,262.
Puisque |T| < cD, l'hypothse nulle n'est pas rejete. Rien ne prouve que le
somnifre modifie la dure du sommeil.
i
9.4
TEST SUR L'GALIT DE DEUX MOYENNES

Un des problmes statistiques les plus frquemment rencontrs est celui de
pouvoir tester l'hypothse selon laquelle, pour deux populations diffrentes,
une certaine variable prend, en moyenne, la mme valeur. On dispose de
deux chantillons, X1, X2, ..., XnX, et Y1, Y2, ..., YnY, provenant de chacune des
deux populations, et l'hypothse nulle qu'on veut tester est H0 : PX = PY.
Exemple 7
On veut savoir si deux espces de poules, l'espce A et l'espce B, pondent

des ufs de mme calibre. Le poids moyen de 50 ufs provenant de poules
de l'espce A, est de 52,4 grammes, celui de 80 ufs provenant de l'espce B
est de 54,3 grammes. L'cart de 1,9 grammes observ entre ces deux
moyennes est-il suffisamment grand pour qu'on puisse rejeter l'hypothse
selon laquelle les poids moyens thoriques PX et PY sont gaux ? Tel que pos,
ce problme n'a pas de solution car il y manque une information cruciale : la
dispersion des observations. L'cart de 1,9 observ entre X et Y sera jug
grand (ou petit) selon que, dans les chantillons, les observations sont
fortement concentres (ou largement disperses). Nous y reviendrons plus
loin, aprs avoir dvelopp les formules pertinentes.
i
Considrons deux chantillons indpendants X1, X2, ..., XnX, et Y1, Y2, ..., YnY,
de lois non spcifies, et pour lesquelles les moyennes et les variances
thoriques PX, PY, V X2 et V Y2 sont inconnues. On veut tester l'hypothse nulle
H0 : P X
PY .
On sait que si les tailles nx et ny des chantillons sont grandes, les moyennes
exprimentales X et Y sont approximativement de lois N ( P X , V X2 n X ) et
N ( P Y , V Y2 n Y ) , respectivement. X et Y tant indpendants, on obtient que
9 Tests d'hypothses
2
2
V
V
X Y est approximativement de loi N P X P Y , X Y
nX
nY
287
d'o il vient que

X Y ( P X PY )
V X2
nX
V Y2
nY
Si l'hypothse H 0 : P X
PY
est vraie, le terme ( P X
PY )
qui parat au
numrateur de l'expression prcdente disparat et on obtient que

X Y
V 2X
nX
V Y2
nY
Si nx et ny sont grands, les variances inconnues V 2X et V Y2 qui paraissent au

dnominateur peuvent tre remplaces par leurs valeurs estimes V 2X et
V Y2 . On obtient donc que, si H0 est vraie,
X Y
V X2
nX
V Y2
nY
L'hypothse nulle sera rejete si Z prend une valeur trop grande ou trop
petite, c'est--dire, si Z est hors de l'intervalle (cD,cD) o cD, est tel que
P(cD < N(0, 1) < cD) = 1 D.
H0 est rejete si |Z| > cD.
H0 est accepte si |Z| < cD.
Cette procdure peut aussi tre prsente sous la forme
288
H0 est rejete si | X Y | ! c D
H0 est accepte si | X Y | d c D
Exemple 8
2
V X
nX
V X2
nX
2
V Y
nY
V Y2
nY
Reprenons l'exemple 7 dans lequel on voulait savoir si deux espces de

poules pondaient des ufs de poids moyen identiques. Avec nx 50 et ny = 80,
on avait obtenu X = 52,4 et Y = 54,3.
a) quelle conclusion arrive-t-on si V X = 2,7 et V Y = 4,5 ? (prendre
D = 5 %).
b) quelle conclusion arrive-t-on si V X = 10,6 et V Y = 7,4 ? (prendre
D = 5 %).
Solution : Avec D = 5 %, on prend cD = 1,960. L'hypothse nulle est
H0 : P X
PY .
a) On trouve
Z
( X Y )
V 2 / n X V 2 / n Y
X
1, 9
0 ,145 8 0 , 253 1
3 , 01 .
Puisque |Z| > cD, l'hypothse nulle est rejete. Les poules de l'espce B
pondent des ufs significativement plus lourds que celles de l'espce A.
b) On trouve maintenant Z
1, 9
2 , 247 2 0 , 684 5
1,11 . Puisque |Z| < cD,
l'hypothse nulle est accepte. La diffrence entre X et Y est aisment

explique par le hasard.
i
Cas o les variances sont supposes gales Il arrive frquemment qu'il soit
naturel de supposer que les variances inconnues V 2X et V Y2 sont gales. Ce
sera le cas, par exemple, si l'on veut tester l'efficacit d'un engrais agricole,
d'un mdicament, d'un traitement particulier. On peut alors supposer que
l'engrais ou le mdicament n'agit que sur la moyenne de la variable mesure,
ne fait que dplacer la courbe des donnes sans en affecter la dispersion.
9 Tests d'hypothses
289
Quand les variances V 2X et V Y2 sont gales, on n'a plus les distinguer ;

chacune est gale au mme V 2 . Alors, X Y est approximativement de loi
N P X P Y , V 2 ( n1
X
1
nY
) . Si H 0 : P X
X Y
V
1
nX
P Y est vraie,

1
nY
La variance commune V 2 peut tre estime au moyen d'une moyenne

pondre des deux estimateurs V 2X et V Y2 . On pose
( n X 1)V 2X ( n Y 1)V Y2
V 2
n X nY 2
6 ( X i X ) 2 6 (Y i Y ) 2
n X nY 2
6X i2 n X X 2 6Y i 2 n Y Y
n X nY 2
On peut montrer que cet estimateur est sans biais pour V 2 . On peut aussi
montrer que si les observations Xi et Yi sont de loi normale (et si H0 est vraie),
X Y
T
V
1
nX
est exactement de loi tQ.

1
nY
n x nY 2.
290
D'autres formes quivalentes pour T sont :

T
X Y
n X nY
n X nY
L'hypothse nulle sera rejete si T prend une valeur trop grande ou trop
petite, c'est--dire, si T est hors de l'intervalle (cD,cD) o cD est tel que
P ( cD t n
nY 2
cD
1 D .
Si les observations sont de loi normale, le cD obtenu de la table de la loi de

Student (avec Q = nx + ny 2) conduit un test rigoureusement exact. Si les
observations ne sont pas de loi normale, on prfre prendre quand mme le
cD dans la table de la loi de Student plutt que dans celle de la loi normale.
Exemple 9
Un jardinier amateur veut savoir si l'engrais qu'il utilise pour ses plants de
tomates est vraiment efficace. Pour ce faire, il a priv d'engrais 2 de ses
plants de tomates, choisis au hasard en dbut de saison, et n'a donn de
l'engrais qu'aux 6 autres plants. Au moment de la cueillette, il a pes la
production de chaque plant.
Les plants sans engrais ont fourni respectivement 12,3 et 13,6 kg de
tomates. Pour les plants traits l'engrais, les rsultats, en kilogrammes,
ont t : 14,1, 12,8, 15,1, 13,7, 13,4 et 15,4.
En supposant que l'engrais n'agit que sur P sans affecter V, tester, avec
D = 10 %, l'hypothse selon laquelle l'engrais n'a aucun effet.
Solution : Notant par X les productions des plants sans engrais et par Y
celles des plants traits l'engrais, on trouve :
nX
2, X
12 , 95 , V X2
0 , 845 , n Y
6, Y
14 , 08 , V Y2
1, 006
d'o on obtient que V 2 = 0,979 et T = 1,40.

Avec D = 10 % et Q = nx + ny 2 = 6, la table de la loi de Student donne
cD = 1,943.
Enfin, puisque |T| < cD, l'hypothse H 0 : P X
observ entre X et Y n'est pas significatif.
P Y ne peut tre rejete. L'cart
Remarque Quand les variables sont normales, l'emploi de la loi de Student

pour la dtermination de cD permet d'obtenir un test exact (c'est--dire : dont le
risque rel est exactement le risque D dsir) seulement dans le cas o les
9 Tests d'hypothses
291
variances inconnues sont supposes gales. Si l'on ne fait pas cette

supposition, l'obtention d'un test exact est beaucoup plus difficile et on doit se
contenter d'appliquer le test approximatif dvelopp au dbut de la prsente
section. Soulignons que, pour plus de scurit, on prfre parfois ne pas
utiliser la loi normale mais tirer plutt le cD de la loi de Student o le nombre
de degrs de libert sera le plus petit des deux nombres nx 1 et ny 1.
Cas o les donnes sont apparies Il est souvent avantageux par exemple,
quand on veut savoir si un certain traitement a un effet rel ou non
d'utiliser les mmes units statistiques (les mmes individus) pour mesurer
sur chacun la fois X et Y, la valeur avec traitement et la valeur sans
traitement.
Les deux chantillons sont alors ncessairement de mme taille (nx = ny = n)
et l'hypothse selon laquelle le traitement est sans effet est H0 : PX = PY .
Dans un tel contexte exprimental, chacun des chantillons X1, X2, , Xn, et
Y1, Y2, , Yn, est bien form de variables indpendantes entre elles mais,
d'un chantillon l'autre, la condition d'indpendance n'est plus satisfaite.
La mesure Xi et la mesure Yi provenant toutes deux du mme individu, tout
porte croire qu'elles seront vraisemblablement lies l'une l'autre. Pour
tester H0 : PX = PY, il est donc hors de question d'utiliser les tests qui
viennent d'tre dvelopps, qui ne sont valides que si les deux chantillons
sont indpendants l'un de l'autre. Quand les donnes sont apparies, le test
qu'il convient d'appliquer est, en fait, plus simple que celui qui suppose
l'indpendance : il suffit de calculer, pour chaque individu, l'effet du
traitement
Wi = Xi - Yi
L'hypothse nulle H0 : PX = PY devient alors
H0 : PW = 0
292
et le test sur l'galit de deux moyennes est remplac par un test

paramtrique portant sur une seule moyenne, celle de W. Pour tester
H0 : PW = 0, il suffit donc d'appliquer les techniques dveloppes la section
9.3, c'est--dire, calculer
W P0
V W
o V W2
2
( 6W i nW
nW
V W
) ( n 1) , puis
rejeter H0 si |T| > cD

ou accepter H0 si |T| d cD
o cD est tel que P(cD < tn-1 < cD) = 1 D.
Exemple 10 Dix individus ont t pess avant et aprs avoir cess de fumer durant une
priode d'un mois. Les donnes recueillies sont celles du tableau suivant :
i
10
Poids avant (Y kg)
78
70
90
81
55
68
76
60
73
74
Poids aprs (X kg)
78
69
92
83
55
72
74
63
74
76
Tester, avec D = 10 %, l'hypothse selon laquelle le fait de cesser de fumer

n'a aucun effet sur le poids.
Solution Les gains de poids Wi = Xi - Yi, pour chacun des 10 individus, sont
0
On trouve 6W i
T
nW V W
11, 6W i 2
0
43 , W
4
2
1,1, V W
2
3 , 433 , V W
1, 853 , ce qui donne
1, 877 .
Avec Q = n 1 = 9 et D = 10 %, la table de la loi de Student donne cD = 1,833.

Puisque |T| > cD, l'hypothse nulle est rejete (de justesse !). Le fait de cesser
de fumer semble avoir un effet rel sur le poids. Remarquons que si l'on
avait (erronment) trait les deux chantillons initiaux comme s'ils taient
indpendants, on aurait grossirement surestim la variance de W X Y en
calculant V 2X n X V Y2 n Y (103 , 82 10 ) (101, 39 10 ) 20 , 521 , valeur prs de 6
fois trop grande et qui aurait conduit une acceptation fautive de H0.
9 Tests d'hypothses
9.5
293
TEST D'HYPOTHSE SUR UN PARAMTRE T QUELCONQUE

Ici encore, les concepts dj dvelopps dans le chapitre 8 dans un contexte
d'estimation se transposent directement dans le prsent contexte de test
d'hypothse.
On dispose d'un chantillon X1, X2, ..., Xn, de loi spcifie (Poisson, gomtrique, etc. ; on a dj trait le cas binomial) dont la distribution prcise
dpend d'un certain paramtre que nous notons T. Dans le cas binomial, T
tient lieu de p ; dans le cas d'une loi de Poisson, T reprsente O. On suppose
que seul T est inconnu et on veut tester
H0 : T = T0 o T0 est un nombre donn.
On dispose d'un estimateur convenable T dont on sait exprimer la variance
V 2 en fonction de T (et de n). On suppose aussi, que, pour n grand, T est
T
approximativement de loi N(T, V T2 ) ; cette supposition est habituellement
satisfaite si T est dfini en fonction, par exemple, de la somme des Xi. On a
alors que
T T
V
Si l'hypothse nulle est vraie, T = T0 et on a que
T T 0
V
est approximativement de loi N(0, 1),
o V
est connue puisqu'on sait exprimer V 2 en fonction de T et qu'on

T
connat la valeur de T, gale T0 (si l'hypothse nulle est vraie).
294
Il ne reste plus qu'

rejeter H0 si |Z| > cD
ou accepter H0 si |Z| d cD
o cD, est tel que P(cD < N(0, 1) < cD) = 1 D.
C'est prcisment ce qui a t fait dans le cas du paramtre p de la loi
binomiale et qu'on peut faire maintenant pour plusieurs autres lois.
Exemple 11 Dans une certaine ville, il se produit, en moyenne 2,3 vols par effraction par
jour. Depuis 50 jours une campagne d'information sur les moyens de
prvention est en cours, Durant cette priode, il s'est produit 91 vols.
Peut-on conclure que la campagne a eu un effet rel ?
Solution : Le nombre X d'vnements (vols) qui se produisent durant une
certaine priode de temps devrait suivre une loi de Poisson. Si l'on note par X1,
X2, .... Xn les nombres de vols qui ont eu lieu chaque jour, chacun de ces X1
devrait suivre une loi Poisson(O) o, si l'hypothse nulle est vraie, O = O0 = 2,3.
L'estimateur naturel de O est O
O O 0
X et V 2
O
V 2X
O n . Si H0 est vraie,
devrait tre de loi N(0, 1).
O0 n
Il ne reste plus qu' voir si |Z| > cD, puis dcider, selon le cas, de rejeter ou
d'accepter l'hypothse nulle.
Dans notre exemple, n = 50, O0 = 2,3 et 6Xi = 91, ce qui donne O = X = 91/50 =
1,82 et Z - (1,82 2,3)/ 2, 3 50 = 2,24. Avec D = 5 %, on a cD = 1,96 et
l'hypothse nulle est rejete. La campagne d'information a un effet rel.
Test sur l'galit de Tx et Ty Encore une fois, la loi est spcifie et on compare
deux populations pour savoir si, chez chacune, le paramtre T a la mme
valeur. On dispose de deux chantillons indpendants X1X, X2, ..., Xn et Yl,
Y2, ..., YnY, qui fournissent les estimateurs T X et TY . On suppose que ces
deux estimateurs sont approximativement de lois
N T X , V 2 et N T Y , V 2
TY
TX
9 Tests d'hypothses
295
et que, par consquent,
T X TY (T X T Y )
V 2
TX
V
2
T
On suppose aussi que
T X TY (T X T Y )
V 2
TX
o V 2
TX
est approximativement de loi N(0, 1),
V 2
TY
est l'estimateur de V 2
TX
obtenu en remplaant Tx par T X dans la
formule qui exprime Var( T X ) en fonction de Tx et de nx (et V 2
TY
est obtenu de
faon analogue).
Si l'hypothse nulle H0 : TX = TY est vraie, le terme Tx Ty disparat et on
obtient que
T X TY
V 2
TX
est approximativement de loi N(O, 1).
2
V
TY
Il ne reste qu'
rejeter H0 si |Z| > cD

ou accepter H0 si |Z| d cD
296
Exemple 12 On suppose que la dure de vie (en heures) d'une certaine pice de
machinerie se distribue selon une loi exponentielle, que 10 pices de marque
A, mises l'preuve, ont dur, en moyenne, 8,4 heures et que 15 pices de
marque B ont dur, en moyenne, 12,3 heures. L'hypothse selon laquelle les
deux marques sont de mme qualit doit-elle tre rejete ? Prendre D = 5 %.
Solution : On sait que l'esprance et la variance d'une variable de loi Exp(T)
sont, respectivement, T et T 2. L'estimateur T X X est donc sans biais pour
Tx et sa variance,
V 2
TX
Var ( X i )
T X2
nx
nX
est estime par

V 2
TX
On fait de mme pour TY
nx
X2
nX
nX
Y et on obtient que, si H0 : TX = TY est vraie,
X Y
T X2

2
nY
Ici, nX = 10, X = 8,4, nY 15 et Y = 12,3. On obtient donc que

Z
( 8 , 4 12 , 3 )
70 , 56 10 151, 29 15
0 , 94.
Cette valeur tant l'intrieur de l'intervalle (cD,cD) o cD = 1,960,

l'hypothse nulle ne peut tre rejete. Les rsultats exprimentaux ne
permettent pas d'affirmer qu'une marque est meilleure que l'autre.
RSUM
Test d'hypothse L'hypothse nulle est rejete si les rsultats
exprimentaux s'cartent trop de ce que le hasard devrait permettre. Le
risque D est la probabilit de rejeter H0 quand elle est vraie.
9 Tests d'hypothses
Loi de la
(ou non spcifie)
n 1
| Z | ! cD
p0 q 0
P = P0
n ( X P0 )
- T 0
V
n 1
Loi N(0, 1)
| T |! cD
Z
n
6( X i X )2
n ( p p 0 )
T = T0
Quelconque
Source du cD
rejet de H0
p = p0
Normale
Condition de
H0
Binomiale
* V 2
Variable utilise
Hypothse
population
297
Loi de Student
avec Q = n 1
**
| Z | ! cD
Loi N(0, 1)
2
2
( X X ).
** V 2 est obtenu en remplaant T par T0 dans la formule qui donne Var( T ).

T
Test sur l'galit de deux paramtres

Loi de la
population
Hypothse
Variable
Condition de
Source du
H0
utilise
rejet de H0
cD
| Z | ! cD
Loi N(0, 1)
p X p y
Z
Binomiale
p X q X
pX = p Y
p Y q Y
nX
Normale
(ou non spcifie)
PX = PY
X Y
VX = VY
Normale
(ou non spcifie)
TX = TY
V 2X
| T |! cD
X Y
nX
Loi quelconque
n X nY
n X ny
Z
PX = PY
nY
TX
avec Q = n 1
Loi N(0, 1) ou loi
| Z | ! cD
V Y2
nY
de Student o Q est
le plus petit de
nX 1 et nY 1
**
T X TY
V 2
Loi de Student
V 2
TY
| Z | ! cD
Loi N(0, 1)
298

2
2
( n X 1)V X ( nY 1)V Y
* V 2
** V T2
n X ny 2
X
est obtenu en remplaant T X par T X dans la formule qui donne
Var( T X ) ; de mme pour Y.

Cas o les donnes sont apparies. H0 : px = py. On ne considre que le
sous-chantillon pour lequel les deux variables prennent des valeurs
diffrentes l'une de l'autre. L'hypothse nulle se rduit alors H0 : p = 1/2
o p est la proportion de cas (0, 1) parmi l'ensemble des cas (0, 1) et (1, 0)
retenus dans le sous-chantillon.
H0 : PX = PY. On pose Wi = Xi Yi et l'hypothse nulle se rduit H0 : PW = 0.
EXERCICES
TEST
D'HYPOTHESE SUR
UNE PROPORTION
1.
Un politicologue prtend que, lors des lections, 95 % des poux votent

pour le mme parti que leur femme. Un sondage effectu auprs de 540
couples a rvl que dans 42 cas, l'poux et l'pouse n'avaient pas vot
pour le mme parti. Testez, avec D = 5 %, l'hypothse mise par le
politicologue.
2. Deux joueurs de ping-pong, Andr et Bernard, ont jou 30 parties. Andr

en a gagn 18 et Bernard en a gagn 12. Testez, avec D = 10 %,
l'hypothse selon laquelle Andr et Bernard sont de mme force au
ping-pong.
*3. On veut tester l'hypothse qu'un sou est bien quilibr (c'est--dire, que
la probabilit d'avoir face est gale celle d'avoir pile ). On prend
D = 10 %.
a) Si, en ralit, la probabilit d'avoir face est 0,52 et si on lance le
sou 1 000 fois, quelle est la probabilit que l'hypothse nulle soit
rejete ?
b) Si la probabilit d'avoir face est 0,52, combien de fois le sou doit-il
tre lanc pour que la probabilit que l'hypothse nulle soit rejete
soit de 0,90 ?
9 Tests d'hypothses
TEST SUR
L'GALIT DE
DEUX
PROPORTIONS
299
4. Une tude des dcisions rendues par des jurs dans des cas de vols par
effraction o l'accus tait de race noire a rvl les faits suivants : parmi
les 28 cas o les victimes taient de race noire, l'accus a t trouv
coupable dans 12 cas ; parmi les 36 cas o les victimes taient de race
blanche, l'accus a t trouv coupable dans 23 cas. Peut-on conclure que
les jurs ont une plus forte tendance dclarer coupables ceux qui sont
accuss d'avoir commis des vols contre des Blancs? (Utilisez D = 10 %).
5. Dans une classe, 98 tudiants sont ns au Canada et 47 ailleurs. On
constate que 20 des tudiants ns au Canada et 7 de ceux qui sont ns
ailleurs portent des lunettes. La diffrence entre les deux groupes est-elle
significative ? (Utilisez D = 0,05).
6. Pour comparer deux procds de fabrication, on prlve un chantillon
de 300 pices produites par le procd A et 400 pices produites par le
procd B. On trouve que 10 pices du procd A et 15 pices du procd
B sont dfectueuses. La diffrence entre les deux procds est-elle
significative ?
7. Pour valuer l'efficacit d'un somnifre, on fait l'exprience suivante avec
100 sujets. On rpartit les sujets au hasard en deux groupes gaux. Le
premier groupe, appel groupe exprimental , reoit le somnifre un soir
au coucher. Le deuxime groupe, appel groupe tmoin , reoit un
placebo. Le lendemain on pose la question suivante : Avez-vous mieux
dormi que d'habitude ? Dans le groupe exprimental, 30 personnes disent
oui, alors que dans le groupe tmoin seulement 25 personnes disent oui.
Peut-on affirmer que le somnifre a un effet ? (Utilisez D = 0,20).
8. Dans le cadre d'une tude portant sur la scurit routire et la visibilit
nocturne des couleurs, on a conu une exprience dans laquelle deux
objets de mme dimension, l'un rouge et l'autre jaune, taient prsents
des gens qui devaient dclarer s'ils parvenaient ou non les percevoir.
218 personnes ont particip l'exprience ; 138 d'entre elles ont vu les
deux objets, 25 n'ont vu que l'objet jaune, 11 n'ont vu que l'objet rouge,
et les 44 autres personnes n'ont vu aucun des deux objets. Testez
l'hypothse selon laquelle la probabilit de perception est la mme pour
les deux couleurs. (Utilisez D = 5 %).
300
TEST
D'HYPOTHESE SUR
UNE MOYENNE
9. Une revue prtend que ses lecteurs ont un revenu annuel moyen de
45 000 $ Pour vrifier cette affirmation, on prlve un chantillon de
20 lecteurs et on note leurs revenus annuels. Voici les donnes, en
milliers de dollars.
42,1
43,5
41,8
47,2
46,1
39,2
32,3
28,2
49,1
52,2
61,5
31,2
34,3
21,1
31,5
46,2
48,9
31,2
22,7
28,2
Est-il vraisemblable que le revenu moyen des lecteurs soit de 45 000 $ ?

(Utilisez D = 0,05).
10. Pour tester l'hypothse que la moyenne P d'une population est gale
95, on prlve un chantillon de taille 9.
a) Testez l'hypothse que P = 95 si les donnes sont
94
95
96
98
100
102
104
105
106
b) Testez l'hypothse que M = 95 si les donnes sont :

60
70
80
90
100
110
120
130
140
c) Remarquez que la moyenne X est gale 100 pour les deux

chantillons. Donc, en un sens les deux chantillons sont aussi
loigns l'un que l'autre de la moyenne de 95 stipule par l'hypothse
nulle. Donnez la raison intuitive pour laquelle on rejette l'hypothse
dans un cas et pas dans l'autre.
TEST SUR
L'GALIT DE
DEUX MOYENNES
11. Un analyste au service du personnel d'une compagnie se demande quels

sont les traits de personnalit qui font qu'un vendeur est un bon
vendeur. En particulier, il veut savoir si le fait d'tre extraverti est un
atout. Il choisit 20 vendeurs connus dans la compagnie comme
excellents ; et 32 vendeurs plutt mdiocres. Il leur fait passer un test
d'extraversion. Voici les scores qu'il a obtenus (les extravertis ont des
scores levs) :
Bons vendeurs : 12, 17, 20, 19, 11, 9, 7, 4, 12, 15, 13, 18, 20, 16, 15,
16, 18, 13, 11, 10.
Vendeurs mdiocres : 12, 7, 9, 13, 15, 17, 12, 11, 13, 10, 9, 8, 7, 15, 13,
6, 5, 5, 13, 15, 17, 19, 18, 20, 19, 17, 13, 16, 8, 6, 7, 8.
9 Tests d'hypothses
301
Testez au niveau D = 5 % l'hypothse que les bons vendeurs ne sont ni

plus ni moins extravertis que les vendeurs mdiocres.
12. Lors d'une tude sur le concept de soi des adolescents nigrians,
Jegede (1982) a administr le Piers-Harris Self-Concept Scale 1 380
lves de niveau secondaire Ibadan.
a) Le score moyen a t 58,19 avec un cart-type de 10,06. Dans une
tude antrieure faite auprs de 1 183 adolescents amricains on
avait trouv une moyenne de 51,84 avec un cart-type de 13,87. La
diffrence entre les Amricains et les Nigrians est-elle significative ?
b) L'chantillon de Jegede tait compos de 552 filles et 828 garons.
Les filles avaient une moyenne de 56,82 avec un cart-type de 9,96 ;
et les garons une moyenne de 59,11 avec un cart-type de 10,01. La
diffrence entre les garons et les filles est-elle significative ?
13. Peterson (1976) a relev les rsultats au test ACT (American College
Testing Program) d'un groupe de 305 tudiants de classes dfavorises et
de 2 182 tudiants de classes favorises. Parmi les dfavoriss, la
moyenne tait de 1,68 avec un cart-type de 1,088 alors que parmi les
favoriss la moyenne tait de 2,07 avec un cart-type de 1,015. La
diffrence entre les deux groupes est-elle significative ?
14. Les donnes suivantes portent sur des diplms d'universit de
1974-1975, interrogs en 1978. On leur a demand, entre autres, quelle
tait la dure de leur dernire priode de chmage. Parmi les 3 445
diplms anglophones la dure moyenne tait de 14,2 semaines avec un
cart-type de 13,3, alors que parmi les 12 571 diplms francophones la
dure moyenne tait de 18,5 semaines avec un cart-type de 15,3. La
diffrence entre francophones et anglophones est-elle significative?
15. On met l'hypothse que, dans un couple, l'poux est en moyenne plus
g de deux ans que son pouse. Un sondage effectu auprs de 100
couples a donn une diffrence moyenne de 2,68 ans avec un cart-type
de 3,8 ans. L'hypothse nulle est-elle rejete par le test avec D = 10 %,
avec D = 5 % ?
Service gnral des communications, Relance l'universit, Direction politique et plans, MEQ 1979.
302
16. Une nouvelle convention collective prvoit, pour la premire fois, des
congs de maladie remboursables. On s'attend ce que cela rduise le
taux d'absentisme. Pour voir si c'est bien vrai, on prlve des donnes
sur le taux d'absentisme (nombre d'absents par jour par 1 000
employs) dans les 11 usines de la compagnie pendant deux priodes de
6 mois, l'une avant et l'autre aprs l'entre en vigueur de la nouvelle
convention. Voici les donnes :
Usine
10
11
Avant
25
28
29
26
28
27
22
25
27
28
29
Aprs
21
23
22
21
26
29
21
22
23
22
25
Testez 5 % l'hypothse selon laquelle la nouvelle convention collective

n'a pas eu d'effet sur le taux d'absentisme.
17. Pour connatre l'efficacit d'un certain rgime amaigrissant, on le fait
suivre 6 sujets. On prend leurs poids avant et aprs le rgime. Voici les
rsultats :
Sujet
Avant
64
54
73
59
64
68
Aprs
61
54
71
58
61
66
Le rgime a-t-il un effet ? Fixez D = 5 %.

TEST
D'HYPOTHSE SUR
UN PARAMTRE T
QUELCONQUE
18. On suppose que la dure de vie d'une certaine pice de machinerie suit
une loi exponentielle. Le fabricant des pices prtend qu'elles durent en
moyenne 10 heures. Ayant mis 12 pices l'preuve, on a observ que
ces pices ont dur, en moyenne, 7,4 heures. Testez, avec D = 10 %,
l'hypothse selon laquelle le fabricant n'a pas menti.
19. Une compagnie d'assurances reoit, en moyenne, 30,6 rclamations par
semaine.
a) La semaine dernire la compagnie a reu 38 rclamations. Cette
observation s'carte-t-elle significativement de la moyenne gnrale ?
b) Le mois dernier (4 semaines) la compagnie a reu 148 rclamations,
ce qui donne une moyenne de 37 rclamations par semaine. Cette
observation s'carte-t-elle significativement de la moyenne gnrale ?
20. Durant une certaine priode de temps, 35 crimes ont t commis dans la
ville A et 21 dans la ville B. Sachant que les populations de ces villes
sont 58 000 pour A et 22 000 pour B, testez l'hypothse selon laquelle le
taux de criminalit (par 1 000 habitants) est le mme pour ces deux
villes. Prenez D = 5 %.
9 Tests d'hypothses
DIVERS
303
21. Supposons qu'en gnral, la probabilit d'avoir un garon est de 0,515.

On prlve un chantillon de 125 naissances parmi les membres d'une
secte religieuse dont les murs sexuelles seraient susceptibles
d'influencer le sexe du bb. On trouve que 68 des 125 nouveaux-ns
sont des garons. Peut-on conclure que la probabilit d'avoir un garon
chez les gens de cette secte est diffrente de 0,515 ?
22. Supposons que le revenu moyen des familles canadiennes est de
30 000 $. On prlve un chantillon de 250 familles dont le chef est une
femme. On trouve que leur revenu moyen est de 17 610 $ avec un
cart-type de 8 540 $. Peut-on conclure que les familles dont le chef est
une femme ont un revenu moyen infrieur celui de l'ensemble des
familles canadiennes ?
23. Supposons que le revenu mdian des familles canadiennes est de
28 890 $. On prlve un chantillon de 250 familles dont le chef est une
femme. On trouve que 24 d'entre elles ont un revenu suprieur
28 890 $. Testez l'hypothse selon laquelle le revenu mdian des familles
dont le chef est une femme est gal 28 890 $.
24. La fabrication d'un certain article cote 20 la pice et 10 % de ces
pices sont dfectueuses. On essaye un nouveau procd de fabrication
qui cote 21 la pice mais qui pourrait avoir un taux de dfectuosit
plus faible. Sur 500 pices fabriques par le nouveau procd, on trouve
13 pices dfectueuses. Testez l'hypothse selon laquelle le nouveau
procd n'est ni plus avantageux ni moins avantageux que l'ancien.
25. Deux archers, Xavier et Yvon, s'exercent au tir l'arc. En 100 lancers,
Xavier a atteint la cible 58 fois. Yvon, lui, a atteint la cible 99 fois en 150
tirs. Avec D = 10 %, doit-on rejeter l'hypothse selon laquelle les deux
archers sont de mme force ?
26. On veut savoir si, dans deux quartiers diffrents d'une ville, les
logements ont en moyenne le mme nombre de pices habitables. Dans
le quartier A, 80 logements choisis au hasard ont donn X = 4,32 et
V X = 1,07. Dans le quartier B, un chantillon de 50 logements a donn
Y = 3,92 et V Y = 0,95. Avec D = 5 %, testez l'hypothse H0 : PX = PY.
304
*27.Considrons l'ensemble des maisons de Montral habites par leur

propritaire ; et supposons que, pour les fins d'une enqute, on divise cet
ensemble en blocs de 10 maisons chacun. On prlve au hasard un
chantillon de 100 blocs, on interroge tous les propritaires choisis, et on
note pour chaque bloc la valeur de la variable
X : nombre de propritaires qui emploient les services d'un jardinier.
On obtient la distribution suivante :
X
TOTAL
Effectif
25
10
12
16
10
100
Nous voulons tester l'hypothse selon laquelle 34,5 % des propritaires

utilisent les services d'un jardinier. Une autre formulation de cette mme
hypothse est la suivante : le nombre moyen de propritaires, dans un
bloc, qui utilisent les services d'un jardinier est de 3,45. Testez cette
hypothse 5 % :
a) En considrant qu'on a prlev un chantillon de 1 000 maisons
dans une population de maisons.
b) En considrant qu'on a prlev un chantillon de 100 blocs dans une
population de blocs.
*28.Une usine fabrique des vis qu'elle met dans des botes de 100. Soit X le
nombre de vis dfectueuses dans une bote. Supposons qu'une longue
exprience du procd de fabrication a permis de dresser la fonction de
masse suivante :
X
TOTAL
0,13
0,27
0,27
0,18
0,09
0,04
0,02
1,00
Un nouveau procd est considr, et pour le tester on l'emploie la

fabrication de 100 botes de vis. On obtient la distribution suivante :
X
TOTAL
Effectif
30
21
13
15
12
100
Le patron de l'usine demande trois statisticiens de tester l'hypothse

nulle selon laquelle le nouveau procd est pareil l'ancien . Le
statisticien A fait un test du khi-deux. Le statisticien B fait un test bas
sur la proportion p de vis dfectueuses parmi les 10 000 de l'chantillon.
Le statisticien C, enfin, fait un test bas sur le nombre moyen X de vis
dfectueuses par bote.
Effectuez les trois tests et commentez.
9 Tests d'hypothses
305
29. Dans une tude sur la relation entre certains traits de personnalit et
des facteurs astrologiques, Sakofske, Kelly et McKerracher (1982) ont fait
complter le Eysenck Personality Questionnaire 241 tudiants
no-zlandais. L'hypothse, avance antrieurement par des astrologues,
que ces chercheurs se proposaient de vrifier est que les personnes nes
sous un signe positif (Blier, Balance, Gmeaux, Lion, Verseau,
Sagittaire) sont moins introverties que les personnes nes sous un signe
ngatif (Cancer, Capricorne, Poisson, Scorpion, Taureau, Vierge). Sur
l'chelle introversion-extraversion du test, les extravertis ont un score
lev.
a) Parmi les sujets, 117 taient ns sous un signe positif ; ceux-ci ont
obtenu un score moyen de 13,28 avec un cart-type de 4,51. Les
autres 124 sujets taient ns sous un signe ngatif ; ceux-ci ont eu
un score moyen de 14,28 avec un cart-type de 4,41. La diffrence
entre les deux groupes est-elle significative ?
b) L'chantillon tait compos d'hommes et de femmes. Voici les
donnes pour chaque groupe :
Hommes
Signe du zodiaque
Femmes
V X
nX
V Y
nY
Positif
13,50
4,38
38
13,17
4,57
79
Ngatif
15,52
4,21
38
13,73
4,39
86
Comparez les deux groupes pour les hommes et les femmes

sparment.
30. Dans une tude sur diffrents traits de personnalit, Sadowski et Wenzel
(1982) ont fait passer un test appel le Buss-Durkee Hostility-Aggression
Inventory 157 sujets, dont 61 hommes et 96 femmes. Un score lev au
test dnote un haut degr d'hostilit ou d'agression.
a) Sur l'chelle d'hostilit, les hommes ont eu une moyenne de 6,90
avec un cart-type de 3,70 ; et les femmes ont eu une moyenne de
7,45 avec un cart-type de 4,30. La diffrence entre hommes et
femmes est-elle significative ?
b) Sur l'chelle d'agression, les hommes ont eu une moyenne de 26,59
avec un cart-type de 7,20 et les femmes ont eu une moyenne de
25,81 avec un cart-type de 6,52. La diffrence entre hommes et
femmes est-elle significative ?
306
31. Dans une tude sur la sexualit des jeunes en Australie, Hong (1983) a
fait remplir un questionnaire 560 tudiants d'universit. Le
questionnaire rempli permet de calculer un score qui indique dans quelle
mesure l'attitude du rpondant est permissive.
Voici les rsultats :
Vont l'glise
Rgulirement
3,31
1,54
128
De temps en temps
4,73
1,10
230
Jamais
5,24
0,79
202
Comparez les groupes deux deux et dites s'il y a des diffrences

significatives. (Il existe des techniques qui permettent de comparer
simultanment les moyennes de plus de deux groupes. Mais ces
techniques dpassent le niveau de ce livre. C'est pourquoi on vous
propose de comparer les groupes deux deux.)
32. Pour comparer l'aptitude en mathmatiques des Orientaux celle des
Amricains de race blanche, Tsang (1984) a prlev les donnes
suivantes sur les rsultats obtenus au Scholastic Aptitude Test (SAT) par
10 097 Orientaux et 502 990 Amricains de race blanche.
Score au SAT
Orientaux
Blancs
700-800
601
22 564
600-690
2 001
86 521
500-590
3 190
158 049
400-490
2 788
151 466
300-390
1 309
74 498
200-290
208
9 892
TOTAL
10 097
502 990
a) Testez l'hypothse selon laquelle la moyenne des Orientaux est gale

la moyenne des Blancs.
b) On aurait pu envisager la solution suivante au problme pos en a) :
la moyenne pour les Blancs est de 505,762 et l'cart-type est de
113,011. On pourrait alors songer tester l'hypothse selon laquelle
la moyenne des Orientaux est P = 505,762, en utilisant soit
l'cart-type V = 113,011, soit l'cart-type V calcul partir de
l'chantillon d'Orientaux. Effectuez ces deux tests et discutez de leur
validit.
9 Tests d'hypothses
307
c) Les rsultats en a) et b) sont trs semblables. Donnez une explication

intuitive de ce fait.
*33. Une usine fabrique des vis qu'elle met dans des botes de 100. Soit X le
nombre de vis dfectueuses dans une bote. Pour comparer deux
procds de fabrication, A et B, on les emploie la fabrication de 100
botes chacun. Voici la distribution de X pour chacun des deux
procds :
TOTAL
Effectif
procd A
13
27
27
18
100
Effectif
procd B
30
21
13
15
12
100
Le patron de l'usine demande trois statisticiens de tester l'hypothse

nulle selon laquelle Ies deux procds sont pareils. Le statisticien X fait
un test du khi-deux sur le tableau ci-dessus. Le statisticien Y fait un test
bas sur les proportions de vis dfectueuses dans chaque chantillon de
10 000 vis. Le statisticien Z enfin, fait un test bas sur les nombres
moyens de vis dfectueuses par bote dans les deux chantillons.
Effectuez les trois tests et commentez. Sont-ils tous les trois valides ?
*34. Xavier a lanc nX ds et obtenu un total de 77 points. Yvon a lanc nY ds
et a obtenu un total de 114 points. Testez l'hypothse selon laquelle ils
ont lanc le mme nombre de ds. (Utilisez D = 5 %).
35. Deux groupes de 11 enfants de troisime anne du cycle primaire ont
complt le test psychologique IAR (Intelligence Achievement
Responsibility) avant et aprs une priode de 4 mois et demi
d'exprimentation avec l'un ou l'autre de deux langages informatiques :
LOGO et Delta Drawing. Contrairement au LOGO, le langage Delta
Drawing n'attache pas une grande importance la dcomposition d'un
problme complexe ou l'apprentissage par la correction des erreurs. Le
test IAR mesure la tendance du sujet se croire matre de ses
apprentissages et de son succs intellectuel. Les chercheurs (Barbara
Burns et Alison Hagerman) ont voulu montrer que l'exercice du langage
LOGO augmente cette tendance. Les rsultats obtenus sont prsents
dans le tableau la page suivante.
308
Effectuez chacun des tests suivants en prenant et D = 10 % et en

supposant l'galit des variances.
a) Testez l'hypothse selon laquelle les deux groupes taient, au dpart,
quivalents.
b) Testez l'hypothse selon laquelle les deux groupes taient, aprs
exprimentation, quivalents.
c) Testez l'hypothse selon laquelle l'augmentation au score IAR est la
mme pour les deux groupes.
d) Pour chacun des groupes, testez l'hypothse selon laquelle l'exercice
du langage informatique ne modifie pas le score IAR.
e) Pour chacun des groupes, testez l'hypothse selon laquelle
l'augmentation au score IAR est la mme pour les garons et pour les
filles.
groupe LOGO
Sexe
groupe Delta Drawing
Score IAR
Sexe
Score IAR
Avant
Aprs
16
29
Avant
15
Aprs
21
20
24
18
22
21
23
21
21
22
21
21
19
22
26
22
20
23
30
22
20
24
26
23
23
24
23
23
30
25
32
26
21
27
34
27
25
28
29
30
27
SOURCE Journal of Educational Computing Research (1989), Vol 5(2), pp 199-212).
36. Un cardiologue du Johns Hopkins Medical Institution a rapport les

donnes suivantes au congrs de l'American Heart Association Dallas
en 1986. Il avait observ 103 patients qui avaient eu une attaque du
cur et se rtablissaient sans complications. Trente des 103 patients
9 Tests d'hypothses
309
avaient vcu des pisodes d'ischmie silencieuse , un arrt intermittent

du dbit sanguin au cur. Une anne plus tard, 9 de ceux-ci mouraient
d'un arrt cardiaque. Parmi les 73 qui n'avaient pas connu d'pisode
d'ischmie silencieuse, 8 seulement mouraient d'un arrt du cur.
Peut-on conclure que ceux qui souffrent de ces ischmies silencieuses
ont une plus forte probabilit de mourir d'un arrt cardiaque ? (Source :
TIME, December 1, 1986)
*37. Au congrs de l'American Heart Association Dallas en 1986, des
chercheurs ont prsent les donnes suivantes sur 98 femmes dont 51
avaient t victimes d'une attaque du cur ; les 47 autres non. Les
femmes taient toutes ges de plus de 50 ans. On a constat que parmi
les 51 femmes qui avaient eu une attaque, 12 n'avaient jamais eu
d'enfants, alors que parmi les 47 autres, 2 seulement n'avaient jamais eu
d'enfants. (Source : TIME, December 1, 1986). Considrons un tirage
dans la population d'o sont issues ces patientes (des femmes de plus de
50 ans), et dfinissons les vnements A et B comme suit :
A : la personne choisie a une crise cardiaque ;
B : la personne choisie n'a pas eu d'enfants.
a) Estimez partir des donnes les probabilits P(B | A) et P(B | Ac).
b) Testez l'hypothse que P(B | A) = P(B | Ac).
c) Des donnes de ce genre sont gnralement prleves dans le but de
tester l'hypothse que le fait d'avoir eu ou pas des enfants n'influence
pas l'tat de sant cardiaque. Or, cette hypothse se traduit plutt
par P(A | B) = P(A | Bc) et non par P(B | A) = P(B | Ac). Montrez qu'en
fait ces deux galits sont quivalentes. Une faon de le faire est de
montrer que les deux sont quivalentes p1p4 = p2p3 o p1, p2, p3 et
p4 sont les probabilits des 4 intersections indiques dans le tableau
suivant :
B
BC
TOTAL
p1
p2
p 1 + p2
p3
p4
p 3 + p4
TOTAL
p1 + p3
p 2 + p4
310
38. Un groupe de 22 000 mdecins se sont rpartis au hasard en deux

groupes de mme taille. Le groupe exprimental a consomm 325 mg
d'aspirine chaque deux jours, le groupe tmoin a pris un placebo. Dans
le groupe exprimental, 104 ont eu une crise cardiaque ; dans le groupe
tmoin, 189 ont eu une attaque cardiaque. Que peut-on conclure ?
(Adapt de TIME, February 6, 1988)
39. Le SIDA se transmet-il plus facilement d'un homme infect son pouse
que d'une femme infecte son poux ? Un article dans le Journal of the
American Medical Association a rapport les rsultats d'une tude base
sur un groupe de 55 femmes et 25 hommes infects par le virus. En plus
de deux ans, deux des femmes avaient transmis le virus leur mari ;
alors que 10 des 25 hommes avaient transmis le virus leur femme.
Montrez que la diffrence est significative. (Source : TIME, March 21,
1988).
Les problmes qui suivent sont de nature diffrente de ceux qui prcdent. Plus
thoriques, ils ont pour but d'illustrer certains aspects des tests d'hypothses qui
n'ont pas t discuts dans le texte.
*40. Supposons qu'on sache par exprience que 60 % des rats infects d'un
certain virus finissent par en mourir. Un chercheur a l'intention
d'injecter le virus un groupe de 20 rats afin de tester l'efficacit d'un
certain mdicament. Sa conjecture est que le mdicament pourrait
rduire le taux de dcs 55 % donc un cart de 5 %.
a) Si l'cart est effectivement de 5 %, quelle est la probabilit qu'il
conclue que le mdicament est efficace ?
b) Quelle est la probabilit de conclure que le mdicament est efficace si
l'cart est infrieur 5 % ? (Il suffit de faire le calcul pour quelques
valeurs entre 5 % et 0 % et de donner une explication intuitive des
rsultats.)
c) Pensez-vous que l'exprience vaut la peine d'tre tente, compte tenu
des probabilits calcules en a) et b) ?
*41. Un test d'estime de soi donne normalement un score moyen de 40 avec
un cart-type (connu) de 16. Une psychologue voudrait vrifier une
certaine conjecture, soit que les acteurs de thtre ont un score moyen P
suprieur la moyenne. Elle a l'espoir de convaincre au plus 8 acteurs
de passer le test et vous demande si, avec un chantillon aussi petit,
9 Tests d'hypothses
311
l'exprience vaut la peine d'tre tente. Elle estime que l'cart G = P

40 entre le score moyen des acteurs et celui de la population gnrale,
n'est pas suprieur 2.
a) Si effectivement G = 2, quelle est la probabilit de conclure, avec un
test 5 %, que P > 40 ?
b) Quelle doit tre la valeur de G pour que, avec un chantillon de taille
8, la probabilit de conclure que P > 40 soit de 50 % ? (Autre faon
d'exprimer la question : quel cart peut-on dceler avec une
probabilit de 50 % ?)
c) Quelle devrait tre la taille de l'chantillon pour que la probabilit de
dceler un cart de G = 2 soit d'au moins 50 % ?
*42. Pour tudier l'effet de l'alcool sur les rflexes, on fait passer 14 sujets
un test de dextrit avant et aprs qu'ils aient consomm 100 ml de vin.
Les scores avant et aprs sont donns dans le tableau suivant (ce sont
des temps de raction ; donc, un score lev signifie un ralentissement
dans les rflexes) :
Sujet
10
11
12
13
14
Avant(X) 57
54
62
64
71
65
70
73
68
70
77
74
80
83
Aprs(Y) 55
60
68
69
70
73
74
74
75
76
76
78
81
90
a) Testez l'hypothse que l'alcool n'a pas d'effet en utilisant le test bas
sur la loi de Student.
b) Une autre faon de tester essentiellement la mme hypothse
consiste noter seulement la direction du changement, c'est--dire
s'il y a eu baisse ou augmentation du score. Soit U le nombre de
changements positifs (augmentation du score) et n le nombre de
changements (qui peut tre diffrent du nombre de sujets si certains
sujets n'ont pas chang). Alors U est de loi binomiale de paramtre n
et p.
i)
Exprimez l'hypothse que l'alcool n'a pas d'effet en fonction de p.
ii) Effectuez un test de cette hypothse en utilisant comme seule

observation la valeur de U (et non les scores eux-mmes).
c) Les conclusions en a) et en b) sont les mmes. Mais supposons que le
huitime sujet ait obtenu les scores 75 et 74 au lieu de 73 et 74.
i)
Testez encore l'hypothse de deux manires ;
312
ii) Expliquez les contradictions dans les conclusions (reprsentez les

diffrences par des points sur une droite ; la raison pour laquelle
on rejette avec un test et pas avec l'autre devrait devenir
apparente).
*43. On utilise gnralement le test bas sur les diffrences Wi = Xi Yi
lorsque Xi et Yi sont dpendantes. Mais on l'utilise aussi lorsque Xi et Yi
sont apparies sans tre dpendantes. Supposons, par exemple, qu'une
psychologue tente de dmontrer qu'il est possible de faire crotre le score
d'une personne un test de rapidit de lecture en lui faisant faire
certains exercices. Une approche possible est la suivante. On choisit les
sujets de telle sorte qu'on puisse former des paires de sujets semblables.
On les accouple selon un critre pertinent comme, disons, l'intelligence.
Le modle est le suivant. Pour le i-ime couple, on observe Xi et Yi de
moyennes PiX et PiY, respectivement. Ces moyennes peuvent varier d'un
couple l'autre. La diffrence Wi = Xi Yi, est de moyenne Gi = PiX PiY et
de variance V2. L'hypothse nulle est que Gi = 0 pour i = 1, ..., n. Lorsque
H0 est vraie, les Wi sont toutes de moyenne nulle et de mme variance V2.
Supposons donc qu'on ait choisi 14 paires de sujets, chaque paire
correspondant un quotient intellectuel donn. Un membre de chaque
paire est affect au hasard au groupe exprimental (qui fait des
exercices), l'autre au groupe tmoin (qui n'en fait pas). Supposons qu'on
obtienne les rsultats suivants :
Paire
10
11
12
13
14
Tmoin
14
14
18
21
23
24
25
25
29
32
32
32
43
45
Exprimental
17
19
17
23
25
23
27
29
26
35
34
38
45
44
a) Testez l'hypothse que les exercices n'ont pas d'effet.

b) Testez la mme hypothse en supposant cette fois-ci que les donnes
n'avaient pas t accouples.
c) Comparez l'estimation de l'cart-type de W X Y dans les deux
modles. La diffrence explique-t-elle les conclusions contradictoires
tires en a) et b) ?
*44. Il existe d'autres tests pour la diffrence entre deux groupes.
Considrons les donnes de l'exercice 35, disons les scores aprs
l'exprimentation. Testez l'hypothse qu'il n'y a pas de diffrence entre
les deux groupes en suivant les tapes dcrites ci-dessous.
9 Tests d'hypothses
313
a) Rangez les donnes des deux groupes en ordre croissant, puis

reprez la mdiane des 22 donnes.
b) Dressez un tableau 2 u 2 contenant les donnes suivantes :
Nombre d'lments du premier groupe
au-dessus de la mdiane
Nombre d'lments du deuxime groupe

au-dessus de la mdiane
Nombre d'lments du premier groupe

au-dessous de la mdiane
Nombre d'lments du deuxime groupe

au-dessous de la mdiane
c) Expliquez en quel sens un test du khi-deux d'indpendance constitue

un test de l'hypothse selon laquelle il n'y a pas de diffrence entre
les groupes LOGO et le groupe Delta Drawing.
d) Le test effectu en c) ne contredit pas la conclusion nonce au
numro 35. Pouvez-vous imaginer des donnes (quelques
modifications de celles-ci, par exemple) o il y aurait contradiction
entre les deux conclusions ?
Mise en garde Le test qui est propos ici exige des effectifs
gnralement suprieurs ceux qui ont servi cet exercice.
*45. Lors d'un projet d'tude des problmes de racisme dans une force
policire, on prlve un chantillon de 32 policiers, dont 16 ont 11 ans de
scolarit ou moins et 16 ont plus de 11 ans de scolarit. Chacun des
deux groupes est divis en deux sous-groupes de 8. L'un des deux
sous-groupes suit un cours de sensibilisation aux groupes ethniques,
l'autre pas. Le tableau suivant donne les rsultats un test d'hostilit
aux groupes ethniques.
Niveau de scolarit
N'ont pas suivi

le cours de
sensibilisation
Ont suivi
le cours de
sensibilisation
6x
6x
d 11 ans
> 11 ans
60 58 56 54
36 36 33 32
52 50 48 46
30 29 26 26
424 , 6x 2
22 640
6x
248 , 6x 2
7 798
50 48 46 44
30 28 26 24
42 40 38 36
22 20 28 26
344 , 6x 2
14 960
6x
204 , 6x
5 280
314
a) Montrez que le cours de sensibilisation a eu un effet pour les policiers

ayant 11 ans de scolarit ou moins.
b) Montrez que le cours de sensibilisation a eu un effet pour les policiers
ayant plus de 11 ans de scolarit.
c) Montrez que si l'on ne fait pas cas du niveau de scolarit, on ne
trouve pas de diffrence significative entre ceux qui ont suivi et ceux
qui n'ont pas suivi le cours de sensibilisation.
*46. Supposons que la dure (en milliers d'heures) des pices lectroniques
d'un certain type est de loi exponentielle de paramtre T. Pour tester
l'hypothse H0 : T = 10, on tire une pice au hasard et on observe sa
dure X. Considrez les deux tests suivants :
TEST 1 : on rejette H0 si X < 0,5.
TEST 2 : on rejette H0 si X < 0,2.
Le but de ce problme est d'tudier les avantages et dsavantages relatifs
de ces deux tests.
a) Dterminez la probabilit de rejeter H0 si H0 est vraie : i) lorsqu'on
utilise le test 1 ; ii) lorsqu'on utilise le test 2.
Lequel des deux tests parat meilleur avec ce critre ?
b) Vrifiez les probabilits dans le tableau suivant
Probabilit de rejeter H0
Valeur
de T
Test 1
Test 2
0,054 0
0,022 0
0,095 2
0,039 2
0,5
0,632 1
0,329 7
0,1
0,993 3
0,864 7
0,05
0,999 95
0,981 7
Lequel des deux tests semble meilleur la lumire de ces calculs ?

c) Supposons qu'on dcide qu'on rejettera H0 si X d a. Quelle doit tre
l'a valeur de a si l'on veut que la probabilit D de rejeter H0 tort soit
i) 5 % ? ii) 1 % ? iii) 0,5 % ?
9 Tests d'hypothses
315
*47. Supposons que le nombre de fautes typographiques dans une page est
de loi de Poisson. Considrez deux procdures pour tester l'hypothse H0
que le nombre moyen T d'erreurs par page dans un livre est 1.
Procdure 1 : on tire une page au hasard ; on rejette H0 si le nombre
d'erreurs X est suprieur ou gal 4.
Procdure 2 : on tire deux pages au hasard ; on rejette H0 si le nombre
total d'erreurs Y dans les deux pages est suprieur ou gal 6.
a) Dterminez la probabilit de rejeter H0 si H0 est vraie : i) lorsqu'on
utilise la procdure 1 ; ii) lorsqu'on utilise la procdure 2. Lequel des
deux tests parat meilleur avec ce critre ?
b) Vrifiez les probabilits dans le tableau suivant :
Probabilit de rejeter H0
Valeur
de T
Procdure 1
procdure 2
1,0
0,019 0
0,016 6
1,2
0,033 8
0,035 7
1,3
0,043 1
0,049 0
1,4
0,053 7
0,065 1
Lequel des deux tests semble meilleur la lumire de ces calculs ?

c) Supposons qu'on dcidera de rejetter H0 si X t a. Quelle doit tre la
valeur de a si l'on veut que la probabilit D de rejeter H0 tort soit
infrieure ou gale 1 % ?
10
Techniques
de sondages
10.1 chantillonnage d'une population finie

x Notation
x Estimateur de la moyenne
x Formule de calcul
x Intervalle de confiance pour la moyenne
x Estimation d'un total
10.2 chantillonnage stratifi - estimation d'une moyenne
10.3 Allocation des observations
x Allocation proportionnelle
x Allocation optimale
x Paramtres inconnus
x Strates recenses
x Allocation optimale
10.5 chantillonnage systmatique
10.6 chantillonnage en grappes
RSUM
EXERCICES
317
Introduction Nous avons jusqu'ici prsent un seul mode d'chantillonnage :

l'chantillonnage alatoire simple, dans lequel on effectue n tirages
indpendants, chaque fois dans la population entire. Cette description
convient certains types de sondages et un grand nombre d'expriences
scientifiques. Lorsqu'on pse n rats soumis un certain traitement, les n
poids peuvent tre considrs comme les rsultats de n tirages d'une mme
population. La population est infinie puisqu'elle reprsente l'ensemble de
tous les poids qu'on pourrait thoriquement observer. Il est donc raisonnable
de prendre pour modle n variables alatoires X 1 , X 2 , X n , indpendantes
et de mme loi.
Certains sondages, auprs de grandes populations, obissent peu prs ce
modle. Ce sont les sondages dont le procd simule le tirage alatoire de
boules dans une urne : d'une liste complte des lments de la population,
on tire successivement n lments, en donnant chaque fois une
probabilit de slection gale pour tous les lments. Une municipalit peut
chantillonner les logements de la ville de cette faon, puisqu'elle dispose
gnralement d'une liste des logements. L'administration d'une compagnie
peut utiliser cette approche pour choisir un chantillon d'employs.
Remarque Un sondage tlphonique est parfois considr comme un
chantillon alatoire simple, bien qu'il soit abusif de le considrer comme un
chantillon de mnages : certains mnages ont plus d'un numro de tlphone
et donc plus de chance que les autres d'tre choisis ; alors que d'autres
mnages, sans tlphone, n'ont aucune chance d'tre choisis. Il s'agit donc
d'un chantillon alatoire simple de la population de numros de tlphone.
Dans les sondages informels, comme ceux que peuvent mener certains
journalistes, on ne tient pas compte de ce problme, ce qui est quivalent
supposer que, dans la trs grande majorit des cas, un mnage a exactement
un numro de tlphone. Les sondages plus sophistiqus font gnralement
des ajustements pour compenser le fait que les mnages avec plusieurs
tlphones ont plus de chance d'tre reprsents - mais ils ne peuvent toujours
pas inclure dans un sondage tlphonique les mnages sans tlphone.
Pour plusieurs raisons, des raisons de commodit, d'conomie ou de
prcision, on pratique souvent un mode de sondage plus complexe que
l'chantillonnage simple dcrit plus haut. Un sondage d'opinion auprs de la
population canadienne est un exemple typique. Il ne serait pas ais de
dresser une liste de tous les adultes canadiens. On commence normalement
318
par stratifier la population, c'est--dire la rpartir en sous-populations. Une

rpartition selon la province est un dbut naturel, mais on ne s'arrte pas l.
On voudra galement sparer les rgions urbaines des rgions rurales, ainsi
que les trs grandes agglomrations des plus petites. On dcidera sans doute
que les quelques grandes villes devront toutes tre reprsentes, mais pas
tous les villages. Dans les villages on choisira des logements, alors que dans
les villes on commencera peut-tre par faire un choix de quartiers, puis de
rues, puis de logements. Ce qui rsulte d'une telle procdure est un
chantillon dont les proprits sont trs diffrentes de celles d'un chantillon
alatoire simple.
part l'chantillonnage alatoire simple, les procdures les plus courantes
sont l'chantillonnage stratifi, l'chantillonnage systmatique, et
l'chantillonnage en grappes. Dans ce chapitre, nous prsenterons
l'chantillonnage stratifi ; les deux autres techniques ne seront que
brivement dcrites. Une caractristique commune toutes ces techniques,
connues sous le nom de techniques de sondage, c'est qu'elles prsupposent
une population finie dont on peut numrer les lments. Cette seule
diffrence entrane des changements la thorie dveloppe dans les
chapitres prcdents, mme dans le cas de l'chantillonnage simple. Nous
commenons par discuter ces changements.
10.1
CHANTILLONNAGE D'UNE POPULATION FINIE

Aux chapitres 8 et 9, nous nous sommes limits aux modles qui supposent
une population infinie. Ces modles s'appliquent dans l'une ou l'autre des
conditions suivantes :
1. La population est rellement infinie. Lorsqu'on estime le poids moyen
d'un bb la naissance, par exemple, la population, idalise, est
l'ensemble thoriquement infini de tous les bbs possibles.
2. La population est finie, mais les tirages se font avec remise. Ce mode
d'chantillonnage, dans lequel un mme lment de la population peut se
retrouver plus d'une fois dans l'chantillon, est pratiqu dans certaines
circonstances particulires mais il n'est pas trs courant. Un exemple est
mentionn dans la section 10.6 sur l'chantillonnage en grappes.
3. La population est si grande compare l'chantillon qu'on peut, toutes
fins pratiques, la considrer infinie, mme si les tirages se font sans
319
remise. Un sondage sur les opinions des Canadiens, par exemple, est
gnralement constitu d'un chantillon d'au plus quelques milliers ; la
population est de plusieurs millions.
Le troisime cas ci-dessus est le plus frquent, et c'est la grande taille de la
population qui motive le recours l'chantillonnage. Il existe toutefois des
cas o la population est petite, assez petite pour que les tirages ne soient
plus indpendants, mme approximativement. Typiquement, c'est le cas o
l'chantillonnage s'impose non pas par la grande taille de la population mais
par le cot lev des observations. Supposons, par exemple, qu'une
municipalit se propose d'tudier la qualit du sol dans ses parcs. Si les
analyses chimiques sont longues et coteuses, on trouvera trop onreux
d'obtenir les donnes sur tous les parcs, mme si le nombre de parcs n'est
pas norme. On se contentera donc d'un chantillon, lequel, bien sr, sera
tir sans remise.
Nous verrons que les proprits des estimateurs se trouvent modifies par le
fait que les observations ne sont pas indpendantes. Heureusement, la
modification est relativement mineure et n'affecte que la variance de
l'estimateur.
Notation Les lments de la population sont des nombres que nous

dnoterons par
v 1 , v 2 , , v N
o N dsigne la taille de la population. La taille de l'chantillon sera note n ,
comme d'habitude. La moyenne P et la variance V 2 de la population sont
dfinies de la mme faon qu'au chapitre 2, soit
P
1
N
vi ; V
i 1
v i P
i 1
Estimateur de la moyenne La moyenne arithmtique X est encore

l'estimateur ponctuel de P , et elle est sans biais dans ce contexte galement,
c'est--dire, E X
P . Nous devrons estimer l'cart-type de X
afin de
construire un intervalle de confiance pour P . On estime l'cart-type de X

par
V X
V
n
1
n
N
V
n
1 f ,
320
o V 2 est la variance chantillonnale dfinie par
i 1X i X
n
et f
n 1
n N est appele fraction (ou taux) d'chantillonnage.
Remarque Rappelons que lorsque la population est infinie, la variance de

2
X est estime par V n . Ce qui change, donc, c'est le facteur 1 f , appel
facteur de correction :
Facteur de correction 1 f
1
n
N
qui est infrieur un et donc a pour effet de diminuer l'cart-type de X . Le

taux d'chantillonnage f est la quantit dterminante. Si f est petit,
c'est--dire, si l'chantillon est petit par rapport la population, le facteur de
correction est proche de 1, et la variance ne diminue que de peu. Inversement,
si f est grand, le facteur de correction est beaucoup plus petit que 1 et la
variance est rduite considrablement.
Formule de calcul On a dj fait remarquer que la somme des carrs,
Xi X
, au numrateur de V 2 , est quivalente la diffrence
X i2 nX 2 , ce qui donne la formule suivante pour le calcul de V 2 .

n
V 2
i 1 X i2 nX 2 .
n 1
Intervalle de confiance pour la moyenne Nous avons donn au chapitre 8 la

formule suivante pour un intervalle de confiance :
X c D V X d P d X c D V X ,
o c D est trouve dans la table de la loi de normale ou de la loi de Student.
Lorsque la population est finie, la formule demeure la mme dans sa forme
extrieure. Mais il y a deux changements :
321
1. Il n'existe pas de thorie exacte pour des petits chantillons et une

population normale, base sur la loi de Student. Donc, la formule ne
peut tre utilise que lorsque l'chantillon est grand, et la valeur de c D ,
vient gnralement de la table de la loi normale.
2. L'estimateur V X de l'cart-type, qui est V / n pour une population
infinie, est modifie par le facteur
1 f .
La formule complte pour un intervalle de confiance est donc

X cD
V
n
1
n
N
d P d X cD
V
n
1
Remarque Rappelons les conditions dans lesquelles les intervalles de

confiance ont t dvelopps au chapitre 8. Nous avons propos deux
procdures. L'une est base sur la supposition que la population est normale ;
l'autre s'appuie sur le thorme limite central. Les deux procdures sont
invalides par le fait que la population n'est pas infinie : la premire parce que
la notion de normalit se dfinit mal dans le cas des populations finies ; et la
deuxime parce que le thorme limite central exige que les variables soient
indpendantes, hypothse qui nest pas vrifie lorsque les tirages se font sans
remise. Il est vrai qu'on peut donner une dfinition intuitive de la normalit
d'une population finie : la population est normale si l'histogramme des valeurs
v 1 , , v N a la forme symtrique d'une fonction de densit normale. Dans la
mesure o cet histogramme prend la forme d'une loi normale, la distribution de
la variable X aura effectivement tendance tre normale. Cet nonc plutt
vague devra remplacer le thorme nonc rigoureusement au chapitre 7 : si la
population est normale, X est normale. Quant au thorme limite central, il en
existe une version pour les populations finies qui permet de conclure la
normalit de X . Nous ne l'nonons pas ici, mais notons qu'il faut non
seulement que n soit grand, mais que N n le soit aussi. Ainsi la moyenne
d'un chantillon de taille 1 000 est normale si la population est de taille
1 000 000, mais pas si la population est de taille 1 010.
322
Exemple 1
D'une population de N 8 427 comptes recevoir, on prlve un chantillon

de taille n 30 afin d'estimer la valeur moyenne d'un compte. Voici les
rsultats, en dollars :
240,82
232,50
740,81
860,32
224,10
7,15
324,11
240,12
10,02
190,08
182,75
160,20
148,22
41,10
119,25
113,85
108,30
107,10
101,19
9,15
99,21
93,12
88,13
80,15
78,13
72,15
67,13
65,14
132,19
32,17.
Estimer la moyenne de la population et l'cart-type de l'estimateur et

dterminer un intervalle de confiance 95 % pour P .
Nous avons
4 968 , 66 , X i2
Xi
1 864 906 , 49.
L'estimateur de la moyenne est

X
4 968 , 66 / 30
165 , 62 $.
L'cart-type V de l'chantillon, et l'cart-type V X de l'estimateur sont

2
X i nX
1 864 906 , 49 30 4 968 , 66 / 30 2
n 1
V
V
X
35 930 , 59
189 , 55
30 1
n
35 930 , 59
30
1
1
30
34 , 61 1 0 , 003 56
34 , 55.
8 427
Le facteur de correction n'est pas important ici : s'il avait t omis, l'carttype aurait t estim V X 34 , 61 , assez proche de la valeur 34,55 calcule
plus haut. L'intervalle de confiance est donn par
X c D V X d P d X c D V X .
X
165 , 62 , V X
34 , 55 , et 95 %, c D
1, 96. Donc, l'intervalle est
165 , 62 1, 96 34 , 55 d P d 165 , 62 1, 96 34 , 55 ,
97 , 90 d P d 233 , 34.
323
L'intervalle, trs large, montre que, tant donn la dispersion importante de

la population ( V = 189,55), l'chantillon n'est pas assez grand pour donner
une meilleure prcision.
videmment, ces rsultats sont approximatifs, puisque la normalit de la
population est trs douteuse et l'chantillon n'est pas trs grand.
i
Estimation d'un total Nous avons, dans le cas fini, un paramtre qui n'est pas
dfinissable dans une population infinie. C'est le total des donnes de la
population, que nous noterons W . Puisque W NP , le problme n'est pas
nouveau. W est estim par W NX , et l'intervalle de confiance pour W est
calcul en multipliant par N les limites de l'intervalle de confiance pour P
Exemple 2
Dans l'exemple 1, on estime la valeur totale des comptes recevoir par

W NX = 8 427(165,62) = 1 395 679,74 $. Un intervalle de confiance est
donn par 8 427(97,90) d W d 8 427(233,34), soit 825 003 d W d 1 966 356.
10.2
CHANTILLONNAGE STRATIFI - ESTIMATION D'UNE MOYENNE

Il arrive qu'une population soit naturellement divise en sous-populations :
la population d'un pays est rpartie en rgions gographiques ; les clients
d'une compagnie sont des particuliers, des dtaillants ou des grossistes ; les
tudiants d'une universit appartiennent l'une ou l'autre des facults ; les
employs d'une compagnie relvent de diffrents services ou succursales. Si
l'on veut chantillonner cette population pour estimer quelque paramtre, il
est parfois commode de prlever un chantillon dans chacune des souspopulations pour les runir ensuite. Les sous-populations sont alors
appeles des strates, et le mode d'chantillonnage est appel
chantillonnage stratifi. Prcisons la notation et la procdure. La
population est forme de K strates, et
N 1 , N 2 , , N K dnotent les tailles des strates ;

P 1 , P 2 , , P K dnotent leurs moyennes ; et
V 12 , V 22 , , V K2 dnotent leurs variances.
324
Nous considrons le cas o dans chaque strate on prlve un chantillon

alatoire simple (tirages successifs, sans remise). Nous avons donc K
chantillons, et
n1 , n 2 , , n K dnotent les tailles des chantillons ;

X 1 , X 2 , , X K dnotent leurs moyennes ; et
V 12 , V 22 , , V K2 dnotent leurs variances.
FIGURE 10.1
Illustration d'un chantillon stratifi

Paramtres des strates
Population
(taille N)
N1
P1
V1
N2
P2
V2
n1
chantillons
Nk
Pk
Vk
n2
nk
x1
x2
xk
V 1
V 2
V k
Donnes chantillonnales
La situation est schmatise dans la figure 10.1. Puisque les chantillons

sont prlevs sparment, les moyennes X 1 , X 2 , , X K sont des variables
indpendantes qui estiment, respectivement, les paramtres P 1 , P 2 , , P K .
325
Pour chacune des strates, les paramtres, les estimateurs et leurs proprits
sont exactement ceux prsents dans la section 10.1. Pour i 1, 2 , , K ,
l'estimateur de P i est X i et l'cart-type de X i est estim par
V X
o f i
V i
i
1
ni
ni
V i
Ni
ni
1 fi ,
n i N i . Donc, rien de nouveau en ce qui concerne l'estimation des
paramtres des strates. Rappelons toutefois que la population cible est la

runion des strates, et que les paramtres que l'on veut estimer sont ceux de
la population entire. Il faudra donc runir les donnes des K chantillons
de faon obtenir un estimateur de la moyenne de la population. La
moyenne P de la population peut tre exprime en fonction des moyennes
P i des strates :
P
N 1 P1 N 2 P 2 N K P K
N1
Les proportions N 1 / N , N 2 / N , , N K N
P1
N2
N
P 2
NK
N
PK .
sont les tailles relatives des K
strates. Nous les noterons W1 , W 2 , , W K . Nous pouvons exprimer P en

fonction des W i
Ni N :
K
W1 P 1 W 2 P 2 W K P K
Wi P i .
i 1
Pour estimer P , il suffit de remplacer chaque P i dans l'expression ci-dessus

par son estimateur X i . On a alors l'estimateur P dfini par
K
W1 X 1 W 2 X 2 W K X K
Wi X i .
i 1
L'cart-type de P est estim par

K
V P
2
2
W i V X
i 1
2
Wi
i 1
V i2
n
1 i .
n i
N i
326
Exemple 3
Pour estimer la superficie moyenne des maisons et appartements d'une ville,

on commence par classer les habitations en trois strates :
Strate 1 : Nouvelles maisons construites sur l'ancien terrain de golf ;
Strate 2 : Vieilles maisons ;
Strate 3 : Appartements, duplex et autres.
On prlve un chantillon de chacune des strates. Les tailles des strates et
des chantillons sont
N1
n1
80
N2
10 n 2
200
20 n 3
N3
500
30.
Voici les superficies des maisons ou appartements dans les trois chantillons
(en mtres carrs) ainsi que quelques calculs :
Strate 1
466
428
506
458
408
373
429
397
422 , 6 , X i2
1 803 308 ,
1 9 1 803 308 10 422 , 6 2
1 933 , 378.
Xi
2
V 1
394
4 226 , X 1
367
Strate 2
301
319
232
228
268
201
233
220
261
203
261
370
214
242
296
234
280
270
259
195
Xi
5 087 , X 2
254 , 35 , X i2
1 19 1 330 573 20 254 , 35 2
2
V 2
1 330 573
1 931, 292 .
Strate 3
234
178
197
160
156
141
171
194
203
160
224
186
150
182
174
205
190
171
183
155
180
173
212
149
160
139
149
180
182
167
Xi
2
V 3
5 305 , X 3
176 , 83 , X i2
1 29 954 313 30 176 , 83 2
954 313 ,
559 , 040.
327
La taille de la population est N =80 + 200 + 500 + 780 ; les tailles relatives
des strates sont W1 N i N = 80/780 = 8/78 | 0,1026, W 2 = N 2 N = 20/78 |
0,2 564, W 3
N 3 N =50/78 | 0,6 410. La moyenne de la population est
estime par
P
8
20
50
78 422 , 6 78 254 , 35 78 176 , 83
221, 91.
La variance de P est estime par

2
V P2
10 20 1 931, 292
20
8 1 933 , 378
1

1
78
10
80 78
20
200
30
50 559 , 040
1
30
500
78
1, 780 5 , 714 7 ,198
14 , 692.
Donc, l'cart-type estim de P
14 , 692 3, 833, et un intervalle de confiance
approximatif 95 % pour P est P r 1, 96V P 221, 91 r 1, 96 3, 833 , soit

214 , 4 d P d 229 , 4.
Remarque Plusieurs chercheurs effectuent des analyses partir des donnes

publies dans des documents officiels. Souvent, ils supposent que les donnes
sont issues d'un chantillon alatoire simple alors qu'elles peuvent avoir t
obtenues par un chantillon stratifi. C'est une erreur dont les consquences ne
sont pas ngligeables. Supposons, dans l'exemple 3, qu'on considre les n = 60
donnes comme si elles constituaient un chantillon alatoire simple d'une
population de taille N = 780. On aurait alors estim la moyenne par X , un
estimateur qui n'est pas sans biais dans une situation comme celle-ci o
certaines strates sont proportionnellement mieux reprsentes que d'autres.
Nous aurions obtenu, en effet, X 243,633, au lieu de 221,91. Cette
surestimation est attribuable au nombre proportionnellement grand d'units
appartenant aux deux premires strates. L'cart-type de X aurait galement t
mal estim : nous l'aurions estim par la formule V
intervalle de confiance aurait t

220 , 7 d P d 266 , 6.
n 1 f
11, 720 , et notre
328
Cet intervalle est beaucoup plus long que l'intervalle obtenu correctement plus
haut. Il se trouve que l'erreur n'est pas grave dans la mesure o elle donne une
vision plutt pessimiste : l'estimation est de fait plus prcise que ne laisse
croire l'intervalle. Dans certains cas, une procdure errone peut donner lieu
des rsultats indment optimistes, ce qui est plus grave.
10.3
ALLOCATION DES OBSERVATIONS

Supposons que la valeur de n est fixe partir de considrations
conomiques. Comment doit-on rpartir cet effectif total entre les strates ?
Dans l'exemple 3, l'chantillon total est de taille n = 60, rparti ainsi : n1 , =
10, n 2 = 20, et n 3 = 30. Les mme 60 observations auraient pu tre alloues
diffremment. Quelles sont les consquences des diffrentes allocations ? Les
consquences sont en fait importantes, car la variance de l'estimateur en
dpend. D'ailleurs, la stratification n'est pas toujours impose par la nature :
on y recourt souvent volontairement, prcisment dans le but de rduire la
variance de l'estimateur.
Exemple 4
Utilisons les estimations V 12 =1 933,378, V 22 =1 931,292 et V 32 = 559,040

obtenues des donnes de l'exemple 3 pour estimer l'cart-type de P pour
diffrentes
allocations
n1 , n 2 , n 3 . Pour
une
allocation
donne
des
60
observations, l'cart-type de P est estim par

2
2
8 V 1
78 n
2
2
n 20 V 2
1 1
80 78 n 2
2
2
n 50 V 3
1 2
200 78 n 3
1 3 .
500
Voici l'cart-type de P qui rsulte de quelques allocations possibles :

Allocation
( n1 , n 2 , n 3 )
(9,22,29)
cart-type de
3,82
(6,15,39)
4,05
(20,20,20)
4,18
(30,10,20)
4,85
(50,5,5)
8,39
329
Nous voyons que l'allocation a un effet important sur l'cart-type. Deux types
d'allocation sont utiliss couramment : l'allocation proportionnelle et
l'allocation optimale.
Allocation
proportionnelle
Une
allocation naturelle
est l'allocation
proportionnelle, qui rpartit l'chantillon de la mme faon que la population :
les n i sont proportionnels aux N i , (ou aux W i , ce qui revient au mme). Nous
avons approximativement les galits suivantes :
ni
nWi .
Dans l'exemple 3, l'allocation proportionnelle donne

n1
78 | 6, n
60 8
60 20
78
| 15, n
60 50
78
| 39.
Nous voyons aux calculs de l'exemple 4 que l'allocation proportionnelle n'est

pas la meilleure : elle donne un cart-type de 4,05, alors que pour
l'allocation (9, 22, 29), l'cart-type est de 3,82.
Si l'allocation proportionnelle n'est pas la meilleure, peut-on nanmoins dire
qu'elle est relativement bonne ? En particulier, un chantillon stratifi avec
allocation proportionnelle est-il prfrable un chantillon non stratifi ? La
rponse est oui, condition que les moyennes des strates soient assez
diffrentes les unes des autres. Cette condition est vrifie dans la plupart
des cas car c'est prcisment lorsque les strates sont trs diffrentes qu'il est
naturel de stratifier.
Allocation optimale Nous avons vu que mme si l'allocation proportionnelle

est gnralement bonne, il y en a de meilleures. Est-il possible de trouver la
meilleure de toutes ? Plus prcisment, tant donn un nombre total n
d'observations, y a-t-il moyen de les rpartir entre les strates de faon
minimiser la variance de P ? Il y a effectivement une allocation unique pour
laquelle la variance (et donc l'cart-type) de P est minimale ; elle est appele
allocation optimale. Puisque cette allocation dpend des variances des
strates, nous supposons ces variances connues pour le moment. On peut
dmontrer que l'allocation optimale est donne par
les n i proportionnels aux quantits Wi
Ni
V 1 | Wi V i
Ni 1
o l'galit approximative est vraie dans la mesure o les N i sont grands.
330
Exemple 5
Considrons une population rpartie en 4 strates dont les paramtres sont

les suivants.
Ni
100
200
300
400
Vi
365
38
14
Dterminons l'allocation optimale d'un chantillon de taille 50. Les valeurs

de Wi V i sont
(0,1)(365), (0,2)(38), (0,3)(14), (0,4)(5),
soit
36,5 7,6 4,2 2,0.
La somme de ces nombres est 50,3, et l'allocation optimale est donne par
n1
36 , 5
50 , 3
50 | 36 ; n 2
7,6
50 , 3
4,2
50 | 8 ; n 3
50 , 3
50 | 4 ; n 4
2, 0
50 | 2.
50 , 3
Pour un chantillon de taille 50, l'cart-type de P est plus petit avec cette
i
allocation qu'avec toute autre.
Nous pouvons aisment dterminer une formule prcise pour les n i : dire
que les n i sont proportionnels aux Wi V i , c'est dire que pour une certaine
constante a , n i
aWi V i ; puisque n i
aWi V i
n , alors
n a Wi V i
na
n / Wi V i .
Nous avons donc la formule suivante pour n i :

ni |
Wi V i
k
j 1W j V j
n.
Paramtres inconnus Pour dterminer l'allocation proportionnelle, il suffit de

connatre les Wi . Pour dterminer l'allocation optimale, par contre, il faut
aussi connatre les V i . Or, les V i sont des paramtres de la population et
sont donc inconnus. Il n'y a pas de solution gnrale ce problme : en
pratique on tente, d'une faon ou d'une autre, d'obtenir une estimation des
331
V i : soit par un chantillonnage conu cette fin, soit en se basant sur des
donnes semblables prises dans d'autres populations.
Strates recenses Il peut arriver que la formule pour l'allocation optimale

donne pour certaines strates une valeur de n i suprieure N i . Dans ce cas,
on prlve toutes les units des strates en question, et on utilise l'allocation
optimale pour les autres strates.
Exemple 6
Considrons une population de taille N = 130 rpartie en trois strates

d'effectifs 15, 40 et 75, respectivement, et d'carts-types 28 313, 2 032 et
276, respectivement. Quelle est la rpartition optimale d'un chantillon de
taille 25 ?
Les valeurs de Wi V i sont 3 267, 625 et 159 et leur somme est 4 051. Donc,
l'chantillon doit tre rparti selon les proportions 3 267/4 051 = 0,81,
625/4 051 = 0,15 et 159/4 051 = 0,04.
L'allocation est donc
ni
0 , 81 25 | 20 , n 2 0 ,15 25 | 4
et n 3
0 , 04 25 | 1.
Il est impossible de prlever un chantillon de taille 20 dans la premire

strate, qui ne contient que 15 lments. On en prlvera donc 15, la strate au
complet ; et on rpartira ensuite les 10 observations qui restent entre les deux
dernires strates. Les 10 observations seront rparties proportionnellement aux nombres 625 et 159, dont la somme est 784. Les tailles des deux
derniers chantillons sont donc n 2 625 784 10 | 8 , n 3 159 784 10 | 2 . La
moyenne est estime comme d'habitude par P
puisque W1 X 1
W1 X 1 W2 X 2 W3 X 3 mais
W1 P 1 , le premier terme est fixe et sa variance est nulle. La
formule usuelle pour l'estimateur de la variance s'applique quand mme ; on

verra que le premier terme est automatiquement nul cause du facteur de
correction 1 n1 N 1 1 N 1 N 1 0.
10.4
ESTIMATION D'UNE PROPORTION

Un chantillonnage par stratification peut tre employ profitablement pour
estimer une proportion p. La thorie ne change pas, car une proportion est
une moyenne : c'est la moyenne d'une variable dichotomique, c'est--dire,
une variable qui ne prend que les valeurs 0 et 1. Par exemple, si p est la
332
proportion de fumeurs dans une population de N personnes, alors

p 1 N v j , o v j est gal 1 si la j -ime personne est fumeuse et v j 0
sinon. Donc, p est identique ce que nous avons not P dans les sections
prcdentes. Les proportions des strates seront dnotes par p i , (au lieu de
P i ), et les proportions chantillonnales par p i (au lieu de X i ). La moyenne
pondre que nous avons note X sera ici note p :
W1 p 1 W 2 p 2 W K p K
W i p i .
i 1
La nature dichotomique de la variable permet de donner des expressions

plus simples pour les variances. On peut montrer que pour une variable
dichotomique la variance chantillonnale de la strate i devient
ni
V i2
ni 1
p i 1 p i
ni
ni 1
p i q i | p i q i ,
la dernire galit approximative n'tant vraie que si les n i sont grands. Il n'y
a pas d'autre changement de notation : les formules pour les estimateurs des
carts-types des p i et de p sont identiques celles pour les X i et pour X :
V p
V i
i
1
ni
ni
V i
Ni
ni
1 fi
pour p i et
K
V p
Wi V 2p
i 1
pour p .
V i2
n
1 i
Wi
n i
N i
i 1
K
Wi 2
i 1
p i q i
n
1 i
n i 1
N i
333
Le paramtre W dfini dans la section 10.1 devient ici W Np et reprsente

un effectif : si p est la proportion de fumeurs dans une population, W est le
nombre de fumeurs dans la population.
Exemple 7
Pour estimer la proportion d'employs en faveur d'un plan de soins

dentaires, on prlve un chantillon alatoire simple dans chacune des 4
divisions de la compagnie. Les effectifs des 4 divisions sont 4 523, 3 456,
1 300, 1 124, et les tailles des chantillons sont 22, 17, 6 et 5,
respectivement. Le nombre de personnes favorables est 10, 5, 3, et 3.
a) Les Wi sont 4 523/10 403 = 0,434 8 ; 3 456/10 403 = 0,332 2 ;
1 300/10 403 = 0, 125 O ; 1 124/10 403 = 0,108 0.
Les p i sont 10/22 = 0,454 5 ; 5/17 = 0,294 l ; 3/6 = 0,5 ; 3/5 = 0,6.
Donc p = (0,434 8)(0,454 5) + (0,332 2)(0,294 1) + (0,125 0)(0,5)
+ (0, 108 0) (0,6) = 0,422 6.
On estime que 42,26 % des employs de la compagnie sont en faveur
du plan. Donc, on estime que le nombre d'employs en faveur du plan
est
W = 10 403 x 0,422 6 = 4 396.
b) la variance de p est
4 523
10 403
10 12
2
22 22
22 3 456
1

21
4 523 10 403
1 300

10 403
0 , 5 0 , 5
5
1
1 124

1 300 10 403
6
5 12
17 17
17
1
16
3
456
0 , 6 0 , 4
4
1
1 124
5
0 , 005 12.
L'cart-type de p est donc
0 , 005 12
0 , 071 6.
c) Un intervalle de confiance approximatif 95 % pour p est donn par

p r 1, 96V p o p 0, 422 6 et V p 0, 071 6 , soit
0 , 282 3 d p d 0 , 562 9.
334
Avec 95 % de confiance, on peut affirmer qu'il y a entre 28,2 % et

56,3 % d'employs en faveur du plan.
d) Nous pouvons dterminer un intervalle de confiance approximatif
pour W en multipliant les deux bornes par N = 10 403. Nous
obtenons :
2 937 d W d 5 856.
Nous pouvons affirmer avec peu prs 95 % de confiance que le nombre

d'employs en faveur du plan se situe entre 2 937 et 5 856.
i
Allocation optimale L'allocation optimale est, bien sr, toujours la mme, soit
approximativement
les n i proportionnels aux Wi V i
o V i2
p i 1 p i .
Il peut arriver, en l'absence d'information sur les p i , qu'on les suppose

gaux. Dans ce cas, l'allocation optimale est une allocation proportionnelle.
En pratique, la supposition que les p i sont gaux ne sera pas vrifie.
Cependant, la formule ci-dessus montre que l'allocation optimale dpend des
produits p i 1 p i et non des p i eux-mmes. Or, en gnral les valeurs du
produit p i 1 p i ne varient pas beaucoup, moins que les p i s'loignent
beaucoup de 1/2. Donc, moins que les valeurs des p i soient extrmes,
l'allocation optimale
proportionnelle.
Exemple 8
n'est
pas
tellement
diffrente
de
l'allocation
Les 3 strates d'une population contiennent respectivement 175, 375 et 450

units. Nous considrons la rpartition optimale d'un chantillon de taille
100 sous deux hypothses : (i) p1 0 , 4 , p 2 0 , 5 , p 3 0 , 6 , et (ii)
p1
0 , 05 , p 2
0 ,15 , p 3
0 , 25. Les valeurs de Wi sont 0 ,175 , 0 , 375 , 0 , 450.
Sous l'hypothse (i) les valeurs de W i V i
Wi
p i 1 p i
sont 0,085 7, 0, 187 5,
0,220 5, leur somme est 0,493 7, et l'chantillon doit tre rparti selon les
proportions 0,085 7/0,493 7, 0,187 5/0,493 7, 0,220 5/0,493 7, ce qui
donne environ n i = 17, 38 et 45. Sous l'hypothse (ii) les n i sont 10, 37, 53.
On voit bien que la premire rpartition, le cas o les p i sont proches de
0,5, est essentiellement la rpartition proportionnelle.
10.5
335
CHANTILLONNAGE SYSTMATIQUE
L'chantillonnage systmatique est un mode d'chantillonnage motiv
surtout par des questions de commodit. Supposons que les patients d'une
clinique mdicale sont reprsents dans un fichier alphabtique. On peut
toujours indexer chaque fiche par un numro qui la situe dans le fichier, et
ensuite faire un tirage alatoire des numros. Une faon plus naturelle de
procder consiste tirer les fiches des intervalles rguliers. Par exemple, si
l'on veut tirer n = 50 fiches d'une population qui en contient N = 10 000, on
les tirera des intervalles de 200 fiches. Plus prcisment, la premire est
choisie au hasard parmi les 200 premires du fichier. Aprs elle, les 49
autres suivent des intervalles de 200. Si, par exemple, la premire fiche est
celle du rang 123, les fiches suivantes sont de rangs 323, 523, 723, 923, ...,
9 523, 9 723, 9 923.
Ce mode d'chantillonnage a beaucoup d'attrait, indpendamment des
questions de commodit. On sent qu'un chantillon tir de cette faon a
chantillon
Strate
10
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
plus de chance de couvrir la population entire. Ceci est particulirement

vrai des expriences agricoles : en tirant une plante chaque 10 ranges,
disons, on s'assure que le champ entier soit reprsent. Cet objectif, de
couvrir toutes les parties d'une population, est parfois ce qu'on vise
lorsqu'on stratifie. Il y a d'ailleurs un certain lien entre l'chantillonnage
systmatique et l'chantillonnage stratifi : supposons qu'on tire un
chantillon systmatique de taille n = 5 d'une population de 50 lments,
numrots de 1 50 dans le tableau ci-dessus.
On prendra donc comme point de dpart un nombre au hasard entre 1 et
10, aprs quoi on tirera chaque 10-ime lment. Ainsi, si le nombre choisi
est 4, l'chantillon sera form des lments 4, 14, 24, 34 et 44 : la quatrime
colonne. Chacune des 10 colonnes est donc un des dix chantillons
possibles. Si on considre les lignes comme des strates, l'chantillon
336
comprend un lment de chaque strate et donc il s'agit en un sens d'un

chantillon stratifi. Mais contrairement un chantillon stratifi, le tirage
systmatique restreint l'chantillon une mme colonne. Cette restriction
peut rendre l'chantillon systmatique moins efficace ou plus efficace que
l'chantillon stratifi.
On peut dmontrer mathmatiquement que, lorsque N est un multiple entier
de n, la moyenne arithmtique X des donnes de l'chantillon est un
estimateur sans biais de la moyenne P de la population. Donc l'estimateur
est identique celui utilis dans un chantillon alatoire simple.
Malheureusement, il n'existe pas d'estimateur de la variance de X ou de p ,
et donc aucune possibilit de dterminer des intervalles de confiance.
L'chantillonnage systmatique dpend de l'ordre dans lequel les lments
de la population sont disposs et l'effet de l'ordre peut tre soit d'augmenter,
soit de diminuer la prcision de l'estimateur. D'une part, les chantillons
systmatiques peuvent amliorer la prcision de l'estimateur grce au fait
qu'ils couvrent toutes les parties de la population. D'autre part, il est
possible d'imaginer des donnes ayant une structure cyclique qui rend les
estimations trs peu prcises.
Remarque Certains analystes estiment l'cart-type de X ou de p comme si
l'chantillon avait t tir de faon purement alatoire. Une faon de justifier
cette approche est la suivante : la position des units dans la population est
elle-mme alatoire, dans le sens qu'elles auraient pu, sous l'effet du seul
hasard, avoir t disposes autrement. Si l'on suppose que toutes les faons
d'ordonner la population taient a priori quiprobables, alors l'chantillon
systmatique est effectivement un chantillon alatoire simple, prlev en
deux tapes : d'abord, les donnes de la population sont disposes dans un
ordre alatoire ; ensuite un chantillon systmatique est tir. Mais la premire
tape est effectue par la nature, pas par le statisticien ; c'est ce fait curieux
qui affaiblit l'argument : comment sait-on si les permutations des lments de
la population sont vraiment quiprobables, si on ne les effectue pas
soi-mme ?
10.6
337
CHANTILLONNAGE EN GRAPPES
Supposons qu'on veuille chantillonner les lves des coles primaires d'une
province pour tester leur connaissance des mathmatiques. Un
chantillonnage stratifi, avec les coles comme strates, exigerait qu'on
prlve un chantillon dans chacune des coles, ce qui peut tre
malcommode et coteux, surtout lorsque les coles sont disperses sur un
grand territoire. Un chantillon alatoire simple d'lves est impossible sans
une liste exhaustive des lves, chose qu'on n'a pas toujours. Une liste
d'coles est facilement disponible, et peut tre exploite pour faire ce qu'on
appelle un chantillonnage en grappes : on commence par faire un choix
alatoire d'coles, qu'on appelle alors des grappes ou units primaires ; et
puis on choisit, l'intrieur de chaque cole, un chantillon d'lves, qu'on
appelle alors units secondaires ou sous-units. La situation est
schmatise dans la figure 10.2.
L'conomie que permet de raliser cette approche est claire. Un chantillon
alatoire simple, une fois choisi, est une liste de n lves qu'on doit aller
chercher dans les coles o ils se trouvent. Cela peut obliger de nombreux
voyages coteux. L'chantillonnage en grappes permet de mieux rentabiliser
ces voyages ; on peut tester plusieurs lves dans chaque cole peu de frais
supplmentaires.
En gnral, on recourt l'chantillonnage en grappes pour des raisons
d'conomie et de commodit et non pour des raisons de prcision dans
l'estimation. Contrairement l'chantillonnage par strates, qui peut tre
choisi uniquement pour son efficacit statistique, l'chantillonnage en
grappes n'est pas en gnral efficace. Prcisons cette affirmation : pour un
mme nombre n d'units secondaires (d'lves), l'chantillonnage en grappes
donne des variances plus grandes que l'chantillonnage alatoire simple.
Mais puisqu'il est plus conomique, on peut au mme cot obtenir un plus
grand nombre d'units secondaires ; et donc en dfinitive atteindre un degr
de prcision suprieur celui que peut fournir un chantillon alatoire
simple de mme cot.
L'chantillonnage en grappes est complexe car il existe plusieurs faons de
prlever les grappes, aucune ncessairement suprieure aux autres. Il est
naturel au premier stade de prlever un chantillon alatoire simple de
grappes dans la population de grappes. Cette approche attache toutefois la
mme importance toutes les grappes, les plus petites comme les plus
grandes. Cela n'est pas le meilleur moyen d'amliorer la prcision.
338
Une autre faon de prlever les grappes consiste les tirer successivement,
avec remise, et avec probabilits proportionnelles aux tailles des grappes :
les plus grandes grappes ont les plus fortes chances d'tre tires. C'est une
faon de donner plus d'importance aux plus grandes grappes.
FIGURE 10.2
Schma d'un chantillonnage en grappes
chantillon d'coles
chantillon d'lves
dans les coles
Plusieurs choix peuvent tre exercs au deuxime stade aussi. On peut

facilement imaginer de multiples combinaisons des diffrents modes
d'chantillonnage. Les grappes sont elles-mmes stratifies, si l'on
339
commence par sparer les coles en rgions, ou en appartenance

linguistique, ou selon d'autres catgories (prives, publiques, par exemple).
Le tirage l'intrieur d'une grappe peut tre exhaustif (tous les lves de
l'cole) ; ou alatoire simple ; ou encore en grappes (les classes sont
elles-mmes des grappes l'intrieur des grappes).
L'estimation des paramtres et de leur variance dpend de manire cruciale
du mode d'chantillonnage ; et se complique mesure que se complique le
plan d'chantillonnage. On ne peut pas analyser des donnes sans tenir
compte des moyens utiliss pour les obtenir. Plusieurs erreurs d'estimation
sont commises en traitant des donnes provenant d'un plan
d'chantillonnage complexe comme si elles avaient t obtenues par
chantillonnage alatoire simple. Alors rien n'est plus garanti : les
estimateurs usuels peuvent tre biaiss, les variances peuvent tre
surestimes ou sous-estimes.
RSUM
1. Soit X la moyenne d'un chantillon alatoire simple tir sans remise
d'une population de taille N de variance V 2 . L'estimateur X est sans
biais et son cart-type est estim par
V X
1
n
N
o V 2 est la variance chantillonnale dfinie par
i 1 X i
n
X
n 1
Lorsque les donnes sont dichotomiques (certaines valent 1, les autres 0), la
moyenne P est la proportion de 1 , note p ; l'estimateur X de p est not
p et V 2 prend la forme plus simple :
V 2
n
n 1
p 1 p
n
n 1
p q | p q .
340
2. Un intervalle de confiance approximatif pour P (ou pour p ) est donn

par
X cD
1
n
N
d P d X cD
1
n
N
o cD , est obtenu d'une table de la loi normale.

3. La moyenne
K
W1 P 1 W 2 P 2 W K P K
Wi P i
i 1
d'une population stratifie est estim par

K
W1 X 1 W 2 X 2 W K X K
Wi X i .
i 1
Pour des donnes dichotomiques, P est not p :

K
W1 p1 W 2 p 2 W K p K
Wi p i
i 1
et son estimateur est

K
W1 p 1 W 2 p 2 W K p K
Wi p i .
i 1
4. L'cart-type de cet estimateur est estim par
Wi 2
i 1
V i2
n
1 i
n i
N i
> n
o V i2 est la variance du i -ime chantillon, donne par n i
1 p i q i
lorsque les donnes sont dichotomiques.

5. L'allocation proportionnelle est la rpartition
proportionnellement aux tailles des strates
ni
nWi .
de
l'effectif
total
341
6. L'allocation optimale est celle qui, pour un effectif total n , minimise la

variance de P . L'allocation proportionnelle est donne par
les n i proportionnels aux quantits Wi
Donc, n i |
Wi V i
K
j 1W j V j
Ni
V i | Wi V i .
Ni 1
n.
7. L'chantillonnage systmatique suppose une population de taille N

dont les units sont ranges dans un ordre dtermin. Pour prlever un
chantillon de taille n , un point de dpart est tir au hasard, aprs quoi
on tire chaque k -ime unit, o 1 k est la fraction d'chantillonnage.
8. Lorsque les units d'une population (les units secondaires) sont
groupes en grappes (les units primaires), une faon de les
chantillonner est de tirer d'abord les grappes ; et ensuite de prlever
une partie ou toutes les units secondaires contenues dans les grappes.
EXERCICES
1. Considrez la petite population de taille N = 6 dont les units sont les
suivantes :
^1, 3, 5, 7 , 8, 9`.
a) Calculez P et V 2 .
b) Dressez la liste des 15 chantillons de taille n = 2 qu'on peut prlever
de cette population et calculez X et V 2 pour chacun des
chantillons.
c) Prsentez sous forme de tableau la fonction de masse de X .
d) Vrifiez en utilisant la fonction de masse en c) que X
estimateur sans biais pour P .
est un
e) Calculez la variance de X en utilisant la fonction de masse en c).

f)
Calculez E V 2
et vrifiez que V X2
n 1 n N , avec n = 2 et
N = 6, est un estimateur sans biais pour la variance de X .
342
2. D'une population de N personnes on tire sans remise un chantillon de

taille 25 afin d'estimer le revenu moyen P de la population. On trouve
X = 32 et V = 12, en milliers de dollars. Vrifiez les donnes du tableau
suivant, qui prsente la demi-largeur d'un intervalle de confiance 95 %
pour P pour quelques valeurs de N . Faites un commentaire gnral sur
l'effet d'un accroissement de N sur la prcision d'un estimateur.
Demi-largeur de l'intervalle
30
1,920 4
40
2,880 6
50
3,326 2
150
4,294 1
500
4,584 9
10 000
4,698 1
1 000 000
4,703 9
4,704 0
3. D'une population forme de 3 strates de 1 670, 610 et 915 units, on

prlve un chantillon stratifi. On obtient les rsultats suivants :
chantillon de la strate 1 :
2, 3, 4, 2, 3, 4, 3, 2, 6, 5, 3, 4, 2, 5, 6, 2, 3, 5, 4, 2, 3, 8.
n1
22 , X i
81 X i2
353
68, 98, 87, 56, 34, 33, 44, 28.
n2
8, X i
448 X i2
29 898
687, 675, 237, 99, 123, 456, 231, 324, 543, 654, 345, 234.
n3
12 , X i
4 608 X i2
2 271 312
343
a) Estimez la moyenne P de la population.

b) Estimez le total W de la population.
c) Estimez l'cart-type de P .
d) Estimez l'cart-type de W .
e) Dterminez un intervalle de confiance 95 % pour P .
f)
Dterminez un intervalle de confiance 95 % pour W .
g) Utilisez les donnes de l'chantillon pour estimer l'allocation optimale

d'un chantillon de taille 42. (Vous supposerez ici que V i est un
estimateur adquat de V i ).
h) Estimez ce qu'aurait t l'cart-type de P si l'allocation optimale
avait t utilise.
4. Dterminez l'allocation optimale d'un chantillon de taille 100 pour
estimer la moyenne d'une population dont les 3 strates contiennent 30,
300, et 2 000 units, et les carts-types sont 150, 38, et 14.
5. Une population est forme de 5 strates comprenant 235, 432, 1590, 2
300, et 4 321 units. Les carts-types V sont 60, 36, 14, 12, et 10.
a) Dterminez l'allocation optimale d'un chantillon de taille 180.
b) Comparez l'cart-type de
pour l'allocation proportionnelle et
l'allocation optimale.
6. Les tudiants d'une universit sont rpartis en 4 facults ayant 1 230,
3 000, 2 500, et 8 000 tudiants, respectivement. On prlve un
chantillon de 25, 61, 51 et 163 tudiants dans les 4 strates pour
estimer la proportion p d'tudiants qui ont dj utilis la cooprative
tudiante. On trouve que les nombres d'tudiants qui l'ont dj utilise
dans les 4 chantillons sont 20, 43, 46, et 81, respectivement.
a) Estimez la proportion p d'tudiants dans la population qui ont dj
utilis la coop, ainsi que l'cart-type de l'estimateur.
b) Dterminez un intervalle de confiance 95 % pour p .
344
c) Estimez le nombre W d'tudiants dans la population qui ont dj

utilis la cooprative.
d) Dterminez un intervalle de confiance 95 % pour W .
e) Utilisez l'estimation de p obtenue en a) pour estimer l'cart-type d'un
estimateur bas sur un chantillon alatoire simple de taille 300.
f)
Utilisez les rsultats de ce sondage pour dterminer l'allocation

optimale d'un ventuel deuxime sondage bas sur un chantillon de
taille 300. Estimez la variance d'un estimateur p bas sur un
chantillon de taille 300 rparti de faon optimale.
g) Quelle devrait tre la taille de ce prochain chantillon si l'on veut que

la demi-largeur d'un intervalle de confiance 95 % soit de 0,04 ? (Ne
tenez pas compte des facteurs de correction dans vos calculs).
7. Une population de 4 850 comptes est rpartie selon le type de client :
clients industriels, grossistes et dtaillants. Les effectifs des strates sont
N 1 = 50, N 2 = 800 et N 3 = 4 000, respectivement. Dans un chantillon
stratifi de taille 85 on obtient les montants suivants :
Strate 1 : Clients industriels

50 212
30 215
12 564
36 598
37 222
36 527
96 532
95 684
69 854
68 594
X1
53 400 , 20 , V 1
28 272 , 321
Strate 2 : Grossistes
3 652
6 598
6 537
5 656
6 644
6 563
6 521
6 549
6 598
6 537
3 268
8 854
6 582
8 457
6 584
9 658
6 532
9 564
9 856
6 598
9 723
6 549
2 147
3 345
5 465
X2
6 601, 48 , V 2
2 035 , 57
345
Strate 3 : Dtaillants
325
695
658
423
214
659
854
632
632
654
985
658
745
698
365
256
985
654
965
965
985
658
321
123
365
965
965
856
452
325
445
323
765
139
239
432
871
347
138
325
762
769
126
247
246
235
345
345
345
298
X3
535 , 58 , V 3
275 , 656 8
a) Estimez le montant moyen des comptes.

b) Estimez le montant total des comptes de la population.
c) Dterminez un intervalle de confiance 95 % pour la valeur totale
des comptes dans la population.
d) Estimez l'allocation optimale en utilisant les donnes de l'chantillon.
e) Estimez l'cart-type de P bas sur un chantillon de taille 85 avec
allocation optimale.
8. Considrez une population de 60 logements, de laquelle on prlve un
chantillon systmatique de taille 6 dans le but d'estimer le nombre
moyen de personnes par logement. Les donnes pour la population
entire sont prsentes, ligne par ligne, dans le tableau suivant :
X2
27
21
18
15
24
24
21
18
27
21
139
103
70
43
112
118
91
64
131
85
a) Dterminez l'ensemble des 10 valeurs possibles de X , la moyenne

d'un chantillon systmatique de taille 6.
b) Dterminez E X , et donc vrifiez que X est un estimateur sans

biais.
c) Dterminez Var X .
346
9. Afin de prdire le volume de transport (en millions de tonnes kilomtriques) qu'elle assurera l'an prochain, une compagnie de camionnage
dcide d'interroger 500 de ses expditeurs rguliers. Les donnes des
annes prcdentes permettent de classer les clients en quatre strates,
selon leur importance. Les effectifs des strates et leurs variances sont :
N i : 50 100 1 000 3 000
V i : 38,0 11,0 5,0 2,5.
Dterminez la meilleure faon de rpartir les 500 observations et estimez

la variance de P avec l'allocation optimale.
10. Dans la bibliothque d'une petite municipalit, les usagers sont fichs
individuellement, mais les fiches correspondant une mme famille sont
contiges et classes dans l'ordre suivant : mre, pre, autres adultes s'il
y a lieu, puis les enfants par ordre d'ge. On tire un chantillon de taille
5 du fichier suivant (qui doit se lire ligne par ligne). La signification des
symboles est la suivante :
F : adulte de sexe fminin
M : adulte de sexe masculin
f : enfant de sexe fminin
m : enfant de sexe masculin
F
Pour chacun des estimateurs suivants, dterminez la fonction de masse,

l'esprance et l'cart-type. Vrifiez que les estimateurs sont sans biais.
a)
b)
c)
d)
La proportion d'enfants dans l'chantillon.

La proportion de personnes de sexe fminin dans l'chantillon.
La proportion d'adultes de sexe fminin.
Comparez chacun des carts-types calculs ci-dessus avec l'carttype correspondant un chantillon alatoire simple de taille 5.
347
11. Calculez l'cart-type des trois estimateurs traits l'exercice prcdent

en supposant que la mme population a t dispose de la faon
suivante :
12. D'une population de 30 personnes on prlve un chantillon de taille 6

pour estimer la proportion p de fumeurs. Soit p la proportion de
fumeurs dans l'chantillon. Supposons que 12 personnes dans la
population sont des fumeurs.
a) Prsentez sous forme de tableau la fonction de masse de
(suggestion : utilisez la loi hypergomtrique).

b) Vrifiez l'aide de ce tableau que p est un estimateur sans biais
de p .
c) Calculez V 2p en utilisant le mme tableau.
d) Dterminez la fonction de masse de V 2p
p 1 p n 11 n N
montrez que V 2p est un estimateur sans biais de V 2p .
et
11
Sries chronologiques
11. 1 Techniques de lissage

Moyenne mobile
Lissage exponentiel
11.2 Nombres indices
11.3 Dsaisonnalisation
11.4 Analyse de la tendance gnrale
Rgression linaire
Transformation logarithmique
11.5 Rsidus et bruit blanc
RSUM
EXERCICES
349
Introduction On appelle srie chronologique (ou srie temporelle) une suite

d'observations x 1 , x 2 , , x T correspondant des mesures successives
effectues sur un mme phnomne. Le nombre T indique la longueur de la
srie et tient essentiellement le mme rle que la taille n d'un chantillon
ordinaire. La mesure prise au temps t est note x t .
Les tempratures enregistres chaque heure une certaine station
mtorologique constituent un bon exemple de srie chronologique. Ces
donnes ne peuvent tre traites comme un chantillon simple car elles ne
sont pas indpendantes : les observations successives sont fortement
corrles et l'ordre dans lequel elles se prsentent doit tre tenu en compte.
Le nombre d'automobiles vendues par un certain dtaillant, au cours de
chacune des 100 dernires semaines, est un autre exemple. Comment peuton utiliser ces donnes pour prdire convenablement combien d'automobiles
seront vendues durant les quelques prochaines semaines ? Le volume
gnral des ventes est-il en progression ? Y a-t-il un phnomne saisonnier
suffisamment important pour qu'on doive en tenir compte ?
Le monde socio-conomique regorge de telles sries : qu'on songe, par
exemple, aux variations du cot de la vie, des taux d'inflation ou de chmage
qui font constamment la manchette au moindre soubresaut...
Dans les trois premires sections de ce chapitre nous adoptons une
approche purement descriptive dans laquelle le hasard ne jouera pas grand
rle. Nous y verrons comment lisser le graphique d'une srie chronologique
pour le dbarrasser de fluctuations locales sans signification (qui peuvent
tre assimiles des variations accidentelles ou des erreurs de mesure),
pour en dgager une courbe plus douce qui dcrit beaucoup mieux l'allure
gnrale du phnomne. Nous verrons aussi comment transformer une srie
chronologique, comment la combiner avec une autre pour mieux faire
ressortir tel ou tel autre aspect de sa structure. Nous aborderons enfin
certains problmes de prdiction, d'extrapolation.
Dans les deux dernires sections, nous introduisons quelques modles plus
articuls o les lois du hasard sont mises profit pour aller un peu plus loin
qu'une simple description.
350
11.1
TECHNIQUES DE LISSAGE
Lorsqu'une srie chronologique est illustre sous forme graphique, elle
prsente souvent un comportement gnral relativement doux sur lequel est
superpos un comportement local plutt cahoteux qu'il serait souhaitable
d'aplanir. On voudrait pouvoir promener sur le graphique un fer repasser
stochastique qui en effacerait toutes les asprits accidentelles et ne
laisserait subsister que les amples fluctuations gnrales qui, seules, sont
significatives. Un exemple servira illustrer cette situation.
EXEMPLE 1
Entre 7 h 00 et 9 h 00, 25 autobus sont arrivs successivement en bout de

ligne. Le tableau qui suit donne le nombre de passagers que transportait
chacun de ces autobus.
TABLEAU 11. 1
Heure d'arrive de 25 autobus et nombre X de passagers.

t
Heure d'arrive
Xt
Heure d'arrive
Xt
7 h 00
15
14
8 h 05
43
7 h 05
22
15
8 h 10
57
7 h 10
14
16
8 h 15
40
7 h 15
25
17
8 h 20
49
7 h 20
30
18
8 h 25
54
7 h 25
22
19
8 h 30
27
7 h 30
37
20
8 h 35
46
7 h 35
32
21
8 h 40
43
7 h 40
47
22
8 h 45
34
10
7 h 45
38
23
8 h 50
23
11
7 h 50
34
24
8 h 55
37
12
7 h 55
51
25
9 h 00
24
13
8 h 00
32
351
Cette srie chronologique de longueur T = 25 est illustre par le graphique

dans la figure 11.1.
Malgr un comportement local en dents de scie , on peut dj observer
que, grosso modo, les donnes ont d'abord tendance crotre puis, aprs un
certain temps, elles se mettent dcrotre. C'est cette tendance douce que
nous souhaitons isoler, extraire des brusques irrgularits locales.
i
On pourrait, bien sr, faire passer l'oeil une courbe douce parmi les
points du graphique mais ce procd intuitif et artisanal est peu satisfaisant.
Mieux vaut calculer ces nouvelles valeurs par lesquelles passera la courbe
lisse, pure de ses dents de scie.
Moyenne mobile Une faon simple et naturelle de procder au lissage d'une

srie chronologique trop cahoteuse consiste remplacer chaque observation
x t de la srie par une nouvelle valeur, note x t , qui est la moyenne de
plusieurs observations voisines. Nous savons que la moyenne de plusieurs
observations est beaucoup plus stable qu'une observation individuelle. Cette
nouvelle srie x 1 , x 2 , , x T porte le nom de moyenne mobile.
FIGURE 11.1
Nombre de passagers dans 25 autobus successifs.

x
60
50
40
30
20
10
0
t
1
13
19
25
352
Par exemple, on peut dfinir x t comme tant la moyenne des 3 observations

conscutives x t 1 , x t et x t 1 . Pour un lissage encore plus vigoureux, on
calculera la moyenne d'un nombre encore plus grand d'observations
conscutives. On aura alors x t 15 x t 2 x t 1 x t x t 1 x t 2 ou encore
xt
1
7
t 3
x t 2 x t 1 x t x t 1 x t 2 x t 3
selon qu'on convient d'utiliser une
moyenne mobile portant sur 5 ou sur 7 observations conscutives.

En gnral, on convient donc d'un certain rayon r (par exemple, on peut
prendre r = 2 ou r = 3) puis on remplace chaque x t par la moyenne x t des
2r + 1 observations conscutives x t r x t r .On peut se reprsenter le rayon r
comme tant la demi-largeur d'une fentre imaginaire qui se promne tout
le long de la srie et qui, lorsqu'elle est centre en t, ne laisse voir que les
observations x t r x t r qui participeront au calcul de x t . Plus la fentre est
large, plus nombreuses seront les observations utilises dans le calcul de x t
et plus vigoureux sera le lissage des dents de scie. Il faut toutefois viter de
prendre une fentre trop large (un r trop grand) qui nous ferait tenir compte
d'observations trs loignes (dans le temps) de l'observation centrale x t et
pour lesquelles la courbe douce peut fort bien tre beaucoup plus haute ou
beaucoup plus basse que ce qu'elle vaut au centre de la fentre.
Deux objectifs sont en conflit : stabilit et sensibilit. Plus la fentre est
large, plus grand est le risque d'effacer, en mme temps que les accidents
locaux qu'on souhaite liminer, des variations relles et significatives de la
courbe douce qu'on cherche isoler.
Au tout dbut de la srie, de mme qu' sa toute fin, on ne dispose pas de
toutes les informations requises ; la fentre dborde en partie sur des
valeurs inexistantes ou non observes correspondant des valeurs de t
infrieures 1 ou suprieures T. On conviendra alors de dfinir x t comme
tant la moyenne d'un moins grand nombre d'observations, c'est--dire
uniquement de celles qui paraissent dans la fentre.
EXEMPLE 2
Applique aux 25 donnes du tableau 11.1, une moyenne mobile de rayon

r = 2 fournit la srie lisse suivante :
353
15 22 14 3 17 , 0
15 22 14 25 4 19 , 0
15 22 14 25 30 5 21, 2
22 14 25 30 22 5 22 , 6
x1
x2
x3
x4

x 22
x 23
x 24
x 25
46 43 34 23 37 5 36 , 6
43 34 23 37 24 5 32 , 2
34 23 37 24 4 29 , 5
23 37 24 3 28, 0.
Sauf les deux premires et les deux dernires, chaque valeur x t de la srie
lisse est la moyenne de 2r + 1 = 5 termes conscutifs de la srie originale :
x t 2 , x t 1 , x t , x t 1 , x t 2 . Pour t = 1 ou 2, de mme que pour t = 24 ou 25, la
moyenne n'a port que sur les 3 ou 4 termes qui taient visibles dans la
fentre mobile.
La figure 11.2, prsente plus loin, illustre le lissage obtenu.
En gnral, il vaut mieux dfinir x t comme tant une moyenne pondre des
2r + 1 valeurs apparaissant dans la fentre, et qui accorde plus de poids aux
observations situes au centre qu' celles qui sont prs des bords. En
procdant ainsi, chaque nouvelle observation qui entre dans la fentre (ou
qui en sort) le fait d'une faon moins brutale et n'influence que
graduellement la valeur de la moyenne mobile.
En plus de convenir d'un rayon r, on choisira donc aussi des poids
c r , , c 1 , c 0 , c 1 , , c r qui fourniront la pondration dsire. Par symtrie, on
conviendra de prendre c r
c r , c r 1
c r 1 , , c 1
c 1 . En choisissant ces c i
de telle sorte qu'ils dcroissent rgulirement de c 0 c r , on obtiendra la

moyenne pondre souhaite qui accorde plus de poids aux observations
centrales qu' celles situes en bordure de la fentre. Il ne reste plus qu'
calculer, pour chaque valeur de t,
xt
r
c i x t i
i r
r
c i
i r
354
La formule qui prcde n'est videmment applicable que pour des valeurs de
t situes suffisamment loin du dbut ou de la fin de la srie. Pour les toutes
premires valeurs de t (pour t d r) de mme que pour les dernires (pour t >
T - r), cette formule rclame les valeurs d'observations inaccessibles qui
prcdent x 1 ou qui suivent x T . Ces observations n'tant pas disponibles, on
ne peut en tenir compte et, dans le calcul de x t , on cartera, tant au
numrateur qu'au dnominateur, les valeurs de i pour lesquelles l'indice t + i
est infrieur 1 ou suprieur T.
Si tous les poids c r , c r 1 , , c 1 , c 0 , , c r 1 , c r sont gaux, on obtient une

moyenne ordinaire. En prenant des c i qui croissent de c r c 0 puis qui
dcroissent symtriquement de c 0 c r , on obtient un lissage plus doux. On
peut prendre, par exemple, des poids c i en progression triangulaire, avec
c r
cr
1, c r 1
c 4
c4
1, c 3
2 , , c 1
c r 1
c3
2 , c 2
c2
c1
3, c 1
r, c0
c1
r 1. Avec r = 4, on aurait alors

4 et c 0
5.
Mieux encore, on peut choisir les c i en utilisant les coefficients du binme

de Newton dont la table parat la page 397. On prend alors
ci
2r
pour i allant de - r + r.
r i
Par exemple, si r = 2, les c i valent respectivement 1, 4, 6, 4 et 1.
EXEMPLE 3
Applique aux 25 donnes du tableau 11.1, une moyenne mobile de rayon

r = 2, avec poids binomiaux (1, 4, 6, 4 et 1) fournit la srie lisse suivante :
15 u 6 22 u 4 14 u 1 6 4 1 17 , 5
15 u 4 22 u 6 14 u 4 25 u 1 4 6 4 1 18, 2
15 u 1 22 u 4 14 u 6 25 u 4 30 u 1 1 4 6 4 1
22 u 1 14 u 4 25 u 6 30 u 4 22 u 1 1 4 6 4 1
x1
x2
x3
x4
355
19 , 8
23,1

x 22
x 23
x 24
x 25
46 u 1 43 u 4 34 u 6 23 u 4 37 u 1 1 4 6 4 1
43 u 1 34 u 4 23 u 6 37 u 4 24 u 1 1 4 6 4 1
34 u 1 23 u 4 37 u 6 24 u 4 1 4 6 4 29 , 6
23 u 1 37 u 4 24 u 6 1 4 6 28, 6.
34 , 4
30 , 6
i
Poursuivis pour la srie entire, les calculs dvelopps dans les exemples 2
et 3 mnent aux valeurs lisses prsentes dans le tableau 11.2.
On constate (voir figures 11.2 et 11.3) que le second lissage, celui qui utilise
des poids binomiaux, est plus lisse, plus doux que le premier.
Lissage exponentiel Une autre technique de lissage est frquemment

employe lorsque les donnes sont observes une une et qu'on a besoin,
ds l'observation de x t , de pouvoir calculer la valeur x t de la srie lisse et
de fournir immdiatement une estimation x t 1 pour la prochaine valeur qui
n'a pas encore t observe.
On ne peut videmment pas utiliser les valeurs x t 1 , x t 2 , , qui ne sont pas
encore disponibles. Seules les valeurs de x t , x t 1 , x t 2 , , sont utilisables
dans l'expression de x t . En fait, nous dfinirons x t en fonction de x t (la
dernire valeur observe) et de x t 1 (la valeur lisse au temps prcdent).
Nous poserons
xt
Tx t 1 T x t 1
o le paramtre T , choisi entre 0 et 1, mesure l'importance de la

contribution de la dernire observation x t dans le calcul de la valeur lisse
x t . Si T est choisi prs de 1, x t sera pratiquement gal x t et le lissage
356
TABLEAU 11.2
Moyenne mobile simple et moyenne mobile avec poids binomiaux

(toutes deux avec r = 2) lissant les donnes du tableau 11.1
xt
xt
xt
(poids gaux)
(poids binomiaux)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
15
22
14
25
30
22
37
32
47
38
34
51
32
43
57
40
49
54
27
46
43
34
23
37
24
17,0
19,0
21,2
22,6
25,6
29,2
33,6
35,2
37,6
40,4
40,4
39,6
43,4
44,6
44,2
48,6
45,4
43,2
43,8
40,8
34,6
36,6
32,2
29,5
28,0
17,5
18,2
19,8
23,1
26,2
28,6
32,2
36,8
39,6
39,7
39,9
40,7
41,2
44,1
47,2
47,6
47,1
44,6
40,9
40,3
39,3
34,4
30,6
29,6
28,6
sera minime. Au contraire, si T est choisi prs de 0, x t sera pratiquement

gal x t 1 et la dernire observation x t n'influencera que trs peu la valeur
du nouveau x t .
Encore une fois, il y a conflit entre les vux opposs de stabilit et de
sensibilit. Si on a l'impression que la courbe idale (celle qu'on cherche
dterminer en calculant les x t ) ne varie que trs lentement, on peut se
permettre un lissage vigoureux (avec T petit). Si, au contraire, cette courbe
Moyenne mobile simple (avec r = 2) lissant la srie illustre la figure 11.1

x
FIGURE 11.2
357
60
50
40
30
20
10
0
1
13
19
25
Moyenne mobile avec poids binomiaux (r =2, poids 1, 4, 6, 4, 1) lissant la srie illustre la
figure 11.1
x
FIGURE 11.3
60
50
40
30
20
10
0
1
13
19
25
idale est susceptible de brusques soubresauts, mieux vaut augmenter la

sensibilit du lissage en prenant un T plus grand. La quantit 1 - T mesure
l'inertie de la suite des x t , leur rsistance aux changements apports par les
x t successifs.
358
Remarquons que chaque nouvelle valeur lisse x t , qui a t obtenue en

fonction de x t et de x t 1 , peut aussi tre exprime en fonction des dernires
observations x t , x t 1 , x t 2 , etc. En effet, puisque x t 1 , est lui-mme de la
forme
Tx t 1 1 T x t 2
x t 2
peut, son tour, tre remplac par
Tx t 2 1 T x t 3 , etc., on obtient successivement

Tx t 1 T x t 1
xt
Tx t 1 T Tx t 1 1 T x t 2
Tx t T 1 T x t 1 1 T x t 2
2
Tx t T 1 T x t 1 1 T Tx t 2 1 T x t 3
2

Tx t T 1 T x t 1 T 1 T x t 2 T 1 T x t 3
2
Chaque nouvelle valeur lisse x t est donc une moyenne pondre de toutes
les
observations
prcdentes
( x t , x t 1 , x t 2 ,
etc.).
Les
poids
utiliss
dcroissent de faon exponentielle, d'o le nom de cette technique de

lissage : lissage exponentiel. Si T est prs de 1, le terme 1 - T sera petit et la
contribution des vieilles observations sera ngligeable.
En dbut de lissage, une difficult se prsente : quelle valeur doit-on donner
x 1 ? On ne peut utiliser la formule x 1 Tx 1 1 T x 0 puisqu'on ne dispose
d'aucune valeur pour x 0 . En pratique, nous ferons comme si les valeurs non
observes (ou imaginaires)
premire
observation
x 0 , x 1 , x 2 , etc. taient toutes gales la
x 1 . Cette
convention nous donne
raisonnable pour x 0 ; nous prendrons donc x 0

x1
une
valeur
x 1 , ce qui donne aussi
x 1 . Remarquons que le choix d'une valeur ou d'une autre pour x 1 a peu
de consquences : moins que T soit vraiment trs petit, la valeur initiale

adopte en dbut de lissage est bien vite efface, noye dans les observations
qui suivent et son effet dcrot exponentiellement au fur et mesure que
s'accumulent les observations nouvelles.
La suite des valeurs lisses successives nous permet enfin d'effectuer une
prdiction concernant la prochaine observation x t 1 ou, plus prcisment,
concernant la prochaine valeur lisse x t 1 . La faon la plus naturelle de
359
procder est de supposer que, durant le prochain intervalle de temps (de t t

+ 1), la courbe douce continuera monter ou descendre de la mme faon
que ce qu'elle a fait durant le dernier intervalle de temps (de t - 1 t). On
posera donc
x t 1
x t x t x t 1
2 x t x t 1 .
Remarque Cette formule, exprime en fonction de x t et de x t 1 peut aussi tre
exprime en fonction de x t et de x t . En effet, puisque x t
x t 1
Tx t
1 T .
Tx t 1 T x t 1 , on a
Substituant cette expression dans la formule originale
on obtient, aprs quelques manipulations algbriques,

x t 1
x t x t x t T
1 T .
Cette nouvelle formulation de x t 1 permet de voir que la prvision x t 1 sera

suprieure (ou infrieure) la dernire valeur lisse ( x t ) en proportion de
l'cart x t x t entre la dernire observation et la valeur lisse correspondante,
le facteur de proportionnalit tant T 1 T .
EXEMPLE 4
Durant ses 29 premires annes d'existence (de 1969 1997) l'quipe de

baseball Les Expos de Montral a obtenu les rsultats (proportions de
victoires) qui paraissent la troisime colonne du tableau 11.3. Les deux
autres colonnes du mme tableau donnent les valeurs obtenues en
appliquant cette srie un lissage exponentiel o le paramtre T est fix
1
1 .
2 ou
3
1
2
Avec T
, par exemple, on obtient
x1
x1
x2
Tx 2 1 T x 1
1
2
u 0 , 451 12 u 0 , 321 0 , 386
x3
Tx 3 1 T x 2
1
2
u 0 , 441 12 u 0 , 386
0 , 321
0 , 414
etc.
Le tableau 11.3 donne aussi, pour chacun de ces deux lissages, la
prdiction x 21 obtenue en appliquant la formule 2 x 20 x 19 . Les figures
11.4 et 11.5 illustrent ces rsultats d'une faon graphique.
360
On observe que le second lissage est plus doux que le premier. Par contre, il
a plus d'inertie et prend plus de temps s'ajuster aux changements qui
surviennent dans la srie originale.
Remarque En 1998 les Expos ont obtenu une moyenne de 0,401 (65
victoires et 97 dfaites), ce qui est sensiblement infrieurs aux prdictions
fournies par ces deux lissages exponentiels.
TABLEAU 11.3
Proportions de victoires obtenues par les Expos de 1969 1988. Deux lissages exponentiels
et prdictions pour 1989.
Anne
xt
lissage
exponentiel
avec
1969
1
1970
2
1971
3
1972
4
1973
5
1974
6
1975
7
1976
8
1977
9
1978
10
1979
11
1980
12
1981
13
1982
14
1983
15
1984
16
1985
17
1986
18
1987
19
1988
20
1989
21
1990
22
1991
23
1992
24
1993
25
1994
26
1995
27
1996
28
1997
29
Prdictions pour 1998
0,321
0,451
0,441
0,449
0,488
0,491
0,463
0,340
0,463
0,469
0,594
0,556
0,556
0,531
0,506
0,484
0,522
0,484
0,562
0,500
0,500
0,525
0,441
0,537
0,580
0,649
0,458
0,543
0,481
0,321
0,386
0,414
0,431
0,460
0,475
0,469
0,405
0,434
0,451
0,523
0,539
0,548
0,539
0,523
0,503
0,513
0,498
0,530
0,515
0,508
0,516
0,479
0,508
0,544
0,592
0,525
0,534
0,507
0,480
1
2
lissage
exponentiel
avec
0,321
0,364
0,390
0,410
0,436
0,454
0,457
0,418
0,433
0,445
0,495
0,515
0,529
0,529
0,522
0,509
0,513
0,504
0.523
0,515
0,510
0,515
0,490
0,506
0,531
0,567
0,531
0,535
0,517
0,499
1
3
FIGURE 11.4
Proportions de victoires obtenues par les Expos de 1969 1988. Lissage exponentiel avec
1
2
et prdiction pour 1989.
x
0,7
0,6
0,5
0,4
95
19
90
19
85
19
80
19
75
Proportions de victoires obtenues par les Expos de 1969 1988. Lissage exponentiel avec T
1
3
x
0,7
0,6
0,5
0,4
95
19
90
19
85
19
80
19
19
75
0,3
19
6
19 9
70
FIGURE 11.5
19
19
6
19 9
70
0,3
361
et prdiction pour 1989.
362
11.2
NOMBRES INDICES
En 1950, la production canadienne de cuivre a t de 239 685 tonnes. En
1985, elle a t de 738 637 tonnes. La comparaison de ces deux grandeurs
est aise : les mines canadiennes ont produit 3,08 fois plus de cuivre en
1985 qu'en 1950. Les units n'ont pas chang : une tonne reste une tonne,
quel que soit le moment o la mesure est effectue.
En 1969, le salaire annuel moyen, au Canada, pour les hommes, tait de
4 746 $. En 1986, ce mme salaire moyen tait de 23 855 $. Peut-on dire
que le travailleur de 1986 tait 5,03 fois plus riche que le travailleur de 1969
? Ce serait vrai si le dollar de 1986 avait le mme pouvoir d'achat que celui
de 1969, mais tel n'est pas le cas. Pour comparer les valeurs relles de ces
deux revenus, il faut pouvoir les exprimer en units quivalentes, en dollars
de la mme anne.
TABLEAU 11.4
Indice des prix la consommation, Canada (1981 = 100)

Anne
Indice
Anne
Indice
Anne
Indice
Anne
Indice
1950
25,2
1963
32,6
1976
62,9
1989
150,9
1951
27,9
1964
33,2
1977
67,9
1990
158,2
1952
28,5
1965
34,0
1978
73,9
1991
167,0
1953
28,3
1966
35,2
1979
80,7
1992
169,6
1954
28,5
1967
36,5
1980
88,9
1993
172,6
1955
28,5
1968
38,0
1981
100,0
1994
173,0
1956
28,9
1969
39,7
1982
110,8
1995
176,7
1957
29,8
1970
41,0
1983
117,2
1996
179,6
1958
30,6
1971
42,2
1984
122,3
1997
182,5
1959
31,0
1972
44,2
1985
127,2
1960
31,4
1973
47,6
1986
132,4
1961
31,7
1974
52,8
1987
138,2
1962
32,0
1975
58,5
1988
143,8
Statistique Canada value et publie chaque anne un indice des prix la

consommation (aussi appel indice du cot de la vie) qui permet d'effectuer de
telles comparaisons. Sans entrer dans les dtails techniques concernant la
363
faon prcise dont cet indice est calcul, disons simplement qu'on imagine
un panier de provision typique qui tient compte des principaux champs
de consommation (alimentation, habitation, vtements, etc.) D'une anne
l'autre, le montant qu'il faut dbourser pour acqurir ce panier de provisions
thorique peut tre mesur. Le tableau 11.4 donne les valeurs de cet indice
pour les annes 1950 1987. Par convention on a fix 100 la valeur de
l'indice pour l'anne 1981.
Les indices prsents dans le tableau 11.4 peuvent tre reprsents comme
tant le prix qu'il fallait payer, chaque anne, pour acqurir ce qui cotait
100 $ en 1981. On voit, par exemple, qu'en 1987 il fallait dbourser 138,2 $
alors qu'en 1950 on pouvait obtenir la mme chose pour seulement 25,2
$. Ce dernier nonc doit cependant tre reu avec circonspection : combien
cotait un magntoscope ou un ordinateur domestique en 1950 ? en 1850 ?
Le panier de provision typique qui sert calculer cet indice porte plutt sur
des biens intemporels , tels l'alimentation et l'habitation, mais mme pour
ces biens fondamentaux on ne peut tre tout fait l'abri d'un certain
dcalage technologique (combien cotaient les fraises, en 1900, au milieu de
l'hiver ?)
Il va de soi que le choix de 1981 comme anne de rfrence (pour laquelle
l'indice vaut 100) est purement arbitraire. Une autre anne de rfrence
ferait tout aussi bien l'affaire. Les donnes du tableau 11.4 peuvent tre
facilement reformules de telle sorte que l'anne de rfrence soit n'importe
quelle autre. Par exemple, si l'on veut que l'indice 100 corresponde l'anne
1985 (pour lequel le tableau 11.4 donne la valeur 127,2), il suffit de diviser
tous les indices du tableau 11.4 par 1,272. L'indice pour 1950, par exemple,
deviendra alors 25,2/1,272 = 19,8.
Nous pouvons maintenant revenir la question pose au dbut de cette
section : comment se comparent les revenus des travailleurs de 1986 ceux
de 1969 ? La comparaison pourra se faire en exprimant chacun des revenus
(4 746 $ en 1969 et 23 855 $ en 1986) en dollars d'une mme anne, par
exemple, en dollars de 1981.
Le tableau 11.4 nous indique que 39,7 $ de 1969 ont le mme pouvoir
d'achat que 100 $ de 1981. On trouve que 4 746 $ de 1969 ont le mme
pouvoir d'achat que 4 746 x 39100, 7 = 11 955 $ de 1981. De la mme faon,
23 855 $ de 1986 ont le mme pouvoir d'achat que 23 855 x
de 1981.
100
132 , 4
= 18 017 $
364
tant maintenant tous deux exprims en units quivalentes (en dollars de

1981), les deux revenus peuvent tre compars d'une faon quitable. On
trouve que le travailleur de 1986 est
18 017
11 955
= 1,51 fois plus riche que le
travailleur de 1969. Ce rapport de 1,51 est beaucoup plus raliste que la

valeur 5,03 obtenue en calculant navement le quotient des deux revenus
sans tenir compte du fait que la valeur du dollar avait considrablement
chang de 1969 1986.
L'indice des prix la consommation tabli par Statistique Canada et
prsent dans le tableau 11.4 est un indice compos fond sur plusieurs
facteurs (alimentation, habitation, etc.) Pour certains de ces facteurs, les prix
peuvent varier plus rapidement que pour d'autres. Le tableau 11.5 prsente
les indices des prix la consommation qui s'appliquent spcifiquement
chacun des types de produits ou services.
EXEMPLE 5
En 1960 une famille dpensait 26 $ par semaine pour la nourriture et 29 $

par semaine pour le logement. Combien cotaient, en 1987, une quantit
comparable de nourriture et un logement analogue ?
Pour la nourriture, les indices sont 25,8 (pour 1960) et 132,4 (pour 1987).
Une dpense de 26 $ en 1960 correspond donc, en 1987, une dpense de
26 $ x 132,4/25,8 = 133 $.
Pour le logement, ce qui cotait 29 $ en 1960 (o l'indice est 32,2) cotait en
1987 (o l'indice est 138,3) un montant de 29 $ x 138,3/32,2 = 125 $. La
famille de 1960 dpensait plus pour le logement que pour la nourriture ;
celle de 1987, pour des biens analogues, dpense plus pour la nourriture
que pour le logement.
i
L'information contenue dans le tableau 11.4 peut tre prsente d'une autre
faon. En calculant le quotient des indices des prix la consommation pour
deux annes conscutives, on obtient une mesure de l'augmentation du cot
de la vie durant cette priode. En exprimant cette augmentation en
pourcentage, on obtient ce qu'on appelle le taux d'inflation. Par exemple,
l'indice gnral du cot de la vie tait de 117,2 en 1983 et 122,3 en 1984. Le
quotient 122,3/117,2 = 1,044 nous indique que le taux d'inflation a t de
4,4 % en 1984. Ce qui cotait un certain prix en 1983 cotait environ 4,4 %
de plus en 1984.
De la mme faon qu'on vient de dterminer le taux (gnral) d'inflation
partir de l'indice (gnral) des prix la consommation, on peut dterminer,
en remplaant les donnes du tableau 11.4 par celles du tableau 11.5, le
taux spcifique d'inflation qui s'applique tel ou tel autre secteur de
consommation. Par exemple, pour l'anne 1984 (o le taux gnral tait de
365
4,4 %), on obtient que, pour l'alimentation seulement, le taux d'inflation a

t de (117,4/111,2) - 1 = 0,056 = 5,6 %. Pour les vtements, le taux
spcifique d'inflation, pour la mme anne, a t beaucoup plus faible, soit
(112,5/109,8) - 1 = 2,5 %.
TABLEAU 11.5
Indice des prix la consommation, selon la catgorie (1981 = 100)
Anne
Indice
Alimentation
Habitation
Vtements
Transports
gnral
Hygine
Tabac et
et Sant
Alcool
1950
25,2
21,6
25,3
35,9
24,3
20,8
32,8
1955
28,5
23,7
29,7
38,9
27,3
25,9
34,3
1960
31,4
25,8
32,2
40,0
32,3
31,6
37,0
1965
34,0
28,7
34,2
43,7
34,0
35,9
39,1
1970
41,0
34,1
42,3
51,5
40,4
44,3
47,0
1975
58,5
55,8
58,9
65,4
54,4
60,2
59,9
1976
62,9
57,3
65,4
69,0
60,3
65,3
64,2
1977
67,9
62,0
71,5
73,7
64,6
70,2
68,7
1978
73,9
71,6
76,9
76,5
68,3
75,2
74,3
1979
80,7
81,0
82,3
83,6
74,9
82,0
79,6
1980
88,9
89,8
89,0
93,4
84,5
90,2
88,6
1981
100,0
100,0
100,0
100,0
100,0
100,0
100,0
1982
110,8
107,2
112,5
105,6
114,1
110,6
115,5
1983
117,2
111,2
120,2
109,8
119,8
118,2
130,0
1984
122,3
117,4
124,7
112,5
124,8
122,8
140,6
1985
127,2
120,8
129,0
115,6
130,8
127,2
154,0
1986
132,4
126,8
132,9
118,8
135,0
132,6
172,3
1987
138,2
132,4
138,3
123,8
139,9
139,2
183,9
1988
143,8
135,9
144,3
130,3
142,5
145,3
197,6
1989
150,9
141,0
151,9
135,5
149,9
151,6
216,0
1990
158,2
146,8
158,8
139,3
158,3
159,0
234,9
1991
167,0
153,9
165,7
152,4
161,1
170,2
275,1
1992
169,6
153,2
168,0
153,8
164,4
174,0
291,4
1993
172,6
155,8
170,2
155,3
169,7
178,7
296,1
1994
173,0
156,5
170,9
156,6
177,2
180,3
247,7
1995
176,7
160,1
173,4
156,4
186,4
180,1
247,4
1996
179,6
162,3
174,8
155,9
193,7
181,1
252,4
1997
182,5
164,9
175,8
157,9
199,7
184,3
260,3
366
TABLEAU 11.6
Taux gnral d'inflation au Canada, 1950-1987

Anne
Taux
(en %)
Anne
Taux
(en %)
Anne
Taux
(en%)
Anne
Taux
(en%)
1950
3,0
1962
1,2
1974
10,9
1986
4,1
1951
10,6
1963
1,7
1975
10,8
1987
4,4
1952
2,3
1964
1,8
1976
7,5
1988
4,1
1953
-0,8
1965
2,4
1977
8,0
1989
4,9
1954
0,6
1966
3,7
1978
8,9
1990
4,8
1955
0,0
1967
3,6
1979
9,2
1991
5,6
1956
1,5
1968
4,0
1980
10,2
1992
1,6
1957
3,1
1969
4,5
1981
12,5
1993
1,8
1958
2,5
1970
3,4
1982
10,8
1994
0,2
1959
1,1
1971
2,8
1983
5,8
1995
2,1
1960
1,3
1972
4,8
1984
4,4
1996
1,6
1961
1,0
1973
7,6
1985
4,0
1997
1,6
SOURCE Statistique Canada
Taux gnral d'inflation, au Canada, de 1950 1987

%
15
10
5
0
19
90
19
80
19
70
19
60
-5
19
50
FIGURE 11.6
11.3
367
DSAISONNALISATION
Il arrive frquemment qu'une srie chronologique prsente des fluctuations
rgulires et prvisibles induites par un cycle naturel qui agit directement
sur le phnomne mesur. L'exemple le plus loquent est sans doute celui de
la temprature. Si l'on mesurait, chaque heure et durant plusieurs annes,
la temprature qu'il fait en un point donn, on observerait deux cycles : un
cycle annuel (il fait plus chaud l't que l'hiver) et un cycle journalier (il fait
plus chaud le jour que la nuit). Sur ces deux cycles rguliers se superposent
des variations plus capricieuses, moins systmatiques et qu'on ne peut
prvoir long terme. Une srie chronologique est dsaisonnalise quand on
a soustrait chaque terme de la srie la quantit correspondant ces effets
priodiques.
EXEMPLE 6
Supposons que, dans une certaine rgion, le taux de chmage augmente

habituellement de 3 % en janvier (par rapport la moyenne annuelle) et
diminue de 2 % en juillet. Peut-on alors raisonnablement considrer qu'un
taux de chmage de 8 %, observ en janvier, est moins grave et
correspond une meilleure performance socio-conomique qu'un taux de 4
% seulement mais qui serait observ en juillet ?
Quand ces mesures sont dsaisonnalises, on constate que le taux de 8 %
observ en janvier est ramen 5 % seulement quand on a corrig le facteur
saisonnier qui est responsable d'une survalue de 3 % par rapport la
moyenne annuelle. De la mme faon, le taux de 4 % mesur en juillet
correspond un taux dsaisonnalis de 6 % aprs la hausse de 2 % qui
corrige le facteur saisonnier. Mme si, dans l'absolu, le taux de chmage
tait plus fort en janvier qu'en juillet (8 % contre 4 %), on peut conclure que
les conditions gnrales d'emploi taient meilleures en janvier qu'en juillet. i
Pour dsaisonnaliser une srie chronologique, il faut connatre la longueur k
de la priode ainsi que les moyennes P 1 , P 2 , , P k correspondant chaque
unit de la priode. Si, par exemple, on effectue une mesure tous les mois
et qu'on considre un cycle annuel, on prendra k = 12 et les 12 moyennes
correspondront chacun des mois de l'anne. Si l'on effectue une mesure
toutes les heures, un cycle quotidien correspond k = 24.
Les moyennes thoriques P 1 , P 2 , , P k sont rarement connues avec
exactitude et sont habituellement remplaces par des moyennes
368
exprimentales x 1 , x 2 , , x k qui peuvent avoir t dtermines par des

expriences prcdentes ou qui peuvent aussi tre directement calcules
partir des donnes x 1 , x 2 , , x T dont nous disposons.
La moyenne x 1 sera alors obtenue en ne considrant que les observations
x 1 , x k 1 , x 2 k 1 , x 3 k 1 , De mme, pour j allant de 1 k, x j est la moyenne de
toutes les observations dont la phase est j, c'est--dire, les observations
x j , x k j , x 2 k j , x 3 k j , etc.
Quand les moyennes x j ont t calcules, on peut valuer la moyenne
gnrale x , qui est simplement la moyenne de ces k moyennes. Si la srie
contient un nombre exact de priodes (c'est--dire, si T est un multiple entier
de k), la moyenne x sera gale la moyenne ordinaire x des T observations.
Habituellement, T n'est pas un multiple exact de k et les moyennes x et x
seront lgrement diffrentes.
La srie x 1 , x 2 , , x T peut enfin tre dsaisonnalise et transforme en une
nouvelle srie
y 1 , y 2 , , y T
o les
yt
sont obtenues des x t
en leur
soustrayant les effets de phase x j x .

yt
x xt x j
yt
xt x j x
o j est la phase correspondant t (c'est--dire t est de la forme nk + j o n

est un nombre entier).
EXEMPLE 7
Le tableau 11.7 donne les taux de chmage dans une certaine rgion, au
cours des 98 derniers mois.
Le taux moyen de chmage est x = 6,6. Remarquons que la moyenne
ordinaire des 98 observations est x = 6,57. La diffrence entre ces deux
moyennes est due au fait qu'on dispose de 9 observations pour les mois de
mai et de juin alors qu'on n'en a que 8 pour chacun des 10 autres mois.
Le taux moyen pour janvier (8,2) dpasse de 1,6 la moyenne annuelle qui est
de 6,6. Pour janvier, l'effet de phase est donc de 1,6. Poursuivant ces calculs
pour chacun des 12 mois de l'anne on obtient que les effets de phase, de
janvier dcembre, sont, respectivement,
1,6
1,8
1,3
0,1
-1,0
-1,3
-1,3
-1,3
-1,3
-0,4
0,3
1,5
369
Remarquons au passage que la somme des effets de phase est

ncessairement zro puisque la somme des x j est prcisment gale k x .
Taux de chmage durant une priode de 98 mois
TABLEAU 11.7
Anne
Jan.
Fv.
Mars
Avr.
Mai
Juin
Juill.
Aot
Sept.
Oct.
Nov.
5,2
5,0
5,0
5,5
5,4
6,3
7,2
Dc.
8,8
8,5
8,7
7,9
6,8
6,2
5,9
6,4
6,3
6,5
7,6
7,9
9,4
9,7
9,6
8,4
7,2
6,4
6,1
6,6
6,6
6,2
7,2
7,5
8,5
8,8
8,7
8,2
6,7
5,5
5,2
4,9
4,8
4,9
6,8
6,8
7,9
7,8
7,7
6,9
5,7
5,2
4,4
4,3
4,2
4,4
5,1
6,8
7,0
7,0
7,0
7,0
5,7
4,6
4,6
3,9
4,0
4,1
4,7
5,6
7,0
7,4
8,3
8,3
7,9
6,4
6,0
6,0
5,4
5,3
6,0
6,5
8,0
8,1
8,1
7,9
7,1
6,0
5,2
5,0
5,4
5,3
6,2
6,9
8,4
8,5
8,9
8,3
6,5
5,2
4,9
Moyennes
8,2
8,4
7,9
6,7
5,6
5,3
5,3
5,3
5,3
6,2
6,9
8,1
Les donnes du tableau 11.7 peuvent tre enfin dsaisonnalises en

soustrayant chaque observation l'effet de phase qui correspond au mois
qui convient. On obtient le tableau 11.8.
Taux de chmage dsaisonnaliss issus du tableau 11.7
TABLEAU 11.8
Anne
Jan.
Fv.
Mars
Avr.
Mai
juin
Juill.
Aot
Sept.
Oct.
Nov.
Dc.
6,2
6,3
6,3
6,8
6,7
6,7
6,9
7,3
6,9
6,9
6,6
6,7
7,2
7,2
7,7
7,6
7,8
8,0
7,6
7,9
8,1
7,8
7,1
7,1
7,4
7,4
7,9
7,9
7,5
7,6
7,2
7,0
7,2
6,9
6,9
6,6
6,5
6,5
6,2
6,1
6,2
7,2
6,5
6,4
6,2
5,9
5,6
5,6
6,2
5,7
5,6
5,5
5,7
5,5
6,5
5,5
5,4
5,2
5,7
5,6
5,6
5,9
5,2
5,3
5,4
5,1
5,3
5,5
5,8
6,5
7,0
7,8
7,4
7,3
7,3
6,7
6,6
6,4
6,2
6,5
6,5
6,3
6,6
7,0
7,0
6,5
6,3
6,7
6,6
6,6
6,6
6,9
6,9
7,1
7,0
6,4
6,2
6,2
Remarquons que dans le tableau 11.8 o les donnes sont dsaisonnalises,

les moyennes, pour chacune des 12 colonnes, sont toutes gales entre elles
(et gales la moyenne gnrale x ).
Le tableau 11.8 reflte mieux que le tableau 11.7 les fluctuations
significatives du taux de chmage. L'effet saisonnier y a t corrig et les
comparaisons, d'une priode l'autre, sont plus quitables.
370
11.4
ANALYSE DE LA TENDANCE GNRALE

Le moment est venu d'introduire le hasard dans nos modles, de considrer
des sries chronologiques formes de variables alatoires X 1 , X 2 , , X T
plutt que de nombres fixes x 1 , x 2 , , x T .
On observe frquemment que les donnes d'une srie chronologique ont
tendance se concentrer le long d'une courbe douce. Il est alors naturel
d'exprimer chacun des termes X t de la srie sous la forme
Xt
f t Y t
o la fonction f (t) reprsente cette courbe douce (appele tendance gnrale)

et o les Y t sont des fluctuations alatoires (ou des erreurs de mesure) plus
ou moins grandes qui font osciller les X t de part et d'autre de la tendance
gnrale f (t). Ces Y t , sont des variables alatoires de moyenne nulle. De
plus, on les suppose gnralement indpendants et identiquement distribus.
C'est implicitement un tel modle qui tait sous-jacent lorsque, dans la
section 11.1, nous appliquions une moyenne mobile pour lisser une srie
chronologique et la dbarrasser des dents de scie provoques par les Y t . La
srie lisse fournissait alors une estimation raisonnable de la tendance f (t).
Quand on ne dispose d'aucune information pralable au sujet de la tendance f
(t), on ne peut gure faire mieux que l'approximer par les valeurs X t de la
srie lisse. Si, par contre, on sait ou on suppose que les X t ont tendance
crotre ou dcrotre de faon linaire, on peut faire beaucoup mieux : on peut
estimer directement les paramtres a et b de la fonction f (t) = a + bt et les
dents de scie seront alors compltement limines. Il suffit donc de dterminer
la droite de rgression qui passe le mieux parmi les points (1, X 1 ), (2, X 2 ), ...,
(T, X T ).
Rgression linaire Dans le chapitre 4, nous avons trait d'un problme

analogue. Les notations taient un peu diffrentes : nous disposions de n
points ( x 1 , y 1 ), ( x 2 , y 2 ), , ( x n , y n ). Maintenant nous avons plutt T couples
(1, X 1 ), ..., (T, X T ). La substitution est aise : il suffit de rcrire les
formules du chapitre 4 en remplaant n par T, i par t, x i par t et y i par X t .
371
On obtient les formules

b
a
tX t t X t
t t
2
X b t T .
Remarquons que nous notons par a et b les paramtres de la droite de

rgression estime f t a bt afin de bien les distinguer des paramtres
thoriques a et b de la droite idale f (t) = a + bt. Notons aussi que ces deux
formules peuvent tre simplifies en remplaant t par T (T + 1)/2 et t 2 par
T (T + 1) (2T + 1)/6. Aprs quelques manipulations algbriques lmentaires,
les deux formules deviennent
b
6 2 tX t T 1 X t
T T 1
a
X b T 1 2.
Pour dterminer les valeurs de et b , on n'a donc que deux sommes

calculer, soit X t et tX t .
De plus, si l'on veut estimer la hauteur f t 0
atteinte par la droite de rgression
(thorique) en un nouveau temps que nous notons t 0 , l'estimateur naturel

utiliser est f t 0
a bt 0 . Ce f t 0
est simplement la hauteur atteinte, au
temps t 0 , par la droite de rgression exprimentale ajuste la srie.

EXEMPLE 8
Le tableau suivant indique quelle a t la production canadienne de bl (en

millions de tonnes) pour chacune des annes de 1971 1996, selon
Statistique Canada :
Anne
Production de
bl
Anne
Production de
bl
1971
1972
1973
1974
1975
1976
1977
1978
1979
1
2
3
4
5
6
7
8
9
14,4
14,5
16,2
13,3
17,1
23,6
19,9
21,1
17,2
1980
1981
1982
1983
1984
1985
1986
1987
1988
10
11
12
13
14
15
16
17
18
19,3
24,8
26,7
26,5
21,2
24,3
31,4
25,9
15,9
Anne
Production de
bl
1989
1990
1991
1992
1993
1994
1995
1996
19
20
21
22
23
24
25
26
24,8
32,1
31,9
29,9
27,2
22,9
25,0
29,8
372
FIGURE 11.7
Production canadienne de bl (en millions de tonnes) de 1971 1996 et prdiction pour l'an 2010.
prdiction 37,7
50
40
30
20
10
0
1970
1975
1980
1985
1990
1995
2000
2005
2010
En supposant que ces productions suivent une progression linaire affecte

de fluctuations alatoires (principalement dues aux conditions climatiques et
aux alas du commerce agricole) qu'on considre indpendantes d'une anne
l'autre, estimer l'augmentation annuelle thorique (b) et prdire la
production pour l'an 2010.
On a T = 26 et un calcul rapide donne X t = 596,9 et tX t = 8 872,0.
On obtient donc
b
6 2 tX t T 1 X t
T T 1
a
X b T 1 2
596 , 9
26
6 2 u 8 872 27 u 596 , 9
9 766 , 2
26 676 1
17 550
0 , 556 5 u 13 , 5
0 , 556 5
15 , 445.
Dans notre srie chronologique, l'anne 1971 correspondait au temps t = 1

et l'anne 1996 correspondait t = T = 26. L'anne 2010, pour laquelle on
veut obtenir une estimation de la production correspond donc au temps
t 0 = 2010 1970 = 40. L'estimation ponctuelle de f ( t 0 ) est a bt 0
15 , 445 0 , 556 5 u 40
37 , 7 .
En rsum, la production canadienne de bl augmente d'environ 0,556 5

millions de tonnes par anne et devrait, en l'an 2010, tre de l'ordre de
373
37,7 millions de tonnes. La figure 11.7 permet de visualiser le passage de la

droite de rgression parmi les 26 observations ainsi que son prolongement
jusqu' l'an 2010.
Transformation logarithmique Dans la nature, les progressions linaires sont

passablement rares. Beaucoup plus frquemment, on a affaire des
progressions pour lesquelles le taux d'accroissement est constant (ou peut
raisonnablement tre suppos constant sur un intervalle de temps plus ou
moins long). Si le taux d'accroissement est constant, la suite des
observations successives formera une progression exponentielle (on dit aussi
gomtrique). Ce sont donc les logarithmes des observations successives qui
formeront une progression linaire (ou arithmtique). On peut, au choix,
utiliser les logarithmes naturels (en base e) ou les logarithmes vulgaires (en
base 10).
Afin de pouvoir conserver les notations utilises dans le modle linaire qui
vient d'tre dvelopp, nous noterons maintenant par W1 , W 2 , , W T la srie
chronologique originale et par X 1 , X 2 , , X T la nouvelle srie obtenue en
posant X t = log W t , pour t = 1, 2, ..., T.
Fondamentalement, il n'y a rien de bien nouveau. Il faudra simplement
prendre soin de retraduire, en fin de compte, en termes de W e X (ou
W 10 X si le logarithme est en base 10) les rsultats obtenus concernant
X = log W.
EXEMPLE 9
Le tableau suivant indique les nombres de sites internet actifs dans le

monde, au milieu de chacune des annes 1991 1998.
Anne
1991
1992
1993
1994
Nombre de
Nombre de
Anne
535 000
1995
6 642 000
992 000
1996
12 881 000
1 776 000
1997
19 540 000
3 212 000
1998
36 739 000
sites internet
sites internet
Quel devrait tre le nombre de sites internet dans le monde en l'an 2005 ?
Visiblement, ces donnes ne sont pas en progression linaire. Une
progression exponentielle est beaucoup plus naturelle. Chacune de ces T = 8
donnes sera donc remplace par son logarithme (nous utiliserons les
374
logarithmes naturels, mais les logarithmes en base 10 feraient tout autant

l'affaire). On obtient la nouvelle srie qui suit :
13,190 0 13,807 5 14,389 9 14,982 4 15,708 9 16,371 3 16,788 0 17,419 3
Un calcul rapide permet d'obtenir
Xt
122, 657 3 et
t Xt
577, 547 0
Les paramtres b et a de la droite de rgression sont donc

b
6 ( 2 u 577 , 547 0 9 u 122 , 657 3 )
0 , 609 27
8 u 63
a
122 , 657 3
8
L'an 2005 correspond t 0
0 , 609 27 u 9
12 , 590 45
15 , onobtient f ( t 0 )
a b t 0
12 , 590 45 0 , 609 27
21, 729 50. Rappelons que cette valeur correspond au logarithme du nombre
de sites internet en l'an 2005. Le nombre de sites internet devrait tre voisin
de e 21, 729 50 2 , 735 milliards.
Les figures 11.8 et 11.9 illustrent graphiquement ces rsultats.
FIGURE 11.8
Droite de rgression ajuste au logarithme du nombre de sites internet et extrapolation jusqu'

l'an 2005.
prdiction 21,729 50
22
20
18
16
14
12
1990
1995
2000
2005
P.N.B. canadien (en milliards de dollars) et extrapolation exponentielle jusqu' l'an 2000.
prdiction 2,735 milliards
2
Milliards
FIGURE 11.9
375
0
1990
1995
2000
2005
Il va de soi que la prdiction qui vient d"tre calcule pour l'an 2005 ne sera
valide que si, entre les annes 1998 et 2005, le nombre de sites internet
parvient conserver le mme taux d'accroissement que celui qui a t
observ durant les annes 1991 1998 (c'est--dire, pratiquement doubler
chaque anne). Cette supposition est hautement irraliste car elle mne,
moyen terme, des rsultats absurdes. Ds 2005, on obtient une prdiction
du nombre de sites internet correspondant prs de 40 % de la population
mondiale. i on voulait faire une prdiction pour l'an 2030, on obtiendrait
environ un million de site internet par habitant de la plante. Disons
simplement, pour conclure, que la nature a horreur des progressions
exponentielles . court terme, a peut aller, mais long terme, il faut tre
prudent et user de son jugement, ce qui dborde du champ des simples
techniques mathmatiques.
376
11.5
RSIDUS ET BRUIT BLANC

Lorsqu'on ajuste un modle (rgression, dsaisonnalisation, etc.) une srie
chronologique X t , on cherche, idalement, dterminer une formule qui
permette d'exprimer le plus correctement possible X t en fonction de t.
Habituellement on ne peut pas obtenir un ajustement parfait ; il reste
toujours des diffrences, des carts entre les X et les X fournis par le
t
modle. Dans le cas d'une rgression, X t

dsaisonnalisation de priode k,
X t
f t
a bt . Dans le cas d'une
est la moyenne de toutes les
observations qui ont la mme phase que X t , c'est--dire, dont les indices
diffrent de t par un multiple exact de la priode k.
Les carts D t
X t X t portent le nom de rsidus. Ils correspondent la
partie des fluctuations de la srie originale qui a rsist au modle, que le

modle n'a pas russi expliquer.
Lorsqu'on analyse la structure d'une srie chronologique, on cherche y
ajuster un modle qui fournira des rsidus (de moyenne nulle) dont la
variance sera aussi petite que possible. Quand, aprs rgression, aprs
dsaisonnalisation, on obtient une suite de rsidus qui se comportent
comme des variables indpendantes et toutes de mme loi, on a extrait tout
le jus du citron, toute la structure de la srie. On bute alors sur le hasard
pur et il n'y a plus aucune information tirer de ces rsidus sinon en
estimer la variance, en dterminer la distribution commune. Une telle suite
de variables de moyenne nulle, indpendantes et de mme loi, porte le nom
de bruit blanc.
Tant qu'on n'est pas arriv des rsidus formant un bruit blanc, on n'a pas
encore extrait tout le jus du citron ; il y a encore de l'information tirer de
ces rsidus. En modlisant la faon dont ils sont lis entre eux, on peut
souvent rduire encore davantage le rle du hasard, obtenir les rsidus des
rsidus et pousser plus loin l'analyse jusqu' ce qu'on bute enfin sur un
bruit blanc et qu'il ne reste que l'corce du citron. Dans un bruit blanc, les
variables sont indpendantes et se comportent comme un chantillon
simple ; l'ordre dans lequel elles se prsentent n'a donc plus aucune
signification particulire et l'analyse de la srie chronologique est acheve.
377
Quand une suite de rsidus D1 , D 2 , , D T ne forme pas un bruit blanc, c'est

habituellement la condition d'indpendance entre les rsidus successifs D t
et D t 1 qui n'est pas satisfaite. Une faon simple de dtecter et de visualiser
la dpendance qui peut exister entre les rsidus successifs s'obtient en
observant l'allure du nuage de points form par les T - 1 couples de rsidus
successifs ( D1 , D 2 ), ( D 2 , D 3 ), ( D 3 , D 4 ), ..., ( D T 1 , D T ).
EXEMPLE 10
Les 20 rsidus suivants forment-ils un bruit blanc ?

t
Dt
Dt
Dt
Dt
0,937
-0,432
11
-0,998
16
0,822
1,883
-0,637
12
-1,183
17
0,358
1,499
0,057
13
-0,507
18
0,227
-0,063
-1,050
14
-0,447
19
-0,623
0,134
10
-0,978
15
0,728
20
0,273
Solution : Les 19 couples de rsidus successifs (0,937 ; 1,883), (1,883 ; 1,499),

..., (-0,623 ; 0,273) fournissent le nuage de points illustr par la figure 11. 10.
FIGURE 11.10
Les 19 couples ( D t , D t 1 ) de rsidus conscutifs
D t+ 1
-1
-2
-2
-1
On remarque que ce nuage de points a une nette tendance oblique,

caractristique d'un coefficient de corrlation significativement positif. Ce
378
coefficient de corrlation se calcule directement en utilisant les formules

dveloppes au chapitre 4 en prenant X i D i et Y i D i 1 pour i = 1, 2,
...., 19.
On obtient X i
0 , 273 ; X i2
13 , 973 ; Y i
0 , 937 ; Y i 2
8, 952 , qui donne r = 0,660. Avec n = 19, on trouve Z
13 ,170 et X i Y i
n 2r
1 r 2
3 , 62 ,
valeur nettement suprieure 2 et fortement indicatrice d'une dpendance

relle entre les rsidus successifs. La suite D1 , D 2 , , D T n'est donc pas un
i
bruit blanc.
Lorsque, aprs avoir ajust un modle une srie chronologique X t , on

obtient des rsidus D t qui ne sont pas un bruit blanc, il reste encore du jus
dans le citron , de la structure modliser. Les techniques qu'il convient
alors d'appliquer dbordent du cadre lmentaire dans lequel nous devons
nous restreindre. Sans entrer dans les dtails des processus auto-rgressifs,
signalons simplement l'existence de modles qui permettent d'exprimer
chaque rsidu comme combinaison linaire des rsidus voisins, plus un
terme rsiduel qui, si tout va bien, aura (enfin !) une structure de bruit
blanc.
RSUM
1. Une srie chronologique est une suite de mesures
x1 , x 2 , , x T
effectues sur un phnomne qui varie dans le temps.

2. Une moyenne mobile est une technique de lissage qui consiste
remplacer chaque observation x t par une moyenne pondre de
plusieurs observations voisines :
xt
r
c i x t i
i r
r
c i
i r
3. Le lissage exponentiel est une technique de lissage dans laquelle

chaque observation x t est remplace par x t Tx t 1 T x t 1 , o T est un
nombre fixe choisi entre 0 et 1.
Une prdiction pour x T 1 s'obtient alors en calculant x T 1
2 x T x T 1 .
379
4. Lorsque l'unit de mesure n'a pas une valeur constante, il faut en tenir
compte pour comparer convenablement des mesures effectues des
moments diffrents. On utilise alors une table qui indique les valeurs
successives de l'unit de mesure et qui, par commodit, accorde souvent
une valeur conventionnelle de 100 pour un certain instant de rfrence.
5. Une srie chronologique dans laquelle se manifestent des fluctuations
rgulires de priode k peut tre dsaisonnalise en soustrayant
chaque observation x t l'effet de phase x j x correspondant l'indice t.
La
quantit
xj
est
la
moyenne
de
toutes
les
observations
x j , x j k , x j 2 k , ... qui ont la mme phase que x t , c'est--dire, dont les
indices diffrent de t par un multiple exact de la priode k. La quantit x

est la moyenne des k moyennes x 1 , x 2 , , x k associes chacune des k
phases de la priode.
6. Les sries chronologiques se prsentent souvent sous la forme
Xt
f t Y t
o f (t) est une tendance gnrale douce et o les Y t sont des

fluctuations alatoires indpendantes, identiquement distribues et de
moyenne thorique nulle.
Si la tendance est linaire (c'est--dire, f (t) = a + bt) les paramtres a et
b peuvent tre estims par
b
6 2 tX t T 1 X t
T T 1
a
et f ( t 0 ) peut tre estim par f t 0
X b T 1 2
a bt 0 .
7. Si l'allure gnrale de la srie est exponentielle plutt que linaire, on

effectuera une rgression linaire passant parmi les logarithmes des
observations originales.
8. L'ajustement d'un modle une srie chronologique permet d'approximer
chaque X t par la valeur X t obtenue du modle. Les carts D t X t X t
sont appels les rsidus et correspondent la partie des fluctuations de
la srie originale qui subsiste encore aprs l'ajustement du modle.
380
9. Une suite de variables alatoires indpendantes, identiquement

distribues et de moyenne nulle porte le nom de bruit blanc. Quand une
suite de rsidus forme un bruit blanc, il n'y a plus rien en tirer : le
modle a extrait tout le jus du citron.
10. Une corrlation significativement non nulle entre les rsidus successifs
permet de conclure qu'on n'a pas encore atteint l'objectif d'un bruit blanc
et qu'il est possible d'aller plus loin dans l'analyse de la srie. D'autres
modles plus avancs prennent alors la relve...
EXERCICES
TECHNIQUES DE
LISSAGE
1. Le tableau suivant indique, pour chacune des annes allant de 1960

1987, le nombre d'immigrants reus par le Canada.
Nombre
Nombre
Nombre
Nombre
Anne
d'immigrants
Anne
d'immigrants
Anne
d'immigrants
Anne
d'immigrants
1960
104 111
1967
222 876
1974
218 465
1981
128 618
1961
71 689
1968
183 974
1975
187 881
1982
121 147
1962
74 586
1969
161 531
1976
149 429
1983
89 157
1963
93 151
1970
147 713
1977
114 914
1984
88 239
1964
112 606
1971
121 900
1978
86 313
1985
84 302
1965
146 758
1972
122 006
1979
112 096
1986
99 219
1966
194 743
1973
184 200
1980
143 117
1987
152 098
SOURCE : Emploi et Immigration Canada
a) Tracez le graphique de cette srie chronologique.

b) Lissez cette srie en y ajustant une moyenne mobile de rayon r = 2,
avec poids gaux.
c) Lissez la mme srie en y ajustant une moyenne mobile de rayon
r = 2, avec poids binomiaux.
d) Appliquez cette srie un lissage exponentiel avec T
prdiction obtient-on pour 1988 ?
1
3
Quelle
381
2. Le tableau suivant indique les nombres de naissances qui ont eu lieu, au

Canada, durant chacune des annes 1925, 1930, 1935, ..., 1985.
Anne
Nombre de naissances
Anne
Nombre de naissances
1925
249 365
1960
478 551
1930
250 335
1965
418 595
1935
228 396
1970
371 988
1940
252 577
1975
359 323
1945
300 587
1980
370 709
1950
372 009
1985
375 727
1955
442 937
a) Tracez le graphique de cette srie chronologique.

b) Lissez cette srie en y ajustant une moyenne mobile de rayon r = 1,
avec poids binomiaux.
c) Appliquez cette srie un lissage exponentiel avec T
1
2
. Quelle
prdiction obtient-on pour l'an 1990 ?

3. Lancez un d 20 fois et engendrez une srie chronologique artificielle
X 1 , X 2 , , X 20 . Lissez cette srie en y ajustant une moyenne mobile
avec poids binomiaux o r vaut 1, 2, 3 et 5. Vrifiez que ces 4 lissages
sont de plus en plus stables.
4. Un acriculteur a gard registre de la quantit de sirop d'rable qu'il a
produit durant chacune des 12 dernires annes. Voici les rsultats,
exprims en litres.
6 815 8 320 6 310 6 740 5 200 4 400 6 350 5 340 3 660 4 570
4 735 3 420
Appliquez cette srie un lissage exponentiel avec T
1
2
. Quelle
prdiction obtient-on pour la production prochaine ?

NOMBRES
INDICES
5. Calculez de nouveau les indices des prix la consommation prsents

dans le tableau 11.4 de telle sorte que l'anne de rfrence (pour laquelle
l'indice est 100) soit 1985 plutt que 1981.
6. En utilisant les indices des prix la consommation prsents dans le
tableau 11.5, rsolvez les problmes suivants :
382
a) Combien cotait, en 1960, un habit comparable celui qui cotait

250 $ en 1985 ?
b) Combien cotait, en 1985, une maison qui cotait 25 000 $ en
1950 ?
c) En 1960, une certaine famille consacrait 31 % de ses dpenses
l'alimentation, 36 % l'habitation, 10 % aux vtements, 11 % aux
transports, 3 % aux frais de sant, 6 % aux loisirs et 3 % au tabac et
l'alcool. Quel serait le partage des dpenses, selon chacune des 7
catgories, pour obtenir, en 1987, des produits quivalents dans des
proportions semblables ?
7. Le tableau suivant indique la valeur moyenne du dollar canadien,
exprime en dollars amricains, en livres britanniques, en francs
franais, en marks allemands et en yens japonais, pour chacune des
annes allant de 1965 1987.
Anne
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
dollars U.S.
0,9276
0,9282
0,9270
0,9281
0,9287
0,9579
0,9903
1,0096
0,9999
1,0225
0,9830
1,0141
0,9403
0,8770
0,8536
0,8554
0,8340
0,8103
0,8114
0,7723
0,7325
0,7197
0,7541
livres
0,3318
0,3323
0,3372
0,3877
0,3885
0,3997
0,4051
0,4033
0,4076
0,4370
0,4426
0,5615
0,5385
0,4568
0,4023
0,3677
0,4117
0,4634
0,5352
0,5780
0,5649
0,4905
0,4603
francs
4,5454
4,6000
4,6000
4,5956
4,8123
5,2938
5,4555
5,0891
4,4307
4,9140
4,2070
4,8379
4,6189
3,9448
3,6311
3,6088
4,3346
5,3050
6,1576
6,7250
6,5232
4,9751
4,5290
marks
3,7051
3,7120
3,6955
3,7051
3,6417
3,4928
3,4483
3,2175
2,6441
2,6420
2,4131
2,5510
2,1805
1,7572
1,5640
1,5518
1,8804
1,9662
2,0687
2,1911
2,1381
1,5564
1,3543
yens
333,8898
336,1345
335,6831
334,5601
332,7787
342,9355
343,4066
305,8104
270,5628
298,1515
291,5452
300,5711
251,2563
182,4818
186,0465
192,9385
183,4862
201,3693
192,6782
183,2509
173,4004
120,5400
108,8376
SOURCE : Banque du Canada
a) Quelle a t, chaque anne, la valeur moyenne du dollar amricain,

exprime en dollars canadiens ?
383
Remarque En toute rigueur, l'inverse d'une moyenne n'est pas

exactement gal la moyenne de l'inverse. Les rsultats seront donc
approximatifs.
b) Quelle a t, chaque anne, la valeur de la livre anglaise, exprime en
francs franais ?
c) Pour chacune des annes 1965, 1970, 1975, 1980 et 1985, quelle
tait la valeur du dollar amricain, exprime dans chacune des cinq
autres units montaires ?
d) Pour chacune des annes de 1966 1987, dterminez quelle
monnaie s'est le plus (le moins) apprcie depuis l'anne prcdente
par rapport au dollar canadien. Exprimez ce taux d'apprciation en
pourcentage.
e) En 1981, un spculateur franais a converti 10 000 francs en marks
allemands. En 1984 il a reconverti ses marks en francs. Combien de
francs a-t-il reus ? Quel a t le taux de rendement annuel de cet
investissement ?
8. Le tableau suivant indique la valeur du ptrole sur les marchs
mondiaux (en dollars US) pour chaque anne allant de 1970 1987. Par
convention, l'indice vaut 100 pour l'anne 1980.
Prix du ptrole
Anne
en dollars U.S.
Prix du ptrole
Anne
en dollars U.S.
1970
4,5
1979
60,2
1971
5,8
1980
100,0
1972
6,6
1981
113,4
1973
9,4
1982
116,8
1974
34,4
1983
102,2
1975
37,4
1984
99,3
1976
40,1
1985
99,3
1977
43,3
1986
45,0
1978
44,3
1987
50,0
SOURCE : Banque Mondiale
a) Utilisant les donnes fournies par le tableau du problme 7,

exprimez, pour chaque anne allant de 1970 1987, le prix du
ptrole en dollars canadiens (Affectez l'indice 100 l'anne 1980).
384
b) Utilisant ensuite l'indice des prix la consommation au Canada (voir

tableau 11.4) exprimez le prix du ptrole pour chacune de ces annes
en dollars canadiens constants. (Affectez l'indice 100 l'anne 1987).
c) Quel a t, pour chacune des annes allant de 1971 1987, le taux
d'accroissement du prix de ptrole en monnaie amricaine ? en
monnaie canadienne ?
DSAISONNALISATION
9.
Le grant d'un march d'alimentation a tabli combien de clients se sont

prsents dans son tablissement durant chacun des 31 jours du mois
dernier. Il a obtenu les donnes du tableau en haut de la page suivante
o sont aussi indiqus les jours de la semaine.
a) En ne considrant que les jours o le commerce est ouvert,
dterminez les moyennes x j correspondant chacun de ces 6 jours.
b) Quelle est la moyenne gnrale x s'appliquant aux jours ouvrables ?
c) Quel est l'effet de phase correspondant chacun de ces 6 jours ?
d) Dsaisonnalisez (selon le jour de la semaine) les 27 donnes du
tableau.
Dimanche
Lundi
Mardi
Mercredi
Jeudi
Vendredi
Samedi
142
89
95
176
316
338
10
11
12
13
(ferm)
108
85
103
178
330
320
14
15
16
17
18
19
20
(ferm)
112
77
86
158
352
307
21
22
23
24
25
26
27
(ferm)
97
82
92
196
308
335
28
29
30
31
(ferm)
130
70
102
385
10. Le tableau suivant indique quelles ont t, Montral, les tempratures

diurnes moyennes (en degrs Celsius) et les prcipitations mensuelles
moyennes (en millimtres d'eau) observes durant la priode de 30 ans
allant de 1951 1980.
Tempratures
Jan.
Fv.
Mars
Avr.
Mai
Juin
Juill.
Aot
Sept.
Oct.
Nov.
Dc.
-10
-9
-3
13
18
21
20
15
-7
72
65
74
74
66
82
90
92
88
76
81
87
(C)
Prcipitations
(mm)
SOURCE : Environnement Canada
a) Dterminez l'effet de phase correspondant chacun des 12 mois en

ce qui concerne la temprature ; les prcipitations.
b) Pour chacun des 12 mois, tablissez les prcipitations moyennes
quotidiennes en tenant compte du nombre diffrent de jours qu'il y a
d'un mois l'autre. Reprsentez graphiquement les rsultats.
ANALYSE DE
LA TENDANCE
GENRALE
11. Le tableau suivant indique, pour chacune des annes 1980 1987 quel
tait, au Canada, le prix moyen de l'huile chauffage, du gaz naturel et
de l'lectricit.
a) En supposant que la progression des prix de ces trois produits est
linaire, valuez les paramtres des droites de rgression et prdisez
les prix pour 1990, 1995, 2000.
Huile chauffage
Gaz naturel
( par litre)
( par m )
( par kWh)
1980
16,9
10,6
3,3
1981
24,4
13,2
3,7
1982
30,1
15,4
4,1
1983
33,3
18,0
4,2
1984
35,5
18,5
4,8
1985
38,3
19,4
5,0
1986
30,9
19,3
5,2
1987
29,1
18,6
5,4
Anne
lectricit
SOURCE : Mines et Ressources Canada
b) Faites de mme en exprimant les prix en monnaie de 1987. (Utilisez

le tableau 11.4 pour effectuer les conversions).
386
12. Le tableau suivant indique quelle tait la population du Canada, de

l'Ontario, du Qubec ainsi que de cinq importants centres urbains lors
des recensements de 1951, 1961, 1971 et 1981. (Les populations sont
exprimes en milliers d'habitants).
Canada
1951
1961
1971
1981
14 009
18 238
21 568
24 343
Ontario
4 598
6 236
7 703
8 625
Qubec (prov.)
4 056
5 259
6 028
6 438
Montral
1 539
2 216
2 743
2 828
Toronto
1 262
1 919
2 628
2 999
Vancouver
586
827
1 082
1 268
Ottawa-Hull
312
457
603
718
Qubec (ville)
289
379
481
576
a) En supposant que les progressions sont linaires, prdisez quelles

seront ces huit populations en l'an 1991, en 2001. La supposition de
linarit est-elle raisonnable ?
b) Prdisez les populations pour l'an 1991 et l'an 2001 en supposant
que les progressions sont exponentielles. Cette supposition est-elle
raisonnable ?
13. Le tableau suivant indique, pour chacune des annes 1980 1987, le
montant de la dette fdrale canadienne (en millions de dollars) ainsi que
la dette per capita.
Anne
1980
Dette fdrale
Dette
(en 1 000 000 $)
per capita
72 159
2 999
Anne
1984
Dette fdrale
Dette
(en 1 000 000 $)
per capita
160 768
6 399
1981
85 681
3 520
1985
199 092
7 850
1982
100 553
4 082
1986
233 496
9 209
1983
128 369
5 158
1987
264 101
10 356
a) En supposant que les progressions sont exponentielles, effectuez une

prdiction pour la dette totale et pour la dette per capita en 1990,
1995 et 2000.
387
b) Utilisant les donnes du tableau 11.4, exprimez ces deux sries en

dollars constants de 1987. Effectuez les mmes prdictions
exprimes en dollars de 1987.
RSIDUS ET
BRUIT BLANC
14. Le tableau 11.8 prsente les taux de chmage dsaisonnaliss

correspondant aux 98 donnes originales du tableau 11.7. Les 98 rsidus
obtenus en retranchant la moyenne gnrale x = 6,6 de ces donnes
dsaisonnalises forment-ils un bruit blanc ?
Remarque :
98
t 1 Dt
0 , 7 ;
98
t 1 D t2
54 , 49 ;
97
t 1 D t D t 1
48 , 22
15. Ajustez une tendance exponentielle aux valeurs successives de l'indice

des prix la consommation (voir tableau 11.4). Calculez la liste des 48
rsidus. Forment-ils un bruit blanc? Commentez.
DIVERS
16. Dterminez les valeurs des rsidus obtenus aprs dsaisonnalisation des
donnes du problme 9 portant sur le nombre de clients qui se sont
prsents chaque jour dans un certain tablissement commercial.
Reprsentez graphiquement ces rsidus. Semblent-ils tre un bruit
blanc ?
17. Le tableau de la page suivante indique (en dollars amricains de l'anne)
les valeurs relatives des prix internationaux de quelques produits
agricoles et miniers. La dernire colonne donne l'indice des prix la
consommation aux tats-Unis. Dans chaque colonne, l'indice vaut 100
pour l'anne de rfrence 1980.
a) Exprimez tous les prix en dollars constants de 1980.
b) En quelle anne chacun de ces produits tait-il le plus cher ? le
moins cher (en dollars constants) ?
388
c) Pour chaque produit, dterminez en quelle anne s'est produite la

plus forte hausse de prix et la plus forte baisse de prix (en dollars
constants).
Anne
Sucre
Argent
Cuivre
1970
Caf
33,5
Th
49,0
25,0
8,6
64,4
dollar U.S.
47,12
1971
29,6
47,3
26,0
7,5
49,5
49,15
1972
33,4
47,3
28,4
8,2
49,0
50,77
1973
41,2
47,5
34,3
12,4
81,3
53,93
1974
45,1
62,6
98,2
22,9
94,1
59,85
1975
48,1
62,0
74,8
21,5
56,6
65,32
1976
94,2
69,0
44,3
21,2
64,2
69,08
1977
152,0
120,7
36,6
22,5
59,9
73,58
1978
102,8
98,3
46,5
26,2
62,5
79,17
1979
112,5
96,8
54,7
53,9
90,3
88,13
1980
100,0
100,0
100,0
100,0
100,0
100,00
1981
76,8
90,6
65,7
51,1
79,8
110,35
1982
83,4
86,7
66,3
38,6
67,8
117,15
1983
84,9
104,3
73,4
55,6
72,9
120,91
1984
93,7
155,2
72,4
39,6
63,0
126,07
1985
88,6
89,0
67,8
29,8
64,9
130,55
1986
113,0
86,6
69,8
26,6
62,7
133,06
1987
71,2
76,6
72,7
34,1
112,3
137,90
SOURCE : Banque Mondiale
18. Le tableau suivant indique combien de clients ont fait affaire avec une
certaine agence de voyages durant chacun des trimestres des cinq
dernires annes.
Anne
Jan.-Mars
Avril-Juin
Juill.-Sept.
Oct.-Dc.
1 248
2 172
634
1 038
1 273
1 304
1 029
1 866
1 081
1 614
852
1 578
1 483
2 233
1 234
1 874
2 023
2 607
1 120
1 981
389
a) Ajustez une tendance exponentielle en effectuant une rgression

linaire parmi les logarithmes des 20 observations. Dterminez les 20
rsidus.
b) Dsaisonnalisez ces 20 rsidus en y ajustant une priode de
longueur 4. Dterminez les nouveaux rsidus. Forment-ils un bruit
blanc ?
c) tablissez des prdictions pour chacun des trimestres des annes 6
et 7.
Appendices
Liste des rfrences
du binme de Newton
n
x
TABLE
1 : Coefficients
TABLE
2 : Points critiques pour F2
TABLE
3 : Loi normale N(0,1)
TABLE
4 : Loi de Student tv
392
Liste des rfrences

1. Carefoot, J.L. (1982). "Copy
Advertising Research 12, No. 1.
Testing
with
Scanners".
Journal of
2. Clark, Roger D. and Rice, Glenn A. (l982). "Family Constellations and

Eminence : the Birth Orders of Nobel Prize Winners". The Journal of
Psychology 110, 281-287.
3. Constas, Kimon J. (1981). "An Analysis of Industrial Closures : the
Puerto-Rican Experience". Proceedings of the Business and Economic
Statistics Section, American Statistical Association Meeting.
4. Hong, Sung-Mook (1983). "Gender, Religion and Sexual Permissiveness :
Some Recent Australian Data". The Journal of Psychology 115, 17-22.
5. Jegede, R. Olukayode (1982). "A Cross-Sectional Study of Self-Concept
Development in Nigerian Adolescents". The Journal of Psychology 110,
249-261.
6. Haberman, Shelby J. (1978). Analysis of Qualitative Data, Table 4.6
Academic Press, New York.
7. Jones, Lyle V., Burton, Nancy W. & Danvenport Jr, Ernest C. (1984).
"Monitoring the Mathematics Achievement of Black Students". Journal for
Research in Mathematics Education 15, 154-164.
8. Katz, B.M. (1978). "Tests for Equality of Correlated Proportions in a
Polytomous Response Design". Journal of Educational Statistics 3,
401-417.
9. Kaye, Janet, Kaye, Kendra and Madow, Leo. (1983). "Sleep Patterns in
Patients with Cancer and Patients with Cardiac Diseases". Journal of
Psychology 114, 107-113.
10. Lynn, J.R. (1981). "Newspaper Ad Impact in Metropolitan Markets".
Journal of Advertising Research 21, No. 6.
11. Peterson, N.S. (1976). "An Expected Utility Model for Optimal Selection".
Journal of Educational Statistics 4, 333-358.
12. Rubens,W.S. (1981). "Sex and Violence on TV". Journal of Advertising
Research 21, No. 6.
Appendices
393
13. Sadowski, Cyril L. & Wenzel, DeLoris M. (1982). "The Relationship of

Locus of Control Dimensions to Reported Hostility and Aggression". The
Journal of Psychology 112, 227-230.
14. Sakofske, D.H., Kelly, I.W., & McKerracher, D.W. (1982). "An Empirical
Study of Personality and Astrological Factors". The Journal of Psychology
110, 275-80.
15. Tsang, Sau-Lim. (1984). "The Mathematics Education of Asian Americans".
Journal for Research in Mathematics Education 15, No. 2, 115-122.
16. Vaillancourt, Franois (1979). The Role of Language in the Determination

of Labour Earnings of Quebec Males in 1970. Cahier No 7904,
Dpartement de science conomique et centre de recherches en
dveloppement conomique, Universit de Montral.
17. Vaillancourt, Franois et Lefebvre, Lise. (1979). Antcdents familiaux et
connaissance de l'anglais chez les francophones du Qubec. Cahier No
8119, Centre de recherches en dveloppement conomique, Universit de
Montral.
18. Wagner, Clifford H. (1982). "Simpson's Paradox in Real Life". The
American Statistician 36, 46-48.
394
n
Le symbole
xi
signifie la somme des nombres x 1 , x 2 , , x n .
i 1
EXEMPLE 1
Soit x 1
2, x 2
3, x 3
1 . Alors :
5, x 4
xi
x1 x 2 x 3 x 4
2 3 5 1 11
i 1
3
xi
x1 x 2 x 3
2 3 5 10
x2 x3 x4
3 5 1 9
i 1
4
xi
i 2
i
Lorsqu'on manipule le symbole de sommation, il est utile de
retenir les quelques rgles suivantes :
EXEMPLE 2
a)
i 1 kx i
b)
i 1 k
nk , o k est une constante.
c)
i 1 x i
yi
Soit x 1
k i 1 x i o k est une constante.
2, x 2
n
i 1
3, x 3
x i i 1 y i
5, x 4
1 ; et y 1
a) Soit k = 3. Nous valuons
i 1 kx i
7, y 2
kx 1 kx 2 kx 3 kx 4
i 1
3 u 2 3 u 3 3 u 5 3 u 1 33
4
k xi
k x1 x 2 x 3 x 4
11 et y 4
5.
et k i 1 x i pour illustrer la
proprit (a) ci-dessus :
kx i
9, y 3
i 1
3 2 3 5 1 3 11 33
Appendices
n
i 1 k
b) L'expression
395
s'interprte comme la somme de n
nombres, tous gaux k. Si k = 3 et n = 4, on a :

4
3333
4 u 3 12
i 1
i 1 x i
4
c) Nous valuons
yi
et
i 1
x i i 1 y i pour illustrer la
proprit (c) ci-dessus :

4
x i
yi
y i x 2 y 2 x 3 y 3 x 4 y 4
i 1
2 7 3 9 5 11 1 5
4
i 1
i 1
x i y i x1 x 2 x 3 x 4 y 1 y 2
n
i 1 x i y i
et
y3 y4
2 3 5 1 7 9 11 5
d) Les deux expressions
43
43
n
i 1
xi
n
i 1
yi
ne doivent
pas tre confondues.

Par exemple :
4
xi yi
xi yi x2 y 2 x3 y3 x4 y 4
i 1
2 u 7 3 u 9 5 u 11 1 u 5 101
4
x i
i1
4
y i
i 1
2 3 5 1 7 9 11 5
e) Il ne faut pas non plus confondre

4
x i2
2 3 5 1
2 3 5 1 2
11
avec
4 9 25 1 39
i 1
4
x i
i1
i 1 x i2
11 u 32
121
352
n
i 1
xi
396
f)
On peut galement vrifier que :

4
x i2 y i
389 ;
i 1
x i2
yi
i 1
3 x i2 2 x i y i
y i2
i 1
i 1
i 1
x i2 y i2
315
i 1
i 1
i 1
3 x i2 2 x i y i y i2
595
i
Exercices
Soit x 1
5, x 2
3, x 3
7, x 4
11, x 5
13 ; y 1
8, y 2
5, y 3
Calculez :
a)
i 1 2 x i
b)
i 1 x i
c)
i 1 2 x i
d)
i 1 x i
e)
i 1 2 x i
2
5
2
3 yi
yi
3 yi 8
Rponses : a) 103 ; b) 549 ; c) 276 ; d) 2 627 ; e) 316.
16 , y 4
18 , y 5
19 .
Appendices
TABLE 1
Coefficients
397
du binme de Newton
n
x
n\x
10
11
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0
0
1
3
6
10
15
21
28
36
45
55
66
78
91
105
120
136
153
171
190
0
0
0
1
4
10
20
35
56
84
120
165
220
286
364
455
560
680
816
969
1 140
0
0
0
0
1
5
15
35
70
126
210
330
495
715
1 001
1 365
1 820
2 380
3 060
3 876
4 845
0
0
0
0
0
1
6
21
56
126
252
462
792
1 287
2 002
3 003
4 368
6 188
8 568
11 628
15 504
0
0
0
0
0
0
1
7
28
84
210
462
924
1 716
3 003
5 005
8 008
12 376
18 564
27 132
38 760
0
0
0
0
0
0
0
1
8
36
120
330
792
1 716
3 432
6 435
11 440
19 448
31 824
50 388
77 520
0
0
0
0
0
0
0
0
1
9
45
165
495
1 287
3 003
6 435
12 870
24 310
43 758
75 582
125 970
0
0
0
0
0
0
0
0
0
1
10
55
220
715
2 002
5 005
11 440
24 310
48 620
92 378
167 960
0
0
0
0
0
0
0
0
0
0
1
11
66
286
1 001
3 003
8 008
19 448
43 758
92 378
184 756
0
0
0
0
0
0
0
0
0
0
0
1
12
78
364
1 365
4 368
12 376
31 824
75 582
167 960

n
x
TABLE 2
n
n x
Points critiques pour F2
Degr
s de
libert
Q
D = 10 %
D= 5 %
D= 1 %
1
2
3
4
5
6
7
8
9
10
11
12
13
2,706
4,605
6,251
7,779
9,236
10,64
12,02
13,36
14,68
15,99
17,28
18,55
19,81
3,841
5,991
7,815
9,488
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
6,635
9,210
11,34
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,73
26,22
27,69
Point critique C
Degr
de
libert
Q
D = 10 %
D=5%
D=1%
14
15
16
17
18
19
20
21
22
23
24
25
26
21,06
22,31
23,54
24,77
25,99
27,20
28,41
29,62
30,81
32,01
33,20
34,38
35,56
23,68
25,00
26,30
27,59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,89
29,14
30,58
32,00
33,41
34,81
36,19
37,57
38,93
40,29
41,64
42,98
44,31
45,64
Point critique C
Degr
s de
libert
Q
D = 10 %
D=5%
D = 1%
27
28
29
30
40
50
60
70
80
90
100
36,74
37,92
39,09
40,26
51,81
63,17
74,40
85,53
96,58
107,6
118,5
40,11
41,34
42,56
43,77
55,76
67,50
79,08
90,53
101,9
113,1
124,3
46,96
48,28
49,59
50,89
63,69
76,15
88,38
100,4
112,3
124,1
135,8
Point critique C
398
TABLE 3
Loi Normale N(0, 1) : Valeur de P(N(0, 1) > x) en fonction de x
x
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
0,00
0,5000
0,4602
0,4207
0,3821
0,3446
0,3085
0,2743
0,2420
0,2119
0,1841
0,1587
0,1357
0,1151
0,0968
0,0808
0,0668
0,0548
0,0446
0,0359
0,0287
0,0228
0,0179
0,0139
0,0107
0,0082
0,0062
0,0047
0,0035
0,0026
0,0019
0,0013
0,0010
0,0007
0,0005
0,0003
0,0002
0,0002
0,0001
0,0001
0,0000
0,01
0,4960
0,4562
0,4168
0,3783
0,3409
0,3050
0,2709
0,2389
0,2090
0,1814
0,1562
0,1335
0,1131
0,0951
0,0793
0,0655
0,0537
0,0436
0,0351
0,0281
0,0222
0,0174
0,0136
0,0104
0,0080
0,0060
0,0045
0,0034
0,0025
0,0018
0,0013
0,0009
0,0007
0,0005
0,0003
0,0002
0,0002
0,0001
0,0001
0,0000
0,02
0,4920
0,4522
0,4129
0,3745
0,3372
0,3015
0,2676
0,2358
0,2061
0,1788
0,1539
0,1314
0,1112
0,0934
0,0778
0,0643
0,0526
0,0427
0,0344
0,0274
0,0217
0,0170
0,0132
0,0102
0,0078
0,0059
0,0044
0,0033
0,0024
0,0018
0,0013
0,0009
0,0006
0,0005
0,0003
0,0002
0,0001
0,0001
0,0001
0,0000
0,03
0,4880
0,4483
0,4090
0,3707
0,3336
0,2981
0,2643
0,2327
0,2033
0,1762
0,1515
0,1292
0,1093
0,0918
0,0764
0,0630
0,0516
0,0418
0,0336
0,0268
0,0212
0,0166
0,0129
0,0099
0,0075
0,0057
0,0043
0,0032
0,0023
0,0017
0,0012
0,0009
0,0006
0,0004
0,0003
0,0002
0,0001
0,0001
0,0001
0,0000
0,04
0,4840
0,4443
0,4052
0,3669
0,3300
0,2946
0,2611
0,2296
0,2005
0,1736
0,1492
0,1271
0,1075
0,0901
0,0749
0,0618
0,0505
0,0409
0,0329
0,0262
0,0207
0,0162
0,0125
0,0096
0,0073
0,0055
0,0041
0,0031
0,0023
0,0016
0,0012
0,0008
0,0006
0,0004
0,0003
0,0002
0,0001
0,0001
0,0001
0,0000
0,05
0,4801
0,4404
0,4013
0,3632
0,3264
0,2912
0,2578
0,2266
0,1977
0,1711
0,1469
0,1251
0,1056
0,0885
0,0735
0,0606
0,0495
0,0401
0,0322
0,0256
0,0202
0,0158
0,0122
0,0094
0,0071
0,0054
0,0040
0,0030
0,0022
0,0016
0,0011
0,0008
0,0006
0,0004
0,0003
0,0002
0,0001
0,0001
0,0001
0,0000
0,06
0,4761
0,4364
0,3974
0,3594
0,3228
0,2877
0,2546
0,2236
0,1949
0,1685
0,1446
0,1230
0,1038
0,0869
0,0721
0,0594
0,0485
0,0392
0,0314
0,0250
0,0197
0,0154
0,0119
0,0091
0,0069
0,0052
0,0039
0,0029
0,0021
0,0015
0,0011
0,0008
0,0006
0,0004
0,0003
0,0002
0,0001
0,0001
0,0001
0,0000
0,07
0,4721
0,4325
0,3936
0,3557
0,3192
0,2843
0,2514
0,2206
0,1922
0,1660
0,1423
0,1210
0,1020
0,0853
0,0708
0,0582
0,0475
0,0384
0,0307
0,0244
0,0192
0,0150
0,0116
0,0089
0,0068
0,0051
0,0038
0,0028
0,0021
0,0015
0,0011
0,0008
0,0005
0,0004
0,0003
0,0002
0,0001
0,0001
0,0001
0,0000
0,08
0,4681
0,4286
0,3897
0,3520
0,3156
0,2810
0,2483
0,2177
0,1894
0,1635
0,1401
0,1190
0,1003
0,0838
0,0694
0,0571
0,0465
0,0375
0,0301
0,0239
0,0188
0,0146
0,0113
0,0087
0,0066
0,0049
0,0037
0,0027
0,0020
0,0014
0,0010
0,0007
0,0005
0,0004
0,0003
0,0002
0,0001
0,0001
0,0001
0,0000
Valeurs spciales :
P(N(0,1) > 1,282) | 0,10 P(N(0,1) > 1,645) | 0,05 P(N(0,1) > 1,960) | 0,025
P(N(0,1) > 2,326) | 0,01 P(N(0,1) > 2,576) | 0,005 P(N(0,1) > 3,090) | 0,001
0,09
0,4641
0,4247
0,3859
0,3483
0,3121
0,2776
0,2451
0,2148
0,1867
0,1611
0,1379
0,1170
0,0985
0,0823
0,0681
0,0559
0,0455
0,0367
0,0294
0,0233
0,0183
0,0143
0,0110
0,0084
0,0064
0,0048
0,0036
0,0026
0,0019
0,0014
0,0010
0,0007
0,0005
0,0003
0,0002
0,0002
0,0001
0,0001
0,0001
0,0000
Appendices
TABLE 4
Loi de Student tQ
Valeur tabule : argument en fonction de la probabilit et du nombre de degrs de libert Q.

P(tQ > c) = D
Q = 1(1)30, 40, 60, 120,
D
0,25
0,10
0,05
0,025
0,01
0,005
0,0025
0,001
0,0005
Q
1
2
3
4
1,000
0,816
0,765
0,741
3,078
1,886
1,638
1,533
6,314
2,920
2,353
2,132
12,706
4,303
3,182
2,776
31,821
6,965
4,451
3,747
63,657
9,925
5,841
4,604
127,320
14,089
7,453
5,598
318,310
22,327
10,214
7,173
636,620
31,598
12,924
8,610
5
6
7
8
9
0,727
0,718
0,711
0,706
0,703
1,476
1,440
1,415
1,397
1,383
2,015
1,943
1,895
1,860
1,833
2,571
2,447
2,365
2,306
2,262
3,365
3,143
2,998
2,896
2,821
4,032
3,707
3,499
3,355
3,250
4,773
4,317
4,029
3,833
3,690
5,893
5,208
4,785
4,501
4,297
6,869
5,959
5,408
5,041
4,781
10
11
12
13
14
0,700
0,697
0,695
0,694
0,692
1,372
1,363
1,356
1,350
1,345
1,812
1,796
1,782
1,771
1,761
2,228
2,201
2,179
2,160
2,145
2,764
2,718
2,681
2,650
2,624
3,169
3,106
3,055
3,012
2,977
3,581
3,497
3,428
3,372
3,326
4,144
4,025
3,930
3,852
3,787
4,587
4,437
4,318
4,221
4,140
15
16
17
18
19
0,691
0,690
0,689
0,688
0,688
1,341
1,337
1,333
1,330
1,328
1,753
1,746
1,740
1,734
1,729
2,131
2,120
2,110
2,101
2,093
2,602
2,583
2,567
2,552
2,539
2,947
2,921
2,898
2,878
2,861
3,286
3,252
3,222
3,197
3,174
3,733
3,686
3,646
3,610
3,579
4,073
4,015
3,965
3,922
3,883
20
21
22
23
24
0,687
0,686
0,686
0,685
0,685
1,325
1,323
1,321
1,319
1,318
1,725
1,721
1,717
1,714
1,711
2,086
2,080
2,074
2,069
2,064
2,528
2,518
2,508
2,069
2,492
2,845
2,831
2,819
2,500
2,797
3,153
3,135
3,119
2,807
3,091
3,552
3,527
3,505
3,104
3,467
3,850
3,819
3,792
3,767
3,745
25
26
27
28
29
0,684
0,684
0,684
0,683
0,683
1,316
1,315
1,314
1,313
1,311
1,708
1,706
1,703
1,701
1,699
2,060
2,056
2,052
2,048
2,045
2,485
2,479
2,473
2,467
2,462
2,787
2,779
2,771
2,763
2,756
3,078
3,067
3,057
3,047
3,038
3,450
3,435
3,421
3,408
3,396
3,725
3,707
3,690
3,674
3,659
30
40
60
120
0,683
0,681
0,679
0,677
0,674
1,310
1,303
1,296
1,289
1,282
1,697
1,684
1,671
1,658
1,645
2,042
2,021
2,000
1,980
1,960
2,457
2,423
2,390
2,358
2,326
2,750
2,704
2,660
2,617
2,576
3,030
2,971
2,915
2,860
2,807
3,385
3,307
3,232
3,160
3,090
3,646
3,551
3,460
3,373
3,291
Pour les valeurs de Q > 30, tQ | N(0, Q)/(Q - 2))
399

CHAPITRE 1
1. Variables quantitatives : a, d, e, f, h, i.
2.
c) Le polygone des frquences prsente deux sommets, le premier

correspondant peu prs la taille moyenne des Pygmes, le
deuxime la taille moyenne des Amricains.
d) Il est possible que le polygone des frquences ait deux sommets, mais
il est plus probable, tant donn la faible diffrence entre les deux
sous-populations, qu'il n'en ait qu'un seul.
e) tant donn la faible proportion d'oranges gtes dans le lot, on
s'attend ce qu'un grand nombre des paquets ne contienne aucune
orange gte. Un certain nombre, assez important, des paquets
contiendront une orange gte. Peu de paquets auront 2 oranges
gtes, encore moins en auront 3, ..., et trs rares seront les paquets
avec 12 oranges gtes. Il est possible, par des moyens qui seront
prsents au chapitre 6, de dterminer la distribution thorique de
cette variable, c'est--dire la probabilit qu'un paquet tir de ce lot
contienne 0, 1, ..., 12 oranges gtes. Voici les probabilits pour les 6
premires valeurs :
Nombre d'oranges
gtes
Probabilit
f)
0,540 4
0,341 3
0,098 8
0,017 3
0,002 1
0,000 2
La frquence des paquets avec x oranges gtes devrait,

intuitivement, tre maximale lorsque x = 6, et devrait diminuer
lorsque x s'loigne de 6. Voici les probabilits pour quelques
valeurs :
Nombre d'oranges
gtes
Probabilit
11
12
0,000 2
0,002 9
0,120 8
0,225 6
0,120 8
0,002 9
0,000 2
g) L'intuition suggre que chaque rsultat se ralisera peu prs le

mme nombre de fois, soit peu prs 6 000 fois.
Chapitre 1 : Rponses aux exercices
j)
401
En gnral, le polygone des frquences pour ce type de variable est

un polygone symtrique en forme de cloche.
6. a) H0 : le nombre d'accouchements n'a rien voir avec le jour de la

semaine.
H0 : les 300 accouchements se distribuent uniformment, c'est--dire
selon les frquences 17 , 17 , , 17 .
F
c)
50 42 , 86 2
42 , 86

35 42 , 86 2
42 , 86
3, 29.
d) Q = 6 ; le point critique est donc 12,59. On ne rejette donc pas H0 :

l'cart entre les effectifs thoriques et les effectifs observs peut tre
d au hasard.
7.
= 4,67, avec 5 degrs de libert. Cette valeur n'tant pas suprieure
au point critique de 11,07, nous ne pouvons pas conclure que le d est

mal quilibr.
8.
F 2 = 22,67, avec 1 degr de libert. La probabilit d'avoir un garon est
suprieure la probabilit d'avoir une fille.

9. Lorsqu'on dit que l'cart est trs significatif, on affirme tre sr que la
probabilit d'avoir un garon n'est pas 1 2 . Mais on n'affirme pas que
cette probabilit est trs loigne de 1 2 .
10. F 2 = 132 avec 5 degrs de libert. Les Orientaux ont des rsultats
nettement suprieurs ceux des Amricains.
11. F 2 = 46,67 et nous concluons que le d est mal quilibr. Cette
conclusion contredit celle qui est tire au numro 6 avec les mmes
frquences. Avec 36 lancers, les carts entre les frquences observes et
les frquences thoriques peuvent facilement se produire par hasard ;
avec 360 lancers, les mmes carts sont trs peu probables avec un d
quilibr.
15. a)
Bien que ce ne soit pas toujours le sens qu'on lui attribue, le terme
reprsentatif sera considr ici comme synonyme de tir au
hasard . L'hypothse nulle est donc que l'chantillon a t tir au
hasard, auquel cas il devrait comprendre 20 % de blessures
mortelles, 30% de blessures trs graves, 30 % de blessures graves et
20 % de blessures pas graves .
402
b)
F 2 = 50. L'chantillon a t mal tir.
17. Une faon parmi d'autres de procder : former les classes 10 000-19 999,
20 000-29 999, ..., 90 000-99 999 et compter le nombre de numros
gagnants dans chacune. F 2 = 1,25 avec 8 degrs de libert, ce qui n'est
pas significatif : on ne peut pas conclure que certaines classes de
numros ont plus de chances de gagner que d'autres. (En fait, la valeur
observe de F 2 est si petite qu'elle veille de nouveaux soupons : la
distribution est trop uniforme.) La mme hypothse peut tre teste en
comptant le nombre de fois que paraissent chacun des chiffres 0, 1, 2,
..., 9. Les effectifs thoriques sont 28,8 pour le chiffre 0 et 36,8 pour
chacun des autres (rappelons que le premier chiffre ne peut pas tre 0).
Les effectifs observs sont 6, 67, 61, 42, 31, 25, 29, 44, 29 et 26, ce qui
donne F 2 = 72,07. Avec Q = 9, la valeur critique est 16,93. L'hypothse
est donc rejete.
19. F 2 = 2,05 avec 1 degr de libert. Les donnes sont conformes
l'hypothse que l'chantillon a t tir au hasard.
20. F 2 = 22,63 avec 9 degrs de libert. Il y a une diffrence significative
entre la population et l'chantillon en ce qui concerne la rpartition selon
le niveau et le sexe.
21. F 2 = 53,1 avec 6 degrs de libert et c = 12,59. L'chantillon semble
avoir t prlev d'une manire telle que certains groupes d'ge ont t
favoriss par rapport d'autres. (Le problme soulev ici est plus
complexe qu'il ne parat. Les chercheurs n'ont pas, en fait, prlev leur
chantillon d'une faon purement alatoire : ils ont utilis un mode
d'chantillonnage appel chantillonnage par grappes. Ce mode
d'chantillonnage n'a pas les mmes proprits probabilistes que
l'chantillonnage alatoire simple et on ne peut pas, sans un examen
plus approfondi, interprter le rsultat de ce test et expliquer la
contradiction entre la conclusion tire ici et celle du numro 19.)
22. F 2 = 175,91, avec 1 degr de libert. L'chantillon est beaucoup plus
scolaris que la population. (Les auteurs du rapport signalent que leur
chantillon a t prlev en 1978 alors que le recensement date de 1971,
et c'est cela qu'ils attribuent la diffrence entre les proportions
chantillonnales et les proportions de la population. Bien que ce facteur
ait srement contribu la diffrence, il est peu vraisemblable qu'il
l'explique entirement.)
403
23. a)
F 2 = 71,95 avec 6 degrs de libert. Certains jours sont plus

favorables aux suicides que d'autres.
b)
F 2 = 51,06 avec 1 degr de libert. Les suicides sont moins frquents

l'approche d'un week-end.
c)
F 2 = 1,96 avec 3 degrs de libert. La frquence des suicides semble

tre la mme pour chacun des jours du lundi au jeudi.
d)
F 2 = 20,90 avec 2 degrs de libert. Les jours du week-end ne sont

pas quivalents les uns aux autres.
24. a)
F 2 = 59,38 avec 4 degrs de libert. Le taux de dfectuosit dpend

bel et bien du jour de la semaine.
b)
F 2 = 0,163 avec 1 degr de libert. Les taux de dfectuosit du lundi

et du vendredi sont gaux.
c)
F 2 = 0,59 avec 2 degrs de libert. L'hypothse pourrait bien tre

vraie.
d)
F 2 = 58,68 avec 1 degr de libert. Le taux de dfectuosit est

infrieur au milieu de la semaine.
25. a)
F 2 = 21,33 avec 1 degr de libert. Les lecteurs emploient le

dtergent A avec une frquence suprieure celle de la population
gnrale.
c)
F 2 = 1,43 avec 3 degrs de libert. L'analyste saute aux conclusions

un peu trop vite.
26. a)
F 2 = 27,1 avec 1 degr de libert. Les absences sont rellement plus

frquentes lundi et vendredi.
b) Les effectifs thoriques sont 129 ; 80,6 ; 80,6 ; 80,6 et 129. F 2 = 0,04.
Le patron n'a pas raison de dire qu'il y a des abus.
CHAPITRE 2
1. a)
x = 4,25 ; mdiane = 4 ; mode = 4.
b)
x = 11,6 ; mdiane = 11,2 ; chaque donne est un mode.
c)
x = 4,375 ; mdiane = 3,35 ; mode = 2,8.
2. La mdiane vaut 22 dans les 3 cas ; chaque donne est un mode.

3. a)
Q1
1, Q 2
3, Q 3
9.
b)
Q1
4, Q 2
6, Q3
8.
c)
Q1
2, Q 2
2, Q3
12 .
4. a)
Q1
8, Q 2
16 , Q 3
b)
x = 0, Q1
24 .
10 , Q 2 = mdiane = 0, Q 3
10.
5. Numro 1 :
a) s2 = 2,562 5 ; s = 1,600 78.
b) s2 = 12,988 57 ; s = 3,603 97.
c) s2 = 5,269 375 ; s = 2,295 51.
Numro 2:
a) s2 = 2 ; s = 1,414 21.
b) s2 = 44,56 ; s = 6,675 33.
c) s2 = 50 ; s = 7,071 07.
6. s = 6,356 1 pour A et s = 1,414 2 pour B ; A est plus dispers.
7. s = 14,142 1 pour A et s = 12,664 9 pour B ; A est plus dispers.
8. s = 7,071 1 pour les deux sries.
9. s = 7,071 068 pour A et s = 35,355 3 = 5(7,071 068) pour B.
11. Numro 3 : a) E = 8. b) E = 8 - 4 = 4. c) E = 12 - 2 = 10.
Numro 4 : a) E = 16. b) E = 20.
16. S X = 1,612 5 ; S Y = 1,095 4.
17. x
2 ,8, x
9, 2, s
x x
9 , 2 2 ,8
1, 36 ; s
405
1,166 2 . Le mode est 2 ;
la mdiane est la moyenne arithmtique des nombres 2 et 3, soit 2,5.

18. a)
Q 3 Q1
95
4.
Q 3 Q1 # 16 , 9 5 , 4 11, 5.
b) E
21. Soit X la temprature en degrs Celsius. On a x = 18 et s x2 = 25. Si Y est

la temprature en degrs Fahrenheit, alors Y = 32 +
y
9
5
32 x
32
9
5
18
64 , 4 et s
2
x
9 2
5
2
x
25
9 2
5
9
5
X. Donc
81.
22. Z = 1.
23. x = 8,s = 2. Les cinq cotes Z sont donc -1,5, -0,5, 0, 0,5 et 1,5. Ces cinq
nombres ont, comme il se doit, une moyenne de zro et une variance 1.
24. Votre cote Z est 2,4. La proportion de la population dont la cote Z est, en
1
valeur absolue, suprieure 2,4 est au maximum
= 0,173 61 ce
2
2,4
qui, dans une population de 100 000 reprsente 17 361 personnes.

26. Si on prend la pondration base sur des effectifs de 53, 70, 135, 350, on
obtient une moyenne de 14 811 $ pour X et de 15 367 $ pour Y.
28. Pour janvier, 2,564 6 ; pour juillet, 1,020 9.
29. Mode = 1 ; mdiane = 1.
30. a), b) et c) sont fausses ; contre-exemple : 1, 2, 2, 3 ; d) et e) sont vraies.
31. a) Mode = 2 ; mdiane = 3.
b) Mdiane = 3 ; le mode est probablement gal 2, mais il est possible,
quoique peu probable, qu'il soit gal 4 ou 5.
32. Les tempratures Montral varient beaucoup plus.
33. Le march A a probablement des dpenses plus leves.
34. La variance est nulle ; l'cart-type aussi.
35. Si l'cart-type de la population est 1, un score de 65 est impressionnant
car il y a au plus 4 % de la population avec un score aussi loign de la
moyenne. Si l'cart-type de la population est 20, un score de 65 est assez
banal.
36. Moyenne = 29 820 ; Mdiane # 29 373 ; s = 14 436 ; Q1 = 17 677 ; Q3 =
40 815 ; E = 23 138.
37. L'cart-type de X est plus grand.
406
38. L'cart-type dpend de l'unit de mesure. Si, par exemple, X est la taille
en pouces et Y la taille en centimtres, alors Y = 2,54X et SY = 2,54SX. La
cote Z, par contre, reste inchange.
39. A est mieux situ par rapport sa classe que B par rapport la sienne.
40. Celui qui a eu 80 l'intra a un meilleur rsultat global.
41. Il serait raisonnable d'attribuer la baisse des recettes aux travaux
municipaux car une cote Z de -5 est trs significative.
42. La proportion de bons rouleaux rejets sera au maximum de 11,11 %.
43. 1 398 852,50 $.
44. a) Pour les hommes : 9,832 2 ; pour les femmes : 5,837 3.
b) La diffrence 9,832 2 - 5,837 3 = 3,994 9 n'est pas attribuable une
diffrence d'ge. L'ge joue en faveur des hommes.
45. a) Hommes 7 111 $ ; femmes 3 864 $. Diffrence : 3 247 $.
b) Hommes 6 920 $ ; femmes : 4 125 $. La diffrence 6 920 - 4 125 =
2 795 $ ne peut tre attribue qu' une diffrence de traitements, et
non au fait que les femmes ont travaill moins.
46. a) Pour chaque tranche de revenu, le contribuable a pay moins en
1974 qu'en 1973.
b) Impt moyen par contribuable : 1 057 $ en 1973 et 1 198 $ en 1974.
CHAPITRE 3
1. a) vrai. b) vrai.
c) faux : 9,9 % taient des garons et avaient un poids moyen.
d) vrai.
e) faux 12,8 % des bbs taient des filles et avaient un poids moyen ;
0 , 128
56,4 % ( 0 , 227 )des bbs de poids moyen taient des filles.
2. b)
X
Infrieur 100
Suprieur ou gal 100
Total
Franais
0,150
0,183
0,333
Anglais
0,225
0,275
0,500
Autres
0,075
0,092
0,167
Total
0,450
0,550
1,000
On vrifie que la frquence d'une case est gale au produit de la

frquence totale de la ligne par la frquence totale de la colonne. Par
exemple, 0,150 = 0,333 u 0,450 ; 0,183 = 0,333 u 0,550, etc.
3. a) Distribution marginale de l'ge de la mre :
ge de la mre
ge
Frquence
TOTAL
19 et moins
De 20 24
De 25 29
30 et plus
0,116
0,356
0,312
0,216
1,000
c) Distributions conditionnelles de l'ge de la mre :

ge de la mre
Sexe
TOTAL
19 et moins
De 20 24
De 25 29
30 et plus
Masculin
0,117
0,356
0,312
0,216
1,001
Fminin
0,115
0,357
0,312
0,216
1,000
Tous
0,116
0,356
0,312
0,216
1,000
408
5. Distributions conditionnelles de la religion de l'pouse :

Y : religion de l'pouse
X : religion de l'poux
TOTAL
Anglicane
Baptiste
Catholique
glise Unie
Anglicane
0,421
0,039
0,329
0,211
1,000
Baptiste
0,120
0,510
0,216
0,154
1,000
Catholique
0,123
0,024
0,707
0,146
1,000
glise Unie
0,149
0,031
0,281
0,538
0,999
On voit bien que les distributions conditionnelles sont trs diffrentes

les unes des autres.
7. a) L'emballage rouge attire les acheteurs, mais seulement lorsque le
produit est tal au niveau des yeux.
b) Quelle que soit la couleur de l'emballage, l'emplacement a un effet
sur les ventes. Mais l'effet de l'emplacement est plus marqu lorsque
l'emballage est rouge.
8. Pour chaque tableau on peut calculer le pourcentage de femmes bien
rmunres (avec un salaire 30 000 $) et le pourcentage d'hommes
bien rmunrs.
a) Les femmes sont favorises dans les emplois techniques (80 % sont
bien rmunres compar 45 % pour les hommes) ; elles sont
dfavorises dans les emplois administratifs (57 % pour les femmes,
85 % pour les hommes). Lorsqu'on rassemble les deux tableaux, on
constate que les femmes ne sont ni favorises ni dfavorises (67 %
pour les hommes et pour les femmes).
b) Les femmes sont favorises et dans les emplois techniques et dans les
emplois administratifs. Globalement, elles ne sont ni favorises, ni
dfavorises.
c) Les femmes sont favorises dans les deux catgories, mais
globalement elles sont dfavorises. La raison est qu'elles sont
faiblement reprsentes dans les emplois administratifs o les
salaires sont levs.
9.
F 2 = 33 289. Cette valeur norme est due en partie la grande taille de
l'chantillon et en partie la trs forte dpendance entre la religion de

l'poux et celle de l'pouse.
409
10. F 2 = 306,65 avec 6 degrs de libert. Le taux de mortinatalit dpend de

l'ge de la mre (Le taux crot avec l'ge, sauf pour les mres trs jeunes
(moins de 20 ans), pour qui le taux est suprieur celui des femmes de
20 29 ans).
12. a) Voici le tableau des distributions conditionnelles :
Classe
Niveau
TOTAL
Suprieure
Intermdiaire
Infrieure
lmentaire
0,078
0,281
0,642
1,001
Secondaire
0,107
0,309
0,584
1,000
Collgial
0,130
0,352
0,518
1,000
L'intention est sans doute de faire remarquer que, par exemple, on

trouve plus de personnes de classe suprieure au collgial qu'au
secondaire ou l'lmentaire.
b) Hypothse nulle : le phnomne drop-out ne touche pas les
enfants d'une classe plus que ceux d'une autre. Si cette hypothse
est vraie, il est raisonnable de supposer que la distribution des
enfants selon la classe sociale est la mme tous les niveaux. F 2 =
22,62, avec 4 degrs de libert. Ceci tant significatif, nous pouvons
conclure que la distribution de la classe sociale varie selon le niveau :
en gnral, il y a relativement moins d'lves de classe sociale
infrieure aux niveaux levs.
13. a) Le taux de renouvellement a t de 21 749/ (21 749 + 21 071) =
50,8 % en janvier et de 4 733/(4 733 + 2 155) = 68,7 % en fvrier.
Donc, il y a une amlioration dans le taux de renouvellement.
b) Voici les taux de renouvellement pour chaque catgorie. Catgorie A :
janvier, 81,2 % ; fvrier, 79,6 %. Catgorie B : janvier, 78,9 % ;
fvrier, 76 %. Catgorie C : janvier, 20,8 % ; fvrier, 14,1 %. Dans
chaque catgorie, il y a eu une baisse dans le taux de renouvellement
alors que globalement il y a eu une hausse. Cette hausse globale est
due surtout une diminution disproportionne d'abonnements dans
la catgorie C, une catgorie o le taux de renouvellement est
particulirement bas.
14. a)
F 2 = 43,71 avec 2 degrs de libert. Il y a des diffrences entre les
trois groupes.
410
b)
F 2 = 17,8 avec 1 degr de libert. Ceux d'origine anglaise sont plus
souvent bilingues.
15. SAVON
: F 2 = 0,128 avec 1 degr de libert. Les annonces ne semblent
pas avoir d'effet.

CRALES B
: F 2 = 2,36 avec 1 degr de libert. Les annonces ne semblent
pas avoir d'effet.

DNER CONGEL C
: F 2 = 4,09, avec 1 degr de libert. Les annonces ont
un effet : ceux qui voient les annonces sont plus ports acheter le dner
congel.
La proportion d'acheteurs du produit a t de 1,5 % pour le groupe
tmoin et 3 % pour le groupe exprimental. La diffrence entre les deux
est petite et n'aurait pas t trouve significative avec un chantillon plus
petit. Par exemple, si ces mmes proportions avaient t observes avec
des chantillons de 600, la valeur de F 2 aurait t F 2 = 3,07, ce qui
n'est pas significatif.
16. TAT
MATRIMONIAL
: F 2 = 2,85, non significatif. Les lecteurs ne semblent
pas tre plus nombreux ou moins nombreux parmi les personnes

maries.
SCOLARIT
: F 2 = 3,09, non significatif. La tendance lire les annonces
ne semblent pas dpendre du niveau de scolarit.

SEXE
: F 2 = 55,12, ce qui est trs significatif. Les annonces publicitaires
sont plus lues par les hommes que par les femmes.
TAILLE DE LA FAMILLE
: F 2 = 0,453. Le pourcentage de lecteurs est le
mme, quelle que soit la taille de leur famille.

17. F 2 = 130 avec 5 degrs de libert. Les Orientaux ont des scores
gnralement plus levs.
18. Rglementation de la presse : F 2 = 68,18 ; bibliothques : F 2 = 34,46 ;
tlvision : F 2 = 30,99. Le nombre de degrs de libert est 3 dans chaque
cas. Les fondamentalistes ont tendance favoriser la rglementation des
journaux, le contrle des livres dans les bibliothques et celui des sujets
traits la tlvision.
19. a)
F 2 = 80,73 avec 1 degr de libert. Le pourcentage de gens bilingues
est nettement
anglophones.
b)
411
suprieur
parmi
ceux
qui
viennent
de
pays
= 85,21 avec 2 degrs de libert. Le fait d'tre bilingue ou pas
dpend du lieu de naissance.

20. b)
= 0,79 lorsque l'chantillon est de taille 100 et F 2 = 7,9 lorsqu'il
est de taille 1 000. Pourtant le degr de dpendance est le mme. La

dpendance relativement faible observe dans l'chantillon peut tre
attribue au hasard lorsque l'chantillon est petit mais pas lorsqu'il
est grand.
21. a)
148,65
avec
degrs
de
libert.
Les
distributions
conditionnelles du statut du diplm rvlent que le pourcentage de

diplms aux tudes est de 6,4 % parmi ceux dont le pre n'a pas
dpass le secondaire et 12,1 % parmi ceux dont le pre a dpass le
secondaire.
b)
F 2 = 3,66 avec 1 degr de libert. Ce n'est pas significatif. Il semble
donc que le rsultat significatif en a) rflte essentiellement le fait que

le pourcentage de diplms aux tudes n'est pas le mme dans les
deux groupes.
22. a) F2 = 3 718 avec 3 degrs de libert. La probabilit qu'un homme
pouse une coreligionnaire dpend fortement de la religion.
b) F2 = 6,73 avec 1 degr de libert. La proportion de femmes baptistes
qui pousent des coreligionnaires est suprieure 50 %.
c) F2 = 1,814 avec 1 degr de libert ; nous ne pourrons donc pas rejeter
l'hypothse.
23. Les distributions conditionnelles de Y tant donn les valeurs de X sont
donnes dans le tableau suivant :
X \Y
TOTAL
5-9
0,522
0,403
0,075
1,000
10-49
0,450
0,302
0,248
1,000
50+
0,516
0,172
0,312
1,000
412
Les compagnies de toutes tailles ont des problmes de march. Environ

50 % ont ferm leurs portes pour cette raison. Pour les petites
compagnies, les problmes financiers sont srieux et les problmes
d'opration ne le sont pas. Pour les grandes compagnies, c'est le
contraire. Le test du F2 poserait ici quelques problmes d'interprtation :
de quelle population ces compagnies sont-elles un chantillon ?
24. F2 = 35,1 avec 1 degr de libert. Les choses ont chang entre 1974 et
1984 : significativement moins d'hommes baptistes, en 1984, ont pous
des non coreligionnaires.
25. a) F2 = 431,16 avec 4 degrs de libert. Les francophones ont le plus
grand pourcentage de diplms aux tudes ; les anglophones ont le
plus grand pourcentage au travail ; et les allophones ont le plus
grand pourcentage d'inactifs ou au chmage.
b) F2 = 95,50 avec 2 degrs de libert. On rejette l'hypothse.
26. F2 = 5,29 avec 1 degr de libert. Il semble bien qu'il y ait une relation
entre le type de prix gagn et le fait d'tre premier-n.
27. a) F2 = 17,71 avec 4 degrs de libert ; ce qui est significatif. En gros,
ceux qui ont une scolarit leve ont une forte tendance tre en
faveur de l'avortement.
b) Pour les catholiques, F2 = 4,76 avec 4 degrs de libert, ce qui n'est
pas significatif. Pour les protestants, F2 = 16,82, ce qui est significatif.
La scolarit n'a pas d'effet sur les opinions des catholiques mais elle a
un effet sur les opinions des protestants.
28. a)
F 2 = 1,35 avec 1 degr de libert. Il n'y a aucune vidence d'une
relation entre le cancer et le sommeil.

b)
F 2 = 16,37 avec 1 degr de libert. Ceux qui souffrent de maladies de
cur ont du mal s'endormir.

29. a)
F 2 = 10,85, avec 2 degrs de libert. Les faiblement scolariss vont
plus souvent au Qubec et moins souvent l'extrieur du continent.

b) Oui. Les faiblement scolariss ont gnralement un revenu plus
faible, et il est possible que ce soit le revenu faible et non la scolarit
faible qui explique pourquoi ils ont tendance rester au Qubec.
413
c) Il faudrait prlever des donnes assez nombreuses pour pouvoir

dresser un tableau comme celui qui est donn dans l'exercice, pour
chaque niveau de revenu ; et un tableau qui montre le lien entre la
direction prise et le revenu, pour chaque niveau de scolarit. Voici
des tableaux fictifs qui illustrent ce phnomne :
Revenus faibles :
Direction prise
Scolarit
Qubec
Reste du Canada
Hors
et continent
continent
TOTAL
amricain
0-11 ans
150
75
25
250
12 ans+
150
75
25
250
TOTAL
300
150
50
500
Revenus levs :
Direction prise
Scolarit
Qubec
Reste du Canada
Hors
et continent
continent
TOTAL
amricain
0-11 ans
20
40
40
100
12 ans+
80
160
160
400
TOTAL
100
200
200
500
Lorsqu'on rassemble les deux tableaux, on trouve qu'il y a une

dpendance entre la scolarit et la direction prise.
30. F 2 = 2,192 68 avec 1 degr de libert (test d'indpendance).
F 2 = 2,192 99 avec 1 degr de libert (test d'ajustement).
414
31. a) Cette procdure teste correctement l'hypothse qu'Arthur a une

chance sur 2 de faire une bonne prdiction. La conclusion du test est
qu'Arthur a plus d'une chance sur 2 de faire une bonne prdiction.
Mais il est incorrect de conclure de l qu'il a des capacits
particulires de prvision du temps. Son taux lev de succs vient
du fait qu'il a tendance prdire de la pluie souvent et qu'il vit dans
un pays o il pleut souvent.
b) Le test correct est bas sur le tableau suivant :
De la pluie a
Du beau temps
t prdite
a t prdit
Il pleut
70
30
100
Il fait beau
30
20
50
Total
100
50
150
Temprature
TOTAL
F 2 = 1,5. Il pleut aussi souvent lorsqu'Arthur prdit de la pluie que
lorsqu'il prdit du beau temps.

32. Parmi les scientifiques : 170 ; parmi les autres : 130.
33. a) L'nonc formel du problme trait au numro 17 est le suivant : on
dispose d'un chantillon de chacune de deux populations (les
Orientaux et les Blancs), et on veut tester l'hypothse que la
distribution d'une certaine variable (le score au SAT) est la mme
dans les deux populations. C'est le test d'indpendance qui
s'applique et qui est utilis correctement au numro 17. Le test dcrit
dans ce numro et trait au chapitre 1, s'emploie dans les
circonstances suivantes : on dispose d'un chantillon issu d'une
certaine population (un chantillon d'Orientaux issu d'une
population d'Orientaux) et on veut tester l'hypothse que la
distribution dans la population est donne par certaines frquences
f 1 , f 2 , , f 6 (en l'occurrence, 0,045, 0,172, ..., 0,020). Le test dcrit
ici ne s'applique donc que si ces frquences sont vraiment celles
auxquelles on veut comparer celles des Orientaux. Mais ce n'est pas
le cas, car on ne veut pas comparer les frquences des Orientaux
celles des seuls 502 990 Blancs ; on veut les comparer aux
frquences relles des Blancs de la population, et celles-ci ne sont pas
connues. Elles sont estimes par les frquences observes dans
l'chantillon.
b)
415
F 2 = 131,6, une valeur trs proche de la valeur obtenue au numro
17. Dans la procdure dcrite ici, nous comparons la distribution des

Orientaux une distribution suppose connue. Au numro 17, nous
la comparons une distribution qui doit tre estime. Mais
l'chantillon des Blancs tant trs grand, la distribution estime est
trs proche de la distribution relle et les deux procdures sont alors
trs semblables.
34.a)
= 1 : les buveurs de B ne semblent pas faire la diffrence.
b)
= 9 : les buveurs de A font la diffrence.
c)
= 2,083 3 : il n'y a pas de diffrence significative entre les buveurs
de A et ceux de B.
d) Ne peut tre test avec les mthodes prsentes dans ce chapitre.
Cependant, puisque nous concluons en b) que les buveurs de A font
la diffrence, c'est qu'il y en a une.
CHAPITRE 4
1. a) 26. b) 42. c) 6,87. La droite des moindres carrs est y = 3,1 +
1,15x, et pour cette droite D = 6,41.
2. y = 14,45 - 0,71x
3. La droite est horizontale : pour tout x, y = 6.
4. Lorsque n = 2, il existe une droite qui passe par les deux points, et c'est
ncessairement la droite des moindres carrs, puisque dans ce cas D = 0
et que c'est la plus petite valeur possible de D. Si x1 = x2, la droite de
rgression n'est pas dfinie (la pente est arbitraire).
5. La droite des moindres carrs est y = 2,733 + 2,886x. Les y i sont, dans
l'ordre, 5,619, 8,505, 11,390, 14,276, 17,162, 20,048. Les y i y i sont
0,381,
0,495, -1,390, 0,724, -1,162, 0,952. Leur somme est

2
y i y i 0 et y i y i 5,103 . On peut dmontrer que l'galit
yi
y i
0 est toujours vraie.
6. a) Les points du nuage sont tous aligns le long d'une droite.

b) La droite est y = 3 + 0,5x. Il n'est pas ncessaire d'employer le
principe des moindres carrs ici. Il suffit de choisir 2 des 10 points et
de dterminer la droite qui passe par les 2 points, en utilisant les
mthodes de la gomtrie analytique.
c) L'quation correspond la structure tarifaire typique des taxis : un
montant fixe, plus tant du kilomtre. Ici, le montant fixe est 3 $ et le
taux par km est de 0,50 $.
7. On n'obtient pas la mme droite en gnral. La droite des moindres
carrs minimise la somme des carrs des distances verticales y i y i ;
l'cart y i y i
reprsente l'erreur commise lorsqu'on estime y i par y i .
Si on interchange X et Y, on se trouve minimiser la somme des carrs

des distances horizontales, c'est--dire les erreurs commises en estimant
les x partir des y.
417
8. y = -7,10 + 1,13 (5) = -1,45. Une note ngative ne peut pas tre
considre comme une estimation raisonnable. Le modle que nous
avons adopt, qui suppose que Y est lie X par une quation linaire
n'est pas correct l'extrieur d'un certain intervalle des valeurs de X.
9. r = -0,96.
10. Le coefficient vaut 1 ou -1, car la droite des moindres carrs passera
forcment par les 2 points.
11. Puisque tous les points sont sur la droite, le coefficient de corrlation
vaut 1.
12. Les variables sont visiblement dpendantes. Mais r = 0. La dpendance
n'est pas linaire.
13. Les valeurs de 2 + 4x sont : 6, 22, 34, 46 ; et les valeurs de 30 + 2y sont :
56, 54, 48, 42. Le coefficient de corrlation est r = -0,96, la mme valeur
qu'avec les donnes originales (exercice 9).
14. Si on change X et Y dans la formule, on obtient la mme formule. Donc
le coefficient de corrlation ne change pas.
15. L'chantillon {(1,3),(2,2),(3,1)} donnera r = -1 ;
L'chantillon {(l,l),(2,2),(3,3)} donnera r = 1 ;
L'chantillon {(1,1), (2,2),(3,1)} donnera r = 0 ;
L'chantillon {(l,l),(2,3),(3,3)} donnera r = 0,87.
Dans la population, le coefficient de corrlation vaut r = 0.
16. a) Z = 0,53. b) Z = 1,08. c) Z = 1,66.
d) Z = 2,31. e) Z = -1,08. f) Z = -3,06.
Si nous prenons Z = 2 comme point critique, on peut dclarer que les
variables sont rellement dpendantes seulement dans les cas d) et f).
17. a) Z = 0,76. b) Z = 1,57. c) Z = 1,85. d) Z = 2,31. On peut conclure
que les variables sont dpendantes seulement dans le dernier cas.
18. a) Puisque c'est la scolarit qui peut avoir une influence sur les
habitudes de lecture, et non l'inverse, nous prenons X = scolarit et
Y = nombre de revues ou livres.
b) r = 0,902.
c) y = -3,28 + 0,588x.
418
d) Z = 8,1, ce qui est trs significatif. Nous concluons que le nombre de

revues et livres lus dpend de la scolarit.
19. a) r = 0,904. b) y = 6,7 + 1,65x.
c)
y = 6,7 + 1,65(4) = 13,3 L/100 km.
20. a) r = -0,88. b) y = 10,99 - 0,017x.

21. a) r = 0,998. b) y = -194,34 + 343,8x. c) y = 665,16.
22. a) r = 0,624. b) y = -2,32 + 2,25x. c) y = -2,32 + 2,25(118) = 263.
d) Le nombre de plantules ne peut pas crotre indfiniment.
23. a) r = 0,737. b) y = 217,47 + 0,777x. c) Z = 4,37. Il semble bien y
avoir une corrlation entre le poids et le taux de cholestrol.
24. a) r = 0,897 ; Z = 10,76. Il semble y avoir une forte corrlation entre
l'aptitude verbale et les ventes.
b) Pour chaque groupe, le coefficient de corrlation est nul. Il ne semble
donc pas y avoir de relation de cause effet entre l'aptitude verbale et
les ventes. Mais l'ge a une influence sur l'aptitude verbale et, parce
qu'il a une relation avec l'anciennet, il a aussi une influence sur les
ventes. C'est cette influence de l'ge sur l'aptitude verbale et sur les
ventes qui fait que ces deux dernires variables sont lies.
25. La droite des moindres carrs est y = -14 + 1,3x pour le groupe A et
y = -29 + 1,2x pour le groupe B. Considrons un tudiant moyen, avec
une note X = 60. Sa note en calcul est estime par y = - 14 + 1,3 (60) =
64 s'il a suivi les cours de rattrapage ; et par y = -29 + 1,2(60) = 43 s'il
n'a pas suivi ce cours. On s'attend donc ce qu'il ait une meilleure note
en calcul s'il a suivi le cours de rattrapage. Ce cours est donc utile.
26. a) r = 0,67.
b) y = 65,73 + 0,067x ; 65,73 $ devrait tre peu prs le minimum que
dpenserait toute famille, quel que soit son revenu. Aprs ce
minimum, elles dpensent 6,7 % de leurs revenus pour la nourriture.
c) i) 75,78 $. ii) 99,23 $.
d) i) 46,31 $. ii) 154,36 $. Les familles ne dpensent pas une proportion
fixe de leurs revenus pour la nourriture. Les familles riches
dpensent proportionnellement moins et les familles pauvres
proportionnellement plus.
419
e) Si le revenu est 5 000 $ la droite de rgression donne y = 65,73 +

0,067(5 000) = 400,73 $ ce qui est excessif. La droite est un modle
acceptable seulement pour un certain intervalle de valeurs de X.
f)
Z = 3,25. On peut affirmer qu'il y a une relation entre les deux

variables.
27. r = 0,807, r2 = 0,65. Certains interprtent ce pourcentage en disant que

l'aptitude en question est hrditaire 65 %.
28. b = 225 09/243 81 = 0,923. Au numro 27 on aurait trouv b = 0,834 et
a = 2,44. C'est rare qu'on se permette de poser a = 0.
29. b) b', = -0,204 8, a' = -2,315 8.
c)
a'
= 0,098 7, b = -b', = 0,204 8.
d) y = 0,098 7e-0,204 8(2,25) = 0,062.

30. b = 2,393 8. L'quation est y = x2,393 8.
31. xy = 559 102/436 = 1 282,344 ; x = 6 868/436 ; y = 33 726/436 ;
x 2 = 139 080/436 ; b = 0,901 2, a = 63,16.
32. On peut tenter l'explication suivante : il n'y a pas vraiment de
dpendance entre les deux variables. La corrlation positive observe est
l'effet d'une troisime variable, l'ge, qui agit simultanment sur les
deux. Les moins jeunes ont une dextrit manuelle et une aptitude
mentale plus dveloppes. Cette explication est vraisemblable mais pas
certaine, car la corrlation calcule dans chaque classe est base sur un
nombre trop petit d'observations.
33. Il suffit de remarquer la forme du nuage de points form de ceux pour
lesquels le score est suprieur ou gal 50 - beaucoup moins bien
aligns. Si les candidats qui se prsentent ont des scores qui parcourent
la gamme entire, alors le score au test sera un critre de slection utile comme l'indique le coefficient de corrlation de 0,95, et plus que ne laisse
croire le coefficient de 0,46.
34. La scolarit a un effet positif sur le libralisme, mais cette dpendance
s'estompe sous l'effet d'une troisime variable, la classe sociale. La classe
ouvrire a tendance tre plus librale, mais moins scolarise. L'effet de
classe -accroissement du niveau de libralisme - est effac par l'effet de
la faible scolarit - baisse du niveau de libralisme.
420
35. a) Pour les femmes, y = 5,17 ; pour les hommes, y = 5,82, une
diffrence de 650 $, plus petite que pour les moyennes non ajustes.
Donc mme si l'on tient compte de leur niveau de scolarit infrieur,
les femmes demeurent moins bien payes.
b) Pour les femmes, y = 5,12 ; pour les hommes y = 6,00 ; une
diffrence de 880 $, plus grande que la diffrence de 818 entre les
moyennes non ajustes. Si les femmes n'avaient pas eu l'avantage
d'avoir t engages plus tard, elles auraient eu un salaire infrieur
de 880 $ celui des hommes.
c) Pour les femmes, y = 4,927 + 0,002 1(100,93) = 5,14 ; pour les
hommes, on peut s'en tenir la moyenne non ajuste de 5,96, o
calculer y = 5,964 - 0,000 1(100,93) = 5,95. Tout porte croire que
l'exprience ne joue pas un rle important dans la dtermination du
salaire initial des hommes.
d) La droite de rgression pour les femmes est plus leve que pour les
hommes gauche du point x = 3,74. On ne doit pas attribuer trop de
signification la droite de rgression des valeurs de x trop loignes
de celles qu'on trouve dans l'chantillon. Donc, il demeure vrai que
pour une scolarit donne, les hommes sont mieux pays que les
femmes.
e) Pour les femmes, y = 5,16 ; pour les hommes, 5,86. Si les femmes et
les hommes avaient eu une scolarit moyenne de 12,51 et une date
d'engagement de 16,72, leurs salaires moyens auraient t de
5 160 $ et 5 860 $, respectivement. La diffrence de 700 $ ne peut
tre explique ni par la diffrence de scolarit ni par la date
d'engagement.
CHAPITRE 5
1. a) {(PPPP), (PPPF), (PPFP), (PFPP), (FPPP), (PPFF), (PFPF), (PFFP), (FPPF),
(FPFP), (FFPP), (PFFF), (FPFF), (FFPF), (FFFP), (FFFF)}.
b) {Libral, Conservateur, NPD, autre rponse ou pas de rponse}.
c) L'ensemble des nombres rels dans un intervalle raisonnable, par
exemple, tous les nombres rels entre -30 et 45.
d) L'ensemble dcrit en c) pourrait convenir.
e) {3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18}.
f)
{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}.
g){Urbain, Rural}.
2. a) i) La personne choisie est en faveur de la peine de mort pour le
meurtre d'un policier mais pas pour tout meurtre.
iii) D E = : .
b) C A.
3. a) Non. La balle de golf tant plus grande qu'une bille, on a srement
P(b) > P(j) = P(v).
b) i) Vrai. ii) P(b) ne peut pas tre gal 1 moins que P(j) = P(v) = 0.
iii) Ncessairement vrai. iv) Faux. v) Faux. vi) Ncessairement
vrai, si on admet que P(v) = P(j).
4. a) et b) sont inacceptables parce que la somme des probabilits de tous
les rsultats n'est pas gale 1 ; c) est acceptable ; d) est inacceptable
car l'une des probabilits est ngative.
5. A B = : , l'vnement certain.
A C : la personne choisie est une fille aux yeux bleus.
Ac : la personne choisie n'est pas une fille. Ac = B.
C D : la personne choisie a les yeux bleus et les cheveux blonds.
Cc D : la personne choisie a les cheveux blonds mais pas les yeux
bleus.
A C D : la personne choisie est une fille aux yeux bleus et aux
cheveux blonds.
422
A - C : la personne choisie est une fille qui n'a pas les yeux bleus.
D - C : la personne choisie a les cheveux blonds mais pas les yeux bleus ;
D - C = Cc D.
D - B : la personne choisie est une fille aux cheveux blonds.
6. a) 0,1. b) 0,9. c) 0,4.
7. a) 0,3. b) 0,2. c) 0,6.
8. P(F) = 0,5 ; P(D) = 0,9 ; P(F G) = 0,57 ; P(F D) = 0,47.
9. a) A et B sont incompatibles et dpendants.
b) A et B sont incompatibles et dpendants.
c) A et B ne sont pas incompatibles ni indpendants. A est
sous-ensemble de B.
d) A et B ne sont pas incompatibles. Ils sont presque certainement
indpendants.
e) A et B ne sont ni incompatibles ni indpendants. A est sousensemble de B.
f)
10. a)
B = . A et B sont incompatibles. Ils sont indpendants car P(A B)

= P(A ) = P() = 0 et P(A)P(B) = P(A)P() = P(A) u 0 = 0. Et B est
sous-ensemble de A.
14
285
. b)
1
1140
7
285
. c)
. d)
23
57
. e)
3
95
11. a) 0,9. b) 0,1. c) 0,2.

12. a) X = le nombre de billes rouges. Les valeurs de X sont 0 et 1.
b) X = le nombre de billes rouges. X = 0, 1, 2,3.
c) X = le nombre de femmes. X = 0, 1, 2,3,4 ; Y = le nombre d'hommes.
d) X = la note de l'tudiant ; Y = son poids ; Z = son ge.
13. p(0) =
16
; p(l) =
; p(2) =
; p(3) =
Var(X) = 1.
14. a) E(X) = 0, 10 $ ; Var(X) = 9,99.
b) E(X) = 0,20 $ ; Var(X) = 19,96.
15. a) E(X) = 1, 10 $ ; Var(X) = 1 008,79.
b) E(X) = 2,20 $ ; Var(X) = 2 015,56.
; p(4) =
16
; E(X) = 2 ;
16. La probabilit de 1 est

est 1 8 .
a)
3
8
5
8
18 18
b) 5
423
et la probabilit de chacun des autres rsultats
1
3
8
5
8
1, 25 $.
17. a) i) E(8X + 9Y) = 600 ; Var(8X + 9Y) = 2 896.

18. E(X) = E
X1 X 2
2
= 1,50 $ ; Var(X) =
1
4
(Var(X1) + Var(X2)) = 50.
19. P(Ac Bc) = P [(A B)c] = 1 - P(A B) = 1 - [P(A) + P(B)] = 0,3, ce qui
contredit P(Ac Bc) = 0,2.
20. a) 2. b) 2. c) 4.
21. 1 -
99 100 30
= 0,260 3.
22. P(Louis Lacasse brise 5 assiettes de suite) =
1 5
3
| 0,004, ce qui est trs
petit. Louis semble particulirement maladroit.

23. 25 $.
24. a)
25. a)
15
25
13
. b)
u 14
24
376
7
20
5 525
. c) 0.
10
25
. b)
u 15
24
1
4
. c)
15
25
3
5
d) Soit A : un garon est choisi au ler tirage, B : un garon est choisi au

2e tirage.
PB
P A B P Ac B
P A P B | A P A c P B | A c
15
25
14
24
10
25
15
24
Autre notation :
P(garon choisi au 2e) = P(GG ou FG) = P(GG) + P(FG) =
26. a)
27. Si K
28. a)
13
. b)
221
2
2
15
1
6
5
6
. b)
13
15
. c)
33
221
. d)
188
221
0 , alors K = 10 $.
.
29. a) 0,6. b) 0,7. c) 0,46. d) 0,45. e) 0,4.
3
5
424
30. p 1
31. p
2
5
; p 2
. a)
8
3
3
10
; p 3
. b) i)
4
9
1
5
; p 4
1
10
; EX
; ii) 0. iii) 0. iv)
2.
1
4
. v)
29
36
32. E(X) = 896 ; V X = 44,9.

33. E(X) = 672 ; V
2
X
= 240.
34. 0 ; 240.
35. a) E(X) = 9 $ ; Var(X) = 12 544. b) i) 25 088 $. ii) 50 176 $.
36. 2,857 %.
37. p.
CHAPITRE 6
1. a) 120. b) 5 040. c) 40 320. d) 3 628 800.
2
a) 10. b) 35. c) 126. d) 4 950. e) 499 500.
3. 5 ! = 120.
4. 6 ! = 720.
5.
= 56. On peut affecter 3 personnes 3 postes de 3 ! = 6 faons.

8
3
6. 18 424.
7.

11
5
= 462 faons de former le premier groupe et
= 462 faons de
11
6
former le deuxime groupe. Ces deux nombres sont ncessairement

gaux puisque chaque faon de former un premier groupe il correspond
exactement une faon de former le deuxime. Plus gnralement, le
nombre de faons nx de choisir x personnes pour le premier groupe est
gal au nombre de faons
de choisir les n - x faons de choisir ceux

n
n x
qui appartiennent au second.

8. a) = { (FFFFF), (FFFFP), (FFFPF), (FFPFF), (FPFFF), (PFFFF),
(FFPFP), (FPFFP), (PFFFP), (FFPPF), (FPFPF), (PFFPF),
(PFPFF), (PPFFF), (PPPFF), (PPFPF), (PFPPF), (FPPPF),
(PFPFP), (FPPFP), (PFFPP), (FPFPP), (FFPPP), (PPPPF),
(PPFPP), (PFPPP), (FPPPP), (PPPPP) }.
(FFFPP),
(FPPFF),
(PPFFP),
(PPPFP),
b)
x
p(x)
1/32
9. a) P(X = 2) =

5
2
1 2
3
2 3
3
5/32
10/32
10/32
5/32
1/32
= 0,329 2.
b) P(X t 3) = P(X = 3) + P(X = 4) + P(X = 5)

= 0, 164 6 + 0,041 2 + 0,004 1 = 0,209 9.
10. a) 0, 153 6.
b) 0,041 2.
c) 9 u 10-9 - cette probabilit est
approximative car les tirages ne sont pas indpendants.
11. a) p(0) = 0,062 5 ; p(l) = 0,25, p(2) = 0,375, p(3) = 0,25, p(4) = 0,062 5.
b) P(X t 3) = 0,312 5.
426
12. b) Non. c)

3 3
4
1 2
4
27
1 024
d) Oui. e)

5
3
10.
f)

5
3
27
1 024
13. a) 0,072 9. b) 1 - (0, 1)5 = 0,999 99.

14. a) 1. b) 0,070 2.
15. a) E(X) = 5/4, Var(X) = 0,863 97.
b) P(X = 1) = 0,411 42. c) P(X t 2) = 0,367 047.
16.
17. a) E(X) = 13, Var(X) = 3,313 73.

b) Oui, car 17 est plus de 2 carts-types droite de P .
18. p(0) = 0,071 4 ; p(l) = 0,428 6, p(2) = 0,428 6, p(3) = 0,071 4.
19. Probabilit qu'ils aient 4 enfants : 0,062 5 ; 4 enfants ou plus : 0,125.
L'esprance du nombre d'enfants est 2.
20. 0,046 5 ; 0,279 1.
21. 0,197 5.
22. 0,021 255 8.
23. O = 5 ; P(X t 4) = 1 - P(X = 0) - P(X = l) - P(X = 2) - P(X - 3) = 0,735 0.
24. a)0,234 375. b) 0,227 656. c) 0,224 414. d) 0,224 079. e) 0,224 042.
25. 0,104 8.
26. a) 0,100 9. b) 0,123 6. c) 0,295 9. d) 0,170 8.
27. 0,694 3 ; 0,000 77.
28. a) E(X) = 18,75, Var(X) = 4,687 5.
b) Z = - 4,04 ; sa thorie est trs peu vraisemblable.
29. a) 0,216. b) 0,069 48. c) 1,5.
30. a)
P = 1,2 ; V 2 = 0,980 17. b) 0,264 5. c) 2,645.
31. P(X t 2) = 1
1
2n
n
2n
1
n 1
2n
. Avec n = 6, P(X t 2) = 0,890 625 et avec
n = 7, P(X t 2) = 0,937 5. Le couple doit donc avoir au moins 7 enfants.
427
32. a) La probabilit qu'il ait 4 enfants est la probabilit que, aprs le

premier, il doit avoir 3 enfants pour avoir un enfant de sexe diffrent
31
du premier. La probabilit est donc 1 2 1 2 = 0,125.
b) 0,25. c) P = 3, V 2 = 2.
33. 0,826 7.
34. p(4) = 2 1 2
= 0,125, p(5) = 2(4) 1 2 = 0,25, p(6) = 2(10) 1 2 = 0,312 5,

5
p(7) = 2(20) 1 2
= 0,312 5 ; E(X) = 5,812 5, E(X2) = 34,812 5, Var(X) =
1,027 34.
35. a) 0,150 3.
b) E(X) = 300, Var(X) = 210, cart-type = 14,49.
c) La valeur X = 250 correspond une cote Z de -3,45, ce qui est
excessif. Le pourcentage de gens en faveur de la peine de mort est
vraisemblablement infrieur 30. La valeur X = 315 correspond
une cote Z de 1,04, ce qui est conforme aux hypothses initiales.
d) Avec n = 10, la valeur X = 4 correspond une cote Z de 0,69, ce qui
n'a rien d'exceptionnel. Avec n = 1 000, par contre, la valeur X = 400
correspond une cote Z de 6,9, ce qui met en doute les hypothses
initiales.
36.
P(x > b|x >a) = P(x > b et x > a)/P(x > a)
=P(x > b)/P(x > a)
=(1-p)b/(1 - p)a
=(1 - p)b - a
=P(x > b - a).
37. a) Il est raisonnable de supposer que l'esprance du nombre de buts
compts par A est la moyenne de deux moyennes : le nombre de buts
compts par A et le nombre de buts subis par B. Donc (4 + 3,2)/2 =
3,6. Pour B, par le mme raisonnement, on a (3,8 + 3,6)/2 = 3,7.
b) (e-3,6/3 ) (e-3,7/3) = 0,087 74.
c)
3 , 6 / 3
3, 6 / 3
2!
= 0,216 9.
428
d) L'esprance du nombre total de buts compts durant la partie est 3,6

+ 3,7 = 7 3. P(6 buts ou plus) = 1 - p(0) - ... - p(5) = 0,736 0.
e) (1 - e-3,7/3)3 = 0,355 9.
38. a) 4 000.
b) La valeur X = 5 correspond une cote Z de 0,52 si k = 5 000, 4,03 si
k = 20 000 et -3,95 si k = 1 000. Seule l'hypothse que k = 5 000 est
vraisemblable si on observe X = 5.
39. P = 60, V 2 = 300.
40. P = 14,7, V 2 38,99.
41. a)
P = 100, V 2 = 50. b) P = 2,857, V 2 = 2,449 0. c) P
d)
350 , V
291, 67 . e) P
g)
216 , V
46 440 .
3, 25 , V
1, 863 97 . f) P
36 , V
,V
2
1 260.
42. a) E(X) = 750, Var(X) = 625, V = 25.

b) La valeur X = 722 correspond une cote Z de -1,12, ce qui ne permet
pas de conclure que le d est mal quilibr ; la valeur X = 822
correspond une cote Z de 2,88, valeur assez grande pour permettre
de conclure que le d est mal quilibr (le rsultat 6 a une
probabilit suprieure 1 6 ).
43. 0,022 3.
44. En regroupant les deux dernires cases on obtient F 2 = 30,3, ce qui,
avec 3 degrs de libert, est hautement significatif.
45. En groupant les deux premires cases (X = 0 et X = 1) on obtient
F 2 = 0,58, ce qui, 6 degrs de libert, n'est pas significatif. Nous
acceptons l'hypothse que X est de loi de Poisson avec O = 4.
46. Sous l'hypothse que le magicien n'a pas de pouvoir de perception extrasensorielle et ne triche pas, la probabilit d'avoir 10 succs ou plus en 12
essais est de 7,86 x 10-7. Le magicien utilise certainement un truc.
47. S'il est impossible de rpondre sans avoir lu le texte, la probabilit d'avoir
8 bonnes rponses ou plus est 0,032 1. La conclusion est que les
rponses offertes donnent un indice qui permet d'augmenter les chances
de succs.
429
48. La probabilit d'un nombre aussi lev de dcs le jour de l'anniversaire

est 0,013, assez petite pour permettre de croire que les conjectures sont
vraies.
49. a) i) 7,51. ii) 10,44.
b) p < 0,205 7.
c) n = 5, p < 0,275 ; n = 10, p < 0,206 ; n = 30, p < 0,107 ; n = 50,
p < 0,075 ; n = 100, p < 0,045.
50. a) 5. b) P(|X - 6| t 5) = P(X t 11) + P(X d 1) = 0,014 5.
c) Un cart aussi grand que 5 est peu probable sous l'hypothse que
p = 0,4. On doit donc considrer cette hypothse comme peu
vraisemblable ; il est plus plausible que p soit suprieure 0,4.
d) Sous l'hypothse que p = 0,4, E(X) = 6, Var(x) = 3,6 et Z =
11 6
3, 6
2,64. Ceci confirme que la valeur X = 10 est trop loigne de E(X)

pour que la valeur p = 0,4 soit vraisemblable.
51. La probabilit, calcule par la loi hypergomtrique, d'avoir si peu de
femmes est 0,013 4, ce qui veut dire que si les choix sont faits au
hasard, un nombre aussi petit de femmes parmi les candidats choisis est
trs improbable. Ce dsquilibre ne devrait normalement pas se
produire. On ne prtend pas que la compagnie qui engage des employs
doive le faire au hasard : la logique de ce calcul est que si les critres de
slection sont indpendants du sexe, le nombre de femmes engages
devrait dpendre uniquement du hasard. La conclusion est que les
critres de slection ont effectivement quelque chose voir avec le sexe.
52. La probabilit que 8 personnes ou plus soient atteintes de ce cancer est
peu prs de 0,001 1. Cette probabilit tant si petite, nous pouvons
difficilement attribuer ce grand nombre de cas au hasard.
53. P(|Z| t 2) = P(X t 8) + P(X d 0) = 0,0183 ; P(|Z| t 3) = P(X t 9) = 0,00 17.
D'aprs l'ingalit de Tchebychev, P(|Z| t 2) d 0,25 et P(|Z| t 3) d
0,111 1.
54. a) P(X = 0) 0,006 7 si O = 5, ce qui rend cette valeur de O trs peu
plausible.
b) P(X = 0) = 0,367 9 si O = 1, ce qui rend cette valeur de O entirement
plausible.
c)
O d 3,00.
430
55. a) 0, 1205. b) 0,423 2.

c) On rejettera le lot si la plaque tire a 4 dfauts ou plus. La probabilit
de rejeter un lot acceptable devient alors 0,033 8.
56. a) 0,538 6.
b) (0,94)x d 0,01 x t log 0,01/log 0,94 | 74,4. On dclarera que la
population est satisfaisante seulement si les 75 premiers comptes
tirs sont sans erreur.
CHAPITRE 7
1. a) Non, S = f. b) Oui. c) Oui. d) Oui. e) Oui. f) Oui.
1
2
g) Non, f(x) < 0 si

2. a) 0. b)
. c)
3. a) 0,5. b) 0,405.
0,52.
< x < 1. h) Non, S = 12/l0 z 1.
. d) 0,3. e) 0. f) 0,05.
c) 0,4.
d) 0,5.
d) 0,097 222.
f) 0.
g) 0,25. h)
4. a) 0,8. b) 0,2. c) 0,2. d) 0,6. e) 0,8. f) 0,5. g) 0,577. h) 1.

i) Selon Tchebychev cette probabilit est suprieure
5. a) 0,367 88. b) 0,367 88. c) 0,082 08. d) 0,904 84. e) 0,822 75.
f)
0,993 26. g) 0,993 26. h) 0,750 65.
6. a) 0,095 16. b) 0,070 50. c) 0,049 787.

7. a) 0,035 67. b) 0,964 33. c) 0, 153 518.
8. a) 0,082 08. b) 0,015 33.
9. a) 0,158 7. b) 0,682 6. c) 0,950 0. d) 0,477 2. e) 0,001. f) 0,799 4.
g) 0,030 1. h) 0,539 8. i) 0,009 8. j) 0,010 8.
10. a) 0,841 3.
b) 0,682 6.
c) 0,673 0.
d) 0,022 8.
f) 0,531 9. g) 0,000 6. h) 1. i) 0,950 0. j) 0,085 5.
e) 0,977 2.
11. a) 1,282. b) 2,326. c) 1,645. d) 2,576. e) -2,326. f) -1,282.

g) 2,576. h) 3,291. i) 0,126. j) 1,96.
12. a) 19,30. b) 15,13. c) 7,84. d) 6,58.
13. a) 0,521 9.
f) 0,016 9.
b) 0,521 9.
c) 0,057 9.
d) 0,006 2.
e) 0,016 9.
14. En considrant la note comme une variable discrte ne pouvant prendre

que des valeurs entires, on obtient :
A : 22,2 % ; B : 23,9 % ; C : 25,4 % ; D : 17,7 % ; E : 10,9 %.
432
15. a) 0,682 6. b) 0,954 4. c) 0,997 4.

d) Le thorme de Tchebychev dit qu' moins de deux carts-types on a
au moins 75 % de la population et moins de 3 carts-types on a au
moins 89 %. (Il ne dit rien sur le pourcentage d'individus moins
d'un cart-type de la moyenne.)
16. a) Z = 2. b) 0,022 8. c) 0,954 4. d) 0,006 2.
17. a) 0,026 2. b) 0,026 2.
18. a) 0,025 6.
f) 0,123 5.
b) 0,974 4.
c) 0,857 7.
d) 0,807 6.
e) 0,172 6.
19. 0,017 9.
20. c = 0,08.
21. a) 0,319 6 0,812 1 0,219 5.
b) 0,333 6 0,806 4 0,236 8.
c) 0,323 3 0,721 8 0,180 4.
22. Soit Xl, X2, X3 et X4 les forces de rupture des 4 cbles. Nous supposons
que pour que tout aille bien, il faut que la force de rupture totale des 4
cbles soit suprieure 7 900 kg. P(X1 + X2 + X3 + X4 > 7 900) = P(N(0,1)
> -2,9) = 0,998 1. Une autre interprtation du problme est la suivante :
puisque chaque cble supporte un quart de la charge totale, soit 7 900/4
= 1 975 kg, il faut que la force de rupture de chacun des cbles soit d'au
moins 1 975. La probabilit est donc
(P(Xi > 1 975))4 = (P(N(0,l) > -1,45))4 = (0,926 5)4 = 0, 736 9.
23. X est Hpg(13,12,40). a) P(X = 4) = 0,213 15.
b)
P = 3, V 2 = 1,764 7, P(X = 4) = 0,223 9.
24. a) 0,149 8. b) 0,037 6. c) 0,013 6. d) 0,003 2.

25. P(X > 5) = e 5 / T = 0,2. -5/T = log(0,2). T = -5/ log(0,2) = 3,106 67.
26. a) 80 plants par rang. b) 100(0,8)(0,2) = 16.
c) P(X > 85) = P(N(0,1) > (85,5 - 80)/4) = P(N(0,1) > 1,375) = 0,084 6.
d) P(X < 70) = P(N(80,16) < 69,5) = P(N(0,1) d (69,5 - 80)/4) = P (N(0,1) <
-2,625) = 0,004 3.
e) 20 000(0,004 3) = 86.
433
P(X > 100) = P(N(86; 85,63) t 100,5) = P(N(0,1) t 1,57) = 0,058 2.
f)
27. a) 0,006 2. b) 309,30.

28. a) 0,017 9. b) 0,016 2. c) 0,080 6. d) 0,025 5.
e) 722. f) 481. g) 752. h) 752.
29. a) 0,312 1. b) 0,420 7. c) 0,321 1.
30. a) X = 5U + 10V o U est le nombre de faces avec les pices de 5 et V
est le nombre de faces avec les pices de 10 . U est B(20, 12 ) et V est
B(10,
1
2
). E(X) = 5(10) + 10(5) = 100 . Var(X) = 25Var(U) + 10OVar(V)
= 25(5) + 100(2,5) = 375.

b) Les valeurs possibles pour X sont des multiples de 5. P(X > 116) =
P(X > 117,5) = P(N (0,1) > 0,904) = 0,183 0.
31. Si on commence par acheter un litre, le cot de la peinture sera de 6 $
seulement avec probabilit 0,308 5, et 12 $ avec probabilit 0,691 5, ce
qui donne une esprance mathmatique de 10,149 $. Ceci est prfrable
au cot certain de 11 $ qu'on devrait payer si on achetait le format de 2
litres.
32. X est B(20; 0,5) | N(10; 5).
Y est B(20; 0,6) | N(12; 4,8).
Y - X est approximativement N(2; 9,8).
a) P(X > 13,5) = 0,058 8.
b) P(X > Y) = P(Y - X < 0) = P(Y - X < -0,5) = 0,212 3.
c) P(Y > X) = P(Y - X > 0) = P(Y - X > 0,5) = 0,684 1.
d) P(X = Y) = P(Y - X = 0) = 0,103 6.
33. a) E(X) = 12(3,5) = 42, Var(X) = 12(35/12) = 35.
b) P(30,5 < X < 49,5) = P(-1,94 < Z < 1,27) = 0,871 8.
34. P(3,0 < X < 4,0)
P
n 3 , 0 3 , 5
35 12
n 4 , 0 3 , 5
35 12
32.
Z
1, 645
n 4 , 0 3 , 5
35 12
0,9
434
35. a) 0,261 2. b) 0,584 4. c) 0,154 4.

36. 0,975.
37. a) 0,958 2. b) 0,011 0.
38. Si X est la dure de vie d'un appareil, ce rsultat montre que la
probabilit que l'appareil dure encore un an sachant qu'il a dj dur
deux ans est gale la probabilit qu'il dure un an quand il est neuf.
39. a) 39,35.
b) La probabilit d'avoir 40 pices ou plus remplacer est 0,488 0. Il n'y
a donc aucune raison de douter que la dure moyenne est de 2 ans.
40. a) 0,057 1. b) 0,429 6. c) n = 107. d) 0,057 1.
e) On rejette le lot si X < 197,06 ml.
41. 0,049 8 ; bien plus petit que la limite de
donne par le thorme de
Tchebychev.
42. a) 0,022 8. b) 0,034 0.
43. Nous devons prendre un chantillon de taille 62 ou plus.
44. a) i) 0,161 1. ii) 0,264 3.
b) On acceptera un rouleau si et seulement si sa longueur est
suprieure ou gale 65,02 mm.
c) 0,508 0.
CHAPITRE 8
1. E(Xi) = T, Var(Xi) = T 2 ; donc E( X ) = E(Xi) = T et
Var( X ) = Var(Xi)/n = T 2 /n.
2. E(Xi) = O , Var(Xi) = O ; donc E( X ) = E(Xi) = O et
Var( X ) = Var(Xi)/n = O /n.
3. a) E(T 1) = E(X1) = P X . E(T 2) = ( P X P X )/2 = P X .
E T3
5P X 4P X
PX .
b) Var( T1 ) = Var(X1) = V X2 .
Var T 2
V
1 2
2
2
X
V X2
V X2 / 2. Var T 3
5 2 V X2 4 V X2
2
41V X2 .
L'estimateur le plus prcis est T 2 .

1
100
4. P(T - 0,2 < N(T,
) < T + 0,2) = P(- 2 < N(0,1) < 2) | 0,954 4.
5.
p = 0,060 ; c D = 1,645 ; (0,037 ; 0,083).
6.
c D = 1,960. Pour A, (0,380 ; 0,440) ; pour B, (0,313 ; 0,371) ; pour C,

(0,061 ; 0,095) ; indcis, (0,147 ; 0,193).
7.
c D = 1,960 ; (0,270 0,042) = (0,228 ; 0,312).
8.
c D = 1,645. Blancs, (0,435 ; 0,521) ; Noirs, (0,247 ; 0,325) ; nulles,

(0,199 ; 0,273).
9.
cD
2r
r = 0,10
r = 0,05
r = 0,02
r = 0,01
1%
166
664
4 147
16 589
5%
96
384
2 401
9 604
10 %
68
271
1 691
6 765
10. X i
35 ; X
2
i
87 ; X
1, 75 ; V
1, 355 ; v
19 ; cD
1, 729 ; 1, 30 ; 2 , 20 .
436
11. c D = 1,960 ; (5,96 ; 6,30).

12. X = 93,1 ; V 2 = 63,21 ; Q = 9 ; c D = 1,833 ; I.C. = (88,5 ; 97,7).
13. Marque A : X = 3,42 ; V = 0,39 ; c D = 1,796 ; I.C. = (3,22 ; 3,62).
Marque B : X = 4,16 ; V = 0,82 ; c D = 1,895 ; I.C. = (3,61 ; 4,71).
Marque C : X = 4,02 ; V = 1,04 ; c D = 6,314 ; I.C. = (0 ; 8,66).
Marque D : X = 2,95 ; V = 0,53 ; c D = 1,699 ; I.C. = (2,79 ; 3,11).
14. O
4 , 72 ; V
15. a)
V n2
npq / p 2
O n
b) X = 25 ; p =
nq / p ; V n2
1
n q / p ; I.C. = n r c D V n .
150. V n2
; n
1, 960 ; I.C. = 4 , 29 ; 5 ,15 .
0 , 0472 ; cD
750 ; cD
1, 645 ;
I.C. = 105 ; 195 .
16. X est Hpg(200, N1, 300 - N1) ; E(X) = 2N1/3 ; Var(X) =
N 1 = 3X/2 ; V 2
N 1 300 N 1
N1
2 N 1 300 N 1
9u299
598.
Avec X = 106, on trouve N 1 = 159 et V
N 1
= 6,12 ; c D = 1,645 ;
I.C. = (149 ; 169).

17. E(Xi) = T/2 ; Var(Xi) = T 2 /12 ; E(T ) = 2T/2 = T ; Var(T ) = 4Var( X )
= T 2 /3n.
18. E(Xi ) =
19. P
P
2X
2 D
D
2
1
p
T X 1 D2 T
T
1
p
. X est l'estimateur naturel pour
2X
D
20. X est N P ,
1D ; P
D
2X
1
T
1 D2

1
X
. p
1
X
1D.
1D.
4
P X 1 P X 1
P n 2 N 0 ,1
n 2.
Avec n = 4, 16 et 36 on obtient 68,26 %, 95,44 % et 99,74 %.

21. a) E(T ) = cE( T1 ) + (1 - c)E( T 2 ) = cT + (1 - c)T = T.
b) V 2
T
c 2 V 2 1 c V
2
T1
2
T 2
22. a) T
n1
n
Y.
Var Y
b) Var T
437
n 1 2
n
T2
n n 2
T2
3n
si n t 2.
23. Soit X le nombre total de points. E(X) = 7n/2 ; Var(X) = 35n/12.

2
2
n = 2X/7 ; V n = 5n/21 ; V n = 5 n /21. Avec cD = 1,645 et X = 117, on
trouve n = 33,43 ; V n2 = 7,96 ; I.C. = (28,8 ; 38,1).
24. p = 100/360 ; n = 360. Avec D = 0,05, I.C. = (0,23 ; 0,32).
25. X = 398,45 ; V = 2,305 ; Q = 19 ; cD = 2,093. I.C. pour P : (397,371 ; 399,529).
Pour 100 000 paquets, le profit est de (400 - P) u 30 $. Les bornes de
l'I.C. pour P donnent, pour le profit, l'I.C. (14,13 $ ; 78,87 $).
26. Avec l'ancienne peinture, le cot moyen par panneau est de 3,00 $.
a) Avec la nouvelle peinture, X = 0,583 ; V = 0,044 7 ; Q = 9 ; cD =
2,262 ; I.C. = (0,583 0,032) = (0,551 ; 0,615).
b) Cot moyen par panneau : I.C. (2,48 $ ; 2,77 $).
pargne moyenne par panneau : I.C. = (0,23 $ ; 0,52 $).
c) pargne pour 2 000 panneaux : I.C. = (460 $ ; 1 040 $).
27. a)
b)
p h = 0,30 ; V 2p
p f = 0,20 ; V 2p
= 0,000 7 ; cD = 1,960 ; I.C. = (0,248 ; 0,352).

= 0,001 6 ; cD = 1,960 ; I.C. = (0,122 ; 0,278).
0 , 493 p h 0 , 507 p f
0 , 249 3.
V 2p
0 , 493 2 V 2p
V 2p
0 , 493 2 0 , 000 7 0 , 507 2 0 , 001 6
2
0 , 507 V 2 p f ;
0 , 000 58.
I.C. = (0,249 3 0,047 2) = (0,202 1 ; 0,296 5).

28. a)
Wi
36 ; W i 2
284 ; W
2 , 4 ; V W2
0 , 94 ; v
14 ; c D
1, 761.
I.C. = (2,4 1,7) = (0,7 ; 4,1).

b)
42 , 2 ; Y
39 , 8 ; V X2
9 , 94 ; V Y2
9 , 93 ; T
2 , 4 ; V X2 V Y2
19 , 87.
L'cart-type est environ 4,6 fois trop grand. X et Y ne sont pas des
variables indpendantes.
CHAPITRE 9
1. p0 = 0,95 ; p =
498
540
= 0,922 2 ; Z = -2,962 ; cD = 1,960. |Z| > cD ; donc
l'hypothse nulle est rejete.

2
Si p est la probabilit qu'Andr gagne, on teste l'hypothse p =
; p
18
30
= 0,60 ; Z = 1,10 ; cD = 1,645 ; |Z| d cD ; donc on accepte l'hypothse

qu'Andr et Bernard sont de mme force.
3. a) P (accepter l'hypothse nulle) = P
P 12
1 , 645
4 000
d p d
1
2
1 , 645
4 000
P 2 , 88 d N 0 ,1 d 0 , 38
| p 1 2|
1 4 000
d 1, 645
0 , 646 0.
Donc P(rejeter l'hypothse nulle) = 1 - 0,646 0 = 0,354 0.

b) La
P
probabilit
de
rejeter
l'hypothse
nulle
est
4 n | p 1 2 | ! 1, 645 .
Pour rendre le problme plus traitable, nous liminons les valeurs

absolues dans | p 1 2 | , ce qui est une approximation permise
puisque, avec la valeur de n que nous allons trouver, la probabilit
que p prenne une valeur infrieure
1 1, 645
P p !
2
4n
1
2
1 , 645
4n
1, 645 / 4 n est ngligeable.
0 , 90
1 , 645
0 , 52
0 , 52 0 , 48 / n
1
2
0 , 90
1 1, 645
P p !
2
4n
P N 0 ,1 !
4n
0 , 90
0 , 52
0 , 52 0 , 48 / n
1, 282
73,149 n | 5 351.
439
On peut maintenant vrifier aisment qu'avec n = 5 351, la probabilit

de rejeter l'hypothse nulle lorsque p = 0,52 est effectivement
d'environ 90 %.
4.
p X
0 , 428 6 ; p Y
0 , 638 9 ; Z
1, 71 ; c D
1, 645 ; | Z | ! c D ; donc on con-
clut que oui, les jurys ont une plus forte tendance trouver coupables
ceux qui sont accuss d'avoir victimis des Blancs.
5.
p X
0 , 204 1 ; p Y
0 ,148 9 ; Z
0 , 836 ; c D
1, 960 ; | Z | d 1, 960 ; donc on ne
peut pas conclure qu'il y a une diffrence relle entre les tudiants ns
au Canada et les tudiants ns ailleurs.
6.
p X
0 , 033 3 ; p Y
0 , 037 5 ; Z
0 , 296. La diffrence n'est significative
aucun niveau raisonnable.

7.
0 , 60 ; p
0,5 ; Z
1, 01 ; c D
1, 282 . Puisque |Z| d 1,282, nous ne
pouvons pas conclure que le somnifre a un effet.

8. 36 personnes n'ont vu qu'une couleur (25, le jaune et 11, le rouge). H0 : p
25
= 12 , p 36
= 0,694 4 ; n = 36 ; Z = 2,33 ; cD = 1,960 ; H0 est rejete. Le
jaune est mieux vu que le rouge.
9.
38 , 925 ; V
10 , 64 ; P 0
45 ; T
2 , 55 ; v
19 ; c D
2 , 093. | T | ! 2 , 093 ,
donc l'affirmation de la revue n'est pas vraisemblable. Les lecteurs de

cette revue ont un revenu moyen infrieur 45 000 $.
10. X
a)
100 ; v
V 2
b) V 2
8 ; P0
20 , 25 ; T
750 ; T
95.
3, 333. L'hypothse est rejete.
0 , 548 . L'hypothse n'est pas rejete.
c) Lorsque la variance est grande, un cart de 5 n'a rien d'tonnant et

ne mne pas au rejet de l'hypothse ; lorsque la variance est petite,
par contre, un cart de 5 ne peut pas s'expliquer par le seul hasard.
11. X
13, 80 ; V X
4 , 384 ; Y
11, 97 ; V Y
4 , 533.
Nous
supposons
les
variances gales. V = 4,477 ; T = 1,43 ; Q = 50 ; cD = 2,01 ; |T| < cD. H0

est accepte. Il ne semble pas y avoir de diffrences entre les bons
vendeurs et les vendeurs mdiocres.
440
12. a) Nous n'avons pas besoin de supposer l'galit des variances. Z =

13,07, ce qui est significatif, quelque niveau que ce soit. La
diffrence entre Nigriens et Amricains est trs significative.
b) Z = -4,18. La diffrence entre filles et garons est trs significative.
13. Nous n'avons pas besoin de supposer l'galit des variances. |Z| = 5,91.
Les tudiants de classe favorise ont une moyenne significativement
suprieure.
14. |Z| = 16,26. En moyenne, les francophones ont chm davantage.
15. X = 2,68 ; P 0 = 2,00 ; V = 3,8 ; T = 1,79 ; Q = 99. Avec D = 10 %, cD =
1,66 et l'hypothse nulle est rejete. Avec D = 5 %, cD = 1,99 et
l'hypothse nulle n'est pas rejete.
16. Les diffrences sont 4, 5, 7, 5, 2, -2, 1, 3, 4, 6 et 4. X = 3,55 ; V 2 =
6,27 ; Q = 10 ; P0 = 0, cD > = 2,228 ; T = 4,70. L'hypothse (aucun effet)
est rejete.
17. Les diffrences avant-aprs reprsentent les pertes de poids. Nous
testons l'hypothse que la moyenne de ces pertes est P0 = 0. X = 1,833 ;
V 2 = 1,367 ; T = 3,84. Q = 5 ; cD = 2,571. Le rgime est efficace.
18. T 0
cD
10. T
X ; Var T
T 2 n ; n 12. T
T T
7,4 ; Z
T 02 n
0 , 90 ;
1, 645 ; | Z | d c D . H 0 est accepte. Rien n'indique que le fabricant ait
menti.
19. Le nombre de rclamations reues par semaine est modlis par une loi
O0 n .
de Poisson : O 0 30 , 6 ; O X ; Var O O n ; Z O O 0
a) Avec n = 1 et O = 38, Z = 1,34 ; l'cart n'est pas significatif.

b) Avec n = 4 et O = 37, Z = 2,31 ; l'cart est significatif.
20. Le nombre de crimes (par 1 000 habitants) est modlis par une loi
Poisson(O).
O
X ; Var O
O n ; V 2
O
O n .
Pour la ville A, nX = 58, Xi = 35, O X = 35/58 = 0,603 45. Pour la ville b,

nY = 22, Yi = 21, O Y = 21/22 = 0,954 55.
H0 : OX
OY ; Z
cD = 1,96 ; |Z| d cD
O Y
V 2
OX
2
n X V
OY
nY
441
1, 514. Avec D = 5 %,
; H0 est accepte. La diffrence entre O X et O Y n'est
pas significative.
21. p0 = 0,515 ; p = 68/125 = 0,544 ; Z = 0,649. L'hypothse nulle n'est pas
rejete.
22. |Z| = 22,94. On peut certainement affirmer que le revenu moyen des
familles dont le chef est une femme est infrieur la moyenne des
familles canadiennes en gnral.
23. p0 =
; p = 24/250 = 0,096 ; n = 250 ; Z = -12,78. L'hypothse nulle
est catgoriquement rejete. Le revenu mdian des familles dont le chef

est une femme est infrieur 28 890 $.
24. On teste l'hypothse qu'avec le nouveau procd de fabrication, p = p0 =
0 055 ; p = 13/500 = 0,026 ; Z = -2,84. Le taux de dfectuosit est
effectivement infrieur 0,055 ce qui rend le nouveau procd plus
avantageux que l'ancien.
25. nX = 100 ; p X = 0,58 ; nY = 150 ; p Y = 0,66 ; Z = -1,28. Avec D = 10 %,
cD = 1,645. |Z| d cD ; H0 est accepte. Rien n'indique que les archers ne
soient pas de mme force.
26. Sans supposer les variances gales, on a
T
4 , 32 3, 92
1, 07 2
80 0 , 95
50
2 , 22.
Le minimum de nX - 1 = 79 et nY - 1 = 49 est Q = 49. Avec D = 5 %, une

interpolation donne cD = 2,01. Puisque |T| > cD, H0 est rejete. Les
logements du quartier A contiennent en moyenne plus de pices que
ceux du quartier B.
27. a) Sur 1 000 maisons on en a 306 qui utilisent les services d'un
jardinier. p 0,306 ; p0 = 0 345 ; Z = -2,59. Avec D = 5 % on rejette
H 0.
b)
X = 3,06 ; P0 = 3,45 ; V = 2,51 ; Z = -1,55. Avec D = 5 % on ne rejette

pas H0.
La solution en a) est errone, car elle est base sur la supposition que
le nombre de maisons qui utilisent les services d'un jardinier suit une
442
loi B(l 000, p). Or les 1 000 essais ne sont pas indpendants : les 10
mnages d'un mme bloc ne constituent pas 10 essais indpendants.
Si on choisit 10 mnages au hasard dans la ville entire, on s'attend
en trouver environ 3 qui utilisent les services d'un jardinier. On serait
trs tonn d'en trouver 8 ou 9. Mais un tel rsultat n'est pas ce
point impossible si on choisit un bloc de 10 maisons.
28. a) F2 = 34,57 ; Q = 6. L'hypothse est rejete.
b) p0 = 0,020 3 ; p
0,018 9 ; n = 10 000 ; Z = -0,993. L'hypothse est
accepte.
c) Po = 2,03 ; X = 1,89 ; V 2 = 3,149 ; Z = -0,789. L'hypothse est
accepte.
La solution b) est incorrecte car elle est base sur la supposition que
les 10 000 vis constituent autant d'essais indpendants, ce qui n'est
peut-tre pas le cas, puisque les vis ont t prises dans des botes de
100. Les solutions a) et c) sont correctes, mais elles ne testent pas
exactement la mme hypothse. En c) on teste l'hypothse que la
moyenne n'a pas chang, hypothse qui semble tre vraie. En a) on
teste l'hypothse plus forte que la distribution entire n'a pas chang
(ce qui entrane, bien sr, que la moyenne non plus n'a pas chang).
Cette hypothse, beaucoup plus forte, est visiblement fausse.
29. On suppose les variances gales.
a) |T| = 1,74. Non significatif avec D = 5 %.
b) Pour les hommes : |T| = 2,05. Pour les femmes : |T| = 0,80. La
diffrence pour les hommes est, inexplicablement, significative avec
D = 5 %.
30. On ne suppose pas l'galit des variances.
a) |Z| = 0,85. On ne dcle pas plus d'hostilit chez les femmes que
chez les hommes.
b) |Z| = 0,69. On ne dcle pas plus d'agressivit chez les hommes que
chez les femmes.
31. Rgulirement versus de temps en temps : |Z| = 9,21.
Rgulirement versus jamais : |Z| = 13,13. De temps en temps
versus jamais : |Z| = 5,58. Il semble bien que les habitudes de
frquentation de l'glise aient une relation avec l'attitude.
443
32. cause des donnes groupes, les rsultats suivants sont approximatifs.
X = 517,299 ; V X = 116,27 ; Y = 505 762 ; V Y = 113,01 ; |Z| =
a)
9,88. Les Orientaux ont une moyenne suprieure.

b) En utilisant V X = 116,27, |Z| = 9,97. En utilisant V = 113,01 on a
|Z| = 10,26. Dans les deux cas, on considre les 502 990 Blancs
comme une population. Lorsqu'on utilise V = 113,01 on suppose, en
outre, que la variance de la population d'Orientaux est gale celle
de la population forme des 502 990 Blancs. Si les deux valeurs de
|Z| sont trs proches, c'est parce que, vraisemblablement, ces deux
variances sont peu prs gales.
c) Les tests en b) sont incorrects car ils supposent que la moyenne pour
les Blancs est connue (et vaut 505 762) alors qu'en fait elle est
inconnue et doit tre estime. La valeur 505 762 est une estimation
sujette erreur. Cependant, l'chantillon est si grand que l'erreur
d'estimation est minuscule.
33. Statisticien X : F2 = 13,85 avec 6 degrs de libert, significatif.
Statisticien Y : p X = 0,020 3, p Y = 0,018 9. Z = 0,714, non significatif.
Statisticien Z : X = 2,03, V X2 = 2,029 4, X = 1,89, V Y2 = 3,149 4. Z =
0,615, non significatif. La procdure utilise par le statisticien Y est
incorrecte.
34. Le nombre X de points obtenus en lanant n ds est approximativement
N(7n/2; 35n/12). n = 2X/7 est approximativement N(n; 5n/21).
V n2 5 n / 21. Ici, X = 77 ; Y = 114 ; n X = 22, n Y = 32,57 ; V 2n = 5,238 ;
X
V 2n
= 7,755 ; Z =
n Y
V 2n
V 2n
2 , 93 ; cD
1, 96 ; H 0 est
rejete. nX et nY ne sont pas gaux.

35. a) nX = 11 ; X = 252/11 = 22,909 ; V X2 = 11,09 ; nY = 11. Y = 22,545 ;
V Y2 = 17,07 ; V 2 = 14,08.
T = 0,23 ; Q = 20 ; cD = 1,725 ; H0 est accepte.
b) nX = 11 ; X = 297/11 = 27 ; V X2 = 17 ; nY = 11 ; Y = 22,636 ; V Y2 =
11,45 ; V 2 = 14,23.
T = 2,71 ; Q = 20 ; cD = 1,725 ; H0 est rejete.
444
c) Les augmentations de scores sont

13, 4, 2, -1, 4, 7, 2, -1, 7, 7, 1 pour le groupe LOGO ;
6, 4, 0, -2, -2, -2, 0, 7, -5, -2, -3 pour le groupe Delta Drawing.
nX = 11 ; X = 45/11 = 4,091 ; V X2 = 17,49 ; nY = 11 ; Y = 0,091 ;
V Y2 = 15,09 ; V 2 = 16,29.
T = 2,32 ; Q = 20 ; cD = 1,725 ; H0 est rejete.
d) Pour le groupe LOGO, n = 11 ; W = 4,091 ; V W2 = 17,49 ; T = 3,24 ;
Q = 10 ; cD = 1,812. H0 : PW = 0 est rejete.
Pour le groupe Delta Drawing, n = 11 ; W = 0,091 ; V W2 =15,09 ; T =
0,08 ; Q = 10 ; cD = 1,812. H0 : PW = 0 est accepte.
e) Pour le groupe LOGO, nX = 6 (filles) ; X = 5,333 ; V X2 = 23,47 ; nY = 5
(garons) ; Y = 2,6 ; V Y2 = 9,3 ; V 2 = 17,17. T = 1,09 ; Q = 9 ; cD =
1,833 ; H0 est accepte.
Pour le groupe Delta Drawing, nX
7 ; X = 1 ; V X2 = 15 ; nY = 4 ; Y =
-1,5 ; V Y2 = 15 ; V 2 = 15. T = 1,03 ; Q = 9 ; cD = 1,833 ; H0 est

accepte.
36. Personnes qui ont vcu des pisodes d'ischmie silencieuse : nX = 30,
X = 9, p X = 0,3.
Personnes qui n'ont pas vcu d'pisodes d'ischmie silencieuse : nY = 73,
Y = 8, p Y = 0,109 6 ; Z = 2,09. Au niveau D = 0,05, la diffrence peut tre
dclare significative.
37. a) P(B|A) est estime par
p X
= 0,235 3. P(B|Ac) est estime par
p Y = 0,042 6.
b) V 2p
Z
p Y
= 0,004 394 9 ;
p Y
V p
p Y
= (0,235 3 - 0,042 6)/0,066 29 = 2,91.
Il y a donc une diffrence significative. L'hypothse que P(B|A) =

P(B|Ac) est rejete.
445
38. GROUPE TMOIN : nX = 11 000, X = 189, p X = 0,017 181 8.

GROUPE EXPRIMENTAL
V 2p
p Y
: nY = 11 000, Y = 104, p Y = 0,009 454 5.
= 2,386 5 u 10-6 ; V p
p Y
= 0,001 548 8 ; Z = 4,99.
La diffrence est hautement significative. Il semble bien que l'aspirine

rduit les chances d'une crise cardiaque.
39. pouses des hommes : nX = 25, X = 10, p X = 0,4. poux des femmes :
nY = 55, Y = 2, p Y = 0,036 36. V p
p Y
= 0, 101 2 ; Z = 3,59. On peut
conclure que la probabilit qu'un homme transmette le virus sa femme

est suprieure la probabilit qu'une femme transmette le virus son
mari.
40. H0 : p = 0,6. Avec D = 5 %, H0 sera rejete si | p - 0,6| > 1,96 0 , 24 / 20 ,
c'est--dire si X est hors de l'intervalle (7,7 ; 16,3) que la correction pour
la continuit ramne (7,5 ; 16,5). En fonction de p, la probabilit de
rejeter H0 est donc 1 P 7 , 5 20 p
20 pq N 0 ,1 16 , 5 20 p
20 pq .
a) Si p = 0,55, on trouve 1 - P(-1,573 1 < N(0,1) < 2,472 1) = 0,064 7.

b) Pour p = 0,56, 0,57, 0,58, 0,59 et 0,60, les probabilits de rejeter H0
sont, respectivement, 0,056 3, 0,049 7, 0,044 8, 0,041 6 et 0,040 0.
c) Un chantillon de taille 20 est trop petit pour dtecter efficacement
des diffrences aussi minimes dans la valeur de p.
41. a)
X est N(P,32) et H0 est rejete si X est hors de l'intervalle (28,91 ;

51,09). Si P = 42, cette probabilit n'est que 0,064 4.
b) En ngligeant la queue de gauche, il faut centrer P la borne de

droite de l'intervalle, c'est--dire, avoir P = 51,09. (et G = 11,09).
c) H0 est rejete si X est hors de l'intervalle (40 - 31,36/ n , 40 +
31,36/ n ). En ngligeant la queue de gauche, il faut centrer P la
borne de droite, c'est--dire, prendre G = 31,36/ n . Si G = 2, on
trouve n = 246.
42. a) Les diffrences avant-aprs sont : -2, 6, 6, 5, -1, 8, 4, 1, 7, 6, -1, 4, 1,
7. W = 3,643, V 2 = 11,478, T = 4,02. On peut conclure que les
rflexes ralentissent aprs une faible consommation d'alcool.
446
b) i) L'hypothse que l'alcool n'a pas d'effet est H0 : p = 1/2.

ii) U = 11, p = 0, 785 7, Z = 2,14. On conclut encore que l'alcool
ralentit les rflexes.
c)
W = 3,5, V 2 = 12,576 9 ; T = 3,69. On rejette encore H0. Par contre,

U = 10, p = 0,714 3, Z = 1,60. Le remplacement des nombres par de
simples signes (positif, ngatif) entrane une perte d'information qui
affaiblit le test.
43. a) Les augmentations de scores sont 3, 5, -1, 2, 2, -1, 2, 4, -3, 3, 2, 6, 2,

-1. W = 1,785 7, V 2 = 6,335 2 ; T = 2,65. L'augmentation des scores
est significative.
b) Groupe tmoin : X = 26,928 6, V X2 = 88,225 3.
Groupe exprimental : Y = 28,714 3, V Y2 = 85,450 5, V 2 = 86,837 9,
T = -0,507.
c) L'cart-type de W est estim V W
le premier modle et V 1 n X 1 n Y
6 , 335 2
14
0 , 672 7 dans
3, 522 1 dans le second.
44. a) Voici, dans l'ordre, les 22 scores et une indication du groupe : L =

LOGO, D = Delta Drawing.
19 20 20 21 21 21 21 22 23 23 23 24 25 26 26 27 29 29 30 30 32 34
Mdiane
D
b) Nous obtenons le tableau suivant :

Suprieur la mdiane
Infrieur la mdiane
TOTAL
LOGO
11
Delta Drawing
11
TOTAL
11
11
22
447
c) Le test d'indpendance teste l'hypothse que la probabilit qu'un

sujet soit suprieur la mdiane est la mme pour les deux groupes ce qui est une faon d'exprimer l'absence de diffrence entre les deux
types d'exprience. La valeur du khi-deux est F2 = 4,55, ce qui est
significatif. La conclusion est que le LOGO a tendance donner des
rsultats suprieurs ceux du Delta Drawing.
45. a) Groupe qui n'a pas suivi le cours de sensibilisation : X = 53,
V X2 = 24.
Groupe qui a suivi le cours de sensibilisation ; Y = 43, V Y2 = 24.
T = 4,08. Pour le policier avec 11 ans de scolarit ou moins, il y a une
diffrence significative entre ceux qui ont suivi et ceux qui n'ont pas
suivi le cours.
b) Groupe qui n'a pas suivi le cours de sensibilisation : X = 31, V X2 =
15,714 3.
Groupe qui a suivi le cours de sensibilisation Y
= 25,5, V Y2 =
11,142 9.
V 2 = 13,428 6 ; T = 3,00. Pour le policier avec plus de 11 ans de
scolarit, il y a une diffrence significative entre ceux qui ont suivi et
ceux qui n'ont pas suivi le cours.
c) Groupe qui n'a pas suivi le cours de sensibilisation : X = 42, V X2 =
147,6.
Groupe qui a suivi le cours de sensibilisation : Y = 34,25, V =
98,066 7, V 2 = 122,83 ; T = 1,98, Q = 30 ; avec D = 5 %, cD = 2,042. La
diffrence n'est plus significative (de justesse).
46. a) i) 0,048 8. ii) 0,019 8. On prfre le test pour lequel la probabilit de
rejeter H0 lorsque H0 est vraie est petite, donc le test 2.
b) Si le test 2 donne une faible chance de rejeter H0 quand H0 est vraie,
il donne galement une faible chance de rejeter lorsque H0 est fausse.
c) i) P(X d a|T = 10) = 0,05 1 - e-a/10 = 0,05 a = -10 log 0,95 =
0,512 9.
ii) a = - 10 log(0,99) = 0, 100 5. iii) a = -10 log(0,995) = 0,050 1.
448
47. a) Si H0 est vraie, alors X est de loi de Poisson avec O = 1 et Y est de loi
de Poisson avec O = 2.
i) P(X t 4|O = 1) = 0,019 0.
ii) P(Y t 6|O = 2) = 0,016 6.
b) Avec la procdure 2 la probabilit de rejeter H0 est plus faible lorsque
H0 est vraie et plus forte lorsque H0 est fausse. C'est prcisment ce
qu'on souhaite. Ceci reflte bien sr, le fait que la procdure 2 est
base sur deux observations au lieu d'une.
CHAPITRE 10
1. a) P = 5,5 ; V 2 = 7,916 667.
c) La distribution de X est donne par :
X
p X
4,5
5,5
6,5
7,5
8,5
1/15
1/15
2/15
1/15
2/15
1/15
2/15
1/15
1/15
1/15
1/15
1/15
e)
V X2 = 3,166 7.
f)
La distribution de V 2 est
V 2
0,5
4,5
2/15 4/15 1/15

E V = 9,5. Donc E V E >V
p V 2
2
18
12,5
24,5
32
3/15
2/15
1/15
1/15
1/15
n 1 n N
@ E V 3
2
3,166 66
V X2 .
2. Plus N est grand, moins grande est la prcision ; mais pour des valeurs
de N beaucoup plus grandes que n, la perte de prcision ne se fait plus
sentir.
3. W1 = 0,522 691 7 ; W2 = 0,190 923 3 ; W3 = 0,286 385 ; P 1 = 3,681 8 ;
P 2 = 56 ; P 3 = 384 ; V 12 = 2,608 2 ; V 22 = 687 14 ; V 32 = 45 622.
a)
P = 122,59. b) W = 391 675. c) 17,63. d) 56 328.
e) 88,03 d P d 157,14. f) 281 256 d W d 502 083.

g) Les effectifs optimaux sont 1, 3, 38. h) 10,168.
4. n1 | 10, n2 | 26 et n3 | 64.
5. a) Les tailles des chantillons sont 21, 23, 33, 40 et 63.
b) L'allocation proportionnelle est peu prs n1 | 5, n2 | 9, n3 | 32, n4 |
47, n5 | 88. L'cart-type de P est 1,219 pour l'allocation
proportionnelle et 1,015 pour l'allocation optimale.
6. a) p = 0,633 341 2 ; Var( p ) = 0,000 682 ; l'cart-type de p est 0,026 12.
b) (0,582 15 ; 0,684 54). c) W = 9 329. d) 8 575 d W d 10 083.
450
e) La variance estime est 0,000 774 1 ; l'cart-type serait donc

0,027 82. On voit donc que cette stratification n'est que lgrement
plus efficace qu'un chantillon alatoire simple.
f)
Rpartition optimale n1 = 23, n2 = 62, n3 = 34, n4 = 181. La variance

est estime 0,025 78.
g) 479.
7. a)
P = 2 081,14 b) W = 10 093 514 c) 9 044 160 d W d 11 142 868.
d) n1 | 29, n2 = 33, n3 = 23. e) 82,098.

8. a) Les valeurs de X sont 4,5 ; 3,5 ; 3 ; 2,5 ; 4 ; 4 ; 3,5 ; 3 ; 4,5 ; 3,5.
b) Chacune des valeurs ci-dessus se ralise avec probabilit 1/10. E( X )
= 3,60, ce qui montre que X est sans biais puisque 3,60 est la
moyenne de la population.
c) Var( X ) = 0,39.
9. n1 = N1 = 50, n2 = 36, n3 =165, n4= 248. La variance de P est estime
0,020 68.
10. a)
p
0,2
0,4
0,6
0,8
Probabilit
5/17
5/17
4/17
3/17
E( p ) = 39/85 = p ; Var( p ) = 0,046 ; cart-type de p = 0,214.

b)
p
0,2
0,4
0,6
0,8
Probabilit
1/17
1/17
5/17
6/17
3/17
1/17

c)
p
0,2
0,4
0,6
0,8
Probabilit
4/17
4/17
7/17
1/17
1/17
451
p : Proportion d'enfants : 0,216. Proportion de
d) carts-type de
personnes de sexe fminin : 0,216. Proportion d'adultes de sexe

fminin : 0,198.
11. a)
p
0,8
Probabilit
9/17
1/17
7/17
Var( p ) = 0,239; cart-type de p = 0,489.

b)
p
0,2
0,8
Probabilit
5/17
3/17
2/17
7/17
Var( p ) = 0,201 ; cart-type de p = 0,448.

c)
p
0,2
0,8
Probabilit
11/17
1/17
1/17
4/17
Var( p ) = 0,189 ; cart-type de p = 0,434.

12. a)
p
1/6
2/6
3/6
4/6
5/6
6/6
Probabilit
0,031 26
0,173 16
0,340 13
0,302 34
0,127 55
0,024 01
0,001 56
b) E( p ) = 0, 400 0.
c)
V 2p = 0,033 11.
d) La fonction de masse de V 2p est

V 2p
5/225
8/225
9/225
Probabilit
0,032 82
0,197 17
0,467 68
0,302 34
On calcule partir de ce tableau E( V 2p ) | 0,033 10, ce qui concide

avec la valeur connue de
V 2p = (pq/n)((N - n)/(N - 1)) = ((0,4)(0,6)/6)/(24/29) | 0,033 10.
CHAPITRE 11
1. b) 83 462, 85 884, 91 229, 99 758, 124 369, ..., 105 965, 111 873.
c) 89 637, 82 538, 82 725, 95 383, 119 038, ..., 108 610, 126 706.
d) 104 111, 93 304, 87 064, 89 093, 96 931, ..., 98 745, 116 529.
x 29
2 x 28 x 27
134 313.
2. b) 249 688, 244 608, 239 926, 258 534, 306 440, ..., 369 117, 374 054.
c) 249 365, 249 850, 239 123, 245 850, 273 219, ..., 374 762, 375 245.
x 14
4.
x 11
2 x 13 x 12 = 375 728.
4 662 ; x 12
4 041 ; x 13
3 420.
5. Chaque donne est divise par 127,2/100. On trouve 19,8 ; 21,9 ; 22,4 ;
..., 96,1 ; 100,0 ; 104,1 ; 108,6.
6. a) 86,5 $. b) 127 470 $.
c) 36,0 % ; 35,0 % ; 7,0 % ; 10,8 % ; 3,0 % ; 4,9 % ; 3,4 %.
7. a) 1,078 1 ; 1,077 4 ; 1,078 7 ; 1,077 5 ; ... ; 1,365 2 ; 1,389 5 ; 1,326 1.
b) 13,70 ; 13,84 ; 13,64 ; 11,85 ; ... ; 11,55 ; 10,14 ; 9,84.
c) En 1965 : 0,357 7 ; 4,900 2 F ; 3,994 3 DM ; 359,95 ; 1,078 1 $
can. En 1985 : 0,771 2 ; 8,905 4 F ; 2,918 9 DM ; 236,724 ;
1,365 2 $ can.
d) En 1966, le plus : dollar US, -0,065 % ; le moins : franc, -1,187 %.
En 1967, le plus : mark, 0,446 % ; le moins : livre, -1,453 %.
En 1987, le plus : mark, 14,923 % ; le moins : dollar US, -4,562 %.
e) Il a achet 4 338,12 DM et les a revendus 13 314,7 F. Investissement
de 3 ans rapportant 10,01 % par anne.
8. a) 4,0 ; 5,0 ; 5,6 ; 8,0 ; 28,8 ; ... ; 53,5 ; 56,7.
b) 23,9 ; 28,9 ; 30,8 ; 41,2 ; 132,8 ; ...; 98,4 ; 100,0.
c) En monnaie amricaine : 28,9 % ; 13,8 % ; 42,4 % ; 266,0 % ; ...;
-54,7 % ; 11,1 %.
453
En monnaie canadienne : 24,7 % ; 11,6 % ; 43,8 % ; 257,9 % ; ...;

-53,9 % ; 6,0 %.
9. a) 117,8 ; 80,6 ; 95,6 ; 177 ; 326,5 ; 325. b) x = 187,1.
c) -69,3 ; -106,5 ; -91,5 ; -10,1 ; 139,4 ; 137,9.
d) 211,3 ; 195,5 ; 186,5 ; 186,1 ; 176,6 ; 200,1 ; ...; 197,1 ; 199,3 ;
176,5 ; 193,5.
10. a) Pour la temprature : -16,25 ; -15,25 ; -9,25 ; -0,25 ; 6,75 ; 11,75 ;
14,75 ; 13,75 ; 8,75 ; 2,75 ; -4,25 ; -13,25.
Pour les prcipitations : -6,9 ; -13,9 ; -4,9 ; -4,9 ; -12,9 ; 3,1 ; 11,1 ;
13,1 ; 9,1 ; -2,9 ; 2,1 ; 8,1.
b) De 1951 1980, il y eu 8 annes bissextiles. Fvrier avait donc, en
moyenne, 28,267 jours.
2,32 ; 2,30 ; 2,39 ; 2,47 ; 2,13 ; 2,73 ; 2,90 ; 2,97 ; 2,93 ; 2,45 ; 2,70 ;
2,81.
11. a) Huile : = 22,06 ; b = 1,723 ; prdictions : 41,0 ; 49,6 ; 58,2.
Gaz : = 11,32 ; b = 1,179 ; prdictions : 24,3 ; 30,2 ; 36,1.
lectricit : = 3,10 ; b = 0,304 ; prdictions : 6,4 ; 8,0 ; 9,5.
b) Huile : = 33,62 ; b = 0,304 ; prdictions : 37,0 ; 38,5; 40,0.
Gaz : = 17,90 ; b = 0,353 ; prdictions : 21,8 ; 23,5 ; 25,3.
lectricit : = 4,99 ; b = 0,058 ; prdictions : 5,6 ; 5,9 ; 6,2.
12. a) 1991 : 28 123 ; 10 178 ; 7 424 ; 3 430 ; 3 682 ; 1 516 ; 864 ; 672.
2001 : 31 556 ; 11 532 ; 8 216 ; 3 869 ; 4 274 ; 1 746 ; 1 000 ; 768.
Sauf pour la ville de Qubec, l'accroissement est de plus en plus lent
et le modle linaire mne des prdictions trop grandes.
b) 1991 : 30 205 ; 11 164 ; 7 849 ; 3 775 ; 4 328 ; 1 723 ; 998 ; 743.
2001 : 36 253 ; 13 770 ; 9 139 ; 4 629 ; 5 790 ; 2 231 ; 1 318 ; 936.
Dans tous les cas, le taux d'accroissements est de plus en plus lent.
Le modle exponentiel, qui suppose un taux d'accroissement
constant, mne des prdictions beaucoup trop grandes.
454
13. a) Dette totale, prdictions : 500 924 ; 1 327 178 ; 3 516 305.
Dette per capita, prdictions : 19 042 ; 48 367 ; 122 860.
b) Dette totale, prdictions : 406 819 ; 802 861 ; 1 584 455.
Dette per capita, prdictions : 15 465 ; 29 260 ; 55 361.
14. Les rsidus Dt s'obtiennent en soustrayant x = 6,6 chacune des
valeurs dsaisonnalises paraissant au tableau 11.8.
Les 98 rsidus sont -0,4 ; -0,3 ; -0,3 ; 0,2 ; 0,1 ; ...; 0,3 ; 0,5 ; 0,4 ; -0,2 ;
-0,4 ; -0,4.
Posant n = 97, Xi = Di et Yi = Di+1, on trouve Xi = -0,7 - D98 = -0,3 ; Yi =
-0,7 - D1 = -0,3 ; X i2 = 54,49 - D 982 = 54,33 ; Y i 2 = 54,49 - D12 =
54,33 ; XiYi = 48,22 ; r = 0,887 5 et Z = 18,77. Les rsidus ne sont pas
un bruit blanc.
15. Chacune des 38 donnes est remplace par son logarithme.
= 2,930 8 ; b = 0,049 018. Les rsidus sont
0,247
0,300
0,272
0,216
0,174
0,125
0,090
0,072
0,049
0,013
- 0,023
-0,063
-0,102
-0,133
-0,164
-0,189
-0,203
-0,216
-0,225
-0,230
-0,247
-0,267
-0,270
-0,244
-0,0,190
-0,136
-0,113
-0,085
-0,050
-0,011
0,037
0,106
0,159
0,166
0,160
0,150
0,141
0,135
0,126
0,125
0,123
0,128
0,095
0,063
0,017
-0,011
-0,044
-0,077
Di = 0 ; D i2 = 1,197 3 ; DiDi+1= 1,138 6. r = 0,980 ; Z = 33,07. Les

rsidus ne sont pas un bruit blanc. Une tendance exponentielle implique
un taux d'accroissement constant. Les rsidus sont systmatiquement
59 positifs jusquen 1959 ; puis systmatiquement ngatifs jusquen
1979 ; puis positifs encore jusquen 1994 ; et enfin ngatifs nouveau
durant les dernires annes. Il est donc vident que le taux
daccroissement a chang plusieurs fois au cours de la priode
considre.
16. Les rsidus sont 24,2 ; 8,4 ; -0,6 ; -1,0 ; -10,5 ; ...; 12,2 ; -10,6 ; 6,4.
Di = 0 ; D i2 = 4 172,2 ; DiDi+l = -1 088,2 ; n = 26.
455
r = -0,285 2 ; Z = - 1,46. Il n'y a pas de corrlation significative entre les

rsidus conscutifs. Ils semblent former un bruit blanc.
17. a) Caf : 71,1 ; 60,2 ; 65,8 ; 76,4 ; ...; 67,9 ; 84,9 ; 51,6.
Th : 104,0 ; 96,2 ; 93,2 ; 88,1 ; ...; 68,2 ; 65,1 ; 55,5.
Sucre : 53,1 ; 53,7 ; 55,9 ; 63,6 ; ...; 51,9 ; 52,5 ; 52,7.
Argent : 18,3 ; 15,3 ; 16,2 ; 23,0 ; ...; 22,8 ; 20,0 ; 24,7.
Cuivre : 137,1 ; 100,7 ; 96,5 ; 150,8 ; ...; 49,7 ; 47,1 ; 81,4.
b) Caf : le plus cher en 1977 (206,6) ; le moins cher en 1987 (51,6).
Th : 1977 (164,0) ; 1987 (55,5).
Sucre : 1974 (164,1) ; 1977 (49,7).
Argent : 1980 (100,0) ; 1971 (15,3).
Cuivre : 1974 (157,2) ; 1986 (47,1).
c) Caf : 1976 (+85,2 %) ; 1987 (-39,2 %)
Th : 1977 (+64,2 %) ; 1985 (-44,6 %).
Sucre : 1974 (+158,0 %) ; 1976 (-44,0 %).
Argent : 1979 (+84,8 %) ; 1981 (-53,7 %).
Cuivre : 1987 (+72,8 %) ; 1975 (-44,9 %).
18. a) Transformation logarithmique. = 6,978 4 ; b
0,027 02.
Rsidus : 0,124 ; 0,651 ; -0,607 ; -0,141 ; 0,036 ; 0,033 ; -0,231 ;

0,337 ; -0,236 ; 0,138 ; -0,528 ; 0,061 ; -0,028 ; 0,354 ; -0,266 ;
0,125 ; 0,175 ; 0,401 ; -0,471 ; 0,073.
b) Priode k = 4. Les effets de phase sont 0,014 ; 0,315 ; -0,421 ; 0,091.
Les rsidus dsaisonnaliss sont 0,110 ; 0,336 ; -0,187 ; -0,232 ;
0,022 ; -0,283 ; 0,189 ; 0,246 ; -0,250 ; -0,178 ; -0,107 ; -0,030 ;
-0,042 ; 0,039 ; 0,155 ; 0,034 ; 0,161 ; 0,086 ; -0,050 ; -0,018.
Di = 0 ; D i2 = 0,561 25 ; DiDi+1, = 0,0314 9. r = 0,057 0 ;
Z = 0,235 2. Les rsidus dsaisonnaliss semblent former un bruit
blanc.
c) Le logarithme de la prdiction pour le temps t0 est + bt 0 + x j o x j
est l'effet de phase correspondant t0.
456
Pour l'anne 6, on prend t0 = 21, 22, 23 et 24. Les prdictions sont :

1 920 ; 2 666 ; 1 312 et 2 248.
Pour l'anne 7, on prend t0 = 25, 26, 27 et 28. Les prdictions sont :
2 139 ; 2 970 ; 1 462 et 2 504.
A
Ajustement, 15
Allocation, 328
optimale, 329, 334
proportionnelle, 329,
334
Approximation
de la loi binomiale par la
loi de
Poisson, 200
normale, 233
B
Biais, 254
Binme de Newton, 183
Binomiale, loi, 185
Bruit blanc, 376
C
Caractres, 2
Causalit, 85
Cause et effet, 83
Centiles, 41
Charnires, 55
Chronologique, srie, 349
Classe modale, 48
Coefficient de corrlation,
118, 124
Combinaisons, 183
Complment, 146
Conditions de validit, 123
Confiance
intervalle de, 256, 261
niveau de, 256
Correction pour la continuit,
234
facteur de, 320
Corrlation, 118
coefficient de, 118, 124
ngative, 119
positive, 119
INDEX
Cote Z, 60
D
Dciles, 41
Degrs de libert, 18, 265
Densit, fonction de, 217
Dpendance, 82
et causalit, 85
Dsaisonnalisation, 367
Diagramme btons, 9
Diffrence, 146
Dispersion, 38, 42
Distance, 113
Distribution, 4-9
conditionnnelle, 81, 88
conjointe, 79
d'une moyenne, 236
marginale, 80
moyenne d'une, 51
variance d'une, 52
Donnes apparies
moyennes, 291
proportions, 282
Droite
de rgression, 115
des moindres carrs,
111, 115, 124
E
cart interquartile, 47
cart-type, 43
d'une variable alatoire,
166
chantillon, 14, 253
espace, 144
chantillonnage
alatoire simple, 317
d'une population finie,
318-23
en grappes, 337
stratifi, 323
systmatique, 335
taux d', 320
Effectif, 6
observ, 17
thorique, 17, 19, 89
total, 6
Effets de phase, 368
quation linaire, 111
Espace chantillon, 144
Esprance mathmatique,
165
Estimateur, 253, 277
sans biais, 254
Estimation
de la variance, 263
d'une moyenne, 262,
319, 323
d'une proportion, 257,
331
d'un paramtre T
quelconque, 266
d'un total, 323
par intervalle de
confiance, 255
ponctuelle, 254
vnement, 145
certain, 146
dpendant,158
impossible, 146
incompatible, 154
indpendant,155
Exponentielle
lissage, 355, 358
loi, 223
F
Facteur de correction, 320
Factorielle, 182-3
Fonction de
densit, 217
458
Fonction de
masse, 163
Fraction d'chantillonnage,
320
Frquence(s), 6
observe, 88
polygone des, 12
G
Gomtrique, loi, 197
Graphiques, reprsentations,
9-14
Grappes, 337
Groupement des valeurs, 7
H
Histogramme, 9-10
Hypergomtrique, loi, 194
Hypothse,
d'indpendance, 122
nulle, 16-22
test d', 19, 284-86
I
Indpendance, 83-85, 121
hypothse d', 122
test d', 121
Indices, 362
Inertie, 357
Inflation, taux d', 364
Interpolation, 49
Interquartile, cart, 47
Intersection, 146
Intervalle de confiance, 256,
261
estimation par, 255
rayon d'un, 260
K
Khi-deux, 17
L
Laplace-Gauss, loi de, 225
Libert, degrs de, 18, 265
Limite central, thorme, 231
Linaire
quation, 111
rgression, 370
transformation, 58, 230
Lissage, 350
exponentiel, 355, 358
Logarithmique,
transformation, 373
Loi
binomiale, 185
de Laplace-Gauss, 225
de Poisson, 199
de Student, 264, 284
exponentielle, 223
gomtrique, 197
hypergomtrique, 194
normale, 225
uniforme, 222
M
Masse, fonction de, 163
Mdiane, 41, 49
Mode, 39, 48
Modle, 145
uniforme, 151
Modlisation, 145
Moindres carrs, droite des,
111, 115, 124
Moustaches, 54, 57
Moyenne, 38, 51-52
ajuste, 63
distribution d'une, 236
d'une distribution, 51
estimation d'une, 262,
319, 323
mobile, 351
pondre, 62
test d'hypothse sur une,
284
N
Newton, binme de, 183
Niveau de confiance, 256
Nombres indices, 362
Normale, loi, 225
Nuage de points, 111
O
Optimale, allocation, 329,
334
P
Permutations, 183
Phase, 368
Point critique, 18
Poisson, loi de, 199
Polygone des frquences, 12
Pondration, 63, 64
Population, 2
finie, 318-23
Prdiction, 358
Probabilit, 150
conditionnelle, 159
Proportion
estimation d'une, 257,
331
test d'hypothse sur une,
278
Proportionnelle, allocation,
329, 334
Q
Quantiles, 41, 49
Quartiles, 41
Index
R
Rayon d'un intervalle de
confiance, 260
Rgression
droite de, 115
linaire, 370
Reprsentations graphiques,
9-14
Rsidus, 376
Rsultat, 150
Runion, 146
Risque d'erreur, 124, 277
S
Srie chronologique, 349
dsaisonnalise, 367
Strates, 323
recenses, 331
Student, loi de, 264, 284
T
Taux
d'chantillonnage, 320
d'inflation, 364
Tchebychev, thorme de, 61
Tendance
centrale, 38
gnrale, 370
Test
d'ajustement, 15
d'hypothse, 19, 284-85
rgion d'acceptation,
277
risque d'erreur, 277
sur une moyenne,
284
sur une proportion,
278
d'indpendance, 121
sur l'galit de deux
moyennes, 286
variances gales,
288
sur l'galit de deux
proportions, 280
Test
sur un paramtre T
quelconque, 293
Thorme
limite central, 231
de Tchebychev, 61
Total, estimation d'un, 323
Transformation
linaire, 58, 230
logarithmique, 373
U
Uniforme
loi, 222
modle, 151
Units
primaires, 337
secondaires, 337
statistiques, 2
V
Valeurs, 2
groupement des, 7
Validit, conditions de, 123
Variable, 2
alatoire, 163, 165, 168
cart-type d'une, 166
variance d'une, 166
centre rduite, 59
continue, 4, 7
dpendante, 82-83, 117
discrte, 4
explicative, 117
explique, 117
indpendante, 83, 117,
168
qualitative, 3
quantitative, 3
Variance, 43, 45, 52-54
d'une distribution, 52
d'une variable alatoire,
166
estimation de la, 263
459

Introduction À La Statistique Appliquée

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Introduction À La Statistique Appliquée

Transféré par

Droits d'auteur :

Formats disponibles

ALALOUF LABELLE MNARD

Loze-Dion diteur inc.

Tous droits rservs. On ne peut reproduire, enregistrer, ni diffuser aucune partie

TABLE DES MATIRES

Mesures de tendance centrale et de dispersion

Distributions deux variables qualitatives

Droite des moindres carrs et corrlation

Variables alatoires et probabilits

Quelques lois discrtes

Quelques lois continues

Table 1 : Coefficients du binme de Newton

Table 2 : Points critiques pour F2

Introduction la statistique applique

l'ensemble des moustiques des forts qubcoises, en juin 1990.

Revenons l'exemple 1 a), o l'on tudie l'ensemble de tous les habitants du

Dans la mme population qu' l'exemple 2, on peut s'intresser diverses

Introduction la statistique applique

Enqute sur les mnages du quartier X

Donnes brutes sur les mnages du quartier X

Introduction la statistique applique

Considrons la premire, nombre de personnes . L'information sur cette

Distribution du nombre de personnes dans 770 mnages

Ce tableau est un exemple d'une distribution. Une distribution numre les

Frquences Dans une distribution, l'effectif est parfois remplac par la

Distribution du nombre de personnes dans 770 mnages

Introduction la statistique applique

ge des hommes canadiens de moins de 70 ans - 1986

Effectif (en milliers)

Distribution du poids la naissance des bbs qubcois - 1983

0,5 d X < 1,0

1,0 d X < 1,5

1,5 d X < 2,0

2,0 d X < 2,5

2,5 d X < 3,0

3,0 d X < 3,5

3,5 d X < 4,0

4,0 d X < 4,5

4,5 d X < 5,0

5,0 d X < 5,5

Le diagramme btons Le diagramme btons s'applique bien aux variables

Introduction la statistique applique

L'histogramme convient bien aux variables dont les valeurs sont

Lorsqu'on construit un histogramme dont les classes sont d'tendues

Rpartition des dpenses totales des administrations publiques du Canada - 1986

SOURCE : Un portrait du Canada, 1988

Distribution du poids la naissance des bbs qubcois - 1983

Poids (en kg) la naissance

Introduction la statistique applique

Il va de soi que lorsqu'un histogramme contient des classes d'tendues

SOURCE : Tableau 1.5

Le polygone des frquences Le polygone des frquences est une alternative

Afin de montrer la diversit des reprsentations graphiques d'une

Distribution du poids la naissance des garons et des filles du Qubec - 1983

0,5 d X < 1,0

SOURCE : Bureau de la statistique du Qubec, 1984

Distribution du poids la naissance des garons et des filles du Qubec - 1983

SOURCE : Tableau 1.7

Introduction la statistique applique

Distribution de la population mondiale selon les continents

CHANTILLONS ET TEST D'AJUSTEMENT

Comme on le verra, cette question n'admet pas de rponse du type oui ou

Il y a en effet plus de naissances la pleine lune que durant les autres

Introduction la statistique applique