Vous êtes sur la page 1sur 468

ALALOUF LABELLE MNARD

Introduction la

statistique
applique

Loze-Dion diteur

Loze-Dion diteur inc.


95, Saint-Sylvestre
Longueuil (Qubec) J4H 2W1
Tlphone :
Tlcopieur :

(450) 679-1955
(450) 679-6339

www.lozedion.com
lozedion@lozedion.com

Tous droits rservs. On ne peut reproduire, enregistrer, ni diffuser aucune partie


du prsent ouvrage sous quelque forme ou par quelque procd que ce soit sans
avoir une autorisation crite de lditeur.
ISBN 978- 2-92356533-0

PRFACE
Cette dition a prserv ses qualits pdagogiques tout en amliorant sa
prsentation matrielle. Nous y retrouverons les points forts et les
caractristiques qui en ont assur le succs au cours des nombreuses
annes.
On retrouvera une approche base sur l'tude et l'analyse de situations
concrtes dont le fil conducteur demeure l'ide de test d'hypothse. En
introduisant le test d'hypothse ds le dbut du livre par un premier
contact avec le khi-deux, nous vitons le pige de le relguer la fin du
parcours didactique. Omniprsente aussi, du moins en filigrane, la notion
de modlisation, l'me mme de toute application des mathmatiques, et
particulirement de la statistique.
Rappelons enfin que ce manuel est rsolument orient vers l'apprentissage
de la statistique. La mise en vidence des mcanismes du raisonnement
statistique est privilgie, et ne sont abords que les sujets et les
dveloppements mathmatiques ncessaires.
Nous avons cru utile de proposer ou de rendre possibles certains choix
de cheminements et donc d'inclure certains lments intressants pour les
applications et dont on peut donner un traitement lmentaire. Ainsi, on
trouvera, en fin de manuel, un chapitre consacr aux techniques de
sondages et un autre aux sries chronologiques.
Ce manuel permettra donc aux tudiantes et tudiants tant de niveau
collgial qu'universitaire de dcouvrir l'univers fascinant de la statistique.
Et, travers les trs nombreux exercices, ils se familiariseront avec les
mthodes et les applications innombrables de cette discipline.
Remerciements Michel Ads, Grard Leduc et Glenn Shorrock pour la
premire et la deuxime dition, et Monsieur Franois Goulet pour sa
lecture de l'dition prcdente.
Note Nous avons marqu d'un astrisque certains exercices demandant un
dveloppement mathmatique un peu plus avanc pour celles et ceux
dsirant pousser leurs limites.

TABLE DES MATIRES


Prface
1

Distributions
1.1 Population et variables
1.2 Distributions
1.3 Reprsentations graphiques
1.4 chantillons et test d'ajustement

1
2
4
9
14

Mesures de tendance centrale et de dispersion


2.1 Mesures de tendance centrale
2.2 Mesures de dispersion
2.3 Cas d'une distribution
2.4 Transformation linaire
2.5 Variable centre rduite ou cote Z
2.6 Moyennes pondres et moyennes ajustes

37
38
42
48
58
59
62

Distributions deux variables qualitatives


3.1 Distribution conjointe
3.2 Distribution marginale
3.3 Distribution conditionnelle
3.4 Indpendance
3.5 Dpendance et causalit
3.6 Un test d'indpendance

78
79
80
81
83
85
86

Droite des moindres carrs et corrlation


4.1 Droite des moindres carrs
4.2 Corrlation
4.3 Un test d'indpendance

110
111
118
121

Variables alatoires et probabilits


5.1 Espace chantillon et vnement
5.2 Probabilits
5.3 Probabilits conditionnelles
5.4 Variables alatoires
5.5 Esprance et variance

143
144
150
157
163
164

Quelques lois discrtes


6.1 Factorielle et combinaisons
6.2 Loi binomiale
6.3 Loi hypergomtrique
6.4 Loi gomtrique
6.5 Loi de Poisson

181
182
185
194
197
199

Quelques lois continues


7.1 Variables continues et fonction de densit
7.2 Loi uniforme
7.3 Loi exponentielle
7.4 Loi normale (ou loi de Laplace-Gauss)
7.5 Thorme limite central
8 Estimation
8.1 Estimation ponctuelle
8.2 Estimation par intervalle de confiance
8.3 Estimation d'une proportion
8.4 Estimation d'une moyenne
8.5 Estimation d'un paramtre T quelconque
9 Tests d'hypothses
9.1 Test d'hypothse sur une proportion
9.2 Test sur l'galit de deux proportions
9.3 Test d'hypothse sur une moyenne
9.4 Test sur l'galit de deux moyennes
9.5 Test d'hypothse sur un paramtre T quelconque
10 Techniques de sondages
10.1 chantillonnage d'une population finie
10.2 chantillonnage stratifi estimation d'une moyenne
10.3 Allocation des observations
10.4 Estimation d'une proportion
10.5 chantillonnage systmatique
10.6 chantillonnage en grappes
11 Sries chronologiques
11.1 Techniques de lissage
11.2 Nombres indices
11.3 Dsaisonnalisation
11.4 Analyse de la tendance gnrale
11.5 Rsidus et bruit blanc
Appendices
Liste des rfrences
La notation de sommation
n

216
217
222
223
225
231
252
253
255
257
262
266
275
278
280
284
286
293
316
318
323
328
331
335
337
348
350
361
367
370
376
391
392
394

Table 1 : Coefficients du binme de Newton


x

397

Table 2 : Points critiques pour F2


Table 3 : Loi normale N(0,1)
Table 4 : Loi de Student tQ
Rponses aux exercices

397
398
399
400

Distributions
1.1
1.2

1.3

1.4

Population et variables
x Variables
Distributions
x Frquences
x Groupement des valeurs
x Classes d'tendues ingales
x Variables continues
Reprsentations graphiques
x Le diagramme btons
x L'histogramme
x Le polygone des frquences
chantillons et test d'ajustement
x Introduction
x nonc formel du problme et procdure de rsolution
x Justification de la procdure
RSUM
EXERCICES

Introduction la statistique applique

1.1

POPULATION ET VARIABLES
L'objectif principal de la statistique est de fournir de l'information
quantitative sur un ensemble circonscrit et bien dtermin d'tres ou
d'objets appels units statistiques. L'ensemble de ces units statistiques est
appel population.

Exemple 1

Chacun des ensembles suivants peut tre considr comme une population,
dont l'tude intressera, selon le cas, divers utilisateurs de la statistique :
a) l'ensemble de tous les habitants du Qubec ;
b) l'ensemble de tous les mnages de la ville de Laval ;
c) l'ensemble des entreprises industrielles des Cantons de l'Est, qui
emploient moins de cent personnes ;
d) l'ensemble de tous les saumons qui sont venus frayer dans les eaux du
Qubec en 1989 ;
e) l'ensemble des cotes la fermeture quotidienne de la bourse de Toronto,
pour les valeurs minires, en avril et mai 1990 ;
f)

l'ensemble des moustiques des forts qubcoises, en juin 1990.

Une population peut tre finie, si elle comprend un nombre fini d'units, ou
infinie si elle en comprend un nombre infini. Dans l'exemple 1 ci-dessus, la
population f) peut tre considre comme infinie, mme si, en ralit, elle est
srement finie.

Variables Comme on voit dans les divers cas prsents l'exemple 1, une
tude statistique doit ncessairement se limiter certains aspects, ou
caractres, des membres de la population, qu'on appelle gnralement
variables. Ds qu'une variable d'une population est choisie, chaque
membre de cette population correspond une valeur de la variable en
question.

1 Distributions

Exemple 2

Revenons l'exemple 1 a), o l'on tudie l'ensemble de tous les habitants du


Qubec, et choisissons d'y considrer le caractre langue maternelle .
Alors
a) une unit statistique est un habitant du Qubec ;
b) la population est l'ensemble de ces habitants ;
c) la variable est la langue maternelle ;
d) les valeurs possibles de la variable sont franais , anglais , italien ,
grec , etc.
i

Exemple 3

Dans la mme population qu' l'exemple 2, on peut s'intresser diverses


autres variables. En voici trois :
a) la variable revenu brut en dollars pour 1999 aura comme valeurs
possibles des nombres qui vont de zro quelques millions ;
b) la variable nombre de livres lus durant les douze derniers mois aura
comme valeurs possibles des nombres de 0 plusieurs dizaines ;
c) la variable la boisson prfre aura comme valeurs possibles : lait ,
th , caf , eau , bire , vin , etc.
i
Aussi bien pour des motifs pdagogiques que pour des fins purement
techniques, nous distinguons diffrentes sortes de variables, telles
qu'indiques sur le schma suivant.
qualitatives
variables

discrtes
quantitatives
continues

Une variable est dite qualitative ou quantitative selon que ses valeurs
reprsentent des qualits ou des quantits. La variable langue maternelle
est qualitative, tandis que les variables taille du mnage et revenu
annuel brut sont quantitatives. Cette distinction n'est pas toujours absolue
et parfois se rfre non pas la nature d'une variable mais plutt la faon
dont elle est traite. Le revenu d'une entreprise est une variable quantitative,
mais si on se contente de le classer comme nul , faible , moyen et
lev , alors on en fait une variable qualitative.

Introduction la statistique applique

Nous ferons une deuxime distinction, celle-ci entre deux sortes de variables
quantitatives : les variables discrtes et les variables continues. Une
variable discrte est une variable qui ne peut prendre que des valeurs
isoles. La variable nombre d'enfants dans une famille est une variable
discrte, car elle ne peut prendre comme valeurs que les entiers 0, 1, 2, ... ;
aucune valeur entre ces entiers n'est possible. La valeur pointure des
souliers est, elle aussi, une variable discrte, mme si les demi-pointures
existent. Une pointure de 6 1/2 existe, mais il n'y a pas de pointure entre
6 1/2 et 7 ou entre 7 et 7 1/2.
Contrairement aux variables discrtes, les variables continues peuvent
thoriquement prendre comme valeurs tous les nombres compris dans un
certain intervalle. La taille d'une personne, par exemple, peut tre de 165 cm
ou de 166 cm, mais elle peut galement tre de 165,5 cm ou de 165,487 3 cm.
Cette notion est videmment thorique puisque les instruments de mesure
usuels ne nous permettent pas de distinguer une personne de 165,487 3 cm
d'une personne de 165,487 4 cm. En pratique, on mesure les tailles en
arrondissant l'entier le plus proche et les donnes prennent la mme allure
que celles qu'on obtiendrait d'une variable discrte. Nanmoins, les variables
continues sont en gnral traites diffremment des variables discrtes du fait
que leurs valeurs possibles, ralises ou pas, sont trs nombreuses. De plus,
la signification des nombres dans le cas continu est diffrente : lorsqu'on
inscrit 165 cm pour la taille de quelqu'un, il est entendu que sa vraie taille
n'est pas 165,000 0 cm mais qu'elle se situe quelque part entre 164,5 cm et
165,5 cm. Les consquences pratiques de la distinction entre une variable
continue et une variable discrte apparatront dans les chapitres suivants.

1.2

DISTRIBUTIONS
Les donnes brutes, dans la forme o elles se prsentent la suite d'une
enqute, sont en gnral impossibles assimiler. Aussi, la premire tape
d'une analyse de ces donnes consiste les rassembler, les rsumer et
les prsenter sous une forme comprhensible, de faon avoir une premire
vue d'ensemble de l'information qu'elles contiennent.
Supposons, par exemple, que pour valuer l'opportunit de construire un
petit centre commercial dans un certain quartier, on procde une enqute
auprs des 770 mnages du quartier. Un interviewer se prsente chacun
des mnages avec un questionnaire contenant des questions comme :
Combien y a-t-il de personnes dans le mnage ? Combien de celles-ci sont

1 Distributions

des adultes ? Combien ont un emploi ? Quel est votre revenu familial ?
Avez-vous une automobile ? O faites-vous vos emplettes habituellement ?
Chacune de ces questions correspond une variable. Le rsultat immdiat
de cette enqute est une pile de 770 fiches. Une version simplifie d'une de
ces fiches ressemblerait l'illustration de la figure 1.1.
En transcrivant l'information contenue dans ces 770 fiches, on peut construire un immense tableau o chaque ligne reprsente un mnage et
chaque colonne une variable. Ce tableau aurait sans doute l'allure du
tableau 1.1.
FIGURE 1.1

Enqute sur les mnages du quartier X


MNAGE No ________
1.
2.
3.
4.

nombre de personnes
nombre d'adultes
nombre de personnes ayant un emploi
revenu familial ($) :
F 0 moins de 25 000
F 25 000 ou plus moins de 45 000

________
________
________

F 45 000 ou plus
TABLEAU 1.1

Donnes brutes sur les mnages du quartier X


Mnage
no

Question
1

770

Le tableau 1.1 prsente donc, pour la population forme des 770 mnages
d'un certain quartier, l'information complte sur quatre variables, les trois
premires tant quantitatives discrtes, et la quatrime, qualitative. Plus
loin, nous verrons comment examiner simultanment plusieurs variables,
mais pour commencer, nous les prenons une la fois.

Introduction la statistique applique

Considrons la premire, nombre de personnes . L'information sur cette


variable est la deuxime colonne du tableau, dans laquelle on trouvera,
ple-mle, des 1 , des 2 , des 3 , etc. Mais l'information contenue dans
ces 770 chiffres peut tre rsume dans un tableau comme le tableau 1.2.
TABLEAU 1.2

Distribution du nombre de personnes dans 770 mnages


Nombre de
1

6+

TOTAL

125

200

295

100

50

770

personnes
Effectif

Ce tableau est un exemple d'une distribution. Une distribution numre les


valeurs distinctes de la variable (ici la variable est le nombre de personnes et
ses valeurs sont 1, 2, 3, 4, et 5), et fait correspondre chaque valeur de la
variable l'effectif, c'est--dire le nombre d'lments de la population pour
lesquels la variable prend la valeur donne. Ainsi, il y a 125 mnages d'une
personne, 200 mnages de 2 personnes, 295 mnages de 3 personnes, 100
mnages de 4 personnes et 50 mnages de 5 personnes.
L'effectif total est la somme des effectifs, soit la taille de la population.

Frquences Dans une distribution, l'effectif est parfois remplac par la


frquence, c'est--dire le rapport de l'effectif l'effectif total. Le tableau 1.3
donne la mme distribution que le tableau 1.2, exprime en frquences. Une
frquence, lorsqu'elle est multiplie par 100, devient un pourcentage. Elle a
l'avantage de se lire plus aisment lorsque les effectifs sont grands. De plus,
on ne peut comparer deux distributions avec des effectifs totaux diffrents
que si elles sont exprimes en frquences.
TABLEAU 1.3

Distribution du nombre de personnes dans 770 mnages


Nombre de
personnes

TOTAL

Frquence

0,162

0,260

0,383

0,130

0,065

Groupement des valeurs Si une variable est continue, ou si ses valeurs sont
trop nombreuses pour tre numres au complet, il faut recourir un
groupement des valeurs. Le tableau 1.4 prsente un exemple o la
population est l'ensemble de tous les enseignants rguliers dans les cgeps
du Qubec en 1986-1987, et o la variable considre est l'ge.

1 Distributions

Classes d'tendues ingales Autant que possible, lorsqu'on groupe les valeurs
d'une variable, on les groupe en classes d'tendues gales. Pour des
raisons d'ordre pratique, on ne le fait pas toujours : parfois les donnes nous
arrivent dj groupes en classes d'tendues ingales, ou encore il peut
tre plus naturel d'utiliser des classes larges pour les grandes valeurs et des
classes troites pour les petites valeurs.
Le tableau 1.5 prsente une distribution o la population est l'ensemble des
hommes canadiens de moins de 70 ans et o la variable est l'ge. Le
groupement des donnes est celui de Statistique Canada. L'tendue des cinq
premires classes est 5, celle des 4 suivantes est 10, et celle de la dernire
est 5.

Variables continues Dans le cas des variables continues, les classes sont
contigus et il faut prendre soin de bien identifier les limites des classes pour
viter toute quivoque quant l'appartenance des points qui limitent les
classes. L'une des conventions possibles est illustre dans le tableau 1.6. La
variable est dnote par X et les classes sont dfinies par des ingalits qui
montrent clairement quelle classe chaque valeur appartient : il est clair,
par exemple, que la valeur 2,0 appartient la quatrime classe et non la
troisime. Remarquons que dans le tableau 1.6 la somme des frquences est
0,999 au lieu de 1,000. Il n'y a l rien d'alarmant, les arrondis dcimaux en
sont responsables.

Introduction la statistique applique

TABLEAU 1.4

Distribution de l'ge des enseignants rguliers dans les cgeps au Qubec - 1986-1987
ge

Effectif

Frquence

moins de 20 ans

0,000

20-24

23

0,002

25-29

300

0,032

30-34

1 113

0,118

35-39

2 507

0,266

40-44

2 620

0,278

45-49

1 492

0,158

50-54

693

0,074

55-59

468

0,050

60-64

171

0,018

65+

36

0,004

9 424

1,000

TOTAL

SOURCE : Bulletin Statistique (vol. 13, no 4), DGEC, ministre de l'Enseignement suprieur et de la Science du Qubec (1988)

TABLEAU 1.5

ge des hommes canadiens de moins de 70 ans - 1986


ge
0-4

Effectif (en milliers)


927,8

Frquence
0,079

5-9

920,1

0,078

10-14

916,8

0,078

15-19

983,3

0,084

20-24

1 131,5

0,096

25-34

2 248,8

0,191

35-44

1 822,0

0,155

45-54

1 276,2

0,108

55-64

1 124,1

0,096

414,5

0,035

11 765,1

1,000

65-69
TOTAL
SOURCE : Annuaire du Canada, 1988

1 Distributions
TABLEAU 1.6

Distribution du poids la naissance des bbs qubcois - 1983


Poids (en kg) (X)

Effectif

Frquence

0,5 d X < 1,0

286

0,003

1,0 d X < 1,5

436

0,005

1,5 d X < 2,0

1 070

0,012

2,0 d X < 2,5

3 853

0,044

2,5 d X < 3,0

15 945

0,183

3,0 d X < 3,5

34 163

0,392

3,5 d X < 4,0

24 187

0,278

4,0 d X < 4,5

6 301

0,072

4,5 d X < 5,0

784

0,009

5,0 d X < 5,5

102

0,001

87 127

0,999

TOTAL
SOURCE : Bureau de la statistique du Qubec, 1984

1.3

REPRSENTATIONS GRAPHIQUES
Presque toute distribution peut avantageusement tre prsente sous la
forme d'un graphique. Un graphique nous permet de saisir en un coup d'oeil
les caractristiques d'une distribution et d'observer d'une manire immdiate
et visuelle les diffrences qu'il peut y avoir entre deux populations. Les
graphiques employs pour prsenter des donnes abondent dans les revues
populaires et sont d'une diversit illimite. Il existe cependant quelques
formes classiques, et nous en dcrivons trois : le diagramme btons,
l'histogramme et le polygone des frquences.

Le diagramme btons Le diagramme btons s'applique bien aux variables


qualitatives ou discrtes. La figure 1.2 est un diagramme btons qui
prsente la distribution du tableau 1.3. La figure 1.3 prsente la distribution
d'une variable qualitative. Pour accommoder les textes mettre en marge, il
est cette fois plus naturel de placer les btons l'horizontale plutt qu' la
verticale.
L'histogramme L'histogramme est un graphique form de rectangles
adjacents dont les bases sont constitues des classes de regroupement et
dont les surfaces sont proportionnelles aux effectifs respectifs.

10

Introduction la statistique applique

L'histogramme convient bien aux variables dont les valeurs sont


nombreuses, en particulier aux variables continues. La figure 1.4 est
l'histogramme qui reprsente la distribution du tableau 1.6.
Distribution du nombre de personnes dans 770 mnages
0,50
0,40
Frquence

FIGURE 1.2

0,30
0,20
0,10
0,00
0

Nombre de personnes
SOURCE : Tableau 1.3

Lorsqu'on construit un histogramme dont les classes sont d'tendues


ingales, il faut se rappeler que c'est la surface d'un rectangle et non sa
hauteur qui reprsente l'effectif. Par consquent, lorsqu'une classe est deux
fois plus tendue qu'une autre, la hauteur du rectangle correspondant doit
tre deux fois plus petite. La figure 1.5 illustre cette procdure. La sixime
classe, par exemple, a une tendue deux fois plus grande que celle des cinq
premires classes. Son effectif de 2 248,8 est donc reprsent par un
rectangle dont la hauteur, par rapport l'chelle ayant servi la
construction des cinq premiers rectangles, est de 2 248,8 y 2 = 1 124,4.
C'est comme si l'effectif de la classe 25-35 avait t rparti en deux, une
partie pour chacune des classes 25-30 et 30-35. Pour comprendre la
diffrence entre la premire colonne du tableau 1.5 et les classes, lire
l'nonc de l'exercice 18.

1 Distributions
FIGURE 1.3

Rpartition des dpenses totales des administrations publiques du Canada - 1986


0,00

0,05

0,10

0,15

0,20

0,25

0,30

2%

Environnement

5%

Transport et communications

7%

Services gnraux
Protection

8%
12%

ducation

13%

Sant

28%

Services sociaux

29%

Autres dpenses

SOURCE : Un portrait du Canada, 1988

Distribution du poids la naissance des bbs qubcois - 1983


0,4

0,3

Frquence

FIGURE 1.4

0,2

0,1

0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

Poids (en kg) la naissance


SOURCE : Tableau 1.6

4,5

5,0

5,5

11

12

Introduction la statistique applique

Il va de soi que lorsqu'un histogramme contient des classes d'tendues


ingales, on ne peut indiquer les effectifs (ou les frquences) au moyen d'une
chelle commune place l'ordonne. L'chelle verticale, dans ce cas,
indique la densit des donnes, c'est--dire le nombre de donnes par unit
de largeur de la classe pour chaque classe.

10

15

20

25

35

45

55

414,5

1124,1

1276,2

1822,0

2248,8

1131,5

983,3

916,8

920,1

Distribution de l'ge des hommes canadiens de moins de 70 ans - 1986 (en milliers)

927,8

FIGURE 1.5

65

70

SOURCE : Tableau 1.5

Le polygone des frquences Le polygone des frquences est une alternative


l'histogramme, qui se prte particulirement bien des comparaisons de
distributions. On construit un polygone des frquences en joignant les
milieux des sommets des rectangles d'un histogramme. On referme enfin les
deux extrmits du graphique en faisant comme si deux rectangles de
hauteur zro prcdaient et suivaient immdiatement ceux de l'histogramme.
La figure 1.6 illustre comment les polygones des frquences peuvent servir
faire des comparaisons entre deux populations. Les deux populations sont
les filles et les garons ns au Qubec en 1983, et la variable dans les deux
cas est le poids la naissance. Les deux distributions sont donnes dans le
tableau 1.7. Comme ces populations ne sont pas de mme taille, leur
distribution est exprime en frquences. Ce que ces frquences nous disent,
les polygones des frquences nous le disent mieux (voir figure 1.6). On voit
immdiatement que les deux distributions concident essentiellement pour
les trs petits bbs, alors qu'ailleurs la distribution des poids des filles est
gauche de celle des poids des garons. En somme, on voit sur cette figure
1.6 qu'il y a une frquence plus leve de petits bbs parmi les filles et de
gros bbs parmi les garons, alors que pour les trs petits bbs, l'aspect
le plus souvent accidentel de leur naissance fait qu'ils se divisent galement
entre les deux sexes.

1 Distributions

13

Afin de montrer la diversit des reprsentations graphiques d'une


distribution, la figure 1.7 illustre une reprsentation dite en pointes de
tarte souvent utilise pour les variables qualitatives.
TABLEAU 1.7

Distribution du poids la naissance des garons et des filles du Qubec - 1983


Poids (en kg) (X)

Centre de classe

0,5 d X < 1,0


1,0 d X < 1,5
1,5 d X < 2,0
2,0 d X < 2,5
2,5 d X < 3,0
3,0 d X < 3,5
3,5 d X < 4,0
4,0 d X < 4,5
4,5 d X < 5,0
5,0 d X:< 5,5
TOTAL

0,75
1,25
1,75
2,25
2,75
3,25
3,75
4,25
4,75
5,25

Frquence
Garons

Filles

0,003
0,005
0,010
0,040
0,153
0,374
0,310
0,093
0,012
0,001

0,003
0,005
0,012
0,051
0,216
0,413
0,244
0,050
0,005
0,001

1,001

1,000

SOURCE : Bureau de la statistique du Qubec, 1984

Distribution du poids la naissance des garons et des filles du Qubec - 1983

0,4

Frquence

FIGURE 1.6

0,3
Garon
Filles

0,2

0,1

0
0,25 0,75 1,25 1,75 2,25 2,75 3,25 3,75 4,25 4,75 5,25
Poids (en kg) la naissance

SOURCE : Tableau 1.7

14
FIGURE 1.7

Introduction la statistique applique

Distribution de la population mondiale selon les continents


Europe
13,9%

Afrique
11,1%

Amrique du
Nord
8,2%

Asie
60,9%

Amrique du
Ocanie
Sud
0,5%
5,4%

1.4

CHANTILLONS ET TEST D'AJUSTEMENT


Introduction Dans les exemples que nous avons vus jusqu'ici, les distributions taient bases sur une numration complte des membres de la
population, c'est--dire sur un recensement. Parfois cette opration est
relativement peu onreuse, comme lorsque la population est l'ensemble des
employs d'une compagnie ou l'ensemble des succursales d'une banque. La
plupart du temps, par contre, le cot d'un recensement s'avre prohibitif. Le
recensement du Canada constitue une opration si gigantesque qu'on ne le
fait qu' tous les cinq ou dix ans.
En pratique, donc, les donnes dont on dispose pour faire une distribution
sont, la plupart du temps, les donnes d'un chantillon, c'est--dire, d'une
partie, souvent trs petite, de la population. Il surgit alors une question
fondamentale qui ne se pose pas lorsqu'on a les donnes de la population
entire. C'est de savoir jusqu' quel point il est permis d'extrapoler la
population entire les phnomnes observs dans l'chantillon. Quelle
assurance a-t-on qu'une distribution observe dans l'chantillon est bien
conforme celle de la population entire ? Cette problmatique est parfois
exprime, quelque peu navement, par la question : Est-ce que l'chantillon
est reprsentatif ? .

1 Distributions

15

Comme on le verra, cette question n'admet pas de rponse du type oui ou


non . En fait, elle n'admet pas de rponse du tout car elle est mal pose.
Elle sous-entend l'existence d'un critre qui permettrait de dclarer, une fois
pour toutes, que l'chantillon est bon, et d'affirmer que tout ce qui est vrai
de l'chantillon est vrai de la population.
Malheureusement, il n'en est pas ainsi. C'est chaque conclusion qui doit tre
valide, et non l'chantillon comme tel. La question que nous poserons sera,
non pas si l'chantillon est bon ou mauvais, mais plutt : Est-ce que telle ou
telle conclusion peut, avec peu de risque d'erreur, s'appliquer la population
entire ? La faon d'y rpondre dpend du contexte et du type de
conclusion qu'on veut tirer propos de la population, mais repose
essentiellement sur l'tude de la similitude entre la distribution de la
population et celle de l'chantillon. Nous dveloppons, dans l'exemple qui
suit, un test destin valuer cette similitude, juger mathmatiquement
de l'ajustement entre la distribution d'un chantillon et une distribution
thorique ou idale.
On entend souvent dire que les naissances sont influences par la lune. On
dit, entre autres, qu'il y a beaucoup de naissances la pleine lune. Pour
savoir ce qu'il y a de vrai dans ces affirmations, on prlve un chantillon de
360 naissances, choisies au hasard. On obtient les rsultats suivants :
Phase

Nouvelle lune

Premier quartier

Pleine lune

Dernier quartier

TOTAL

Effectif

76

88

100

96

360

0,211

0,244

0,278

0,267

1,000

Frquence

Il y a en effet plus de naissances la pleine lune que durant les autres


phases ; si ce constat semble appuyer la croyance populaire, il ne permet
toutefois pas encore d'en tirer des conclusions : ces chiffres sont sujets au
hasard et ce qui semble significatif pourrait n'tre qu'un accident. Le
problme est de dcider s'il s'agit bien d'un accident ou si, au contraire,
l'chantillon reflte un phnomne rel. Cette dcision s'avre facile dans les
cas extrmes. Nous n'aurions pas de difficult attribuer au hasard les
diffrences entre les effectifs ci-dessous :
Phase

Nouvelle lune

Premier quartier

Pleine lune

Dernier quartier

TOTAL

Effectif

89

88

92

91

360

16

Introduction la statistique applique

Nous dirions volontiers que s'il y a eu plus de naissances la pleine lune,


c'est par pur hasard. Par contre, le hasard nous semblerait insuffisant pour
expliquer les diffrences dans un tableau comme le suivant :
Phase

Nouvelle lune

Premier quartier

Pleine lune

Dernier quartier

TOTAL

Effectif

10

20

300

30

360

Dans ce cas, on n'aurait pas d'hsitation affirmer que les naissances sont
plus frquentes, plus probables, la pleine lune. Qu'un tel dsquilibre
puisse s'tre produit par pur hasard est trop invraisemblable.
Ces arguments lmentaires sont parfaitement convaincants lorsque les
tableaux se prsentent sous des formes aussi extrmes. Mais le tableau que
nous avons prsent au dbut de cet exemple est plus problmatique, et
pour en tirer des conclusions nous aurons besoin de techniques plus
raffines. Dans ce qui suit, nous commencerons par donner un nonc
formel du problme tape indispensable et nous prsenterons une
procdure de solution. Ensuite nous discuterons la logique qui justifie la
procdure. Rappelons toutefois que cette logique est essentiellement la
logique intuitive que nous venons d'exposer. Il reste quantifier ces
raisonnements pour qu'ils permettent de conclure, dans des cas moins
vidents.

nonc formel du problme et procdure de rsolution Les donnes prsentes


dans l'exemple ont t prleves pour rpondre une question dont l'nonc,
un peu vague, est les naissances dpendent-elles des phases de la lune ?
La question est un peu vague parce qu'une dpendance entre les naissances
et la lune peut prendre plusieurs formes : la lune peut avoir un effet
important ou ngligeable ; et la pleine lune peut favoriser ou dfavoriser les
naissances. Mais les naissances n'ont qu'une seule faon d'tre
indpendantes de la lune. Donc, des diffrentes hypothses en concurrence,
nous allons en privilgier une, que nous appellerons hypothse nulle et qui
s'nonce dans ce contexte par :
Hypothse nulle : les naissances ne sont pas influences par les phases de la
lune.
Nous choisissons celle-ci et pas une autre parce qu'elle est univoque et peut
s'exprimer de faon quantitative. Affirmer que la lune n'a aucun effet sur les
naissances revient dire qu'aucune phase n'est plus ou moins propice aux
naissances qu'une autre. Puisque chaque phase lunaire est pratiquement de

1 Distributions

17

mme dure, une naissance se produit dans l'une ou l'autre des quatre
phases avec la mme probabilit, soit 1/4. Et c'est prcisment comme cela
que nous pouvons maintenant exprimer l'hypothse nulle :
Hypothse nulle : les naissances se distribuent selon les phases de la lune
selon les probabilits 1/4, 1/4, 1/4 et 1/4.
Il s'ensuit que les 360 naissances devraient thoriquement se rpartir
comme suit :
Phase

Nouvelle lune

Premier quartier

Pleine lune

Dernier quartier

TOTAL

Effectif

90

90

90

90

360

Ces effectifs sont appels effectifs thoriques.


Le tableau suivant prsente les deux sries de donnes, qui rsument
numriquement le cheminement jusqu'ici.
TOTAL
Effectifs observs

76

88

100

96

360

Effectifs thoriques

90

90

90

90

360

Remarque Le total des effectifs thoriques est toujours gal celui des
effectifs observs : c'est la taille de l'chantillon.
Entre les deux sries d'effectifs, nous observons des carts, dont nous allons
calculer une mesure globale. La mesure que nous allons employer, note F2
( khi-deux ) est dfinie par la formule suivante :
X

O  T 2
T

o O reprsente les effectifs observs, T reprsente les effectifs thoriques, et


la lettre grecque (sigma majuscule) dsigne la somme de .
Pour les donnes de notre exemple, la valeur de F2 est
X

76  90 2
90

88  90 2
90

196  4  100  36
90
3, 73

100  90 2
90

96  90 2
90

18

Introduction la statistique applique

Il reste tirer une conclusion partir de la valeur de F2 trouve, c'est--dire


dduire le rejet ou non de l'hypothse nulle selon l'importance des carts
entre les deux sries d'effectifs, mesure par ce F2. Nous rejetons l'hypothse
nulle si ces carts sont trop grands. La valeur de F2 sera considre trop
grande si elle est suprieure un certain nombre, appel point critique.
Ce point critique n'est pas le mme pour tous les problmes : il dpend du
nombre de classes dans la distribution ou, plus prcisment, d'un paramtre
Q ( nu ), appel nombre de degrs de libert, qui est gal au nombre de
classes, moins 1 :

Q = (nombre de classes) - 1
Note Cette dfinition, purement mathmatique, correspond intuitivement au
fait que, pour les donnes tudies plus haut, par exemple, on pourrait
attribuer librement un effectif 3 des 4 classes ; la valeur de la quatrime
serait alors impose par le respect du total de 360.
Le tableau 1.8 donne, pour plusieurs valeurs de Q, le point critique
correspondant. Dans cet exemple, le nombre de classes est 4, donc Q = 4 1 = 3
et la table nous donne comme point critique le nombre 7,82. Puisque la valeur
de F2 obtenue, 3,73, est infrieure ce point critique, nous ne rejetons pas
l'hypothse nulle. En d'autres termes, l'cart de 3,73 entre la distribution
observe et la distribution uniforme est assez petit pour tre expliqu par le seul
hasard.
TABLEAU 1.8

Points critiques pour F2


Degrs de
libert Q

Point
critique

Degrs de
libert Q

Point
critique

Degrs de
libert Q

Point
critique

3,84

11

19,68

21

32,67

5,99

12

21,03

22

33,92

7,82

13

22,36

23

35,17

9,49

14

23,68

24

36,42

11,07

15

25,00

25

37,65

12,59

16

26,30

26

38,89

14,07

17

27,59

27

40,11

15,51

18

28,87

28

41,34

16,93

19

30,14

29

42,56

10

18,31

20

31,41

30

43,77

Avec ces points critiques, la probabilit de rejeter l'hypothse nulle, si elle est vraie, est de 5 %

1 Distributions

19

Justification de la procdure La procdure que nous venons d'employer,


appele test d'hypothse, commence par l'nonc d'une hypothse stipulant
que les vraies frquences, celles de la population d'o est issu
l'chantillon, sont une srie de frquences donnes. Ces frquences sont
exprimes en effectifs thoriques . Les effectifs thoriques sont les effectifs
auxquels on s'attend lorsque l'hypothse nulle est vraie. Les effectifs
observs ne concident pas exactement avec les effectifs thoriques, mme si
l'hypothse nulle est vraie : le hasard fait qu'en gnral l'chantillon n'est
pas une parfaite rplique de la population. Ainsi, lorsque les effectifs
observs s'cartent un peu des effectifs thoriques, nous n'allons pas
conclure que l'hypothse nulle est fausse : nous allons attribuer les carts
au hasard. Mais lorsque ces carts sont trs importants, il devient difficile de
croire que le hasard seul puisse en tre responsable.
La thorie des probabilits permet de calculer la probabilit d'avoir des
carts de tel ou tel ordre de grandeur. Elle permet de remarquer que certains
carts trs grands ne se produisent que trs rarement, c'est--dire qu'ils sont
trs peu probables. En prsence de tels carts, nous sommes ports rejeter
l'hypothse nulle.
Nous mesurons l'ensemble des carts entre les effectifs thoriques et les
effectifs observs par une mesure globale, le F2. La thorie des probabilits
permet de dire entre quelle et quelle valeurs, la valeur de F2 devrait
normalement (avec une probabilit leve) se tenir, et de dterminer des
points critiques comme ceux du tableau 1. 8.
Dans le problme que nous venons de traiter, le point critique est 7,82. Dans
un tel cas, deux situations peuvent alors se prsenter, et deux issues sont
possibles pour ce test :
a) toute valeur de F2 infrieure 7,82 est considre petite, dans le sens o
la probabilit d'avoir un tel F2 (infrieur 7,82) est grande ; dans ce cas,
on ne peut pas rejeter l'hypothse nulle. C'est le cas du problme
ci-dessus ;
b) toute valeur de F2 suprieure 7,82 est considre grande, dans le sens
o la probabilit d'avoir un tel F2 est petite ; dans ce cas, on doit rejeter
l'hypothse nulle ; ce sera le cas dans l'exemple ci-aprs (exemple 4).
Dans le tableau des points critiques, la dfinition d'une probabilit petite a
t fixe 5 %.

20

Introduction la statistique applique

Dans l'exemple prcdent, la distribution tait celle d'une population idale ,


situation qui se rencontre souvent dans l'tude des rsultats d'un jeu de
hasard ou d'une exprience scientifique indfiniment rptable. L'hypothse
nulle, dans ce cas, portait sur les probabilits respectives de chaque classe.
Dans l'exemple que nous allons maintenant tudier, la population est relle et
ce sont les frquences relatives des diverses classes qui vont nous intresser.
Exemple 4

Supposons qu'on s'intresse la distribution des revenus des familles


immigrantes au Canada, afin de la comparer celle de l'ensemble des
familles canadiennes. Cette dernire nous est connue ; le tableau 1.9 la
donne pour 1985.
Pour la population des immigrants, les donnes ne sont pas connues. On
prlve donc, au hasard, un chantillon de 500 familles, et on dtermine la
distribution comme s'il s'agissait d'une population. On obtient les donnes du
tableau 1.10, fictives mais vraisemblables. Nous les exprimons aussi en
frquences pour les rendre comparables plus facilement celles du tableau 1.9.
L'examen de ces deux tableaux nous amne constater que les familles
immigrantes sont moins riches : elles ont une plus grande frquence de
revenus faibles et une plus petite de revenus levs. Mais cette affirmation,
vraie des 500 familles de l'chantillon, n'est peut-tre pas vraie de l'ensemble
de toutes les familles immigrantes au Canada. Il n'est pas impossible que
l'ensemble des familles immigrantes ait un revenu distribu de la mme
faon que celui de l'ensemble des familles canadiennes. Les diffrences
observes dans l'chantillon seraient alors le fruit du hasard. Pour rpondre
la question, nous allons utiliser le mme test d'ajustement, bas sur le
calcul du F2, que dans le premier exemple. Nous commenons, comme
toujours, par noncer l'hypothse nulle que nous allons tudier.

TABLEAU 1.9

Distribution des revenus (en milliers de dollars) des familles canadiennes 1985
Revenu

0-15

15-25

25-40

40-60

60+

TOTAL

Frquence

0,137

0,175

0,271

0,256

0,161

1,000

SOURCE : Statistique Canada

TABLEAU 1. 10

Distribution des revenus (en milliers de dollars) des familles immigrantes - 1985
Revenu

0-15

15-25

25-40

40-60

60+

TOTAL

Effectif

80

92

163

110

55

500

0,160

0,184

0,326

0,220

0,110

1,000

Frquence

1 Distributions

21

Hypothse nulle : Les revenus des familles immigrantes ont la mme


distribution de frquences que ceux des familles canadiennes, soit
0,137

0,175

0,271

0,256

0,161

Effectifs thoriques : L'hypothse nulle affirme toujours l'galit de deux


distributions, exprimes en probabilits ou en frquences ; toutefois le calcul
de F2 se fait toujours sur des effectifs. Une fois l'hypothse nulle nonce,
nous devons calculer les effectifs thoriques, qui correspondent la
rpartition de l'chantillon proportionnellement aux frquences nonces par
l'hypothse nulle. Dans notre exemple, on obtient
0,137 u 500

0,175 u 500

0,271 u 500

0,256 u 500

0,161 u 500

ou encore
68,5

87,5

135,5

128

80,5

Le tableau suivant prsente les donnes ncessaires au calcul de F2


TOTAL
Effectifs observs
Effectifs thoriques

80

92

163

110

55

500

68,5

87,5

135,5

128

80,5

500

Calcul de F2
X

80  68, 5 2
68 , 5

92  87 , 5 2

!

87 , 5

55  80 , 5 2
80 , 5

1, 93  0 , 23  5 , 58  2 , 53  8 , 08
18 , 35
Nombre de degrs de libert : Il y a 5 classes dans la distribution ; le nombre
de degrs de libert est donc
Q=51=4
Le point critique correspondant est 9,49.
Conclusion : La valeur de F2 obtenue, 18,35, est suprieure au point critique
(18,35 > 9,49). Nous devons donc rejeter l'hypothse nulle et conclure que le
revenu des familles immigrantes n'est pas distribu de la mme manire que
celui des familles canadiennes. (Le hasard seul ne peut expliquer l'cart
observ entre les deux distributions.)
i

22

Introduction la statistique applique

Mise en garde Le test d'hypothse dcrit dans cette section est bas sur des
calculs approximatifs qui ne sont valables que lorsque les effectifs sont
grands. En pratique, on vite d'employer ce test si certains effectifs thoriques
sont infrieurs 5 (ou encore on regroupe des classes afin que tous les
effectifs thoriques soient au moins gaux 5).

RSUM
1. Les lments d'une population sont appels units statistiques. Une
variable fait correspondre une valeur chaque lment de la population.
Une variable est dite qualitative ou quantitative selon que ses valeurs
reprsentent des qualits ou des quantits. Une variable quantitative est
dite discrte si elle ne peut prendre que des valeurs isoles ; elle est dite
continue si elle peut, thoriquement, prendre pour valeur tout nombre
rel compris dans un intervalle.
2. Une distribution fait correspondre chaque valeur x d'une variable X un
effectif ou une frquence, c'est--dire le nombre ou la proportion des
units statistiques pour lesquelles X prend la valeur x. La somme des
effectifs est appele l'effectif total. La somme des frquences est
toujours gale 1. Lorsque les valeurs d'une variable sont trs
nombreuses, on les groupe en classes, et c'est ces classes que la
distribution fait correspondre des effectifs ou des frquences.
3. Le diagramme btons est une reprsentation graphique qui s'applique
aux variables qualitatives et aux variables quantitatives discrtes dont
les valeurs sont relativement peu nombreuses (figure 1.2). Pour les
variables dont les valeurs sont groupes les variables continues et les
variables discrtes valeurs nombreuses l'histogramme est une
reprsentation graphique approprie (figure 1.4). Dans un histogramme,
c'est la surface du rectangle et non sa hauteur qui est proportionnelle
la frquence (figure 1.5). Le polygone des frquences se construit en
joignant les milieux des cts suprieurs des rectangles d'un
histogramme (figure 1.6).
4. Pour tester une hypothse concernant la population d'o est issu
l'chantillon, on suit les tapes ci-dessous :
a) On formule une hypothse nulle, selon laquelle les frquences de la
distribution de la population sont gales certaines frquences
donnes.

1 Distributions

23

b) On dtermine les effectifs thoriques. Ce sont les effectifs qu'on


s'attend observer dans l'chantillon lorsque l'hypothse nulle est
vraie.
c) On mesure la distance entre les effectifs thoriques (T) et les
effectifs observs (O) par la quantit F2 :

F2

(O  T ) 2
T

d) On rejette l'hypothse nulle si la valeur de F2 se rvle trop grande,


c'est--dire si elle est suprieure au point critique trouv dans le
tableau 1.8, o Q, le nombre de degrs de libert, est gal au
nombre de classes dans le tableau, moins 1.
Si l'on utilise la procdure dcrite, la probabilit de rejeter l'hypothse nulle
lorsqu'elle est vraie est peu prs de 5 %. L'approximation est d'autant
meilleure que les effectifs thoriques sont grands. Il est prfrable d'viter
d'employer le test lorsque certains effectifs thoriques sont infrieurs 5.

EXERCICES
POPULATION ET
VARIABLES

1. Dites lesquelles des variables suivantes sont respectivement quantitatives


ou qualitatives :
a) La superficie des lacs du Canada.
b) Le pays d'origine des immigrants.
c) La cause du dcs, pour l'ensemble des dcs dans un hpital.
d) Les effectifs tudiants dans les universits canadiennes.
e) Le nombre de tonnes kilomtriques transportes par les diffrentes
compagnies de camions.
f)

L'intensit, en ampres, d'un courant lectrique.

g) L'tat matrimonial des employs d'une compagnie.


h) Le quotient intellectuel des tudiants d'une universit.
i)

L'anciennet des employs d'une compagnie.

j)

L'allgeance politique des lecteurs.

24

Introduction la statistique applique

Pour chacune de ces variables, donnez quelques-unes des valeurs


possibles. Dans le cas des variables quantitatives, dites si elles sont
discrtes ou continues.
DISTRIBUTIONS ET
REPRSENTATIONS
GRAPHIQUES

2. Parfois il nous est possible, en faisant appel ce que nous savons d'une
situation familire, de dcrire, a priori, la distribution approximative
d'une variable. Dans chacun des cas suivants, on dfinit une population
et une variable. Tentez de deviner l'allure de la distribution.
a) Population : l'ensemble des salaris de sexe masculin, vivant dans
des rgions urbaines du Canada. Variable : le salaire annuel.
b) Population : l'ensemble des naissances au Canada. Variable : l'ge de
la mre.
c) Population : un ensemble de 1000 Amricains et de 1000 Pygmes.
Variable : la taille.
d) Population : un ensemble de 1000 Amricains et de 1000 Franais.
Variable : la taille (Note : les Franais sont lgrement plus petits que
les Amricains).
e) Population : un ensemble de paquets de 12 oranges, forms partir
d'un grand lot d'oranges dont 5 % sont gtes. Variable : le nombre
d'oranges gtes.
f) Mmes donnes qu'en (e), sauf que le pourcentage d'oranges gtes
dans le lot est 50 %.
g) Population : 36 000 lancers d'un d. Variable : le rsultat du lancer.
h) Population : les soldats canadiens de sexe masculin. Variable : la
taille.
i) Population : les lves d'une classe. Variable : leur note un examen
difficile.
j) Population : des boulons produits par une mme machine. Variable :
leur diamtre, en millimtres.

1 Distributions

25

3. Voici le revenu net, exprim en pourcentage des ventes, de 150


compagnies multinationales :
4,9

2,4

9,8

3,8

7,7

6,0

3,3

3,6

4,7

6,9

5,2

2,6

2,9

4,8

9,0

4,3

1,6

2,6

0,8
4,1

4,8

4,4

4,5

3,6

8,2

2,4

3,3

10,3

4,4

5,3

11,6

7,7

4,6

5,6

3,7

5,2

6,4

2,4

0,6

4,6

6,9

0,1

3,5

1,0

3,1

8,2

2,9

6,7

4,5

4,4

5,3

5,7

2,3

4,6

1,4

1,8

5,9

6,5

5,1

6,8

7,8

7,6

7,7

10,8

4,8

2,4

2,0

3,2

4,1

4,5

3,5

3,9

7,9

2,0

5,5

4,8

5,9

1,3

3,9

7,9

0,8

7,4

9,9

3,4

4,4

3,2

11,1

3,6

5,6

2,0

8,2

4,9

4,3

3,3

3,0

5,0

0,3

7,7

4,9

6,2

3,2

4,7

7,9

5,5

8,8

5,7

2,3

3,5

1,5

10,9

4,1

4,2

4,7

0,7

3,5

2,8

4,4

5,9

6,0

6,8

8,1

4,1

8,0

2,8

9,4

5,2

5,4

5,4

0,6

3,9

8,4

2,0

6,7

3,8

1,8

8,3

2,8

2,8

10,3

0,6

3,4

3,7

3,8

4,3

6,5

1,6

8,3

10,4

5,6

4,6

a) Prsentez ces donnes sous la forme d'une distribution. Pour chaque


classe, donnez l'effectif et la frquence.
b) Reprsentez la distribution par un histogramme et par un polygone
des frquences. Construisez deux chelles verticales : l'une, gauche,
marquant l'effectif ; l'autre, droite, marquant les frquences.
4. Voici les gains hebdomadaires moyens (en dollars) dans 70 centres
urbains en 1988 :
390

385

418

368

341

427

471

401

519

467

561

427

433

451

411

407

387

451

419

387

467

402

388

379

506

602

376

465

459

502

531

571

393

412

437

617

512

407

519

392

491

552

439

475

462

501

392

419

571

437

718

513

491

567

431

438

368

337

415

352

438

467

550

318

439

398

519

539

315

475

Prsentez ces donnes sous la forme d'une distribution. Faites-en un


histogramme et un polygone des frquences.

26

Introduction la statistique applique

5. Tracez le diagramme btons de la distribution suivante de 300


accouchements selon les jours de la semaine :

TEST DU KHI-DEUX

Jour

Lu

Ma

Me

Je

Ve

Sa

Di

TOTAL

Effectif

50

42

47

42

44

40

35

300

6. Supposons qu'un administrateur d'hpital vous demande de vrifier si les


accouchements, dont la distribution est donne dans le problme
prcdent, se rpartissent uniformment :
a) Formulez une hypothse nulle, d'abord dans le langage courant, puis
en termes d'une distribution.
b) Dterminez les effectifs thoriques. Expliquez en vos propres mots ce
que ces effectifs signifient.
c) Calculez F2.
d) Dites si la valeur de F2 est trop grande ou pas assez, et dites en quel
sens elle est trop grande ou pas assez .
7. Pour savoir si un d est bien quilibr, on le lance 36 fois, et on obtient
les rsultats suivants :
Rsultat
Frquence

TOTAL

219

7/36

1/4

1 112

5/36

1/9

Tracez le diagramme btons de la distribution et rpondez aux mmes


questions qu'au numro 6.
8. Il y a eu en une anne 33 540 naissances dans une province du Canada.
17 206 de ces naissances taient des garons et 16 334 des filles. Est-ce
un simple hasard que le nombre de garons et de filles ne soit pas le
mme ? Formulez clairement votre hypothse et explicitez votre
dmarche.
9. Au numro 8, l'cart entre la distribution observe et la distribution
thorique a t trs significatif dans le sens o la valeur calcule de F2
tait de beaucoup suprieure au point critique. Pourtant, la proportion
observe de garons, 17 206 / 33 540 = 51,3 %, n'est pas trs loigne
de 1/2. Quel sens donnez-vous alors trs significatif ?

1 Distributions

27

10. Pour comparer l'aptitude en mathmatiques des Orientaux celle des


Amricains de race blanche, Tsang (1984) a examin les rsultats d'un
chantillon de 10 097 tudiants orientaux au test de mathmatiques du
SAT (Scholastic Aptitude Test). La distribution des scores est donne dans
le tableau suivant, qui prsente galement la distribution, en frquences,
des scores de tous les Amricains de race blanche.
Orientaux

Amricains blancs

(effectifs)

(frquence)

700-800

601

0,045

600-690

2 001

0,172

500-590

3 190

0,314

400-490

2 788

0,301

300-390

1 309

0,148

200-290

208

0,020

Score

Y a-t-il une diffrence significative entre les Orientaux et les Amricains


de race blanche ?
DIVERS

11. Pour savoir si un d est bien quilibr, on le lance 360 fois, et on obtient
la mme distribution qu'au numro 7. Rptez l'exercice. Pouvez-vous
expliquer les conclusions contradictoires ?

28

Introduction la statistique applique

12. Le tableau suivant donne la distribution des revenus pour les gens ayant
un niveau d'instruction lmentaire (hommes et femmes) au Canada en
1984.
Distribution des revenus selon le sexe pour les gens ayant complt les seules tudes
lmentaires - Canada, 1984
Frquence
Revenu
Hommes

Femmes

0 - 1 000

0,028

0,055

1 000 - 5 000

0,085

0,235

5 000 - 10 000

0,315

0,472

10 000 - 15 000

0,121

0,136

15 000 - 20 000

0,119

0,059

20 000 - 25 000

0,111

0,025

25 000 - 30 000

0,092

0,008

30 000 - 35 000

0,082

0,006

35 000 - 50 000

0,047

0,004

SOURCE : Adapt de l'Annuaire du Canada, 1986-87

a) Faites un histogramme pour la distribution des hommes et un autre


pour celle des femmes.
b) Comparez ces deux distributions en utilisant leur polygone des
frquences.

1 Distributions

29

13. Faites un histogramme pour reprsenter la distribution de l'ge des


catholiques d'ge scolaire et prscolaire en 1979.
ge

Effectif

ge

Effectif

ge

Effectif

46 159

59 733

14

83 817

60 271

63 002

15

85 831

62 812

64 828

16

88 157

62 754

10

63 817

17

80 105

64 010

11

65 504

18

84 682

60 204

12

69 365

19

81 404

60 001

13

74 630

20

75 453

SOURCE : Le recensement scolaire. Document statistique 53, Direction des tudes conomiques et dmographiques, Secteur de la
planification, ministre de l'ducation du Qubec

14. En 1976, 184 939 femmes ges de 15 65 ans se sont maries au


Canada. Cette population de nouvelles maries est divise en trois
sous-populations : les clibataires, les veuves et les divorces. Voici la
distribution de l'ge pour chacune des sous-populations.
Rpartition des mariages au Canada selon l'ge et l'tat civil de l'pouse - 1976
tat civil
ge

Clibataires

15-19

44 827

20

86

44 933

20-24

81 345

175

2 558

84 078

25-29

21 774

391

6 162

28 327

30-34

5 216

394

4 785

10 395

35-39

1 768

425

2 958

5 151

40-44

833

529

2 121

3 483

45-49

521

795

1 589

2 905

50-54

383

932

1 125

2 440

55-59

265

1 041

563

1 869

60-64

176

947

235

1 358

Total

157 108

5 649

22 182

184 939

SOURCE : Annuaire du Canada, 1980-1981

Veuves

Divorces

Toutes

30

Introduction la statistique applique

Comparez les trois distributions en construisant trois polygones des


frquences superposs.
15. Une quipe de chercheurs dispose de donnes sur la population
suivante : l'ensemble de tous les accidents qui ont eu lieu au Qubec en
1980 et qui ont entran des blessures corporelles. Pour la plupart des
variables, il tait ais d'obtenir les donnes pour la population entire.
Pour certaines autres variables, comme celles identifiant la position
exacte du vhicule lors de l'accident, il tait difficile d'en dterminer les
valeurs et on ne pouvait se permettre de le faire pour une population
entire. Il a donc fallu prlever un chantillon pour tudier la distribution
de ces variables-l. On a prlev un chantillon de 600 accidents.
Malheureusement, l'chantillon n'a pas t prlev de faon purement
alatoire, ce qui faisait douter de sa reprsentativit ; on a choisi une
variable particulire, la variable gravit de la blessure , dont on
connaissait la distribution pour la population entire ainsi que pour
l'chantillon. Les deux distributions sont les suivantes :
Blessure
Frquence
(population)
Frquence
(chantillon)

Mortelle

Trs grave

Grave

Pas grave

TOTAL

0,20

0,30

0,30

0,20

0,10

0,30

0,40

0,20

a) Formulez convenablement
reprsentatif.

l'hypothse

que

l'chantillon

est

b) Testez cette hypothse et exprimez clairement votre conclusion.


16. La population des mnages canadiens a t divise en deux
sous-populations : les mnages dont le chef de famille est un homme ;
les mnages dont le chef de famille est une femme. Voici
approximativement la distribution de l'ge du chef de famille pour les
deux sous-populations. (Les donnes, tires de l'Annuaire du Canada
1980-1981, ont t lgrement modifies pour les besoins de cet
exercice.)

1 Distributions

31

Rpartition des mnages canadiens selon l'ge et le sexe du chef de la famille - 1976 (en milliers)
Sexe du chef de famille
ge

Tous
Masculin

Fminin

15 - 24

431

154

585

25 - 34

1 457

222

1 679

35 - 44

1 185

154

1 339

45 - 54

1 115

190

1 305

55 - 64

841

238

1 079

65 - 74

567

286

853

75 - 84

153

172

325

5 749

1 416

7 165

Tous

Construisez deux polygones des frquences qui permettent de comparer


les deux populations. Interprtez les diffrences.
17. Une firme de comptables agrs est charge de surveiller un imprimeur
de billets de loterie. Les billets sont numrots de 10 000 99 999. L'un
de ces billets, choisi au hasard par l'imprimeur, doit tre le billet gagnant
du gros lot. Les comptables observent les billets gagnants de 72 loteries
conscutives. Leur objectif est de savoir si les numros gagnants sont
rellement choisis au hasard. Voici les donnes :
10 252

17 642

58 391

57 278

76 217

13 841

91 276

21 367

45 222

64 112

33 914

39 126

77 319

23 440

91 328

21 478

67 315

38 277

77 319

44 839

32 187

85 432

99 877

34 512

34 156

52 111

18 394

27 831

78 989

49 721

96 543

45 678

45 220

72 115

67 313

34 218

15 268

76 677

95 212

53 217

68 221

32 175

46 317

57 322

25 681

47 362

94 323

67 212

42 178

64 392

28 491

18 349

56 122

21 167

95 121

77 777

64 568

69 212

56 319

57 100

86 341

12 224

96 131

21 121

20 351

24 876

87 719

83 212

82 119

83 314

12 133

31 211

Quelle est votre conclusion ?

32

Introduction la statistique applique

18. Les deux tableaux suivant prsentent la mme distribution, mais avec
des classes formes de faons diffrentes. Il s'agit de la distribution de
l'ge de la population canadienne de moins de 90 ans. Construisez, sur
la mme chelle, un histogramme correspondant chacun des tableaux.
(Un histogramme n'admet pas d'espaces vides entre les classes. Donc,
dans le graphique, les limites des classes ne devraient pas tre
identiques celles du tableau. Puisque l'ge signifie l'ge au dernier
anniversaire , les intervalles devraient tre [0, 5], [5, 10], etc.)
Deux distributions de l'ge, population canadienne de moins de 90 ans
ge

Effectif (en
milliers)

ge

Effectif (en
milliers)

0-4

1 816

0-4

1 816

5-9

2 254

5-9

2 254

10-14

2 311

10-14

2 311

15-19

2 114

15-19

2 114

20-24

1 889

20-24

1 889

25-29

1 584

25-29

1 584

30-34

1 305

30-34

1 305

35-39

1 264

35-44

2 527

40-44

1 263

45-54

2 292

45-49

1 239

55-64

1 732

50-54

1 053

65-89

1 707

55-59

955

TOTAL

21 531

60-64

777

65-69

620

70-74

457

75-79

326

80-84

204

85-89

100

TOTAL

21 531

1 Distributions

33

19. Dans le cadre d'une tude sur les habitudes de lecture des lves du
secondaire, des chercheurs ont fait complter un questionnaire 1 687
lves . Avant d'analyser les rponses aux questions principales - celles
traitant des habitudes de lecture - les chercheurs ont procd quelques
comparaisons entre les donnes de leur chantillon et celles du
recensement du Canada, afin de se rassurer sur la reprsentativit de
leur chantillon. L'une des variables examines est le sexe. Selon le
recensement, la proportion de garons dans la population est de 51,95 %.
Dans l'chantillon, le nombre de garons est de 847, soit 50,21 %.
L'chantillon semble-t-il reprsentatif ? (Qualifier un chantillon de
reprsentatif est un abus de langage, car le terme suggre que
l'chantillon est en tous points une rplique exacte de la population, chose
impossible. Voir le numro 15 pour une interprtation correcte du terme.)
20. Les chercheurs (numro 19) ont aussi tudi la rpartition de leur
chantillon selon le niveau scolaire et le sexe. Voici les distributions
conjointes qu'ils ont obtenues :
Population

chantillon

Sexe

Niveau
scolaire

Sec.1

0,104

0,088

Sec. 2

0,089

Sec. 3

0,106

Sec. 4
Sec. 5
TOTAL

Sexe

TOTAL

TOTAL

0,192

0,107

0,099

0,206

0,113

0,202

0,105

0,101

0,206

0,095

0,201

0,110

0,105

0,215

0,110

0,092

0,202

0,100

0,099

0,199

0,092

0,111

0,203

0,086

0,088

0,174

0,501

0,499

1,000

0,508

0,492

1,000

Rpondez la mme question qu'au numro 19.


21. Les chercheurs mentionns au numro prcdent ont examin aussi la
rpartition de l'chantillon et de la population selon l'ge. Voici les deux
distributions en pourcentages :
ge

12

13

14

15

16

17

18+

TOTAL

Population

13,53

19,47

20,79

20,58

16,83

5,81

2,55

99,56

chantillon

9,2

19,9

20,1

19,5

20,2

8,2

2,3

99,4

Rpondez la mme question qu'au numro 19.

Rapport d'enqute sur les habitudes de lecture des lves du secondaire, Direction gnrale du
dveloppement pdagogique, ministre de l'ducation du Qubec

34

Introduction la statistique applique

22. Aprs avoir prlev un chantillon de familles dans la zone


mtropolitaine de Montral , des chercheurs se proposent d'valuer leur
procdure de slection de l'chantillon. Pour ce faire, ils examinent la
distribution de la variable scolarit du chef de mnage dans
l'chantillon et dans la population. Voici les deux distributions :
Scolarit

TOTAL

0-7 ans

8 ans ou plus

Recensement canadien
1971

242 187

307 544

549 731

Enqute sur les vacances


1978

162

625

787

Quelle est votre conclusion ?


23. Dans une tude clbre, des donnes ont t prleves sur 6 587
suicides en France. Voici la distribution des suicides selon le jour de la
semaine :
Jour

TOTAL

Effectif

1 001

1 035

982

1 033

905

737

894

6 587

a) Testez l'hypothse selon laquelle les suicides se rpartissent


uniformment sur les jours de la semaine.
b) Selon une certaine conjecture, les taux de suicide diminuent
l'approche d'un week-end. Plus prcisment, le taux quotidien global
pour l'ensemble des jours du vendredi au dimanche est infrieur au
taux quotidien global pour l'ensemble des jours du lundi au jeudi.
Est-ce que cette conjecture est vrifie par les donnes ?
c) Testez l'hypothse selon laquelle chacun des jours du lundi au jeudi
a le mme taux de suicide.
d) Testez l'hypothse selon laquelle chacun des jours du vendredi au
dimanche a le mme taux de suicide.
e) Essayez de rsumer en une phrase ou deux l'ensemble des
conclusions tires ci-dessus.

Vacances et tourisme, Cahier no 3, Centre de recherches urbaines et rgionales, les Presses de l'Universit du
Qubec.

1 Distributions

35

24. On affirme souvent que la qualit d'un produit manufactur dpend du


jour de la semaine o il a t fabriqu. Des donnes sont prleves pour
voir si c'est bien vrai. Au cours d'une longue priode, on inspecte la
production de 500 000 appareils de radio produits dans la mme usine :
90 000 ont t produits un lundi, 109 000 un mardi, 106 000 un
mercredi, 105 000 un jeudi et 90 000 un vendredi. De ces 500 000
appareils, 800 ont t trouvs dfectueux. Les 800 appareils dfectueux
se rpartissent comme ceci : lundi, 200 ; mardi, 144 ; mercredi, 128 ;
jeudi, 136 ; vendredi, 192.
a) Testez l'hypothse selon laquelle le taux de dfectuosit est le mme
pour tous les jours de la semaine.
b) Testez l'hypothse selon laquelle le taux de dfectuosit est le mme
le lundi et le vendredi.
c) Testez l'hypothse selon laquelle le taux de dfectuosit est le mme
le mardi, le mercredi et le jeudi.
d) Testez l'hypothse selon laquelle le taux quotidien global de
dfectuosit le lundi et le vendredi est le mme que le taux quotidien
global du mardi au jeudi.
*25. Les parts du march de 4 grandes marques de dtergent, A, B, C et D
sont, respectivement, de 10 %, 20 %, 30 % et 10 % ; une multitude
d'autres compagnies se partagent les 30 % qui restent. Le fabricant de la
marque A mne depuis plusieurs mois une campagne publicitaire dans le
magazine X. Pour valuer l'effet de cette publicit, il prlve un
chantillon de 500 lecteurs du magazine X, les interroge sur la marque
de savon qu'ils utilisent, et obtient les rsultats suivants :
Marque

Autres

TOTAL

Effectif

80

100

130

50

140

500

a) Supposons qu'une seule question intresse le fabricant de la marque


A : Les lecteurs du magazine X emploient-ils le savon A en plus
grande proportion que l'ensemble des consommateurs ? Faites un
test pour rpondre cette question.
b) Supposons qu'en a) vous avez conclu que les lecteurs du magazine X
utilisent effectivement le savon A en plus grande proportion. Est-ce
qu'on peut conclure que la publicit a un effet, ou bien est-ce que des
doutes raisonnables persistent ?

36

Introduction la statistique applique

c) Supposons qu'en fait les lecteurs du magazine X emploient en plus


grande proportion le savon A, et supposons que ce sont les annonces
qui les ont attirs vers ce produit. Un analyste, en examinant les
donnes du tableau ci-dessus, conclut que ce sont surtout les
utilisateurs du savon C qui ont t attirs vers le savon A. Faites un
test pour savoir si cette conclusion est justifie.
*26. Au cours d'une ngociation, la partie patronale affirme que les employs
abusent des congs de maladie. Pour appuyer cette affirmation, elle
prsente les donnes suivantes, qui reprsentent la rpartition de 500
absences d'un jour, chacune sous prtexte de maladie. (Le patron a
dlibrment omis tous les cas d'absence de plus d'un jour la fois, car
il est prt concder que ceux-l sont rellement dus des maladies).
Jour

TOTAL

Effectif

129

80

82

81

128

500

Le patron fait remarquer que les absences sont particulirement


frquentes les lundis et vendredis, ce qui laisse souponner que dans
certains cas les absences n'avaient pour motif que celui de prolonger un
week-end.
a) Faites un test pour dterminer si les absences sont rellement plus
frquentes les lundis et vendredis.
b) Le syndicat accepte le rsultat en (a), mais il rplique que cela ne
dmontre pas qu'il y ait eu des abus. Son argument : il rappelle que
seules les absences d'un jour ont t retenues les absences de deux
jours conscutifs ou plus ont t omises, y compris celles du vendredi
au lundi suivant. Donc, les absences du mardi, du mercredi et du
jeudi reprsentent des maladies qui ont dur un seul jour, alors que
les absences du lundi et du vendredi comptent non seulement des
maladies d'un jour mais galement des maladies de 2 jours et de 3
jours. Le syndicat prlve alors des donnes sur la dure d'une
maladie mineure et trouve la distribution suivante :
Dure (en jours)

TOTAL

Frquence

0,5

0,2

0,1

0,2

Faites un test qui permet de dmolir l'argument du patron.

Mesures de tendance
centrale et de dispersion
2.1

2.2

2.3

2.4
2.5
2.6

Mesures de tendance centrale


La moyenne arithmtique
Le mode
La mdiane
Les quantiles
Mesures de dispersion
La variance
Calcul de la variance
L'cart interquartile
Cas d'une distribution
Le mode
La mdiane et les quantiles
La moyenne arithmtique
La variance
Les moustaches
Transformation linaire
Variable centre rduite ou cote Z
Moyennes pondres et moyennes ajustes
RSUM
EXERCICES

38

Introduction la statistique applique

Introduction L'histogramme et le polygone des frquences permettent de


visualiser aisment les caractristiques essentielles d'une distribution. Ils
nous permettent d'identifier approximativement le point autour duquel les
valeurs se concentrent et dans quelle mesure elles se dispersent, de voir si la
distribution est symtrique ou non. Cependant, toute cette information,
qu'un graphique permet de saisir en un coup d'oeil, est ncessairement
imprcise. Nous attacherons donc une importance particulire aux
caractristiques que l'on peut mesurer. Une de ces caractristiques est la
tendance centrale ; une autre est la dispersion.

2.1

MESURES DE TENDANCE CENTRALE


La tendance centrale d'une distribution est la valeur autour de laquelle se
concentrent en gnral les donnes. Il y a plusieurs faons de rendre cette
notion prcise, c'est--dire, de la mesurer. Nous prsentons ici quatre
mesures de tendance centrale : la moyenne arithmtique, le mode, la
mdiane et les quantiles. Chacune de ces mesures rpond sa faon la
question trop vague : quel est l'ordre de grandeur d'une donne typique ?

La moyenne arithmtique La mesure de tendance centrale la mieux connue et


la plus importante est la moyenne arithmtique, ou moyenne tout court.
tant donn n nombres x1 , x 2 , , x n leur moyenne arithmtique x est dfinie
par :
n

x1  x 2    x n

i 1

En mots, la moyenne arithmtique est la somme des donnes, divise par le


nombre de donnes.
Remarque La notation (sigma) est explique en annexe pour ceux qui ne la
connaissent pas. Pour simplifier la notation nous nous permettrons, lorsque
cela ne risque pas de crer d'ambiguts, d'omettre l'indice et les bornes de
sommation. Ainsi, nous crirons :

ou

au lieu de

n
i 1

x i ou

x .
i

i 1

2 Mesures de tendance centrale et de dispersion

Exemple 1

39

Dans une rue o habitent 21 mnages, on prend note du nombre d'enfants


dans chaque mnage. On obtient les donnes suivantes :
0

La moyenne arithmtique du nombre d'enfants est :


x

0 111111 2  2  2  2  2  2  2  2  2  2  2  3  3  4
21
38
21
1, 8

Le nombre moyen d'enfants est de 1,8. La figure 2.1 illustre la distribution


du nombre d'enfants. La position de la moyenne montre bien qu'il s'agit d'un
nombre autour duquel les donnes se concentrent.
i
La notion de moyenne prsente beaucoup d'analogies avec la notion de
centre de gravit que l'on rencontre en physique. Si l'on imagine que chaque
bton d'un diagramme a une masse proportionnelle sa hauteur et que l'on
dsire que le diagramme puisse se tenir en quilibre sur un pivot plac sous
l'abscisse, c'est sous x que le pivot doit tre plac.

Le mode Dans la figure 2.1, on constate que la valeur 2 est trs frquente,
et on pourrait bien vouloir la considrer comme valeur centrale. Ce genre de
situation se rpte assez souvent pour justifier l'introduction d'une nouvelle
mesure de tendance centrale, le mode. Le mode est la valeur de la variable
ayant la plus grande frquence.

40

Introduction la statistique applique

FIGURE 2.1

Distribution du nombre d'enfants

Nombre de mnages

12
10
8
6
4
2
0
0

Exemple 2

2
3
1,8
Nombre d'enfants

Le mode ne se rvle utile que lorsqu'il est plutt prononc, sinon il joue mal
son rle de mesure de tendance centrale. Considrez les donnes suivantes :
3 3 14 15 16 17 18 19 20
Leur mode est 3, mais on peut difficilement dire que c'est une valeur centrale
ou une valeur reprsentative de l'ensemble des donnes.
i

Exemple 3

Le mode a l'avantage d'tre utilisable avec les donnes qualitatives. Ainsi la


variable langue maternelle au Qubec a pour mode le franais .
i

Exemple 4

Dans certaines situations, ni le mode ni la moyenne arithmtique ne peuvent


servir de mesure de tendance centrale. Considrez les revenus annuels de
douze ouvriers et celui du propritaire d'une usine (en milliers de dollars) :
24,0 24,4 24,8 25,0 25,6 26,2 26,4 27,0 27,2 27,6 28,0 28,4 157,5
Chaque donne est un mode, de sorte que cette mesure est ici sans intrt.
Quant la moyenne arithmtique, elle vaut 36,3, un nombre loign de
toutes les donnes. L'utilisation d'une autre mesure de tendance centrale
semble ici souhaitable.
i
Remarque Il arrive parfois que deux ou plusieurs valeurs soient les plus
frquentes, ex quo. Chacune de ces valeurs est alors un mode et on a affaire
une distribution bimodale ou multimodale.

2 Mesures de tendance centrale et de dispersion

41

La mdiane La mdiane est la donne qui se situe au centre de la srie


lorsque celle-ci est crite en ordre croissant ou dcroissant. Par exemple, la
mdiane des donnes
2
5
6
9
11
est 6. Lorsque le nombre de donnes est pair, on dfinit la mdiane comme
la moyenne arithmtique entre les deux donnes centrales. Par exemple, la
mdiane des donnes
1
2
4
6
8
9
13 14 17 20
est
89

8 , 5.

2
L'avantage principal de la mdiane, par rapport la moyenne arithmtique,
est qu'elle n'est pas indment influence par quelques donnes extrmes. La
mdiane des donnes de l'exemple 4 est 26,4, une valeur plus raisonnable
que la moyenne arithmtique de 36,3.

Les quantiles La mdiane spare l'ensemble de toutes les valeurs de la


variable en deux groupes d'gale frquence (soit 1 ). Il s'avre intressant de
2
gnraliser ce concept pour obtenir des points qui divisent les valeurs en n
groupes d'gale frquence. C'est ainsi qu'on obtient la notion de quantile.
De faon gnrale, si D est un nombre compris entre 0 et 1, le quantile
d'ordre D est le point tel qu'une proportion D des donnes se trouve en
dessous et une proportion 1  D se trouve au-dessus . En pratique, on
utilise les quantiles suivants :
x

les quartiles Q1, Q2, Q3 qui sont les quantiles d'ordre

, ...,

Notons

que Q2 n'est autre que la mdiane ;


x

les dciles D1, D2, ..., D9 qui sont les quantiles d'ordre

x

les centiles C1, C2, ..., C99 qui sont les quantiles d'ordre

10
1

100

10

100

10

, ...,

;
99

100

42

Introduction la statistique applique

Exemple 5

Considrons les 27 donnes suivantes :


1 1 2 3 3 4 4 5 5 5 5 5 5 6 6 6 7 7 7 8 9 9 9 9 9 9 9
Alors Q1 = 4, Q2 = 6, Q3 = 9. En effet, Q1 est la 7e donne, Q2 est la 14e et Q3
la 21e. En gnral, on se convaincra aisment que, quand les n donnes sont
ordonnes, le quantile d'ordre D est
x
x

2.2

soit la donne dont le rang est l'entier le plus prs de Dn 

1
2

soit, si Dn est entier, la moyenne des donnes de rangs respectifs Dn


et Dn  1 .
i

MESURES DE DISPERSION
Une moyenne donne l'ordre de grandeur d'un ensemble de donnes, mais
cette information se rvle presque toujours insuffisante. Considrez, par
exemple, une classe dont la moyenne un examen est 60. Cette classe peut
tre forme presque entirement d'lves trs faibles et d'lves trs forts. Le
nombre 60 n'tant qu'une moyenne, il peut cacher plusieurs ralits. Un
indice de la dispersion des donnes par rapport la moyenne s'impose.
On se convaincra, dans les trois exemples qui suivent, qu'une moyenne qui
n'est pas accompagne d'un indice de dispersion est beaucoup moins
loquente.

Exemple 6

Un patient apprend de son mdecin que sa pression intra-oculaire est de 19


alors que la pression moyenne pour ceux de son ge et de son sexe est
de 17. Que peut-il conclure ? Le fait que ce patient s'carte de la moyenne
n'est pas ncessairement inquitant, puisqu'en gnral, les donnes d'une
population sont presque toutes distinctes de la moyenne. Mais s'carte-t-il
trop de la moyenne ? Pour le savoir, il faudrait qu'il sache de combien les
autres membres de la population s'cartent de la moyenne. En d'autres
termes, il lui faut une mesure de la dispersion des donnes par rapport la
moyenne.
i

Exemple 7

La temprature moyenne Montral est de 6,9qC. Cela n'empche pas la


temprature de baisser 30qC en hiver et de monter 30qC en t.
i

Exemple 8

Le service d'urgence d'un hpital traite en moyenne 5 patients par heure.


Puisque la dispersion du nombre d'arrives de malades ou de blesss est en
gnral trs grande, il se peut trs bien que, durant une certaine heure, il n'y

2 Mesures de tendance centrale et de dispersion

43

ait qu'une seule arrive ou mme aucune et que, durant l'heure suivante il y
en ait 10 ou 15. Si l'on veut viter que le service soit trop souvent dbord,
on doit l'organiser de telle sorte qu'il soit en mesure de traiter, par moments,
beaucoup plus que 5 patients par heure. La demande moyenne d'un service
est un indice inadquat des ressources ncessaires sa prestation.
i

La variance Soit xl, x2, ..., xn une srie de n donnes et x leur moyenne. La
variance s2 de ces donnes est la moyenne arithmtique des carrs des
carts la moyenne :
s

( xi

 x)

n
L'cart-type s est la racine carre de la variance :

( xi

 x)2
n

C'est l'cart-type que nous utiliserons comme mesure de dispersion.


Exemple 9

Les donnes
3
ont pour moyenne x
calculs) :
s

5 . Leur variance est (voir le tableau 2.1 qui illustre les

( 3  5) 2  ( 4  5) 2  ( 4  5) 2  ( 4  5) 2  ( 6  5) 2  ( 9  5) 2
6
4  1  1  1  1  16
6
4

44

Introduction la statistique applique

TABLEAU 2.1

Calcul de s2
xi

xi  x

( xi  x ) 2

3
4
4
4
6
9

2
1
1
1
1
4

4
1
1
1
1
16
24

( xi  x ) 2
Distribution des donnes
3

2
Effectifs

FIGURE 2.2

0
1

x  2s

xs

Leur cart-type est donc : s

x
4

xs

x  2s

10

11

x  3s

La figure 2.2 illustre la distribution de ces donnes au moyen d'un


diagramme btons. L'abscisse du graphique a t gradue en utilisant x et
s afin de bien montrer leur rle respectif dans la description numrique de la
distribution.
i

2 Mesures de tendance centrale et de dispersion

45

L'interprtation de la valeur d'un cart-type n'est pas aussi aise que celle
d'une moyenne. En comparant les carts-types de deux sries de donnes,
on peut arriver certaines conclusions qualitatives.
Exemple 10 Voici les revenus moyens des familles pour 5 rgions du Canada, en 1951 et
en 1978 en dollars constants (1971) :
Rgion

Atlantique

Qubec

Ontario

Prairies

ColombieBritannique

1951

3 810

5 337

5 913

4 940

5 559

1978

9 744

11 569

12 921

12 129

13 320

L'cart-type est de 723,44 $ en 1951 et de 1 253,99 $ en 1978. Puisque


l'cart-type est ici une mesure des disparits entre les rgions, on peut
conclure que ces disparits se sont largies entre 1951 et 1978. Il faut noter,
cependant, que mme en dollars constants, les revenus sont en moyenne
beaucoup plus levs en 1978. On trouve en effet x = 5 111,80 $ en 1951 et
x = 11 936,60 $ en 1978.
Mme si, numriquement, l'cart-type est plus grand en 1978 qu'en 1951,
on observe cependant que l'cart-type relatif s X qui tait de 0,142 en 1951
n'tait plus que de 0,105 en 1978. Les valeurs de 1978 sont donc
relativement moins disperses que celles de 1951.
i
En somme, la comparaison des cart-types doit tre relativise pour les
ordres de grandeur ; aprs tout, exprims en grammes, les poids d'un
chantillon d'lphants seront infiniment plus disperss que ceux d'un
chantillon de souris... ce qui ne veut pas dire qu' en soi les poids des
lphants sont plus disperss que ceux des souris.

Calcul de la variance La formule


s2

( xi

 x)

n
pour la variance d'une srie de donnes constitue la dfinition de la variance
et elle montre clairement ce que la variance mesure. Comme formule de
calcul, cependant, elle ne se rvle pas trs pratique. D'autres formules,
quivalentes celle-ci, sont en gnral plus faciles utiliser. En voici
quelques-unes :

46

Introduction la statistique applique

x i2

 nx 2
n

x i2

s2

 ( xi ) 2 / n
n

x i2

s2

x2

n
s2
TABLEAU 2.2

x2  x2

Calcul d'une variance


xi

x i2

3
4
4
4
6
9

9
16
16
16
36
81
174

30
Ainsi, par exemple,
s

2
i

(

x )
i

/n

174  900 / 6

174  150

4.

Remarque Si l'on dispose d'une calculatrice qui possde au moins deux


mmoires, l'emploi de ces dernires formules vite d'avoir introduire deux
fois la liste des observations. On peut en effet affecter une mmoire au calcul
de x i2 et une autre celui de x i . Ces deux sommes, convenablement
traites, permettent d'obtenir rapidement la variance s 2 . Cette procdure est
schmatise par le tableau 2.2 (o l'on reprend les donnes de l'exemple 9).
Remarque Une mise en garde s'impose : ne jamais arrondir trop tt les
rsultats intermdiaires. L'exemple 11 illustre le genre de pril auquel on
s'expose en arrondissant trop la valeur de x dans le calcul de s 2 .

2 Mesures de tendance centrale et de dispersion

47

Exemple 11 Considrons les trois observations suivantes :


136 137 139
2

Un calcul rapide donne x = 137,333 3 ... et x


s2

x2  x 2

trouve s

= 18 862. On obtient donc

1, 555 5 ..., ce qui est correct. Si l'on arrondit x 137,3, on


18 862  (137 , 3 )

10 , 71 , valeur prs de 7 fois trop grande et

carrment errone. Une imprcision apparemment anodine sur la valeur de


x peut facilement ruiner, comme on le voit, le calcul de s 2 .
i
Remarque On aura sans doute trouv naturelle notre dfinition de la vari1
ance comme une sorte de moyenne ( ) des carrs des carts la moyenne
n
(( x i  x ) 2 ) . Certains auteurs et certains fabricants de calculatrices, toutefois,
utilisent plutt un facteur

dans cette dfinition. Nous reviendrons au


n 1
chapitre 8 sur les raisons techniques, qui motivent le choix de l'une ou l'autre
de ces formules. Qu'il vous suffise, pour l'instant, de vrifier quelle formule est
utilise dans votre calculatrice.

L'cart interquartile Il arrive que l'information donne par x et s ne fournisse


pas un portrait aussi prcis qu'on le voudrait de la ralit : c'est
particulirement vrai lorsqu'il y a plusieurs donnes extrmes ou quand la
distribution est trs peu symtrique. On utilise alors l'cart interquartile, E,
dfini par
E = Q3 Q1
Les deux exemples qui suivent montrent bien comment l'cart interquartile
mesure la dispersion de la population, en valuant la largeur de l'intervalle
qui contient la moiti des valeurs et en ngligeant les valeurs extrmes.
Exemple 12 Considrons les donnes suivantes :
2 2 2 2

22

Selon la rgle nonce la page 42, le rang du 1er quartile est l'entier le plus
prs de 9/4 + 1/2, soit 3. On voit que Q1 = 2, Q2 = 3 et Q3 = 4. Donc
E = 4 2 = 2.
i

48

Introduction la statistique applique

Exemple 13 Avec les donnes suivantes,


8 1

22

on trouve, en procdant de faon analogue,


i

E = Q3 Q1 = 6 2 = 4.

Remarque On utilise quelquefois, mais beaucoup plus rarement, l'cart


interdcile (D9 D1) et l'cart intercentile (C99 C1).

2.3

CAS D'UNE DISTRIBUTION


Dans les sections prcdentes, on a dfini les mesures de tendance centrale
et de dispersion pour une srie de donnes x1 , x 2 ..., x n . Ces notions
s'appliquent galement aux distributions, puisque la diffrence entre une distribution et une srie de donnes est une simple question de prsentation.

Exemple 14 Considrons la distribution suivante du nombre d'enfants dans les mnages


d'une rue :
Nombre d'enfants

TOTAL

Effectif

11

21

On peut dterminer les mesures de tendance centrale et de dispersion


l'aide des dfinitions et formules des sections prcdentes ; il suffit de
prsenter cette distribution sous sa forme originale, celle d'une srie de
donnes :
0 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 3 3 4
En pratique, cette opration est inutile, souvent trs laborieuse et parfois
impossible. On peut trouver directement les mesures de tendance centrale et
de dispersion l'aide de procds ou de formules que l'on dduit facilement
de ceux des sections prcdentes.
i

Le mode Le mode se trouve plus aisment partir d'une distribution qu'


partir d'une srie de donnes. Dans l'exemple 14, le mode est videmment 2,
car cette valeur, observe 11 fois, est la plus frquente.

2 Mesures de tendance centrale et de dispersion

49

Dans le cas d'une distribution o les valeurs sont groupes, nous ne


parlerons pas de mode, mais plutt de classe modale. Si les classes sont
toutes de mme largeur, la classe modale est celle qui a le plus grand effectif
ou la plus grande frquence. Si les classes sont de largeur variable, on se
rfre l'histogramme et la classe modale correspond alors au rectangle le
plus lev. Dans l'exemple illustr par la figure 1.5 (page 12), la classe
modale est l'intervalle (20, 25), mme si la classe (25, 35), qui est deux fois
plus large, a un effectif suprieur.

La mdiane et les quantiles On peut reprer la donne centrale ou les


donnes centrales sans ranger les donnes en srie. Dans l'exemple 14, on
sait que la mdiane est la 11e donne. La premire est un 0 ; les 6
suivantes sont des 1 ; ensuite, de la huitime la dix-huitime, les
donnes sont des 2 . Donc, la onzime donne est un 2 , et c'est la
mdiane. De faon tout fait analogue, on voit que le ler quartile Q1 est 1 ,
et le 3e, Q3, est 2 .
Pour les valeurs groupes, la mdiane et les divers quantiles peuvent tre
estims, par interpolation. Comme l'illustre l'exemple 15, l'ide de base consiste faire comme si les observations de chaque classe taient uniformment
rparties dans cette classe. Graphiquement, aprs avoir identifi la classe
contenant la mdiane ou le quantile cherch, il suffit de dterminer quel
endroit il faut dcouper l'histogramme pour que la surface de la partie
gauche reprsente exactement la proportion dsire de la population.
Exemple 15 Supposons que l'on cherche Q1 et Q3 de la distribution suivante :
x
Frquence

0dx5

5 d x  10

10 d x  15

15 d x  20

20 d x  25

0,10

0,17

0,34

0,31

0,08

On voit immdiatement que Q1 est dans la deuxime classe, Q3 dans la


quatrime. En effet, puisque les trois premires classes contiennent une
proportion totale de 61 % de la population et les quatre premires 92 %, c'est
donc dans le quatrime que se situe le point sous lequel il y a 75 % de la
population, c'est--dire Q3.

50

Introduction la statistique applique

Recherche de Q1
Prsentons d'abord le problme graphiquement :
FIGURE 2.3

10

15

20

25

Q1
On voit que la rpartition de l'aire ombrage correspond l'quation suivante :
0,25 = (aire du ler rectangle) + (aire de la partie du 2e rectangle gauche de
Q1).
Le rapport de cette dernire aire sur l'aire totale du 2e rectangle (soit 0,17)
est gal au rapport de la longueur Q1 5 sur la longueur (5) de la base.
L'quation peut donc se rcrire
0 , 25

0 ,10 

Q1  5

( 0 ,17 ) .

5
Aprs quelques manipulations algbriques, on trouve
Q1

5 ( 0 , 25  0 ,10 )

5

0 ,17
| 9 , 41.

Recherche de Q3
Un raisonnement et un calcul analogues nous donnent
Q3

5 ( 0 , 75  0 , 61)

 15 | 17 , 26

0 , 31

On notera que le terme 0,61 correspond la frquence totale des classes qui
prcdent la quatrime.
i

2 Mesures de tendance centrale et de dispersion

51

La moyenne arithmtique Soit x1 , x 2 , ..., x k , les valeurs distinctes d'une


variable, n1 , n 2 , ..., n k les effectifs correspondants, et n

ni

. Alors la

moyenne arithmtique est donne par :


k

xi ni
x

i 1

.
n

Exemple 16 Considrons les donnes de l'exemple 14 ; on peut les prsenter en un


tableau :

Donc x

xi

ni

xi ni

0
1
2
3
4
TOTAL

1
6
11
2
1
21

0
6
22
6
4
38

38 21 | 1, 8 .

Remarquez que la formule ci-dessus peut s'crire


k

ni

x n

i 1

Posons f i

n i n ; f i est la frquence de la valeur x i . On peut calculer la

moyenne arithmtique partir des frquences seulement : les effectifs ne


sont pas indispensables. Si f 1 , f 2 , ..., f k sont les frquences des valeurs x1 ,
x 2 , ..., x k , alors la moyenne arithmtique est donne par :
x

x f
i

Lorsque les valeurs sont groupes, les mmes formules s'appliquent, sauf
qu'alors les x i reprsentent les points milieux des classes. Dans ce cas, la
valeur qu'on obtient pour x n'est qu'une approximation de la vritable
moyenne. On a d faire comme si les observations de chaque classe taient

52

Introduction la statistique applique

uniformment rparties l'intrieur de cette classe (ou comme si elles


taient toutes concentres au centre de la classe). Avec des donnes
groupes, c'est le mieux qu'on puisse faire. Il va de soi que si l'une des
classes extrmes se rend jusqu' l'infini, son point milieu doit tre remplac
par une valeur raisonnable.

La variance Soit x1 , x 2 , ..., x k les valeurs d'une variable, n1 , n 2 , ..., n k les


f 1 , f 2 , ..., f k les frquences. On peut dduire plusieurs formules

effectifs et

pour la variance des formules de la section prcdente :


2

s2

( xi  x ) ni
n
2

( xi  x ) f i
2
x i n i  x i n i

n
2
i

2
x fi  x

x2  x 2 .
Exemple 17 Voici la distribution du revenu familial de 1 000 Qubcois dont le revenu,
en 1981, tait compris entre 2 000 $ et 25 000 $.
Revenu X
(en milliers de dollars)
2dx<4
4dx<6
6 d x < 10
10 d x < 15
15 d x < 20
20 d x < 25

Point milieu
3,0
5,0
8,0
12,5
17,5
22,5

Effectif
100
116
177
225
217
165
1 000

La figure 2.4 reprsente l'histogramme de cette distribution :

Frquence
0,100
0,116
0,177
0,225
0,217
0,165
1,000

2 Mesures de tendance centrale et de dispersion


FIGURE 2.4

53

Distribution du revenu familial de 1 000 Qubcois

100 116

177

225

10

217

15

165

20

25

Comme le montre clairement l'histogramme, c'est la classe (4, 6) qui est la


classe modale mme si ce n'est pas cette classe qui a reu le plus
d'observations. En effet, les six classes tant de largeur respective 2, 2, 4, 5,
5 et 5, les hauteurs des rectangles de l'histogramme sont respectivement
proportionnelles :
50 58 44,25 45 43,4 33
C'est donc le second rectangle qui est le plus haut.
La moyenne arithmtique peut tre estime par
x

x i ni
n
(3 u 100)  (5 u 116)  (8 u 177)  (12,5 u 225)  (17,5 u 217)  (22,5 u 165)
1 000
12 618 , 5
1 000
12 , 618 5

ou encore par :
x

xi f i
( 3 u 0 ,100 )  ( 5 u 0 ,116 )  ( 8 u 0 ,177 )  (12 , 5 u 0 , 225 )  (17 , 5 u 0 , 217 )  ( 22 , 5 u 0 ,165 )
12 , 618 5

54

Introduction la statistique applique

De mme, x 2 peut tre estim par :


x

xi f i
2

( 3 u 0 ,100 )  ( 5 u 0 ,116 )  ( 8 u 0 ,177 )  (12 , 5 u 0 , 225 )  (17 , 5 u 0 , 217 )


 ( 22 , 5 2 u 0 ,165 )
200 , 271 75
On obtient donc s 2

x2  x 2

41, 045 2 et s

s2

6 , 406 7 .
i

Rappelons encore que la moyenne et la variance calcules partir de


donnes groupes ne constituent que des approximations des valeurs
vritables qui, elles, sont inaccessibles puisqu'on ne dispose pas de la liste
dtaille de toutes les observations individuelles.

Les moustaches Les techniques descriptives reprsentent toujours un


compromis : entre la ncessit de condenser les donnes et celle de prserver
l'information, et entre l'attrait visuel d'un dessin et la prcision des mesures
numriques. On peut imaginer plusieurs prsentations intermdiaires entre
la distribution complte, d'une part, et une ou deux mesures statistiques,
d'autre part. Une tendance moderne consiste rsumer les donnes par cinq
indices : le centre des donnes, leurs limites et les limites de la moiti
centrale des donnes. Le choix le plus naturel serait la mdiane, les limites
infrieure et suprieure des donnes, et le premier et troisime quartiles.
Ainsi, on sparerait la distribution en quatre classes de frquences gales.
Cette approche est attrayante par sa simplicit et s'avre satisfaisante dans
la plupart des cas. Nous ne la prsentons pas ici, cependant, car elle est un
peu trop simple : elle peut l'occasion cacher certaines caractristiques qui
mritent d'tre mises en vidence. En particulier, elle ne permet pas de
dtecter des donnes exceptionnelles extrmement grandes ou
extrmement petites. De telles donnes sont significatives et on a intrt
les isoler et les examiner de prs.

2 Mesures de tendance centrale et de dispersion

55

Considrons les donnes suivantes, qui reprsentent les revenus annuels, en


milliers de dollars, de 29 fermes :
1,3
1,7
1,9
3,1
4,2

4,5
9,4
10,3
10,4
21,7

22,2
24,8
29,0
29,5
29,7

33,5
37,5
38,7
44,4
46,3

49,2
58,3
60,9
61,8
70,0

71,1
85,9
169,3
181,6

Ces donnes sont prsentes dans l'histogramme de la figure 2.5, dans


lequel on voit que certaines des donnes sont excessivement grandes. La
mdiane n'est pas affecte par ces donnes extrmes ; ce sera donc le
premier repre. La mdiane est la 15e donne, soit 29,7.
Il serait naturel ensuite de considrer Q1 et Q3 comme autres repres. Mais
pour des raisons que nous ne discuterons pas ici, nous choisirons plutt
deux autres points, gnralement assez semblables Q1, et Q3, que nous
appellerons charnires. Ce sont les mdianes des deux moitis de donnes
spares par la mdiane. La situation est schmatise par la droite suivante,
o l'chelle est celle des rangs et non celle des donnes :
Donne
1,3
10,3
29,7
58,3
181,6
Rang

15

22

29

L'une des charnires est la mdiane des donnes de rang 1 15, l'autre est
celle des donnes de rang 15 29. Ce sont donc les donnes de rang 8 et de
rang 22, soit 10,3 et 58,3. Les chiffres 10,3 ; 29,7 et 58,3 situent les donnes
centrales.

FIGURE 2.5

Introduction la statistique applique

Revenus annuels de 29 fermes


8
7
6
Effectif

56

5
4
3
2
1
0

20

40

60

80

100 120
Revenus

140

160

180

200

Nous devons ensuite dterminer des nombres qui situent les extrmits de la
distribution. Comme nous l'avons dit plus haut, la plus petite et la plus
grande donnes pourraient servir, 1,3 et 181,6 dans l'exemple. Mais nous ne
sommes pas trs satisfaits du chiffre 181,6 : c'est bien la plus grande
donne, mais elle est beaucoup trop grande. La prsenter comme limite, c'est
cacher le fait que trs peu de donnes sont de cet ordre de grandeur. Nous
cherchons plutt des limites normales , donc des points qui ne s'loignent
pas trop des charnires. Pour des raisons thoriques, nous dfinirons une
distance normale comme une distance qui ne dpasse pas une fois et demie
l'cart entre les charnires. Dans les donnes ci-dessus, l'cart entre les
charnires est
58,3 - 10,3

48

et donc un cart normal aux charnires est


1,5 u 48 72 .

Toutes les donnes qui s'cartent de la charnire la plus proche de plus de


72 seront considres anormales et donc isoles. L'intervalle l'intrieur
duquel toutes les donnes sont normales est donc
(10,3 - 72 ; 58,3  72) ,
soit

(-61,7 ; 130,3) .

2 Mesures de tendance centrale et de dispersion

57

FIGURE 2.6 Moustache reprsentant les revenus annuels de 29 fermes (en milliers de dollars)

0
1,3 10,3

25
29,7

50

75
58,3

100

125

150

85,9

175

200

169,3 181,06

Nous n'allons pas nous en tenir ces limites, pour des raisons videntes la
premire limite est ngative, ce qui n'a pas de sens ; et les deux sont trop
loignes des donnes contenues dans l'intervalle. Nous prsenterons plutt
la plus petite donne et la plus grande donne comprises dans cet intervalle.
La plus petite donne dans l'intervalle (-61,7 ; 130,3) est 1,3 ; la plus grande
est 85,9. Nous prsenterons donc, en dfinitive, les cinq repres suivants :
1,3 ; 10,3 ; 29,7 ; 58,3 ; 85,9.
Nous ajoutons cela l'information qu'il y a deux donnes extrmes, soit :
169,3 et 181,6
Ces chiffres les cinq repres et les deux donnes extrmes peuvent tre
prsents dans un graphique comme celui de la figure 2.6, un type de
graphique que nous appelons moustache. Le rectangle, dont les cts
gauche et droit reprsentent les deux charnires, est divis par une droite
verticale situe au niveau de la mdiane. Des tiges s'tendent vers la gauche
et vers la droite, la premire aboutissant la limite infrieure 1,3 ; la
seconde la limite suprieure 85,9.
Une moustache rvle les caractristiques essentielles d'une distribution : le
rectangle est long ou court selon que les donnes sont concentres ou
disperses ; la position du rectangle est celle de la partie centrale des
donnes. En particulier, lorsque la distribution est symtrique, la barre se
trouve en plein centre et ses deux parties sont gales. Mais une moustache
n'est pas uniquement visuelle : une chelle permet de reprer les cinq
indices et les donnes extrmes. La moustache permet de voir qu'environ la

58

Introduction la statistique applique

moiti centrale des donnes se situe entre 10,3 et 58,3 (ou peu prs, selon
le dtail de l'chelle) ; que presque toutes les donnes sont entre 1,3 et 85,9 ;
et que celles qui ne s'y trouvent pas sont 169,3 et 181,6.
Dans n'importe quelle analyse, des donnes telles que ces deux dernires ne
doivent pas passer inaperues. Dans cet exemple, nous devrions tenter
d'expliquer pourquoi ces fermes sont si grandes compares aux autres. Les
chiffres sont-ils errons ? Si non, s'agit-il d'une autre forme de culture ?
S'agit-il de fermes coopratives ou corporatives ? Si oui, devrait-on traiter
cette catgorie comme une strate part ? Seul le contexte permet d'expliquer
ces donnes ; mais la moustache a permis de les signaler.
Remarque Lorsque le nombre de donnes est impair, la mdiane intervient
dans le calcul des deux charnires. Sinon, les charnires sont calcules
partir de deux moitis disjointes. Le calcul des mdianes se fait selon les
conventions tablies la section 2.1. Lorsque le nombre de donnes est pair,
la mdiane est la moyenne arithmtique des deux donnes centrales. Cela
s'applique aussi bien au calcul des charnires qu' celui de la mdiane de
l'ensemble des donnes.

2.4

TRANSFORMATION LINAIRE
Le passage des degrs Fahrenheit aux degrs Celsius, la relation entre les
valeurs respectives de deux monnaies, la relation entre la distance
parcourue par un taxi et le montant indiqu au compteur ne constituent que
trois exemples d'une des transformations mathmatiques les plus utilises.
De faon gnrale, soit X une variable, a et b deux constantes et soit Y une
variable dfinie en fonction de X par l'quation
Y

a  bX .

Cette transformation linaire associe chaque valeur x i de X une valeur


y i de Y par le calcul y i a  bx i . Alors la moyenne et la variance de chacune
des deux variables sont donnes en fonction l'une de l'autre par
y
et par

s Y2

a  bx
b 2 s X2 .

2 Mesures de tendance centrale et de dispersion

59

De cette dernire quation on obtient l'cart-type de Y :


sY

b sX

o b est la valeur absolue de b.


Exemple 18 Soit X le salaire des employs d'une compagnie. Supposons que x = 18 500 $
et s = 2 000 $. Supposons que chaque employ recevra l'anne prochaine une
augmentation de 15 % du salaire, plus un montant forfaitaire de 1000 $. Soit
Y le revenu des employs l'anne prochaine. Chaque salaire xi se verra
transform en un revenu yi calcul comme ceci :
1 000  1,15 x i

yi

En d'autres termes, la variable Y est lie la variable X par l'quation


1 000  1,15 X

Donc, l'anne prochaine, le revenu moyen des employs sera :


y

1 000  1,15 x
1 000  1,15 (18 500 )

22 275

L'cart-type sera :
sY

1,15 s X
1,15 ( 2 000 )
2 300

2.5

VARIABLE CENTRE RDUITE OU COTE Z


La transformation linaire particulire que nous tudions ici est souvent
utile ; elle permet de passer d'une variable X une variable Z centre
rduite, ainsi appele parce que sa moyenne est 0 et son cart-type, 1. Soit
donc une variable X et soit Z une autre variable, dfinie en fonction de X par
l'quation

X x
sX

60

Introduction la statistique applique

Notons que Z est souvent appele la cote Z de X. C'est une transformation


linaire qu'on peut crire sous la forme Z = a + bX :
Z

x
sX

1

s
X

La moyenne de Z est donc :


x

sX
et son cart-type est :

sZ

1

s
X

s
X

s
X

Exemple 19 Vous passez un test psychologique et vous obtenez le score x = 70. Si vous
ne connaissez pas bien ce test, vous ne pouvez pas interprter ce rsultat. Si
l'on vous dit que la moyenne de la population est x = 60, vous avez un
premier lment d'information utile : vous savez que vous vous situez
x  x 70  60 10 units au-dessus de la moyenne. Mais vous ne savez pas
encore si cet cart la moyenne est important ou non. Pour pouvoir
l'valuer, il faut que vous ayez une mesure de l'cart typique , et c'est
prcisment ce que mesure l'cart-type. Si l'on vous dit que l'cart-type est
sX = 5, alors vous savez que votre cart la moyenne est de 2 fois l'cart
typique. Ce chiffre, 2 , est votre cote Z. Elle s'interprte mieux que le score
brut de 70.
i
La cote Z s'avre particulirement utile lorsqu'on traite de variables dont la
distribution ne nous est pas familire. Il n'est peut-tre pas ncessaire de
calculer une cote Z pour savoir si un Canadien ayant un revenu de 80 000 $
par an est ais ou non. Mais une cote Z serait certainement utile pour situer
un Russe dont le revenu est de 4 000 roubles par annes. Si la cote Z
correspondant 4 000 roubles est 2, le Russe se situe 2 carts-types au
dessus de la moyenne et il est plutt ais relativement ses compatriotes.
En effet, quelle que soit l'unit de mesure originale, une cote Z de 2
reprsente une valeur importante.
En quel sens est-ce important ? C'est important dans le sens o la
proportion des membres d'une population qui se situe 2 carts-types ou
plus de la moyenne est petite. Ceci dcoule d'un thorme, d au

2 Mesures de tendance centrale et de dispersion

61

mathmaticien russe P. L. Tchebychev, duquel on peut dduire, entre


autres, qu' 2 carts-types ou plus de la moyenne on ne retrouve jamais plus
de 1 4 1 2 2 de la population ; qu' 3 carts-types ou plus de la moyenne on
ne retrouve jamais plus de 1 9

1 3 2 de la population ; et qu' 4 carts-types

ou plus de la moyenne on ne retrouve jamais plus 1 16

1 4

de la

population. Voici l'nonc de ce thorme :


Thorme de Tchebychev : Soit k un nombre suprieur 1, et soit p la
proportion des membres de la population dont la cote Z est soit suprieure
ou gale k, soit infrieure ou gale -k. Alors p n'est jamais suprieure
1/k2.
Il convient de prciser que, dans la plupart des cas, la valeur vritable de p
est beaucoup plus petite que la borne qu'on obtient en utilisant l'ingalit de
Tchebychev.
Exemple 20 Considrons une variable X de moyenne x = 100 et d'cart-type sX = 10.
Alors le thorme de Tchebychev permet d'affirmer que : au plus 1 2 2 1 4
des individus seront au moins 2 carts-types de x , donc hors de l'intervalle
(80, 120) ; au plus 1 3 2 1 9 des individus seront hors de l'intervalle (70,
130) ; au plus 1 4 2
etc.

1 16 des individus seront hors de l'intervalle (60,140) ;

Exemple 21 Une chane de supermarchs annonce tous les jeudis des ventes prix
rduits. Le grant de l'un de ces supermarchs dcide un jour de mettre une
annonce supplmentaire dans un journal local. Habituellement, ce grant
reoit en moyenne 2 000 clients le jeudi ; ce jeudi-l, il en reoit 2 400.
Peut-il conclure que son annonce dans le journal local a eu un effet ? La
question est de savoir si cet cart de 400 est suffisamment grand pour tre
significatif, c'est--dire, pour tre attribu plus qu'un simple hasard.
Supposons que l'cart-type du nombre de clients reus le jeudi est s = 80.
Alors le nombre 2 400 correspond une cote Z de (2 400 2 000)/80 = 5.
Cette cote Z importante porte croire que l'annonce a bien eu l'effet voulu.

62

Introduction la statistique applique

2.6

MOYENNES PONDRES ET MOYENNES AJUSTES


La moyenne d'une srie de donnes est la somme des donnes divise par le
nombre de donnes. Cependant, lorsque les donnes sont elles-mmes des
moyennes, chaque donne doit tre pondre, c'est--dire qu'elle doit tre
affecte d'un poids qui reflte son importance.

Exemple 22 Les gains hebdomadaires moyens, en dollars, pour les 10 provinces


canadiennes, en 1985, taient les suivants :
405,89 306,74 381,99 401,98 449,89 455,32 408,06 438,20 496,72 504,43
La moyenne de ces 10 nombres est 424,92 $. Mais est-ce la moyenne des
gains hebdomadaires pour l'ensemble du Canada ? Non, parce que chacune
des 10 moyennes est base sur un nombre diffrent d'individus. La moyenne
qui convient est une moyenne pondre. Le tableau 2.3 donne les gains
hebdomadaires ainsi que la distribution de la population active selon la
province.
TABLEAU 2.3

Gains hebdomadaires pour les dix provinces canadiennes, 1985


Province

Terre-Neuve
le-du-Prince-douard
Nouvelle-cosse
Nouveau-Brunswick
Qubec
Ontario
Manitoba
Saskatchewan
Alberta
Colombie-Britannique

Gains
(en dollars)

Proportion de la
population active

405,89
306,74
381,99
401,98
449,89
455,32
408,06
438,20
496,72
504,43

0,018
0,005
0,031
0,024
0,251
0,379
0,041
0,039
0,099
0,113
1,000

SOURCE : Annuaire du Canada, 1986-1987

La moyenne pondre se calcule en prenant la somme des produits des


moyennes par les frquences.
Moyenne (405,89 u 0,018)  (306,74 u 0,005)  ...  (504,43 u 0,113)
455,81

2 Mesures de tendance centrale et de dispersion

63

La moyenne pondre n'est pas une nouvelle sorte de moyenne ; nous


voulons uniquement attirer l'attention sur l'importance, dans le calcul d'une
moyenne de moyennes, de prendre en compte le poids relatif de chacun des
termes. La situation se complique lorsqu'on veut comparer les moyennes
pondres respectives de deux populations diffremment rparties. Pour
viter dans ce cas les aberrations que peuvent produire les variations de
frquences, on choisit souvent d'utiliser une pondration commune. On parle
alors de moyennes ajustes.
Exemple 23 Un chantillon de 1 731 francophones bilingues et de 191 anglophones
bilingues a t prlev. Le tableau 2.4, adapt d'un texte de Franois
Vaillancourt*, donne leurs salaires annuels moyens, en dollars, pour l'anne
1970, selon la catgorie d'emploi.
TABLEAU 2.4

Salaires des francophones et anglophones, par catgorie d'occupation


Francophones
Anglophones
Salaire
Salaire
Occupation
(en
(en
dollars)
dollars)
Effectif
Effectif
Cadres et ingnieurs
Sant / ducation
Employs de bureau
Vendeurs
Employs de production
TOTAL

10 243
8 505
5 924
7 498
6 242

261
147
272
218
833
1 731

13 505
7 784
5 841
8 882
6 292

41
12
35
32
71
191

Effectif
total
302
159
307
250
904
1 922

Afin de comparer francophones et anglophones, nous calculons la moyenne


de chaque groupe. Ensuite, pour pondrer, nous utilisons les effectifs
chantillonnaux, supposant que ceux-ci sont peu prs proportionnels aux
effectifs des populations respectives. Pour les francophones, la moyenne est :
(10 243 u 261)  ( 8 505 u 147 )  ( 5 924 u 272 )  ( 7 498 u 218 )  ( 6 242 u 833 )

7 146

1 731
Un calcul analogue pour les anglophones donne 8 285 $. Cette diffrence de
1 139 $ entre francophones et anglophones pourrait tre l'effet de deux
facteurs : 1) les francophones occupent des emplois moins payants ; 2) pour
une mme catgorie d'emploi, les francophones sont moins bien pays. Il est
vident que le premier facteur joue un rle important ici. On trouve, par
*

Dpartement de sciences conomiques et centre de recherche en dveloppement conomique, Cahier 7904,


Universit de Montral, 1979

64

Introduction la statistique applique

exemple, que 21 % des anglophones sont des cadres et ingnieurs alors que
seulement 15 % des francophones le sont. D'autre part, 48 % des
francophones sont des employs de production alors que seulement 37 %
des anglophones le sont. Cela a pour effet de baisser la moyenne des
francophones. Nous voudrions calculer deux moyennes de telle sorte que la
diffrence entre francophones et anglophones ne puisse pas tre attribue
des effets comme ceux-ci. En d'autres termes, nous voudrions que la
diffrence entre les deux ne soit pas affecte par des diffrences de
pondration.
La solution consiste employer une mme pondration pour les deux
moyennes. Quelle pondration ? Trois choix s'offrent nous : la pondration
des francophones, la pondration des anglophones ou une pondration qui
reflte la distribution de la catgorie d'emploi dans la population combine
des francophones et des anglophones. Ces mthodes sont toutes valables,
mais nous considrons ici la dernire seulement. Nous supposons encore
une fois que l'ensemble des deux chantillons reprsente bien la population
des anglophones et francophones runis.
Utilisant la pondration donne par les effectifs totaux, la moyenne ajuste
pour les francophones est :
(10 243 u 302 )  ( 8 505 u 159 )  ( 5 924 u 307 )  ( 7 498 u 250 )  ( 6 242 u 904 )

7 170

1 922

et la moyenne ajuste pour les anglophones est :


(13 305 u 302 )  ( 7 784 u 159 )  ( 5 841 u 307 )  ( 8 882 u 250 )  ( 6 292 u 904 )

7 814

1 922

Remarquez que la diffrence s'amenuise : elle est de 644 $ au lieu de


1 139 $. La diffrence de 1 139 $ est en partie due au fait que la distribution
de la catgorie d'emploi n'est pas la mme dans les deux populations, tandis
que la diffrence de 644 $ ne peut tre attribue qu'au fait que, pour une
catgorie d'emploi donne, les francophones sont en moyenne moins bien
pays.
i

2 Mesures de tendance centrale et de dispersion

65

RSUM
1. Soit x1 , x 2 , x n une srie de donnes. La moyenne arithmtique est
dfinie par :
xi

Le mode est la valeur ayant la plus grande frquence. Supposons que les
donnes sont ranges en ordre croissant ou dcroissant. La mdiane est
la donne centrale, lorsque n est impair ; elle est la moyenne
arithmtique des deux donnes centrales lorsque n est pair. Au moins
une moiti des donnes est infrieure ou gale la mdiane ; et au moins
une moiti est suprieure ou gale la mdiane.
Le quantile d'ordre D est soit la donne dont le rang est l'entier le plus
1
prs de Dn 
; soit, si Dn est entier, la moyenne des donnes de rangs
2
respectifs est Dn et Dn + 1.
En prenant pour D des multiples de 1/4, on obtient les quartiles ; en
prenant des multiples de 1/10 on obtient les dciles ; en prenant des
multiples de 1/100 on obtient les centiles.
La variance s 2 se dfinit par l'une ou l'autre des formules quivalentes
suivantes :
s

( xi  x )
n
2

x i  nx

xi  ( xi )

x x .
L'cart-type s est la racine carre de s 2 .
L'cart interquartile E est la diffrence des 3e et 1er quartiles :
E = Q3 Q1
2. Soit x1 , x 2 , x k les valeurs distinctes d'une variable, n1 , n 2 , n k les
effectifs correspondants et f 1 , f 2 , , f k les frquences correspondantes.

66

Introduction la statistique applique

Soit n

n i l'effectif total. Le mode est la valeur x laquelle correspond la

frquence f i la plus grande. On peut reprer la mdiane en imaginant les n


donnes crites au long.
La moyenne arithmtique se calcule par l'une ou l'autre des formules
suivantes :
x

xi ni

xi f i .

La variance est calcule par l'une ou l'autre des formules suivantes :


s2

( x i  x ) 2 ni

x 2  ( x i ni ) 2 n

x2  x 2 .

Les mmes formules s'appliquent aux donnes groupes en prenant pour


x i le point milieu de la i-me classe. Les rsultats, cependant, sont
approximatifs.
3. Soit X une variable de moyenne x et de variance s 2X . Soit Y

a  bX o a

et b sont des constantes. Alors la moyenne y , la variance s Y2

et

l'cart-type sY de Y sont donns par :


y

a  bx

s Y2

b 2 s X2

sY

b sX

4. Soit X une variable de moyenne x et d'cart-type s X . La nouvelle


variable
Z

X x
sX

est centre rduite, car de moyenne nulle et de variance 1. On l'appelle


souvent cote Z. Soit p la proportion des membres d'une population dont
la cote Z est soit suprieure ou gale k, soit infrieure ou gale k, o
k est un nombre suprieur 1. Alors p n'est jamais suprieure 1 k 2 .
5. Une dfinition gnrale de x est x

x i f i , o les f i reprsentent des

poids qui refltent l'importance relative de chaque valeur et dont la


somme vaut 1. Ces poids sont souvent les frquences d'une distribution,

2 Mesures de tendance centrale et de dispersion

67

mais lorsque les x i sont des moyennes de sous-populations, les f i sont


alors proportionnels aux tailles des sous-populations. Dans ce cas, x est
dite moyenne pondre des x i . Parfois, les moyennes de deux
populations ou plus sont calcules avec une pondration commune,
habituellement celle qui s'appliquerait la runion de ces populations.
Ces moyennes sont appeles moyennes ajustes.

EXERCICES
MESURES DE
TENDANCE

1. Calculez la moyenne arithmtique et la mdiane des donnes


suivantes. Dterminez aussi le mode, s'il existe.

CENTRALE

a) 2 2 3 3 3 4 4 4 4 4 4 5 5 6 7 8
b) 7,1 8,2 9,4 11,2 14,5 18,3 12,5
c) 2,8 2,7 3,9 4,7 2,8 1,9 7,8 8,4
2. Dterminez la mdiane et le mode de chacune des sries suivantes :
a) 20 21 22 23 24
b) 20 21 22 23 38
c) 5 21 22 23 24
3. Dterminez les trois quartiles de chacune des sries suivantes :
a) 0 1 1 1 2 3 3 3 3 4 7 9 9 9 12
b) 10 8 2 4 10 6 6 4 6
c) 2 2 2 2 2 2 2 8 10 12 20 30 40
4. Dterminez la moyenne arithmtique, la mdiane et les quartiles des
sries suivantes :
a) 1 2 3 4 ... 31
VARIANCE,
CART-TYPE ET
CART
INTERQUARTILE

b) 20 19 18 ... 1 0 1 2 ... 20
5. Calculez la variance et l'cart-type de chacune des sries donnes aux
numros 1 et 2.
6. Laquelle des deux sries suivantes vous semble la plus disperse ?
Confirmez votre rponse en calculant l'cart-type de chacune.
A : 40 49 50 51 60
B : 48 49 50 51 52

68

Introduction la statistique applique

7. Laquelle des deux sries suivantes vous semble la plus disperse ?


Confirmez votre rponse en calculant l'cart-type de chacune.
A : 40 50 60 70 80
B : 40 59 60 61 80
8. La srie B ci-dessous est obtenue en ajoutant 10 chaque membre de la
srie A. Intuitivement, comment se comparent les deux carts-types ?
Confirmez votre intuition en calculant les deux carts-types.
A : 0 5 10 15 20
B : 10 15 20 25 30
9. La srie B ci-dessous est obtenue en multipliant par 5 chaque membre
de la srie A. Intuitivement, comment se comparent les deux
carts-types ? Confirmez votre intuition en calculant les deux
carts-types.
A : 0 5 10 15 20
B : 0 25 50 75 100
10. Calculez la variance de la srie suivante en employant les trois formules
donnes dans la section 2.2.
5 8 12 16 19
11. Calculez l'cart interquartile de chacune des sries donnes aux numros
3 et 4.
12. Comparez les diverses mesures de tendance centrale et de dispersion que
l'on peut utiliser pour dcrire la srie suivante de notes (sur 10) un
examen de statistique.
7 7 0 10 4 8 8 8 4 7 7 8 0 4 4 8 8 8 8

2 Mesures de tendance centrale et de dispersion

69

13. Les donnes suivantes reprsentent les revenus moyens des mnages
dans 100 subdivisions de recensement. Construisez une moustache pour
les reprsenter. Quelles sortes de quartiers seront au-del des limites ?
13 441
13 489
13 893
14 052
15 383
16 333
16 347
16 370
16 480
16 510

16 870
17 186
17 353
17 428
17 465
17 617
17 648
17 825
17 875
18 151

18 269
18 365
18 540
18 542
18 555
18 712
18 905
18 966
18 982
19 182

19 366
19 498
19 533
19 725
19 806
19 974
20 139
20 230
20 271
20 306

20 364
20 495
20 754
20 798
20 799
20 877
20 883
21 160
21 232
21 240

21 295
21 410
21 440
21 580
21 597
21 722
21 787
21 888
21 909
22 137

22 196
22 323
22 350
22 361
22 436
22 496
22 533
22 681
22 845
22 914

23 504
23 548
23 580
23 598
24 130
24 299
24 423
24 476
25 002
25 364

26 248
26 385
26 713
26 736
26 789
27 651
28 002
28 041
28 698
28 881

30 214
32 720
33 532
33 750
34 406
35 136
38 275
39 307
44 853
49 754

SOURCE : Statistique Canada

14. Les donnes suivantes reprsentent les revenus nets, exprims en


pourcentage des ventes, de 74 compagnies. Tracez une moustache pour
les reprsenter.
0,1
0,7
0,8
1,0
1,4
1,8
2,0
2,0
2,3
2,4

MESURES
D'UNE
DISTRIBUTION

15

2,6
2,8
2,9
3,0
3,1
3,2
3,3
3,4
3,4
3,5

3,5
3,5
3,6
3,7
3,7
3,8
3,8
3,8
3,9
4,1

4,1
4,2
4,3
4,3
4,4
4,4
4,5
4,6
4,6
4,7

4,7
4,8
4,8
4,8
4,9
4,9
5,2
5,3
5,5
5,5

5,6
5,7
6,5
6,7
6,9
6,9
7,4
7,6
7,7
7,7

7,7
7,8
7,9
7,9
8,0
8,1
8,2
8,2
8,4
8,8

9,4
15,2
18,5
25,3

Dterminez la moyenne arithmtique, la mdiane, le mode, la variance et


l'cart-type de la distribution suivante :
Valeur

TOTAL

Effectif

10

Employez les formules de la section 2.3, puis recommencez les calculs en


appliquant les formules de la section 2.2 la srie :
0 5 5 5 7 7 77 8 8
Examinez de prs les deux sries de calculs pour constater que les deux
mthodes reviennent au mme.

70

Introduction la statistique applique

16. Laquelle des deux variables suivantes vous semble la plus disperse ?
Justifiez votre rponse l'aide de graphiques et des deux carts-types :
Variable X
x

TOTAL

Effectif

10

TOTAL

Effectif

10

Variable Y

17. Dterminez la moyenne arithmtique, le mode, la mdiane, la variance et


l'cart-type de la distribution suivante :
Valeur
Frquence

TOTAL

0,1

0,4

0,2

0,2

0,l

18. Dterminez l'cart interquartile de chacune des distributions suivantes.


a)

TOTAL

Effectif

11

37

b)

Frquence
TRANSFORMATIONS
LINAIRES

19

0dx<4

4dx<8

8dx<16

16dx<20

0,12

0,37

0,19

0,32

Soit x1 , x 2 , x 3 , x 4 , x 5 , la srie suivante :


5 7 11 13 15
Construisez une nouvelle srie y1 , y 2 , y 3 , y 4 , y 5 , en multipliant chaque
terme de la premire srie par 2 puis en ajoutant 10 au produit.
numrez les lments de cette deuxime srie. Calculez la moyenne x
et la variance s X2 de la premire srie, ainsi que la moyenne y et la
variance s Y2
s

2
Y

2
X

4s .

de la deuxime srie. Vrifiez que

2 x  10

et que

2 Mesures de tendance centrale et de dispersion

71

20. Calculez la moyenne et l'cart-type de la srie :


2 5 7 9 12
Employez la moyenne et l'cart-type obtenus pour calculer la moyenne et
l'cart-type de la srie :
2 012 2 030 2 042 2 054 2 072
21. La moyenne et la variance d'une srie de tempratures quotidiennes, en
degrs Celsius, sont respectivement 18 et 25. Dterminez la moyenne et
la variance de la mme srie, exprime en degrs Fahrenheit
(qF = 32 + 9 qC).
5

COTE Z

22. Votre note est de 68 dans une classe o la moyenne est de 54 et


l'cart-type est de 14. Quelle est votre cote Z ?
23. Calculez la cote Z de chaque membre de la srie 5 7 8 9 11, puis calculez
la moyenne et la variance des 5 cotes Z.
24. Un mdecin vous dit que votre pression intra-oculaire est de 23. Pour
une population de 100 000 personnes de votre ge, la pression moyenne
est de 17 avec un cart-type de 2,5. Combien, au maximum, y a-t-il de
personnes dans la population qui ont une pression au moins aussi
loigne de la moyenne que la vtre ?

MOYENNES
PONDRES
OU AJUSTES

25. Deux cent cinquante tudiants rpartis en six groupes ont suivi un cours
de statistique. Le nombre d'tudiants et la note moyenne de chaque
groupe sont indiqus dans le tableau suivant :
Groupe

Nombre d'tudiants

Moyenne du groupe

1
2
3
4
5
6

47
38
30
55
40
40

63
61
68
54
72
73

Calculez la moyenne des 250 tudiants.

72

Introduction la statistique applique

26. Le propritaire de deux concessions de vente d'automobiles analyse le


rendement de ses deux concessions. La concession X a vendu 313
voitures un prix moyen de 16 262 $ ; la concession Y a vendu 295
voitures un prix moyen de 13 831 $. Avant de reprocher au grant de
la concession Y de vendre les voitures un prix trop bas, le propritaire
examine le dtail des ventes par catgories de voitures. Le
concessionnaire X a vendu 43 voitures de catgorie A, 50 de catgorie B,
70 de catgorie C et 150 de catgorie D. Le concessionnaire Y a vendu 10
voitures de catgorie A, 20 de catgorie B, 65 de catgorie C et 200 de
catgorie D. Le prix moyen, en milliers de dollars, pour chaque
concessionnaire et pour chaque catgorie de voitures est donne par le
tableau suivant :
Prix moyen par catgorie de voitures (en milliers de dollars)
A

30

22

15

11

31

23

14

12

Calculez une moyenne pour chaque concessionnaire de faon que la


diffrence entre les deux moyennes ne soit pas affecte par la diffrence
dans les distributions des catgories de voitures.
27. Soit X le revenu annuel des corporations multinationales dont le sige
social est situ au Canada ; et soit Y le revenu annuel des petites et
moyennes entreprises du Canada. D'aprs vous, l'cart-type de X est-il
suprieur ou infrieur celui de Y ? Discutez.
28. Calculez l'cart-type des tempratures en janvier et l'cart-type des
tempratures en juillet Montral partir des donnes suivantes :
Tempratures moyennes Montral - janvier et juillet, 1965-1976 (en qCelsius)
Anne

Janvier

Juillet

1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976

10,0
9,4
5,6
12,2
7,2
13,3
11,1
6,7
6,1
9,8
6,3
11,9

20,0
21,7
22,2
22,2
21,7
23,3
21,7
21,7
21,7
23,3
21,0
23,9

SOURCE : Annuaire du Qubec, 1971, 1980

2 Mesures de tendance centrale et de dispersion

73

29. Voici la distribution du nombre de familles par logement pour la rgion


mtropolitaine de Montral en 1981 :
Nombre de familles

Effectif

0
1
2 et plus

293 390
724 975
8 560

TOTAL

1 026 925

SOURCE : Recensement du Canada, 1981

a) Quel est le mode de cette variable ?


b) Quelle est la mdiane ?
30. Dites lesquelles des propositions suivantes sont vraies. Pour celles qui ne
sont pas vraies, trouvez un contre-exemple.
a) 50 % des donnes sont infrieures la mdiane et 50 % sont
suprieures la mdiane.
b) 50 % des donnes sont infrieures ou gales la mdiane.
c) Au plus 50 % des donnes sont infrieures ou gales la mdiane.
d) Au moins 50 % des donnes sont infrieures ou gales la mdiane.
e) Au plus 50 % des donnes sont infrieures la mdiane.
31. Voici les distributions du nombre de personnes par mnage, pour la
rgion mtropolitaine de Montral et pour la ville de Montral :
Effectif
Nombre de personnes
Rgion mtropolitaine

Ville de Montral

1
2
3
4 et 5
de 6 9
10 ou plus

120 370
201 110
148 510
240 630
91 035
4 370

84 100
109 905
70 735
93 975
34 265
1 746

TOTAL

806 025

394 726

SOURCE : Recensement du Canada, 1971

a) Calculez la mdiane et le mode pour la ville de Montral.


b) Est-il possible d'en faire autant pour la rgion mtropolitaine ?
32. Soit A la srie des 365 tempratures quotidiennes Montral en 1981 et
B la srie des 365 tempratures quotidiennes Miami en 1981. D'aprs
vous, laquelle des deux sries a une plus grande variance ?

74

Introduction la statistique applique

33. Deux supermarchs, A et B, reoivent en moyenne le mme nombre de


clients par jour. Cependant, l'cart-type est beaucoup plus lev au
supermarch A. D'aprs vous, lequel des deux supermarchs aura des
dpenses en personnel plus leves ?
34. Dans une rgion du globe un peu aride, on enregistre la prcipitation
quotidienne pendant 60 jours conscutifs. La moyenne des 60 donnes
est gale 0. Que vaut l'cart-type ?
35. Un test de dextrit manuelle donne un score moyen de 60 pour la
population. Un score de 65 est donc suprieur la moyenne. Dans lequel
des deux cas suivants un score de 65 est-il plus spectaculaire ?
a) L'cart-type de la population est gal 1.
b) L'cart-type de la population est gal 20.
36. Le tableau suivant donne la rptition des revenus en 1984 des familles
canadiennes ayant un revenu infrieur 60 000 $.
Revenu

Frquence

< 5 000 $
5 000 - 9 999
10 000 - 11 999
12 000 - 14 999
15 000 - 16 999
17 000 - 19 999
20 000 - 21 999
22 000 - 24 999
25 000 - 26 999
27 000 - 29 999
30 000 - 31 999
32 000 - 34 999
35 000 - 36 999
37 000 - 39 999
40 000 - 44 999
45 000 - 49 999
50 000 - 59 999

0,017
0,063
0,037
0,072
0,047
0,062
0,040
0,062
0,047
0,067
0,045
0,069
0,045
0,062
0,092
0,072
0,101

SOURCE : Statistique Canada

Estimez la moyenne et la mdiane de ces revenus, ainsi que l'cart-type,


les quartiles et l'cart interquartile.
37. Considrons les variables X et Y, o X reprsente la proportion
quotidienne de garons parmi les nouveaux-ns d'un petit hpital et Y la
proportion quotidienne parmi tous les nouveaux-ns canadiens. D'aprs
vous, laquelle des deux variables a le plus grand cart-type ? Discutez.

2 Mesures de tendance centrale et de dispersion

75

38. La variance d'une variable dpend-elle de l'unit de mesure ? Considrez,


par exemple, les tailles d'une population. La variance change-t-elle selon
que les tailles sont exprimes en pouces ou en centimtres ? La cote Z
d'une personne change-t-elle selon que les tailles sont exprimes en
pouces ou en centimtres ?
39. Deux tudiants terminent un cours de comptabilit. L'tudiant A, qui a
suivi le cours avec le charg de cours X a obtenu la note 69 l'examen
final ; l'tudiant B, avec le charg de cours Y, a obtenu la note 75. Pour
la classe de X, la moyenne est de 60 et l'cart-type de 3 ; pour Y la
moyenne est galement de 60, et l'cart-type de 10. Lequel des deux
tudiants a eu le meilleur rsultat ?
40. Dans un cours, il y a deux examens de mme importance : un intra et un
final. La note moyenne de la classe est de 60 pour les deux examens,
mais l'cart-type est de 10 l'intra et de 20 au final. Un tudiant a eu 60
l'intra et 80 au final ; un autre a eu 80 l'intra et 60 au final. Lequel
est le meilleur ? Discutez.
41. Un marchand se plaint la ville du fait que certains travaux effectus
par la municipalit ont caus une diminution de la circulation sur la rue
du marchand et donc une baisse dans ses recettes. Pour appuyer sa
plainte, il signale que ses recettes sont en moyenne de 20 000 $ par jour,
et que le jour des travaux elles n'taient que de 19 500 $. La ville
rplique qu'un cart de 500 $, pour des recettes moyennes de 20 000 $,
est trop petit et donc ne dmontre rien. Le marchand calcule alors
l'cart-type de ses recettes quotidiennes. Il trouve s = 100 $. Qui a
raison ?
42. Une succursale de banque reoit constamment les dpts sous la forme
de rouleaux de 40 pices de 25 . Pour s'assurer que ces rouleaux
contiennent bien 40 pices, le grant conoit l'ide de mesurer les
longueurs des rouleaux dposs et de rejeter ceux qui seraient trop longs
ou trop courts. Pour fixer des critres, il mesure plusieurs centaines de
rouleaux de 40 pices. Il trouve que leurs longueurs ont une moyenne de
65 mm avec un cart-type de 0,99 mm. Ds lors, il dcide de rejeter tout
rouleau de moins de 62,03 cm et de plus de 67,97 mm. Quel est, au
maximum, le pourcentage des rouleaux contenant rellement 40 pices
qu'il rejettera ?
43. Un vrificateur doit faire une estimation du montant total des comptes
payer. Il y a en tout 10 570 comptes, rpartis en 3 strates , selon
l'importance du compte : il y a 70 comptes dans la strate 1, 500 comptes
dans la strate 2 et 10 000 comptes dans la strate 3. Pour estimer le
montant total il procde par chantillonnage. Dans la strate 1, il choisit
au hasard 20 comptes. Il trouve que le montant moyen par compte est de

76

Introduction la statistique applique

3 010,75 $. De la strate 2, il tire 200 comptes et trouve une moyenne de


580,60 $. De la strate 3, il tire 300 comptes et trouve une moyenne de
89,78 $. Supposez que ces moyennes chantillonnales sont de bonnes
estimations des vraies moyennes des strates. Estimez alors le montant
total des comptes payer.
44. Un taux de mortalit est essentiellement une moyenne : il reprsente le
nombre de dcs par 1 000 habitants en une anne donne. Le tableau
suivant donne le taux de mortalit pour des hommes et des femmes de 5
ans et plus en 1971, par groupe d'ge. Il donne galement la distribution
de l'ge des Canadiens de 5 ans et plus.
a) Calculez le taux de mortalit pour les hommes et pour les femmes en
pondrant selon les frquences ci-dessus.
b) Lorsqu'on calcule le taux de mortalit des hommes en utilisant la
distribution de l'ge des hommes (qui n'est pas donne ici), on obtient
le taux de 8,5 ; un calcul analogue pour les femmes donne un taux
de 6,1. Interprtez les diffrences que vous trouvez entre ces taux et
ceux que vous avez calculs en a).
Taux
ge
5-9
10 - 14
15 - 19
20 - 24
25 - 29
30 - 34
35 - 39
40 - 44
45 - 49
50 - 54
55 - 59
60 - 64
65 - 69
70 - 74
75 - 79
80 - 84
85 +

Frquence
Hommes

Femmes

0,6
0,5
1,4
1,8
1,5
1,6
2,2
3,6
5,7
9,3
14,6
22,9
34,7
51,9
79,0
118,8
198,5

0,4
0,3
0,6
0,6
0,6
0,9
1,3
2,1
3,0
4,6
7,2
11,0
17,3
28,3
48,1
82,4
163,3

0,114
0,117
0,107
0,096
0,080
0,067
0,064
0,064
0,062
0,053
0,048
0,039
0,032
0,023
0,016
0,010
0,008
1,000

SOURCE : Recensement du Canada, 1971

45. Le tableau suivant donne, pour les hommes et pour les femmes, le
revenu annuel moyen en dollars pour l'anne 1971, selon le nombre de
semaines de travail. Il s'agit des personnes de 15 ans et plus ayant
travaill plein temps. Les effectifs sont en milliers.
a) Calculez le revenu moyen des hommes et le revenu moyen des
femmes.

2 Mesures de tendance centrale et de dispersion

77

b) Calculez, pour les hommes et pour les femmes, les moyennes


ajustes pour le nombre de semaines de travail.
Hommes
Nombre de
semaines
1 -13
14 - 26
27 - 39
40 - 48
49 - 52

Effectif
274,5
352,3
442,4
736,0
3 541,1

Femmes
Revenu
(en dollars)
1 591
2 973
4 788
7 162
8 230

Effectif
234,0
258,7
236,3
323,2
1 276,5

Revenu
(en dollars)
845
1 889
3 026
4 026
4 932

SOURCE : Annuaire du Canada 1976-1977

46. Le tableau suivant donne le montant de l'impt fdral pay en 1974 et


en 1973 par les contribuables dont le revenu a t d'au moins 2 000 $.
Catgorie de
revenu (X)
(en milliers de
dollars)
2dX<3
3dX<5
5dX<7
7 d X < 10
10 d X < 15
15 d X < 25
25 d X < 50
50 d X

Nombre de contribuables
(en milliers)

Impt fdral pay


(en millions de dollars)

1973

1974

1973

1974

571,0
1 702,6
1 662,0
1 975,3
1 669,0
599,9
142,9
34,9

427,8
1 381,7
1 594,4
1 985,8
2 155,2
1 037,7
224,5
50,0

13,8
322,3
777,6
1 721,0
2 582,2
1 713,0
937,9
765,0

1,2
158,2
594,4
1 519,4
3 089,6
2 796,9
1 384,2
1 071,3

SOURCE : Annuaire du Canada, 1976-1977

a) Comparez, pour chaque tranche de revenu, l'impt moyen pay par


les contribuables en 1973 et en 1974.
b) Comparez, pour l'ensemble de tous les contribuables (de revenu
suprieur 2 000 $), l'impt moyen pay en 1973 et en 1974.

Distributions deux
variables qualitatives

3.1
3.2
3.3
3.4
3.5
3.6

Distribution conjointe
Distribution marginale
Distribution conditionnelle
Indpendance
Dpendance et causalit
Un test d'indpendance
x Les effectifs thoriques
x Le khi-deux
RSUM
EXERCICES

3 Distributions deux variables qualitatives

79

Introduction Certaines tudes statistiques, conues des fins trs prcises,


se concentrent sur un seul caractre des units observes. Lorsqu'on fait des
prlvements rguliers pour contrler la qualit d'une production, on
s'intresse gnralement un seul indice de qualit. Cela peut tre une
variable qualitative qui identifie un article comme tant acceptable ou non ;
ou une variable quantitative mesurant une caractristique de l'article,
comme le poids net du contenu, pour une bote de conserve ; ou la force de
rupture, pour un matriau ; ou la concentration de matires grasses, pour
un morceau de fromage.
Beaucoup d'autres tudes, cependant, ont un objectif plus large ou plus
vague ; elles accumulent alors des donnes sur plusieurs variables. Un questionnaire rempli par un certain nombre de rpondants, par exemple,
engendre autant de variables qu'il contient de questions. Dans ces cas-l,
l'intrt peut porter non seulement sur chacune des questions comme telle,
mais galement on peut mme dire surtout sur les liens qui peuvent exister entre les variables. En fait, certaines tudes ont pour unique but d'tablir
l'existence d'un lien entre certaines variables. L'pidmiologue qui prlve des
donnes sur la consommation de cigarettes et l'tat des poumons ne cherche
pas savoir quelle est la consommation de cigarettes de la population, ni
quel est l'tat des poumons de cette population. Il cherche savoir s'il y a un
lien entre la consommation de cigarettes et l'tat des poumons. L'information
qu'il possde sur ces deux variables doit donc tre prsente de faon faire
ressortir ce lien.

3.1

DISTRIBUTION CONJOINTE
Soit X et Y deux variables qualitatives dfinies sur une mme population. On
peut prsenter la distribution de chacune l'aide des moyens dcrits dans le
chapitre 1. L'information contenue dans ces deux distributions distinctes se
rvle toutefois insuffisante si l'objectif consiste tudier la relation entre les
variables. Pour cela, l'information essentielle prend la forme d'une
distribution conjointe.
Le tableau 3.1 prsente la distribution conjointe de deux variables dfinies
pour l'ensemble des bbs au Qubec en 1983 ; les variables sont :
X : sexe (garon, fille)
Y : poids la naissance (faible, moyen, lev, trs lev)

80

Introduction la statistique applique

Nous avons dj examin sparment les distributions des poids pour les
filles et pour les garons, et les avons mme compares en utilisant les polygones de frquences (voir fig. 1.6, page 13). Ici, nous les tudions conjointement, en tant que variables qualitatives. Tout comme la distribution d'une
seule variable, la distribution conjointe de deux variables fait correspondre
un effectif une valeur , sauf qu'ici la valeur est en fait un couple : une
valeur de X et une valeur de Y. Par exemple, au couple (fille, lev), la distribution du tableau 3.1 fait correspondre l'effectif 27 566, ce qui veut dire qu'il
y a eu en 1983 au Qubec 27 566 bbs qui taient des filles et qui avaient
un poids lev la naissance.
TABLEAU 3.1

Sexe (X) et poids la naissance (Y) des bbs qubcois 1983


Y : poids la naissance
X : Sexe

Faible

Moyen

lev

Trs lev

(0,5-2 kg)

(2-3 kg)

(3-4 kg)

(4+ kg)

TOTAL

Garons

830

8 615

30 784

4 839

45 068

Filles

862

11 183

27 566

2 348

41 959

1 692

19 798

58 350

7 187

87 027

TOTAL

SOURCE : Bureau de la statistique du Qubec

TABLEAU 3.2

Sexe (X) et poids des bbs (Y) Qubec 1983


X : Sexe

Y : poids la naissance
Faible

Moyen

lev

Trs lev

TOTAL

Garons

0,009

0,099

0,354

0,056

0,518

Filles

0,010

0,128

0,317

0,027

0,482

0,019

0,227

0,671

0,083

1,000

TOTAL
SOURCE : Tableau 3.1

Une distribution conjointe peut galement s'exprimer en frquences : il suffit


de diviser chaque effectif par l'effectif total. Le tableau 3.2 exprime, en
frquences, la distribution du tableau 3.1.

3.2

DISTRIBUTION MARGINALE
Le tableau 3.1 (ou 3.2) contient bien plus d'information que ne
contiendraient deux tableaux donnant l'un la distribution de X, l'autre celle
de Y. Du reste, ces deux distributions, appeles distributions marginales
dans ce contexte, se retrouvent intgralement dans les marges du tableau

3 Distributions deux variables qualitatives

81

3.1 (ou 3.2). Les effectifs (frquences) de la distribution de X sont les sommes
des lignes du tableau 3.1 (ou 3.2). Les effectifs (frquences) de la distribution
de Y sont les sommes des colonnes du tableau 3.1 (ou 3.2). Ainsi, la
distribution marginale de Y est (voir tableau 3.2) :
Y

Faible

Moyen

lev

Trs lev

TOTAL

Frquence

0,019

0,227

0,671

0,083

1,000

Cette distribution est simplement la distribution de Y. Il n'y a pas de


diffrence entre distribution de Y et distribution marginale de Y .
L'adjectif marginale est employ dans ce contexte pour distinguer la distribution marginale de la distribution conditionnelle, que nous introduisons
maintenant.

3.3

DISTRIBUTION CONDITIONNELLE
La distribution conjointe de deux variables X et Y contient toute l'information
ncessaire l'tude de la relation entre les variables. Mais elle ne met pas
cette relation clairement en vidence. La notion de relation ou de
dpendance entre deux variables s'exprime en termes de distributions
conditionnelles. Une distribution conditionnelle de Y est la distribution de Y
confine une tranche de la population, cette tranche tant dfinie par une
valeur de X. Par exemple, la distribution conditionnelle de Y tant donn X =
garon est la distribution de Y limite l'ensemble des garons. D'aprs le
tableau 3.1, la distribution de Y pour cette sous-population (les garons) est
la suivante :
Y
Effectif

Faible

Moyen

lev

Trs lev

TOTAL

830

8 615

30 784

4 839

45 068

L'analyse qui suit rclame que l'on exprime cette distribution en frquences.
Lorsqu'on divise chaque effectif par l'effectif total, on obtient la distribution
suivante :
Distribution conditionnelle de Y tant donn X = garon
Y

Faible

Moyen

lev

Trs lev

TOTAL

Frquence

0,019

0,191

0,683

0,107

1 000

82

Introduction la statistique applique

On peut dterminer de la mme faon la distribution conditionnelle de Y


tant donn X = fille. Afin d'tudier la dpendance entre les deux variables,
on juxtapose les distributions conditionnelles de Y tant donn chacune des
valeurs de X. Le tableau 3.3 donne les deux distributions conditionnelles
(ainsi que la distribution marginale).
TABLEAU 3.3

Distributions conditionnelles des poids la naissance (Y) tant donn le sexe (X)
(en frquences)
X : sexe
Garons
Filles
Toutes naissances

TABLEAU 3.4

Y : poids la naissance

TOTAL

Faible

Moyen

lev

Trs lev

0,019
0,021
0,019

0,191
0,266
0,227

0,683
0,657
0,671

0,107
0,056
0,083

1,000
1,000
1,000

Distributions conditionnelles du sexe (X) tant donn le poids (Y) la naissance (en frquences)
Y : poids la naissance
Faible
Moyen
lev
Trs lev
Toutes naissances

X : sexe

TOTAL

Garon

Fille

0,491
0,435
0,528
0,673
0,518

0,509
0,565
0,472
0,327
0,482

1,000
1,000
1,000
1,000
1,000

Le tableau 3.3 permet de donner un sens prcis la proposition le poids


des bbs la naissance dpend de leur sexe . Cette proposition signifie, en
gros, que le poids n'est pas le mme chez les garons et chez les filles. Plus
prcisment, les distributions conditionnelles ne sont pas identiques. Le
tableau 3.3 met cette observation en vidence, et cela nous fait dire que le
poids dpend du sexe : la distribution conditionnelle de Y change selon que
X = garon ou X = fille .
Une fois tabli qu'il y a dpendance, on s'interroge alors sur la nature de
cette dpendance. On peut dire alors qu'il y a presque la mme frquence de
trs petits bbs, il y a sensiblement plus de filles de poids moyen et
sensiblement plus de garons de poids lev.
Nous avons jusqu'ici fait jouer des rles apparemment diffrents nos deux
variables. En ralit, il n'existe aucune raison mathmatique pour
prfrer une variable une autre. Du point de vue technique, une
information aussi valable est donne par les distributions conditionnelles de
X par rapport aux valeurs de Y. Ces distributions (de mme que la
distribution marginale) sont prsentes au tableau 3.4.

3 Distributions deux variables qualitatives

83

De mme que le tableau 3.3 indique que Y dpend de X, le tableau 3.4


indique que X dpend de Y ; en effet, les distributions conditionnelles de X
tant donn chaque valeur de Y sont diffrentes. Mathmatiquement, les
deux propositions ( Y dpend de X , X dpend de Y ) sont aussi vraies (ou
fausses) l'une que l'autre, et toujours simultanment vraies (ou fausses).
Intuitivement, une de ces propositions est, le plus souvent, plus naturelle
que l'autre car on attribue spontanment une des deux variables un rle
de cause, l'autre un rle d'effet. Dans le cas prsent, puisque, s'il y a
dpendance, c'est le poids qui dpend du sexe et non l'inverse, on prfre
prsenter les distributions conditionnelles du poids de chaque sexe.

3.4

INDPENDANCE
En gnral, lorsque les distributions conditionnelles de Y tant donn les
valeurs de X ou les distributions conditionnelles de X tant donn les valeurs
de Y sont diffrentes, on dit que Y dpend de X (ou que X dpend de Y, le
choix entre ces deux affirmations dpendant du contexte intuitif). Dans le
cas contraire, c'est--dire quand les distributions conditionnelles de Y (ou
celles de X) sont identiques, on dit que les deux variables X et Y sont
indpendantes. L'indpendance peut se caractriser de plusieurs faons ;
nous en donnons ici les plus utilises.
a) Si X et Y sont indpendantes, alors les distributions conditionnelles de Y
(exprimes en frquences) sont identiques entre elles, quelle que soit la
valeur de X, et sont alors ncessairement identiques la distribution
marginale de Y.
b) Si X et Y sont indpendantes, alors les distributions conditionnelles de X
(exprimes en frquences) sont identiques entre elles, quelle que soit la
valeur de Y, et sont alors ncessairement identiques la distribution
marginale de X.
c) Si X et Y sont indpendantes, alors, dans le tableau donnant leur
distribution conjointe, l'effectif de chaque case est en fonction des totaux
de la ligne et de la colonne dans lesquelles se trouve la case. L'effectif de
la case situe l'intersection de la ligne i et de la colonne j est gal :
(total de la ligne i) u (total de la colonne j) y (effectif total).
d) Si X et Y sont indpendantes, alors, pour chaque case du tableau, la
frquence de cette case est gale au produit des frquences marginales
de la ligne et de la colonne qui se rencontrent cette case.

84

Introduction la statistique applique

Exemple 1

Considrons les deux variables :


X : langue maternelle
Y : quotient intellectuel.
Supposons que la distribution conjointe de ces deux variables (obtenue d'un
chantillon de 120 tudiants) est la suivante :
X : langue maternelle

Franais
Anglais
Autres
TOTAL

Y : quotient intellectuel

TOTAL

Infrieur 100

Suprieur ou gal 100

18
27
9
54

22
33
11
66

40
60
20
120

Les distributions conditionnelles de Y sont :


X : langue maternelle

Y : quotient intellectuel
Infrieur 100

Franais
Anglais
Autres
TOTAL

0,45
0,45
0,45
0,45

TOTAL

Suprieur ou gal 100


0,55
0,55
0,55
0,55

1,00
1,00
1,00
1,00

Puisque les distributions conditionnelles sont gales, nous concluons que les
variables sont indpendantes : le quotient intellectuel ne dpend pas de la
langue maternelle. Remarquez que les distributions conditionnelles sont non
seulement identiques l'une l'autre, mais aussi la distribution marginale.
On observe le mme phnomne dans les distributions conditionnelles de X
tant donn Y :
X : langue maternelle

Y : quotient intellectuel
Infrieur 100

Franais
Anglais
Autres
TOTAL

1/3
1/2
1/6
1

Suprieur ou gal 100


1/3
1/2
1/6
1

1/3
1/2
1/6
1

Finalement, remarquez que l'effectif 18 de la case situe la premire


ligne, premire colonne est gal 40 u 54 y 120 (c'est--dire, au produit du
total de la premire ligne par le total de la premire colonne, divis par
l'effectif total). Le lecteur peut vrifier cette proprit pour les autres cases. i

3 Distributions deux variables qualitatives

85

Remarque Les donnes de l'exemple 1 sont fictives, et pour une bonne raison.
En pratique, des donnes comme celles-ci, avec des distributions
conditionnelles tout fait identiques, ne se produisent jamais. La dfinition
d'indpendance donne ici reprsente une situation idalise qui ne se reflte
pratiquement jamais dans des donnes relles. En pratique, on ne devrait pas
conclure que les variables sont dpendantes ds qu'on observe les moindres
petits carts entre les distributions conditionnelles. Car enfin, des variables
indpendantes, cela existe ! Nous aborderons cette question dans la section
3.6 ; pour l'instant, nous continuerons ne dclarer indpendantes que les
variables dont les distributions conditionnelles sont strictement identiques.

3.5

DPENDANCE ET CAUSALIT
Il est rare que l'on tudie la dpendance entre deux variables sans envisager,
par le fait mme, la possibilit d'un lien de causalit entre les variables.
Considrez, par exemple, les nombreuses tudes qui tablissent, d'une faon
ou d'une autre, l'existence d'un lien entre l'tat de sant et la consommation
de cigarettes. Si, par des moyens statistiques, on dmontre qu'il existe un
lien entre ces deux variables, on rsiste difficilement la tentation de
conclure que la cigarette cause la maladie. Si cette conclusion est
vraisemblable, elle n'est pas vidente, et il demeure important de se rendre
compte des risques qu'il y a identifier trop htivement une variable la
cause, l'autre l'effet. Il peut arriver que la dpendance entre deux variables
soit due, non pas l'effet de l'une sur l'autre, mais l'effet simultan d'une
troisime variable sur les deux premires. Nous illustrons ce phnomne,
encore une fois, l'aide d'un exemple idalis.

Exemple 2

Imaginez une exprience faite avec 300 rats atteints d'une certaine maladie.
Soit X la pression artrielle et Y une variable qui identifie les consquences
ventuelles de la maladie. Supposons que l'exprience donne les rsultats
suivants :
X : pression artrielle
leve
Normale
TOTAL

Y : consquences de la maladie
Succombe
136
64
200

TOTAL

Survit
44
56
100

180
120
300

On constate que le taux de mortalit est de 75,6 % parmi ceux qui ont une
pression leve alors qu'il n'est que de 53,3 % parmi ceux ayant une
pression normale. Peut-on conclure que la pression leve est la cause de ce
taux de mortalit plus lev ? C'est possible, mais avant de tirer cette
conclusion on dcide d'examiner une fois de plus les donnes la lumire de

86

Introduction la statistique applique

l'information qu'on possde sur l'ge des rats. Il y en a 100 qu'on classifie
comme jeunes et 200 qu'on classifie comme vieux . Pour chacun de ces
deux groupes, on dresse un tableau comme le tableau ci-dessus. On obtient
les rsultats suivants :
Jeunes
X : pression artrielle

Y : consquences de la maladie
Succombe

Survit

8
32
40

12
48
60

leve
Normale
TOTAL

TOTAL
20
80
100

Vieux
X : pression artrielle

Y : consquences de la maladie
Succombe

leve
Normale
TOTAL

128
32
160

TOTAL

Survit
32
8
40

160
40
200

Parmi les jeunes, le taux de mortalit est de 40 %, quelle que soit la


pression. Parmi les vieux, le taux de mortalit est de 80 %, quelle que soit la
pression. Donc, contrairement la conclusion suggre par le premier
tableau, la pression n'agit pas de faon directe sur la mortalit. C'est
apparemment l'ge qui agit en mme temps sur la pression et sur la
mortalit.
i

3.6

UN TEST D'INDPENDANCE
Nous attaquons maintenant la question souleve dans la remarque relative
l'exemple 1 (page 84). Deux variables sont indpendantes, selon la dfinition,
si la distribution conditionnelle de l'une tant donn la valeur de l'autre ne
dpend pas de la valeur de cette seconde variable. Or, en pratique, cette
situation ne se produit presque jamais : une certaine dpendance se
manifeste invitablement dans les donnes, mme si les deux variables sont,
en thorie, parfaitement indpendantes (par exemple, les rsultats de
plusieurs lancers simultans d'un d rouge et d'un d vert). Si la dpendance
qui se manifeste dans les donnes exprimentales est si faible qu'elle peut
tre attribue au simple jeu du hasard, rien ne s'oppose ce que les deux
variables soient en ralit parfaitement indpendantes. Cela tient au fait que
toute affirmation relative la dpendance ou l'indpendance de variables

3 Distributions deux variables qualitatives

87

se fait propos d'une population, que l'on doit considrer mathmatiquement comme infinie et abstraite et non concrte et finie. Affirmer que
deux variables sont indpendantes (dans la population thorique), malgr
des distributions conditionnelles observes non identiques ne constitue donc
pas une contradiction. Nous illustrons ces notions l'aide des donnes du
tableau 3.5.
TABLEAU 3.5

Distribution de l'ge de la mre (X) et du sexe de l'enfant (Y) naissances au Canada, 1971
X : ge de la mre
19 ans et moins
De 20 24 ans
De 25 29 ans
30 ans et plus
Population totale

Y : sexe de l'enfant

TOTAL

Masculin

Fminin

20 956
63 927
56 153
38 751
179 787

19 524
60 383
52 671
36 503
169 081

40 480
124 310
108 824
75 254
348 868

SOURCE : Recensement du Canada, 1971.

TABLEAU 3.6

Distributions conditionnelles du sexe de l'enfant (Y) tant donn l'ge de la mre (X)
X : ge de la mre
19 ans et moins
De 20 24 ans
De 25 29 ans
30 ans et plus
Population totale

Y : sexe de l'enfant
Masculin
0,518
0,514
0,516
0,515
0,515

TOTAL
Fminin
0,482
0,486
0,484
0,485
0,495

1,000
1,000
1,000
1,000
1,000

Ce tableau donne, pour la population de 348 868 naissances qui ont eu lieu
au Canada en 1971, la distribution conjointe des deux variables suivantes :
X : ge de la mre
Y : Sexe de l'enfant

88

Introduction la statistique applique

On s'attend ce que ces variables soient indpendantes : il n'y a aucune


raison de croire que l'ge de la mre a une influence sur le sexe du bb.
Toutefois, on se propose de le vrifier de faon empirique. On calcule donc
les distributions conditionnelles du sexe du bb tant donn l'ge de la mre.
Les rsultats sont dans le tableau 3.6.
Comme on devait s'y attendre, les distributions conditionnelles ne sont pas
rigoureusement identiques : le pourcentage de garons est 51,8 pour les
mres de 19 ans et moins, et 51,4 pour les mres de 20 24 ans. Quelle
crdibilit peut-on accorder ces carts ? Peut-on affirmer, par exemple,
qu'une femme de 19 ans et moins a plus de chances d'avoir un garon ? La
rponse, comme nous le verrons plus bas, est non : on ne peut pas affirmer
qu'une femme de 19 ans et moins a plus de chances ni mme un tout petit
peu plus de chances d'avoir un garon.
Nous n'affirmons pas que la frquence observe des garons est la mme
dans chaque groupe d'ge ; nous affirmons que la probabilit d'avoir un
garon peut tre la mme pour chaque groupe d'ge.
Si les probabilits sont gales pour chaque groupe d'ge, alors les frquences
devraient tre peu prs gales. Si les frquences ne sont pas gales mais
presque, on attribue la diffrence au hasard. Si elles sont trs diffrentes, le
hasard devient une explication peu convaincante, et il faut alors remettre en
question l'hypothse de dpart l'hypothse selon laquelle les probabilits
sont gales.
Le reste de cette section est consacr une procdure, semblable celle
prsente au chapitre 1, qui permet de juger de l'importance des carts entre
les frquences chantillonnales et de dcider si ces carts peuvent tre
attribus au hasard ou non.
On commence par formuler une hypothse, appele hypothse nulle.
L'hypothse nulle, dans cette section, est l'hypothse que les deux variables
sont indpendantes. La procdure ensuite suit les mmes tapes que la
procdure dcrite au chapitre 1.
a) On construit un tableau d'effectifs thoriques. Ce tableau indique les
effectifs auxquels on s'attend lorsque l'hypothse nulle est vrife.

3 Distributions deux variables qualitatives

89

b) On calcule une mesure F2 des carts entre les effectifs thoriques et


les effectifs observs. On rejette l'hypothse nulle si la valeur de F2 est
suprieure un point critique trouv comme dans le tableau 1.8
(page 18).

Les effectifs thoriques Les effectifs thoriques sont les effectifs auxquels
on s'attend lorsque les variables sont indpendantes. Il existe une faon
mcanique de les calculer, nous l'illustrerons dans l'exemple suivant. Plus
loin, nous montrerons, l'aide des donnes sur les naissances, par quel
raisonnement on arrive aux effectifs thoriques. Lorsque les variables sont
indpendantes, les distributions conditionnelles sont identiques non
seulement entre elles mais galement la distribution marginale. Autrement
dit, les proportions de garons et de filles devraient tre les mmes pour
chaque groupe d'ge que pour la population entire. La proportion de
garons pour la population entire est, d'aprs le tableau 3.5, 179 787 y
348 868 = 0,515 343 9 (C'est le nombre qu'on retrouve, avec moins de
dcimales, au bas du tableau 3.6). Si les variables sont indpendantes, ce
mme pourcentage devrait s'appliquer tous les groupes d'ge.
Parmi les 40 480 mres de 19 ans et moins, le nombre de garons devrait
tre
40 480 u 0,515 343 9 = 20 861
Parmi les 124 310 mres de 20 24 ans, le nombre de garons devrait tre
124 310 u 0,515 343 9 = 64 062
Parmi les 108 824 mres de 25 29 ans, le nombre de garons devrait tre
108 824 u 0,515 343 9 = 56 082
Nous venons de calculer les effectifs thoriques correspondant trois des
huit cases du tableau 3.5. On pourrait, par le mme raisonnement, remplir
les cinq cases qui restent, mais on peut galement le faire par soustraction
car les effectifs marginaux restent inchangs. Donc, si parmi les 40 480
enfants ns d'une mre de 19 ans et moins on s'attend avoir 20 861
garons, alors on s'attend avoir 40 480 20 861 = 19 619 filles. Le tableau
3.7 donne les effectifs thoriques (sous l'hypothse d'indpendance).

90

Introduction la statistique applique

TABLEAU 3.7

ge de la mre (X) et sexe de l'enfant (Y) effectifs thoriques


Y : sexe de l'enfant

X : ge de la mre

TOTAL

Masculin

Fminin

20 861
64 062
56 082
38 782
179 787

19 619
60 248
52 742
36 472
169 081

19 ans et moins
De 20 24 ans
De 25 29 ans
30 ans et plus
Population totale

40 480
124 310
108 824
75 254
348 868

Le khi-deux Les effectifs observs doivent maintenant tre compars aux


effectifs thoriques. Comme mesure globale de l'cart entre le tableau des
effectifs observs (tableau 3.5) et le tableau des effectifs thoriques (tableau
3.7), nous utilisons la mesure F2 employe au chapitre 1 :
F2

(O  T ) 2

On peut aussi considrer cette quantit comme une mesure de la


dpendance qui se manifeste dans les donnes : si la dpendance est forte,
les effectifs observs s'cartent des effectifs thoriques et F2 prend une valeur
grande. Si la valeur F2 est trs grande, c'est que les donnes prennent une
allure de dpendance qui est trop forte pour tre attribue au hasard.
Nous calculons la valeur de F2 :
F2

( 20 956  20 861) 2

(19 524  19 619 ) 2

20 861


( 56 153  56 082 )
56 082

( 63 927  64 062 ) 2

19 619
2

( 52 671  52 742 )
52 742

( 60 383  60 248 ) 2

64 062
2

( 38 751  38 782 )
38 782

60 248
2

( 36 503  36 472 ) 2
36 472

0 , 433  0 , 460  0 , 284  0 , 302  0 , 090  0 , 096  0 , 025  0 , 026


1, 72

Il s'agit maintenant de dterminer si cette valeur est trop grande , c'est-dire, de la comparer un certain point critique. Le point critique dpend
du nombre de degrs de libert Q, lequel est fonction du nombre de lignes et
de colonnes dans le tableau. Il est donn par :
Q = (nombre de lignes 1) u (nombre de colonnes 1)

3 Distributions deux variables qualitatives

91

Cette formule peut tre dmontre, mais il faudrait pour cela recourir des
techniques passablement avances relevant de la thorie des probabilits. Par
contre, on peut l'illustrer, par exemple, dans le tableau 3.5 : tout en
respectant les totaux des lignes et des colonnes, on peut remplir librement
(4 1) x (2 1) = 3 cases. Voici, schmatiquement, 3 faons de le faire (vrifiez)
x
x
x

x
x

x
x

Dans notre tableau, il y a 4 lignes et 2 colonnes. Donc, le nombre de degrs


de libert est :
Q = (4 1) u (2 1) = 3 u 1 = 3
D'aprs le tableau 1.8 (page 18), le point critique est 7,82. Puisque la valeur
1,72 obtenue pour F2, n'est pas suprieure 7,82, nous ne rejetons pas
l'hypothse nulle. Voici deux faons d'noncer cette conclusion :
a) La dpendance qui se manifeste dans les donnes, et qui est mesure
par F2 est assez faible pour pouvoir tre attribue au hasard
seulement et non une vraie dpendance.
b) Les carts observs entre les donnes observes et les donnes
thoriques (issues de l'hypothse d'indpendance) et mesurs par le
F2 ne sont pas assez forts pour entraner le rejet de l'hypothse
d'indpendance.
Exemple 3

Les donnes du tableau 3.8 portent sur 252 couples maris amricains,
classifis selon le rang social du pre du mari (X) et le rang social du pre de
l'pouse (Y).

92

Introduction la statistique applique

TABLEAU 3.8

chantillon de 252 couples amricains - rang social du pre du mari (X) et du pre de l'pouse (Y)
Y : rang social du pre de l'pouse
X : rang social du pre du mari

Professionnel
ou grant

Professionnel ou grant
Commis ou ouvrier spcialis
Ouvrier non spcialis
TOTAL

Commis ou
ouvrier
spcialis

44
21
12
77

39
38
24
101

Ouvrier non
spcialis

TOTAL

13
29
32
74

96
88
68
252

SOURCE : Katz (1978)

Les variables sont-elles indpendantes ? L'hypothse nulle est qu'elles le sont.


Pour calculer les effectifs thoriques, nous utilisons la formule mcanique
qui dcoule de l'indpendance (voir le dbut de la section 3.4, caractristique
c) : lorsque les variables sont indpendantes, l'effectif d'une case est gal au
produit du total de la ligne par le total de la colonne, divis par l'effectif total.
Le tableau 3.9 prsente l'ensemble des effectifs thoriques ainsi obtenus.
TABLEAU 3.9

Effectifs thoriques
TOTAL
96 u 77

96 u 101

29 , 333

252

252

88 u 77

26 , 889

252
68 u 77

20 , 778

252
TOTAL

38 , 476

28 ,191

96

25 , 841

88

19 , 968

68

252

88 u 101
252
68 u 101

35 , 270

27 , 254

88 u 74
252
68 u 74
252

252
77

96 u 74

101

74

252

SOURCE : Tableau 3.8

La valeur de F2 est :
F2

( 44  29 , 333 ) 2
29 , 333

( 39  38 , 476 ) 2
38 , 476

7 , 334  0 , 007  8 ,186    7 , 25


28 , 76

(13  28 ,191) 2
28 ,191



( 32  19 , 968 ) 2
19 , 968

3 Distributions deux variables qualitatives


TABLEAU 3.10

93

Distributions conditionnelles de Y tant donn X


Y : rang social du pre de l'pouse
X : rang social du pre du mari

Professionnel ou grant
Commis ou ouvrier spcialis
Ouvrier non spcialis

Professionnel
ou grant

Commis ou
ouvrier
spcialis

Ouvrier non
spcialis

TOTAL

0,46
0,24
0,18

0,41
0,43
0,35

0,13
0,33
0,47

1,00
1,00
1,00

SOURCE : Tableau 3.8

Puisque Q = (3 1)(3 1) = 2 u 2 = 4, le point critique est 9,49. La valeur de


F2 tant bien suprieure au point critique, nous rejetons l'hypothse nulle. Il
semble bien y avoir une dpendance entre les deux variables. Le tableau
3.10 qui donne les distributions conditionnelles de Y tant donn X rvle la
nature de cette dpendance : grosso modo, les hommes de rang social lev
pousent des femmes de rang social lev, et vice-versa.
i
Remarque Il n'est pas toujours ncessaire d'effectuer le calcul complet du F2 ;
dans l'exemple prcdent, on voit que la somme des trois premiers termes est
15,527, ce qui suffit assurer que le F2 dpasse le point critique et conclure
la dpendance.
Mise en garde La procdure dcrite dans cette section est base sur des
calculs de probabilit approximatifs et n'est valable que pour des chantillons
assez grands. En pratique, on vite d'employer le test du khi-deux lorsque le
tableau des effectifs thoriques comprend des effectifs infrieurs 5, ou
encore on regroupe certaines classes afin que tous les effectifs thoriques
soient au moins gaux 5.

RSUM
1. La distribution conjointe de deux variables X et Y fait correspondre
chaque paire (x, y), o x est une valeur de X et y une valeur de Y, un
effectif ou une frquence. D'un tableau qui donne la distribution
conjointe de X et Y on peut obtenir, en prenant la somme des lignes et la
somme des colonnes, la distribution de X et la distribution de Y. Ces
distributions sont alors appeles distributions marginales. La
distribution conditionnelle de Y tant donn X = x, est la distribution
de Y confine une tranche de la population, l'ensemble de tous ceux

94

Introduction la statistique applique

pour qui X = x. Il existe donc une distribution conditionnelle de Y pour


chaque valeur de X. De mme, il y a une distribution conditionnelle de X
pour chaque valeur de Y.
2. Deux variables X et Y sont indpendantes si et seulement si elles
satisfont l'une ou l'autre des quatre conditions quivalentes suivantes :
a) Les distributions conditionnelles de Y, exprimes en frquences, sont
identiques entre elles et sont donc identiques la distribution
marginale de Y.
b) Les distributions conditionnelles de X, exprimes en frquences, sont
identiques entre elles et sont donc identiques la distribution
marginale de X.
c) Pour toute ligne i et toute colonne j, l'effectif de la case situe
l'intersection de la ligne i et de la colonne j est gal :
(total de la ligne i) u (total de la colonnej) y (effectif total)
d) Pour toute ligne i et toute colonne j, la frquence de la case situe
l'intersection de la ligne i et de la colonne j est gale au produit des
frquences marginales de la ligne i et de la colonne j.
3. Une dpendance entre deux variables n'est pas ncessairement due
l'effet de l'une sur l'autre. Elle peut rsulter de l'effet simultan d'une
troisime variable sur les deux premires. On peut parfois liminer cet
effet lorsqu'on dispose des donnes ncessaires, en gardant cette
troisime variable fixe.
4. Pour tester l'hypothse que deux variables sont indpendantes, on
procde de la faon suivante :
a) On dresse un tableau d'effectifs thoriques. Les effectifs thoriques
sont calculs partir des effectifs marginaux en employant la
dfinition 2 c) ci-dessus.
b) On mesure l'cart entre le tableau des effectifs thoriques et le
tableau des effectifs observs par :
F2

(O  T ) 2
T

3 Distributions deux variables qualitatives

95

c) On rejette l'hypothse d'indpendance si la valeur de F2 est


suprieure un point critique trouv dans le tableau 1.8 (page 18).
Le nombre Q de degrs de libert est donn par :
Q = (nombre de lignes 1) u (nombre de colonnes 1)
Le test du khi-deux est approximatif. On devrait viter de l'employer
s'il y a des effectifs thoriques infrieurs 5.

EXERCICES
DISTRIBUTIONS
CONJOINTE,
MARGINALE ET
CONDITIONNELLE

1. Consultez le tableau 3.2 (page 80) et dites lesquelles des affirmations


suivantes propos des bbs qubcois ns en 1983 sont vraies. Pour
celles qui sont fausses, dterminez le vrai pourcentage.
a) 51,8 % des bbs taient des garons.

INDPENDANCE

b) 1,9 % des bbs avaient un poids faible.


c) 9,9 % des garons avaient un poids moyen.
d) 5,6 % des bbs taient des garons et avaient un poids trs lev.
e) 12,8 % des bbs de poids moyen taient des filles.
2. a) Montrez que les variables de l'exemple 1 (page 84) sont
indpendantes en vrifiant que l'effectif d'une case est gal au produit
du total de la ligne par le total de la colonne, divis par l'effectif total.
b) Exprimez la distribution conjointe du mme exemple en frquences.
Les frquences vrifient une proprit analogue celle qu'on
demande de vrifier en a). Quelle est-elle ? noncez-la clairement.
3. Dterminez, partir du tableau 3.5 (page 87) :
a) la distribution marginale de l'ge de la mre.
b) la distribution marginale du sexe de l'enfant.
c) chacune des distributions conditionnelles possibles.
4. Dterminez, partir du tableau 3.8 (page 92), la
conditionnelle de X tant donn chacune des valeurs de Y.

distribution

5. Le tableau 3.11 donne, pour une population de 68 297 mariages ayant


eu lieu au Canada en 1984, la distribution de la religion de l'poux (X) et
de la religion de l'pouse (Y). Dressez un tableau qui expose clairement la
forte dpendance existant entre ces variables.

96

Introduction la statistique applique

TABLEAU 3.11

Religion de l'poux (X) et de l'pouse (Y) quatre principales religions, Canada 1984
X : religion de
l'poux

Y : religion de l'pouse

TOTAL

Anglicane

Baptiste

Catholique

glise Unie

5 469
480
4 106
2 673
12 728

500
2 031
806
563
3 900

4 270
861
23 632
5 023
33 786

2 740
613
4 898
9 632
17 883

Anglicane
Baptiste
Catholique
glise Unie
Total

12 979
3 985
33 442
17 891
68 297

SOURCE : Annuaire du Canada, 1986-87

TABLEAU 3.12

Mortinaissances et naissances vivantes selon l'ge de la mre 1974


ge de la mre
Naissances vivantes
Mortinaissances

< 20
38 626
316

20-24
111 409
757

25-29
119 239
836

30-34
48 142
402

35-39
14 133
232

40-44
3 333
81

> 45
226
10

SOURCE : Annuaire du Canada, 1976-1977

6. Le tableau 3.12 donne, pour un ensemble de naissances ayant eu lieu au


Canada en 1974, la distribution de l'ge de la mre (X) et de l'tat du
bb (Y : mort, vivant).
a) Dterminez les distributions conditionnelles de Y tant donn les
valeurs de X.
b) Dterminez les distributions conditionnelles de X tant donn les
valeurs de Y.
c) Comme faon d'exposer la dpendance entre deux variables, laquelle
des deux sries de distributions conditionnelles vous semble plus
naturelle ?
DPENDANCE
ET CAUSALIT

7. Un fabricant de dtersifs, avec la coopration de cent supermarchs, se


livre une exprience dans le but d'tudier l'effet sur les ventes de deux
variables : l'emballage (bleu ou rouge) et l'emplacement sur l'talage (au
niveau des yeux ou au niveau des chevilles). Chaque magasin expose le
produit, soit dans l'emballage bleu, soit dans l'emballage rouge ; et soit au
niveau des yeux, soit au niveau des chevilles. Aprs deux semaines, on
value les ventes dans chaque magasin : on les qualifie de bonnes ou
de mauvaises selon les critres propres chaque magasin (pour tenir
compte des particularits du magasin). Voici les rsultats :

3 Distributions deux variables qualitatives

97

Emplacement
Niveau des yeux

Niveau des chevilles

Emballage

Emballage

Ventes

Bonnes
Mauvaises

Bleu

Rouge

Bleu

Rouge

4
6

36
4

8
32

2
8

Dressez des tableaux qui permettent de rpondre clairement aux


questions suivantes :
a) Est-ce que l'emballage a un effet sur les ventes ?
b) Est-ce que l'emplacement a un effet sur les ventes ?
8. Supposons que dans le cadre d'une tude sur la discrimination sexuelle,
le service du personnel d'une compagnie prlve un chantillon de 900
employs qu'il classifie selon le sexe (X), le salaire (Y) et la catgorie
d'emploi. La question est de savoir si les femmes sont moins bien payes
que les hommes. Chacun des exemples suivants montre qu'on peut
arriver des conclusions diffrentes selon qu'on spare les deux
catgories d'emploi ou non. Dans chacun des cas suivants, tirez vos
conclusions partir des deux tableaux. Combinez ensuite les deux
tableaux pour voir quelle conclusion vous seriez arrivs si vous n'aviez
pas spar les catgories d'emploi.

a) Emplois techniques
X : sexe
Femmes
Hommes

Emplois administratifs

Y : salaire
< 30 000

t 30 000

25
150

100
125

b) Emplois techniques
X : sexe
Femmes
Hommes

X : sexe
Femmes
Hommes

Y : salaire
< 30 000

t 30 000

75
50

100
275

Emplois administratifs

Y : salaire
< 30 000

t 30 000

22
150

78
150

X : sexe
Femmes
Hommes

Y : salaire
< 30 000

t 30 000

268
82

132
18

98

Introduction la statistique applique

c) Emplois techniques
X : sexe
Femmes
Hommes

TEST DU
KHI-DEUX

Emplois administratifs

Y : salaire
< 30 000

t 30 000

125
75

175
25

X : sexe
Femmes
Hommes

Y : salaire
< 30 000

t 30 000

15
85

85
315

Essayez d'expliquer les contradictions sans employer de langage


technique.
9. Testez, avec les donns du tableau 3.11, l'hypothse que la religion de
l'poux et celle de l'pouse sont indpendantes. Exprimez clairement
votre conclusion.
10. Testez, avec les donnes du tableau 3.12, l'hypothse que le taux de
mortinatalit ne dpend pas de l'ge de la mre.
11. la page 25 du rapport cole et luttes de classes au Qubec publi
par la Centrale des enseignants du Qubec, les auteurs affirment qu'il
existe une relation trs nette entre la scolarit et la classe sociale
d'appartenance et que les pres de classe sociale suprieure ont aussi
une formation suprieure . L'un des tableaux fournis l'appui de ces
affirmations donne la distribution de la classe sociale et du niveau de
scolarit du pre de 5 582 lves du secondaire. Faites un test pour
dterminer si les affirmations sont justifies.
Sans
rponse

lmentaire
ou moins

Secondaire

Collgial

Universitaire

lves de
classe
suprieure

108

192

152

137

10

599

lves de
classe
intermdiaire

527

667

392

118

20

1 724

1 752

1 076

318

44

69

3 259

Scolarit

lves de
classe
infrieure

TOTAL

Remarque Cette dpendance entre le niveau de scolarit et le niveau de la


classe sociale n'a rien d'tonnant puisqu'elle est impose par la dfinition
mme de classe sociale. La classe sociale d'un lve est dfinie selon
l'occupation du pre. Or, le rang social attribu une occupation est
fortement li la scolarit ncessaire pour y accder.

3 Distributions deux variables qualitatives

99

12. la page 24 du rapport cit l'exercice 11, les auteurs affirment que le
phnomne drop-out et surtout l'abandon des tudes touchent davantage
les enfants de classe sociale infrieure . Cette affirmation est base sur
les donnes suivantes, qui reprsentent une classification de 6 930
lves de l'lmentaire, du secondaire et du collgial selon leur classe
sociale :
Classe
Niveau

TOTAL
Suprieure

lmentaire
Secondaire
Collgial

31
599
123

Intermdiaire

Infrieure

112
1 724
334

256
3 259
492

399
5 582
949

a) Dterminez les distributions conditionnelles qui ont pu mener la


conclusion cite plus haut.
b) Faites un test pour dterminer si la conclusion est justifie.
DIVERS

13. Les donnes suivantes sur les renouvellements des abonnements la


revue American History Illustrated en janvier et fvrier 1979 ont t
recueillies par Wagner (1982). Les variables sont X (janvier, fvrier) et Y
(abonnement renouvel ou non). Voici la distribution conjointe des deux
variables :
X : mois

Y : abonnement renouvel
Oui

Non

janvier

21 749

21 071

fvrier

4 733

2 155

a) Le taux de renouvellement s'est-il amlior en fvrier par rapport


janvier ?
b) Les tableaux suivants prsentent les distributions sparment pour
chaque catgorie d'abonnement. Les catgories sont : A, cadeaux ; B,
anciens renouvellements ; et C, service commercial d'abonnement.
Y : abonnement renouvel

A
X : mois

Oui

janvier

2 918

676

fvrier

704

180

Non

100

Introduction la statistique applique

Y : abonnement renouvel

B
X : mois

Oui

Non

janvier

14 488

3 876

fvrier

3 907

1 233

Y : abonnement renouvel

C
X : mois

Oui

janvier

4 343

16 519

fvrier

122

742

Non

Peut-on maintenant dire que le taux de renouvellement s'est amlior


entre janvier et fvrier ? Expliquez la contradiction apparente entre
les rsultats en a) et en b).
14. Voici la rpartition de 6 459 francophones qubcois selon la
connaissance de l'anglais et l'origine ethnique (Vaillancourt et Lefebvre,
1979) :
Origine ethnique
TOTAL
Unilingues
Connaissent l'anglais
TOTAL

Franaise

Anglaise

Autres

3 156
2 667
5 823

142
193
335

116
185
301

3 414
3 045
6 459

a) Testez l'hypothse qu'il n'y a pas de diffrence entre les gens d'origine
franaise, anglaise et autres quant au pourcentage d'unilingues.
b) Faites un test pour comparer seulement ceux d'origine anglaise et
ceux d'origine franaise.
15. Dans une certaine exprience en marketing (Carefoot, 1982), on a choisi
800 consommateurs (le groupe exprimental) leur entre dans un
supermarch. On a incit ces consommateurs venir visionner 5
annonces publicitaires dans une roulotte installe sur le terrain de
stationnement avant de faire leurs emplettes. la sortie, ils prsentaient
une carte magntique qui, l'aide d'un appareil branch la caisse
enregistreuse, permettait de dresser une liste complte de leurs achats.
On pouvait donc savoir lesquels des articles dont les consommateurs

3 Distributions deux variables qualitatives

101

avaient vu les annonces ont t achets par chacun d'eux. Paralllement,


on a choisi un groupe tmoin de 800 personnes qui on n'a pas fait
visionner les annonces. Dans le tableau suivant, on donne pour trois des
cinq articles annoncs le nombre de personnes dans chaque groupe qui
l'ont achet.
Article
Savon A
Crales B
Dner congel C

Groupe tmoin

Groupe exprimental

15
31
12

17
44
24

Pour chacun des produits, testez l'hypothse que l'annonce n'a pas
d'effet. Cette exprience, faite avec un chantillon de 800 personnes pour
chaque groupe, se rvle plutt onreuse. la lumire des rsultats
obtenus pour le dner congel, peut-on dire que des chantillons de cette
taille taient ncessaires ?
16. Les donnes suivantes proviennent d'une tude (Lynn, 1981) qui visait
dterminer les caractristiques de ceux qui lisent les annonces publicitaires
(les lecteurs ) et de ceux qui ne les lisent pas (les non-lecteurs ). Dans
chacun des cas, dites s'il y a un lien entre la variable indique et le fait de
lire les annonces ou pas.
Lecteur ou non des annonces publicitaires
tat matrimonial
Mari
Pas mari

Lecteur

Non-lecteur

666
216

200
48

Lecteur ou non des annonces publicitaires


Scolarit
Secondaire ou moins
Universit

Lecteur

Non-lecteur

593
276

159
96

Lecteur ou non des annonces publicitaires


Sexe
Femmes
Hommes

Lecteur

Non-lecteur

377
504

177
79

102

Introduction la statistique applique

Lecteur ou non des annonces publicitaires


Taille de la famille
1
2
3
4
5+

Lecteur

Non-lecteur

100
302
192
170
118

27
87
55
54
34

17. Pour comparer l'aptitude en mathmatique des tudiants orientaux et


des tudiants amricains de race blanche, Tsang (1984) a examin la
distribution des rsultats au test de mathmatiques du SAT (Scholastic
Aptitude Test) de 10 097 tudiants orientaux et de 502 990 tudiants
amricains de race blanche. Les distributions pour les deux populations
sont donnes dans le tableau suivant :
Origine
Score au SAT-mathmatiques
Orientaux
700-800
600-690
500-590
400-490
300-390
200-290

Amricains de race blanche

601
2 001
3 190
2 788
1 309
208
10 097

22 564
86 521
158 049
151 466
74 498
9 892
502 990

Testez l'hypothse que la distribution des scores des Orientaux est la


mme que celle des Amricains de race blanche.
18. Dans le cadre d'une tude sur les pressions exerces par les sectes
fondamentalistes sur la programmation la tlvision, Rubens (1981) a
fait remplir un questionnaire 440 sujets. Le questionnaire lui a permis
de classer chaque sujet selon son degr de fondamentalisme . Il a en
outre pos un certain nombre de questions d'opinion. Testez l'hypothse
d'indpendance entre le degr de fondamentalisme et chacune des
opinions exprimes.
Rglementation de la presse
Il faudrait qu'il y ait plus de rglementation
pour rgir le contenu des journaux
D'accord
Pas d'accord

Degr de fondamentalisme
Zro

Faible

Fort

Trs fort

15
81

25
70

35
60

38
7

3 Distributions deux variables qualitatives


Bibliothque
Tout livre devrait tre autoris dans les
bibliothques
D'accord
Pas d'accord

Tlvision
Tout sujet devrait pouvoir tre trait la
tlvision
D'accord
Pas d'accord

103

Degr de fondamentalisme
Zro

Faible

Fort

Trs fort

85
13

77
20

59
36

52
47

Degr de fondamentalisme
Zro

Faible

Fort

Trs fort

88
8

80
15

67
27

56
37

19. Le tableau suivant donne la rpartition de 7 187 francophones du


Qubec selon le lieu de naissance et la connaissance de l'anglais.
(Vaillancourt et Lefebvre, 1979).
a) Testez l'hypothse que la proportion d'unilingues est la mme parmi
ceux qui sont ns au Qubec et parmi ceux venant d'un pays
anglophone.
b) Considrez comme appartenant un mme groupe ceux qui sont ns
au Qubec et ceux qui sont ns dans un pays francophone. Testez
l'hypothse que dans ce nouveau groupe, la proportion d'unilingues
est la mme que parmi ceux des pays anglophones et que parmi ceux
des autres pays.
Lieu de naissance
Qubec

Pays
francophones

Pays
anglophones

Autres pays

Taille de
l'chantillon

6 868

133

164

22

Nombre
d'unilingues

3 770

72

32

20. Considrez la distribution conjointe suivante :


X
x1
x2
TOTAL

Y
y1

y2

0,3
0,4
0,7

0,1
0,2
0,3

TOTAL
0,4
0,6
1,0

104

Introduction la statistique applique

a) Dressez le tableau des distributions conditionnelles de Y.


b) Testez l'hypothse d'indpendance en supposant que :
i)

l'effectif total est 100 ;

ii) l'effectif total est 1 000.


c) Expliquez pourquoi il y a une diffrence entre vos deux rponses.
21. Les donnes suivantes portent sur 17 060 diplms d'universit (Service
gnral des communications, Relance l'Universit , ministre de
l'ducation du Qubec, 1979). Les diplms sont classs selon leur
statut en 1978 et la scolarit de leur pre :
Statut du diplm
Scolarit du pre

TOTAL

Aux tudes

Au travail

Inactif ou en
chmage

Secondaire ou
moins

808

11 160

591

12 559

Plus que le
secondaire

544

3 727

230

4 501

1 352

14 887

821

17 060

TOTAL

a) Testez l'hypothse selon laquelle il n'y a pas de dpendance entre le


statut du diplm et la scolarit du pre. S'il y a dpendance,
dcrivez-en la nature.
b) Y a-t-il une dpendance entre le statut du diplm et la scolarit du
pre parmi ceux qui ne sont pas aux tudes ?
22. Utilisez les donnes du tableau 3.11 pour tester tour de rle chacune
des hypothses suivantes :
a) la probabilit qu'un homme pouse une coreligionnaire est la mme
pour les quatre religions ;
b) 50 % des femmes baptistes pousent des coreligionnaires ;
c) 50 % des mariages entre Catholiques et Baptistes sont des mariages
entre un homme catholique et une femme baptiste.
23. Les donnes suivantes portent sur 289 usines portoricaines qui ont
ferm leurs portes entre 1973 et 1980 pour l'une des raisons suivantes :
A, problmes de march ; B, problmes financiers ; et C, problmes
d'oprations. Les usines sont classes selon le nombre d'employes (X) et
la raison principale pour laquelle elles ont ferm leurs portes (Y).

3 Distributions deux variables qualitatives


X : nombre d'employes
5-9
10-49
50+

105

Y : raison principale de la fermeture de l'usine


A

35
58
48

27
39
16

5
32
29

SOURCE : Constas (1981)

Dressez un tableau qui prsente ces donnes sous une forme plus
instructive, et discutez les conclusions qu'on peut en tirer.
24. En 1974, 4 974 hommes baptistes se sont maris, dont 2 222 des
coreligionnaires. Connaissant les donnes pour 1984 (tableau 3.11),
pouvez-vous dire que la tendance chez les hommes baptistes pouser
des coreligionnaires a chang entre 1974 et 1984 ? Commentez.
25. Les donnes suivantes portent sur 17 059 diplms d'universit en 1974
1975, rejoints en 1978 (Service gnral des communications, Relance
l'Universit , ministre de l'ducation du Qubec, 1979). Les diplms
sont classs selon leur statut en 1978 et leur langue maternelle.
Statut du diplm
Langue
maternelle
Franais
Anglais
Autres
TOTAL

Aux tudes
448
757
217
1 422

Au travail
2 294
11 267
1 234
14 795

Inactif ou en
chmage
145
547
150
842

TOTAL
2 887
12 571
1 601
17 059

a) Testez l'hypothse selon laquelle le statut du diplm ne dpend pas


de sa langue maternelle.
b) Testez l'hypothse selon laquelle parmi ceux qui ne sont pas aux
tudes, le taux de chmage ou d'inactivit est le mme pour les
francophones, les anglophones et les allophones.
26. On met parfois l'hypothse que le succs d'un savant dpend en partie
de son rang dans l'ordre de sa naissance parmi ses frres ou ses surs.
Les donnes suivantes sur les gagnants de prix Nobel ont t recueillies
par Clark et Rice (1982) dans le but de vrifier une hypothse
particulire, celle que les scientifiques ont une tendance plus grande que
les non-scientifiques tre des premiers-ns. Les prix en physique,
chimie, mdecine et conomie sont considrs comme prix scientifiques ;
les prix de littrature et de la paix sont non scientifiques. Les gagnants
de prix Nobel qui sont fils uniques sont exclus.

106

Introduction la statistique applique


Statut dans la famille
Prix

TOTAL
Premier-n

Scientifique
Non-scientifique
TOTAL

51
17
68

Cadet
62
45
107

113
62
175

L'hypothse de Clark et Rice est-elle vrifie ?


27. La distribution suivante a t dresse par Haberman (1978) partir de
donnes fournies par le National Opinion Research Center de l'Universit
de Chicago. Les variables sont le nombre d'annes de scolarit (X) et
l'attitude face l'avortement (Y).
X : scolarit
Moins de 8 ans
Entre 9 et 12 ans
Plus de 12 ans

Y : attitude face l'avortement


Pour

Mixte

Contre

31
171
116

23
89
39

56
177
74

a) Testez l'hypothse selon laquelle X et Y sont indpendantes.


b) Les donnes ci-dessus portent sur deux groupes : des catholiques et
des protestants du nord des tats-Unis. Voici la distribution pour
chaque groupe :
Catholiques
X : scolarit

Moins de 8 ans
Entre 9 et 12 ans
Plus de 12 ans

Y : attitude face l'avortement


Pour

Mixte

Contre

8
65
37

10
39
18

24
89
43

Protestants
X : scolarit

Moins de 8 ans
Entre 9 et 12 ans
Plus de 12 ans

Y : attitude face l'avortement


Pour

Mixte

Contre

23
106
79

13
50
21

32
88
31

La conclusion tire en a) doit-elle tre modifie ?


28. Pour tudier l'effet de certaines maladies sur le sommeil, Kaye, Kaye et
Madow (1983) ont interrog 30 personnes souffrant du cancer, 27
personnes souffrant de maladies du coeur et 24 personnes en bonne
sant. Ils leur ont pos la question suivante : Avez-vous de la difficult

3 Distributions deux variables qualitatives

107

vous endormir ? Le nombre de rponses affirmatives a t 12 pour


ceux qui souffraient de cancer, 22 pour ceux qui souffraient de maladie
de coeur, et 6 pour les personnes en bonne sant.
a) Le cancer a-t-il un effet sur le sommeil ?
b) Les maladies de coeur ont-elles un effet sur le sommeil ?
29. Le tableau suivant prsente la rpartition de 151 voyages entrepris par
des familles montralaises, selon la direction prise et le niveau de
scolarit du chef de famille.
Direction prise
Qubec

Reste du Canada
et continent
amricain

Hors continent

22
11
33

36
40
76

12
30
42

Scolarit

0-11 ans
12 ans+
TOTAL

TOTAL

70
81
151

a) Y a-t-il une dpendance entre la direction prise par les voyageurs et


le niveau de scolarit ?
b) Si oui, peut-on quand mme dfendre la thse que le niveau de
scolarit, comme tel, n'a pas d'influence sur le choix des vacances ?
c) Quelles donnes devrait-on prlever et quelle analyse devrait-on faire
pour dfendre une telle thse ? Dressez une srie de tableaux avec
des donnes fictives, desquelles on pourrait dduire i) que le niveau
de scolarit n'a pas d'influence sur la direction prise par les
voyageurs, et ii) que le revenu a une influence sur la direction prise
par les voyageurs.
30. Une certaine secte religieuse au Canada a des pratiques sexuelles qui,
selon certains, favorisent les naissances de garons. On a constat en
effet que parmi 50 enfants ns de cette secte en 1971, 31 taient des
garons. Sachant qu'au Canada cette anne-l 179 781 garons et
169 081 filles sont ns, peut-on affirmer que la probabilit qu'un enfant
de cette secte soit un garon est suprieure la probabilit qu'un enfant
canadien le soit ? ( enfant canadien peut inclure les enfants de cette
secte ou pas la secte est trop petite pour changer perceptiblement les
proportions). Devrait-on employer un test d'ajustement (le test vu au
chapitre 1) ou un test d'indpendance ? Discutez.

108

Introduction la statistique applique

*31. Arthur affirme pouvoir prdire le temps qu'il fera demain d'aprs
certaines sensations qu'il ressent dans ses articulations. Pour voir si
c'est bien vrai, on observe ses prdictions pendant 150 jours. Il a prdit
de la pluie 100 fois, et de ces 100 fois il a effectivement plu 70 fois. Les
50 autres fois il a prdit du beau temps et le temps a t beau 20 fois.
Peut-on conclure qu'il a vraiment des capacits de prdiction du temps ?
a) Un statisticien amateur procde de la faon suivante : il observe que
les prdictions ont t correctes 90 fois sur 150. Il considre donc ses
effectifs observs comme tant 90 et 60, et il les compare aux effectifs
thoriques 75 et 75, l'aide d'un test d'ajustement. Il trouve F2 = 6
avec 1 degr de libert, ce qui est significatif. Pourquoi cette
procdure est-elle incorrecte ?
b) Faites le test correctement.
*32. La conclusion tire au numro 26 (que les scientifiques ont une plus
forte tendance tre premiers-ns) pourrait bien tre un artifice. Pour
diverses raisons, dont peut-tre les annes auxquelles les diffrents prix
ont t dcerns, les scientifiques sont ns de familles moins
nombreuses. Ce seul fait pourrait suffire expliquer pourquoi ils sont
plus souvent premiers-ns. Considrez les donnes fictives suivantes. On
prlve un chantillon de 360 scientifiques, dont 300 appartiennent
des familles de 2 enfants et 60 des familles de 3 enfants ; et un
chantillon de 360 non-scientifiques, dont 60 appartiennent des
familles de 2 enfants et 300 des familles de 3 enfants. Quel est
thoriquement le nombre de premiers-ns parmi les non-scientifiques ?
*33. Pour rsoudre le problme 17, un tudiant procde de la faon suivante.
Il dtermine la distribution de frquences pour les Amricains de race
blanche :
0,045 ; 0,172 ; 0,314 ; 0,301 ; 0,148 ; 0,020. Il fait ensuite un test
comme celui prsent au chapitre 1 pour tester l'hypothse que la
distribution du score pour les Orientaux est identique celle qu'il a
dtermine pour les Amricains de race blanche.
a) Savez-vous pourquoi ce test n'est pas applicable ?
b) Faites le test de la faon dcrite dans ce numro, et comparez votre
rsultat celui du numro 17. Pouvez-vous expliquer pourquoi les
deux rsultats sont si semblables ?

3 Distributions deux variables qualitatives

109

34. Pour comparer deux bires, on fait une exprience avec 100 amateurs de
chaque marque. Chaque groupe affirme connatre la diffrence entre les
deux et prfrer nettement la sienne. On demande chaque sujet
d'identifier sa prfrence, aprs avoir got les deux. Voici les rsultats :
Habituellement boivent
TOTAL
A

65

45

110

35

55

90

100

100

200

Ont prfr
TOTAL

Les hypothses suivantes sont exprimes dans le langage de tous les


jours. Exprimez-les plus formellement et puis testez-les si possible. Ce ne
sont pas ncessairement des hypothses nulles .
a) Les buveurs de la bire B ne connaissent pas la diffrence entre les
deux bires.
b) Les buveurs de la bire A ne connaissent pas la diffrence entre les
deux bires.
c) Les buveurs de la bire A discriminent mieux entre les deux marques
que les buveurs de la bire B.
d) Il n'y a pas de diffrence discernable entre les deux bires.

Droite des moindres


carrs et corrlation
4.1

Droite des moindres carrs


x Principe des moindres carrs
x Droite des moindres carrs

4.2
4.3

Corrlation
Un test d'indpendance
x Le test
x Conditions de validit
RSUM
EXERCICES

4 Droite des moindres carrs et corrlation

111

Introduction Les mthodes du chapitre 3 sont conues essentiellement pour


des donnes qualitatives. Ces mthodes pourraient servir l'analyse de
donnes quantitatives puisqu'on peut toujours, en groupant les valeurs
d'une variable quantitative, rduire celle-ci une variable qualitative. On
peut toutefois viter la perte d'information qu'entranerait un tel
regroupement en employant des mthodes propres aux variables
quantitatives.
Lorsque deux variables quantitatives sont dpendantes, il est possible,
quand les circonstances sont favorables, d'exprimer la dpendance l'aide
d'une quation mathmatique. Dans ce chapitre, nous tudions le cas
particulier o la dpendance peut tre exprime par une quation linaire.
Nous commenons par montrer comment dterminer l'quation qui relie une
variable l'autre. Ensuite, nous dfinissons une mesure de la dpendance
entre deux variables quantitatives. Finalement, nous prsentons un test
statistique permettant de dterminer si une dpendance observe dans un
chantillon est significative ou non.

4.1

DROITE DES MOINDRES CARRS


Typiquement, l'analyse de la dpendance entre deux variables quantitatives
dbute avec des donnes couples comme celles du tableau 4.1. Ce tableau
donne, pour un ensemble de 41 maisons vendues Outremont au
printemps 1981, les valeurs de deux variables :
X : L'valuation municipale, en milliers de dollars
Y : Le prix la vente, en milliers de dollars.
Il est certain que nous allons observer une dpendance entre ces deux
variables. La figure 4.1, qui prsente les donnes du tableau 4.1 sous la
forme d'un nuage de points, le confirme. Chaque maison vendue est
reprsente par un point dont l'abscisse est X, l'valuation municipale, et
l'ordonne est Y, le prix la vente. La figure montre qu'il y a une relation
entre X et Y en ce sens que, en gros, lorsque X crot, Y crot. Elle indique
aussi que la relation est peu prs linaire : l'oeil, il semble possible de
tracer une droite qui passe assez bien dans l'ensemble des points du nuage.
Notre objectif est de trouver l'quation de la droite s'approchant le plus
possible des points. Pour ce faire, nous allons d'abord dfinir une mesure de
la distance entre les points et une droite ; nous allons ensuite montrer

112

Introduction la statistique applique

comment trouver l'quation de la droite qui minimise cette distance.

Principe des moindres carrs En gnral, les donnes prennent la forme de n


couples (xl, yl) (x2, y2), , (xn, yn) que l'on peut reprsenter par autant de
points sur un plan cartsien. L'quation d'une droite est de la forme
y = a + bx.
TABLEAU 4.1

FIGURE 4.1

valuation (X) et prix (Y) de 41 maisons vendues Outremont printemps 1981


X

45,3
55,6
102,7
38,2
63,6
63,6
41,6
31,3
181,4
89,3
54,9

65
60
140
50
60
80
74
79
275
162
136

136,4
77,5
111,2
186,1
69,3
32,5
92,3
36,6
87,4
44,0

235
125
112
268
150
45
142
69
100
123

88,8
58,1
98,0
39,3
58,8
42,2
45,2
117,4
117,3
122,9

117
160
188
88
103
65
77
188
156
225

29,3
82,0
79,0
64,4
78,0
75,1
86,8
143,5
85,4
86,6

58
132
198
90
110
114
149
315
130
135

Nuage de points (donnes du tableau 4.1) travers par la droite des moindres carrs calcule
dans l'exemple 3
y
350
300
250
200
150
100
50
x

50

100

150

200

4 Droite des moindres carrs et corrlation


FIGURE 4.2

113

Distances verticales une droite


y

d3

( x3 ,y 3 )
( x 3 , y 3 )

( x1 , y 1 )
d1

( x 2 , y 2 )

d2

( x2 ,y 2 )

( x 1 , y 1 )

X1

X2

X3

Soit une droite donne y = a+ bx, et soit d1, d2, ..., dn les distances verticales
entre les points et la droite. Ces distances sont reprsentes par les traits
verticaux dans la figure 4.2.
La somme des carrs de ces distances servira de mesure globale de la
distance entre les points et la droite. On dfinit formellement la distance D
entre les points et la droite par
D

d 12  d 22    d n2

d i2 .

Si l'on dnote par y i la hauteur de la droite au point x i , c'est--dire


y i

a  bx i

alors d i est donn par


di
et

y i  y i

y i  y i
2

y i  y i

114

Introduction la statistique applique

FIGURE 4.3

Calcul de la distance verticale une droite

10

(3,10
1

(3,9)
(1,8)

8
7

(2,7)

-2

(2,5)

(1,5)

5
4
3
2
1
0
0

Nous souhaitons que cette distance soit petite : plus elle est petite, mieux la
droite est ajuste aux donnes. Puisque notre objectif est de trouver une
droite qui s'ajuste le mieux possible aux donnes, nous devons chercher la
droite pour laquelle la distance D est minimale.
Nous commettons un lger abus de langage en utilisant le terme distance
pour dsigner la quantit D. En toute rigueur, nous devrions plutt affecter
ce terme

D . Ces considrations d'ordre terminologique sont cependant

sans grande consquence puisque minimiser D ou minimiser


mme.
Exemple 1

D revient au

Considrons les points (1, 8), (2, 5) et (3, 10) ainsi que la droite y
(voir figure 4.3).
Les trois points correspondants sur la droite ont pour ordonne :
y 1

3  2 (1)

5;

y 2

3  2( 2)

7 ; y 3

3  2 ( 3)

9.

3 2x

4 Droite des moindres carrs et corrlation

115

Les carts verticaux sont :


d1

85

57

3; d 2

10  9

2; d3

1.

La distance D est donc :


D

d 12  d 22  d 32

3 2  2 2  12

14 .

La droite y = 3 + 2x n'est pas la meilleure possible. Le lecteur peut vrifier


que la droite y = 6 + x donne une distance D = 11, plus petite que la distance
D = 14 obtenue avec y = 3 + 2x. La droite y = 6 + x passe donc mieux parmi
les trois points que la droite y = 3 + 2x. Toutefois, elle n'est encore pas aussi
proche que possible. On peut montrer que la droite qui minimise D est
y = 17 3 + x. La distance correspondante est D = 32 3 = 10 2 3 . Aucune autre
droite ne peut donner une distance aussi petite que celle-ci.

Le principe des moindres carrs est le principe selon lequel on choisit,


parmi toutes les droites possibles, celle qui minimise la somme des carrs
des distances verticales, c'est--dire, celle qui minimise la distance D. Cette
droite est appele droite des moindres carrs ou droite de rgression.

Droite des moindres carrs On peut dmontrer que les coefficients a et b de la


droite des moindres carrs y = a + bx sont donns par les formules
suivantes :

b
a

x i  x y i  y
x i  x

y  bx .

En utilisant les identits


x i  x y i  y 6x i y i  6x i 6y i

6x i y i  n x y
6 x i  x

6x i  6x i
2

6x i2

 nx ,

on peut trouver plusieurs expressions quivalentes pour b. En voici quelques


unes qui sont, en gnral, plus faciles employer que la formule originale

116

Introduction la statistique applique

car elles permettent d'obtenir b en fonction des quatre sommes 6x i , 6x i2 , 6y i


et 6x i y i .

n6x i y i  6x i 6y i
n6x i2

 6x i

6x i y i - 6x i

6y i
2
2
6x i - 6 x i n

6xi y i  nx y
2

6xi  nx

xy  x y
2

x x

xy

Exemple 2

6x i y i ; x 2

1
n

6x i2 .

Pour illustrer les calculs, nous prenons les donnes de l'exemple 1 :


x

10

Des calculs simples donnent les rsultats suivants :


6x i

6x i2

6y i

23

6x i y i

1  4  9 14
48 .

8  10  30

Donc :
b

n6x i y i  ( 6x i )( 6y i )
n6x i2

 ( 6x i )
23

3 (14 )  ( 6 )

6
 1
3
3

y  bx

3 ( 48 )  ( 6 )( 23 )

23  6

17

1,

5 32 .

Donc, la droite des moindres carrs est


y

a  bx

5 32  x .

4 Droite des moindres carrs et corrlation

117

L'quation de la droite des moindres carrs est une expression qui permet
d'estimer la valeur de Y qui correspond une valeur de X donne. Il suffit de
remplacer X par la valeur en question dans l'expression y a  bx .
Exemple 3

Nous utilisons les donnes du tableau 4.1 pour trouver l'quation qui
permettra d'estimer le prix la vente (Y) d'une maison d'Outremont partir
de son valuation (X). Les calculs donnent :
6x i

6y i

3 238 , 9

6x i y i

508 455 , 6

5 348
41

6x i2

313 698 , 21

6y i2

864 988

Donc :
6 ( x i  x )( y i  y )
6( xi  x )

6x i y i  ( 6x i )( 6y i ) n
2

6x i  ( 6x i )

57 833 , 009 76

85 976 , 643 9

85 976 , 643 9

1, 486 636 166

57 833 , 009 76
a

y  bx

5 348
41

 1, 486 636 166

3 238 , 9
41

12 , 998 393 2

La droite des moindres carrs est donc approximativement


y

13  1, 49 x .

Cette quation peut servir estimer le prix de vente d'une maison partir de
son valuation. Par exemple, nous estimons qu'une maison value 70 500 $
se vendra :
y

c'est--dire, 118 045 $.

13  1, 49 ( 70 , 5 ) 118 , 045

Dans les formules pour la droite des moindres carrs, on ne peut intervertir
les x i et les y i . Chacune des variables joue un rle qui lui est propre. La
variable X, appele variable explicative (ou variable indpendante), servira
ventuellement estimer Y. La variable Y, appele variable explique (ou
variable dpendante), est celle dont on voudra estimer la valeur.

118

4.2

Introduction la statistique applique

CORRLATION
Il est toujours possible de dterminer la droite des moindres carrs en
utilisant les formules de la section prcdente condition, toutefois, que
les x i ne soient pas tous identiques. Cela ne veut pas dire que les
estimations faites partir de la droite des moindres carrs seront bonnes :
elles seront bonnes seulement dans la mesure o la relation entre X et Y est
linaire et forte, c'est--dire, dans la mesure o les points du nuage sont
proches d'une droite de pente non nulle.
Le coefficient de corrlation, not r, est une mesure de dpendance
linaire dfinie par l'une ou l'autre des formules suivantes :
6 ( x i  x )( y i  y )

6( xi  x )2

6(y i  y )2

n6x i y i  ( 6x i )( 6y i )

2
2
n6x i  ( 6x i )

xy  x y

x2  x2
r

2
2
n6y i  ( 6y i )

SX

y2 y2

SY

Le coefficient de corrlation jouit des proprits suivantes :


1. 1 d r d 1. Le coefficient de corrlation est toujours compris entre 1 et 1.
2. r = 1 si et seulement si tous les points se situent sur une droite de pente
positive ; r = 1 si et seulement si tous les points se situent sur une
droite de pente ngative. En d'autres termes, les valeurs extrmes 1 et
1 dnotent une corrlation parfaite entre X et Y.
3. Si X et Y sont indpendantes, alors r = 0. La rciproque n'est pas vraie :
le coefficient de corrlation peut tre nul sans que les variables soient
indpendantes. Dans ce cas, cependant, la dpendance n'est pas linaire.
4. r = 0 si et seulement si b = 0.

4 Droite des moindres carrs et corrlation

119

5. Plus les points du nuage s'alignent le long d'une droite de pente non
nulle, plus r est loign de 0.
Exemple 4

Pour les donnes de l'exemple 3, le coefficient de corrlation est :


r

n6x i y i  ( 6x i )( 6y i )
2
2
n 6x i  ( 6x i )

2
2
n 6y i  ( 6 y i )

41( 508 455 , 6 )  ( 3 238 , 9 )( 5 348 )


41( 313 698 , 21)  ( 3 238 , 9 )
3 525 042 , 4

41( 864 988 )  ( 5 348 )

0 , 87

2 371 153 , 4 6 863 404

Le coefficient de corrlation est assez proche de 1, ce qui indique une forte


corrlation positive entre X et Y.
i
La figure 4.4 illustre, pour diffrentes dispositions de points, la droite de
rgression qui s'y ajuste le mieux. Pour chaque cas on donne aussi la valeur
approximative du coefficient de corrlation r.
Commentaires Le graphique (a) de la figure 4.4 illustre un cas de corrlation
ngative parfaite tous les points sont exactement aligns le long d'une droite
de pente ngative : r = 1.
Le graphique (b) illustre une corrlation positive trs forte pour laquelle
r = 0,98. Dans le graphique (c), l'alignement des points est moins rigoureux
mais la tendance est encore trs nette : r = 0,8. Dans le graphique (d) la
tendance linaire est beaucoup plus faible : r = 0,3.
Les graphiques (e) et (f) illustrent deux cas d'indpendance. La droite de
rgression y est horizontale et r = 0. On pourrait tre tent, dans le graphique
(f), de prfrer l'ajustement d'une droite verticale plutt que celui de la droite
horizontale qui a t trace. Rappelons toutefois que le critre utilis pour
quantifier la qualit de l'ajustement d'une droite dans un nuage de points est
la somme des carrs des carts verticaux entre la droite et chacun des points.
Dans le graphique (f), c'est vraiment la droite horizontale qui minimise la
somme des carrs des carts verticaux. En fait, les graphiques (e) et (f)
illustrent fondamentalement le mme cas ; il suffit de comprimer ou de dilater
l'chelle des X on celle des Y pour passer librement de l'un l'autre cas. Si,
par exemple, X est mesure en kilogrammes et Y est mesure en dollars, le
choix des chelles est arbitraire.

120
FIGURE 4.4

Introduction la statistique applique

Diffrents cas de rgression

4 Droite des moindres carrs et corrlation

121

Le graphique (g) donne lui exemple o la relation entre X et Y n'est pas


linaire. Globalement, on y observe tout de mme que les petits X donnent de
petits Y et que les grands X donnent de grands Y. Sensible cette tendance, le
coefficient de corrlation a pris la valeur 0,8 comme dans le graphique (c).
Le graphique (h) montre clairement que r = 0 n'implique pas que les variables
soient indpendantes. Ici, la dpendance entre X et Y est trs prononce : les
petits X, comme les grands X, donnent de grands Y alors que les X moyens
donnent de petits Y.

4.3

UN TEST D'INDPENDANCE
Revenons l'exemple des maisons d'Outremont. Dans la section 4.1,
exemple 3, nous avons dtermin la droite de rgression pour estimer le prix
partir de l'valuation. Dans la section 4.2, exemple 4, nous avons
dtermin le coefficient de corrlation pour nous assurer que la droite de
rgression donnera de bonnes estimations. Ayant trouv un coefficient de
corrlation de 0,87, nous avons conclu que la dpendance entre X et Y est
assez forte pour permettre des estimations relativement bonnes.
Cette conclusion tait un peu htive, car le coefficient de corrlation de 0,87
ne mesure que le dpendance qui se manifeste dans l'chantillon. Or, les
valeurs chantillonnales sont dtermines en bonne partie par le hasard : le
prix auquel se vend une maison est le fruit d'une ngociation dont l'issue est
imprvisible. Il se peut que deux variables soient fondamentalement
indpendantes et que le hasard seul soit responsable de la dpendance
observe dans l'chantillon. Dans le contexte de notre exemple, cette
hypothse est peu vraisemblable, d'abord parce qu'on sait a priori que le prix
d'une maison est fortement li son valuation, et ensuite parce que le
coefficient de corrlation est lev. Dans plusieurs cas, cependant, on ne sait
pas a priori si les variables sont dpendantes ou non, et le coefficient de
corrlation n'est ni trs prs ni trs loin de 0.
Pour ces cas-l, nous avons besoin d'un test pour dcider si le coefficient de
corrlation est assez grand pour tre significatif.

Le test Le test se base sur un raisonnement analogue celui des autres tests
statistiques : si r est petit (en valeur absolue), on attribue la dpendance au
hasard ; si r est grand (en valeur absolue), on attribue la dpendance
chantillonnale une dpendance relle entre les variables. Il s'avre plus

122

Introduction la statistique applique

commode, cependant, de baser le test non pas sur r lui-mme mais sur une
autre quantit, fonction de r, qui crot lorsque r crot. C'est la quantit
dfinie par
Z

n2

1 r2

Lorsque r est grand, Z est grand et lorsque r est petit, Z est petit. De plus,
r = 0 si et seulement si Z = 0. Donc, un test bas sur Z est quivalent un
test bas sur r. Toutefois, Z a l'avantage d'tre une variable centre rduite et
peut donc tre interprte peu prs comme une cote Z. Une valeur de 3 ou
de 3 est trs loigne de 0 et indique une dpendance relle entre les
variables. Une valeur de 1 ou de 1, par contre, n'est pas excessive : elle peut
tre due au hasard.
Il est habituellement raisonnable de rejeter l'hypothse d'indpendance quand
Z se trouve l'extrieur de l'intervalle (2,2). Si l'hypothse d'indpendance
est vraie, la valeur de Z a tendance tre petite, presque certainement dans
l'intervalle (2,2). Auquel cas on ne rejette pas l'hypothse d'indpendance,
et on a raison. Il peut arriver que Z se trouve l'extrieur de l'intervalle
(2,2), mme si X et Y sont indpendantes. Dans ce cas, on rejette
l'hypothse d'indpendance tort. La probabilit d'une telle erreur est
voisine de 5 %, un risque gnralement considr acceptable.
Si l'hypothse d'indpendance est fausse, Z a tendance sortir de l'intervalle
(2,2), ce qui conduit, comme il le faut, au rejet de l'hypothse. Si Z est dans
l'intervalle, on accepte l'hypothse d'indpendance tort. La probabilit
d'accepter tort, contrairement rejeter tort, ne peut pas tre borne par
une quantit relativement petite comme 5 %. C'est pourquoi on accepte
l'hypothse avec circonspection. Il s'agit plutt d'un non-rejet que d'une
acceptation.
Remarque Si n est vraiment grand, on n'a pas rellement utiliser la
transformation Z. En convenant de rejeter l'hypothse d'indpendance si
nr 2 ! 4 on arrive encore plus rapidement la conclusion et le risque d'erreur
est encore voisin de 5 %.

4 Droite des moindres carrs et corrlation

123

Dans l'exemple des maisons vendues Outremont, la valeur de Z est


Z

41  2 u 0 , 87

11, 02 .

1  ( 0 , 87 ) 2
Pour une cote Z, cette valeur est norme. Ceci veut dire que r est trop grand
pour qu'on puisse attribuer la dpendance observe au hasard. La
dpendance entre les variables est relle.
Le test bas sur nr 2 conduit la mme conclusion : nr 2 31, 03 tant
beaucoup plus grand que le point critique 4, l'hypothse d'indpendance est
vigoureusement rejete.

Conditions de validit On peut dmontrer rigoureusement la validit du test


que nous venons de dcrire si on suppose que certaines conditions (portant
sur la distribution conditionnelle de Y) sont ralises. Or, ces conditions
qu'on peut noncer de faon fort prcise n'admettent pas, en pratique, de
vrification facile. Si l'on peut employer le test quand mme, c'est parce que
les conditions qui assurent sa validit perdent de leur importance lorsque
l'chantillon est grand. C'est donc la seule mise en garde que nous faisons
propos de l'emploi de ce test : il faut que l'chantillon soit assez grand.
Nous n'allons pas prciser le sens de grand . Un chantillon de taille 200
est, toutes fins pratiques, grand . Un chantillon de taille 20 est grand
ou pas assez, selon que les conditions voques plus haut sont vrifies ou
non. Si les conditions sont vrifies, le test est parfaitement valide ; si elles
ne le sont qu' peu prs, le test est approximatif ; si elles ne le sont pas du
tout, le test est en principe non valide. Dans ce dernier cas, on peut quand
mme calculer la valeur de Z, mais la conclusion qu'on en tire doit alors tre
exprime avec circonspection.
Remarque La notion d'indpendance a t dfinie formellement pour des variables qualitatives au chapitre 3 : X et Y sont indpendantes si les distributions
conditionnelles de Y sont identiques. La mme dfinition s'applique aux
variables quantitatives. Pour concrtiser, supposons que X est la taille et Y le
poids de chaque individu d'une population d'adultes. Si x est une valeur
donne de X, alors x dtermine une sous-population : l'ensemble de tous ceux
pour qui X prend la valeur x. La distribution conditionnelle de Y tant donn
X = x est la distribution de Y pour la sous-population en question. Par exemple,
la distribution conditionnelle de Y tant donn X = 160 est la distribution du

124

Introduction la statistique applique

poids de tous ceux dont la taille est de 160 cm. Il y a autant de


sous-populations, et donc autant de distributions conditionnelles de Y, qu'il y a
de valeurs de X.
On dit que X et Y sont indpendantes si ces distributions conditionnelles sont
identiques.

RSUM
1. Lorsqu'un graphique indique qu'il pourrait y avoir une relation linaire
entre deux variables quantitatives X et Y, il convient de mesurer le degr
de dpendance linaire l'aide du coefficient de corrlation r, que l'on
peut calculer par l'une ou l'autre des formules suivantes :
r

6 ( x i  x )( y i  y )
6( x i  x ) 2

n6x i y i  ( 6x i )( 6Y I )

6( yi  y ) 2

n6x I2  ( 6x i ) 2

n6y i2  ( 6y i ) 2

2. Si les donnes ne constituent qu'un chantillon de la population vise, on


peut vouloir tester l'hypothse que dans la population, les variables
sont indpendantes. Pour effectuer ce test, on calcule
Z

n2 r
1 r2

et on rejette l'hypothse d'indpendance si Z est trop loign de 0. Les


valeurs de Z sont interprtes comme celles d'une cote Z. En gnral, on
rejette l'hypothse d'indpendance quand Z ! 2 . Le risque d'erreur est
alors voisin de 5 %.
Si n est assez grand, ce critre de dcision se ramne rejeter
l'hypothse d'indpendance si nr 2 ! 4 .
3. La dpendance linaire entre deux variables est exprime par la droite
des moindres carrs y = a + bx. C'est la droite qui minimise la somme
des carrs des distances verticales entre les points et la droite. Les
coefficients b et a sont donns par :

4 Droite des moindres carrs et corrlation

6 ( x i  x )( y i  y )
6 ( xi  x )

n6x i y i  ( 6x i )( 6y i )

2
i

n6 x  ( 6 x i )

125

6x i y i n  x y
2

6x i

n  x2

y  bx .

EXERCICES
DROITE DES

1. Tracez le nuage de points qui reprsente les donnes suivantes :

MOINDRES
CARRS

12

Calculez la distance D entre le nuage de points et chacune des droites


suivantes :
a) y = 1 + 2x

b) y = 2 + 2x

c) y = 3 + 1,1x

Dterminez la droite des moindres carrs ; ensuite calculez la distance D


entre les points et la droite des moindres carrs.
2. Dterminez la droite des moindres carrs pour les donnes suivantes :
x

11

13

12

Faites un graphique.
3. Sans faire de calculs, dterminez la droite des moindres carrs pour les
donnes suivantes :
x

13

4. Lorsque n = 2, quelle est la distance D entre les deux points et la droite


des moindres carrs ? (Supposez que x1 z x 2 .)
5. Pour les donnes suivantes, calculez la somme 6 ( y i  y i ) et la somme
des carrs D

6 ( y i  y i ) 2 .

10

15

16

21

126

Introduction la statistique applique

6. Dans une certaine ville, un chauffeur de taxi prend note du nombre de


kilomtres (X) et du montant peru en dollars (Y) pour chacune des 10
courses qu'il a faites durant la journe. Voici les donnes :
x

1,5

2,6

5,4

3,8

1,5

0,7

1,8

1,9

2,7

5,1

3,75

4,3

5,7

4,9

3,75

3,35

3,9

3,95

4,35

5,55

a) Tracez un nuage de points.


b) Dterminez la droite des moindres carrs.
c) Interprtez les coefficients a et b.
7. Si, dans les formules pour a et b on changeait X et Y, est-ce qu'on
obtiendrait la mme droite ? Vrifiez votre rponse l'aide des donnes
de l'exercice 1.
8. On prend note du score X dans un test d'aptitude et de la note Y en
mathmatiques de 10 tudiants. Voici les rsultats :
x

11

13

14

15

16

17

19

20

23

25

11

16

17

16

18

19

La droite de rgression est y = 7,10 + 1,13x. Estimez la note en


mathmatiques d'un tudiant dont le score est 5. Pouvez-vous rconcilier
votre rsultat avec le bon sens ?
COEFFICIENT
DE
CORRLATION

9. Calculez le coefficient de corrlation pour les donnes de l'exercice 2.


10. Que peut-on dire de la valeur d'un coefficient de corrlation calcul
partir de 2 couples seulement ?
11. partir du nuage de points de l'exercice 6, donnez la valeur du
coefficient de corrlation.
12. Faites le graphique et calculez le coefficient de corrlation pour les
donnes suivantes :
x

10

22

18

14

10

10

14

18

22

D'aprs le graphique, les variables sont-elles indpendantes ?


13. Si l'on fait subir une transformation linaire chacune des variables X et
Y, le coefficient de corrlation ne change pas en valeur absolue. Vrifiez
cette affirmation l'aide des donnes de l'exercice 2 en calculant le
coefficient de corrlation entre 2 + 4x et 30 + 2y. Calculez galement le
coefficient de corrlation entre 2 + 4x et 30 2y.

4 Droite des moindres carrs et corrlation

127

14. En examinant les formules pour le coefficient de corrlation, dites si r


change lorsque X et Y sont permuts.
TEST

15. Considrez une population de 9 lments dont les valeurs de X et Y sont :

D'INDEPENDANCE

(1,1), (1,2), (1,3), (2,1), (2,2), (2,3), (3,1), (3,2), (3,3)


On peut considrer cette population comme forme de 3 souspopulations celle pour laquelle x = 1, celle pour laquelle x = 2, et celle
pour laquelle x = 3. Supposons qu'on prlve de cette population un
chantillon de taille 3 en choisissant au hasard un individu dans chaque
sous-population, et qu'on calcule le coefficient de corrlation
chantillonnal r. Montrez, en choisissant des chantillons appropris,
que r peut tre gal 1, 0, ou 1. Trouvez aussi un chantillon pour
lequel r prend une valeur diffrente de celles-ci. (Suggestion : faites un
graphique.) Quel est le coefficient de corrlation de la population ?
16. Avec un chantillon de taille 30, peut-on dclarer que les variables sont
rellement dpendantes ?
a) Si r = 0,1

b) Si r = 0,2

c) Si r = 0,3

d) Si r = 0,4

e) Si r = 0,2

f)

Si r = 0,5

17. Supposons que dans un chantillon de taille n on obtient r = 0,4. Peut-on


dclarer que les variables sont rellement dpendantes ?
a) Si n = 5
DIVERS

b) Si n = 15

c) Si n = 20

d) Si n = 30

18. Un sondage est fait auprs des pres de 17 lves d'une cole. De
chacun on obtient l'information suivante : le nombre d'annes de
scolarit, et le nombre de revues ou livres lus en un mois. Voici les
donnes :
Scolarit

Nombre de revues ou de livres

Scolarit

Nombre de revues ou de livres

10

17

10

18

16

11

16

19

14

19

14

12

13

12

13

128

Introduction la statistique applique

a) Laquelle des variables est la variable indpendante naturelle ?


b) Faites le graphique et calculez le coefficient de corrlation.
c) Dterminez la droite des moindres carrs.
d) Testez l'hypothse que le nombre de revues et de livres lus n'a pas de
rapport avec la scolarit.
19. Voici les donnes de l'A.P.A. sur la cylindre (X) et la consommation
d'essence (Y) de 25 modles de voitures. La cylindre est exprime en
litres, la consommation en litres par 100 km.

Modle

Modle

Mazda GLC
Tercel
Honcla Civic
Datsun 310
Datsun Nissan
Fiat 2000
Mazda 626
Saab 900
Skylark
Celebrity
Camaro
Toyota Sup.
Datsun 280ZX

1,5
1,5
1,5
1,5
2
2
2
2
2,5
2,5
2,5
2,8
2,8

8,0
8,0
8,0
9,3
9,5
11,0
11,0
11,5
10,3
10,5
10,4
12,8
12,0

Pontiac 6000
Pontiac Phoenix
Cougar
BMW 733i
Thunderbird
Impala
M. Benz 380SL
Granacla
Olds Delta 88
Mustang
Lincoln
Olds 98

2,8
2,8
3,3
3,3
3,3
3,8
3,8
3,8
3,8
5
5
5

11,0
11,5
12,0
14,0
12,5
12,4
13,7
13,0
13,0
14,5
14,0
14,8

a) Faites le graphique et calculez le coefficient de corrlation.


b) Dterminez la droite des moindres carrs.
c) Estimez la consommation d'essence d'une voiture dont le moteur est
de 4 litres.
6x

72 , 8 ; 6y

288 , 7 ; 6x 2

240 , 54 ; 6y 2

3 429 , 57 ; 6xy

887 , 92.

20. Le tableau suivant donne, pour 15 trimestres conscutifs, les valeurs des
deux variables suivantes :
X : L'indice d'offre d'emploi (1969 = 100). Il s'agit d'un indice calcul
partir des offres d'emploi parues dans les 18 plus grands
journaux canadiens.
Y : Le taux de chmage.

4 Droite des moindres carrs et corrlation

129

Anne

Trimestre

Anne

Trimestre

1978

1
2
3
4
1
2
3
4

159
154
161
187
175
186
198
196

8,40
8,50
8,40
8,16
7,96
7,70
7,13
7,23

1980

1
2
3
4
1
2
3

204
195
204
210
231
221
241

7,50
7,70
7,50
7,40
7,30
7,15
7,13

1979

1981

a) Faites le graphique et calculez le coefficient de corrlation.


b) Dterminez la droite des moindres carrs.
6x

2 922 ; 6y

115 ,16 ; 6x

578 368 ; 6y

887 , 516 4 ; 6xy

22 277 , 22 .

21. Le tableau suivant donne, pour les fils de cuivre, le diamtre en cm (X) et
l'amprage maximal tolr (Y).
X

1,30
1,40
1,52
1,65
1,85
1,98

245
285
330
385
425
480

2,08
2,21
2,41
2,79
3,05
3,45

530
575
660
740
845
1 000

a) Faites le graphique et calculez le coefficient de corrlation.


b) Dterminez la droite des moindres carrs.
c) Estimez l'amprage maximal tolr par un fil de diamtre 2,50.
22. Les donnes suivantes, provenant du ministre de l'Agriculture, des
Pcheries et de l'Alimentation, portent sur une exprience visant
dterminer la relation entre le taux de semis d'avoine (X, en kg/ha) et le
nombre de plantules par mtre carr (Y). Les donnes portent sur 17
parcelles de terre.
X

90
95
95
95
95
100

232
208
220
150
203
252

105
106
108
113
113
114

237
298
279
237
210
211

114
120
120
126
133

201
304
275
284
313

130

Introduction la statistique applique

a) Faites un graphique et calculez le coefficient de corrlation.


b) Dterminez la droite des moindres carrs.
c) Estimez le nombre de plantules auquel on peut s'attendre lorsqu'on
sme un taux de 118 kg/ha.
d) Pourquoi la relation ne peut-elle tre linaire que pour un intervalle
restreint de valeurs de X ?
6x

1 842 ; 6y

4 114 ; 6x

202 020 ; 6y

1 027 372 ; 6xy

451 252.

23. Dans un chantillon de 18 personnes, on prend note du poids (X, en kg)


et du taux de cholestrol (Y, en mg par 100 ml de sang). Voici les
donnes
X

50
56
58
64
64
68

262
250
265
280
264
256

72
76
78
82
82
86

281
293
271
261
296
268

93
94
95
101
104
108

277
300
305
310
286
301

a) Faites un graphique et calculez le coefficient de corrlation.


b) Dterminez la droite des moindres carrs.
c) Testez l'hypothse selon laquelle le taux de cholestrol et le poids
sont indpendants.
6x

1 431 ; 6y

5 026 ; 6x 2

118 895 ; 6y 2

1 409 064 ; 6xy

403 552 .

24. Au service du personnel d'une compagnie d'assurances, un analyste


tente de savoir quels sont les facteurs qui dterminent le succs des
vendeurs. L'une des hypothses est que l'aptitude verbale reprsente un
facteur important, et pour l'prouver il prlve un chantillon de 30
vendeurs qui il fait passer un test d'aptitude verbale. Les tableaux
suivants donnent le score (X) pour les 30 vendeurs, ainsi que leurs
ventes annuelles (Y) en dizaines de milliers de dollars.

4 Droite des moindres carrs et corrlation

131

22
24
29
33
25
31
35
38
27
36

30
20
50
40
80
50
80
30
40
20

41
48
43
46
56
44
57
59
52
54

180
100
140
120
160
160
140
180
100
120

80
65
82
90
60
70
85
68
73
77

320
350
280
400
400
320
350
280
300
300

a) Calculez le coefficient de corrlation et testez l'hypothse selon


laquelle X et Y sont indpendantes.
b) Supposons que vous appreniez qu'avant de tirer l'chantillon,
l'analyste a spar les vendeurs de la compagnie en trois groupes, le
premier comprenant les vendeurs de moins de 5 annes d'exprience ;
le deuxime les vendeurs ayant de 5 10 annes d'exprience ; et le
troisime, enfin, les vendeurs ayant plus de 10 annes d'exprience. Il
a ensuite prlev un chantillon de 10 vendeurs dans chaque groupe.
Supposons que les trois colonnes du tableau ci-dessus correspondent
au premier, au deuxime et au troisime groupe, respectivement.
Analysez, la lumire de ces faits, la relation entre le score d'aptitude
verbale et les ventes. Expliquez la contradiction entre cette conclusion
et celle que vous avez tire en a).
Premier groupe
6x

300 ; 6y

440 ; 6x 2

9 270 ; 6y 2

23 600 ; 6xy

13 200

Deuxime groupe
6x

500 ; 6y

1 400 ; 6x 2

25 372 ; 6y 2

204 00 ; 6xy

57 056 ; 6y 2

1 106 600 ; 6xy

70 000

Troisime groupe
6x

750 ; 6y

3 300 ; 6x 2

247 500

25. Dans un collge, certains tudiants suivent un cours de rattrapage en


mathmatique pour se prparer au cours de calcul. Pour valuer l'utilit
du cours, on prlve un chantillon d'tudiants ayant suivi le cours de
rattrapage, et un chantillon d'tudiants ne l'ayant pas suivi. Aprs qu'ils

132

Introduction la statistique applique

aient tous suivi le cours de calcul on observe leurs notes (Y). On constate
que ceux qui ont suivi le cours de rattrapage (le groupe A, disons) ont
une moyenne infrieure celle de ceux qui ne l'ont pas suivi (le groupe
B) : 58,8 pour le groupe A et 68,2 pour le groupe B. Dans d'autres
circonstances, ces rsultats auraient men l'tonnante conclusion que
le cours de rattrapage a eu un effet ngatif. Dans ce cas, les tudiants
qui ont suivi le cours taient faibles au dpart c'est prcisment la
raison pour laquelle ils l'ont suivi. Leur faible note en calcul ne dmontre
donc pas que le cours leur a t inutile ou nuisible. Pour tudier la
question plus fond, on prlve des donnes sur la note en
mathmatiques (X) obtenues la dernire anne du secondaire. Voici les
donnes sur X et sur Y pour les deux groupes.

Groupe A

Groupe B

50
51
52
53
54
55
56
57
60
68

57
46
59
58
52
51
65
62
61
77

70
71
74
77
78
81
83
83
87
91

60
53
64
66
64
66
76
75
75
83

Ces donnes permettent-elles de tirer des conclusions sur l'utilit du


cours de rattrapage ? (Ne vous proccupez pas des problmes
d'chantillonnage : supposez que tous les coefficients que vous calculez
sont de bonnes estimations des coefficients correspondants dans la
population.) (Suggestion : faites un graphique.)
Groupe A
6x

556 ; 6y

588 ; 6x 2

31 164 ; 6y 2

35 234 ; 6xy

33 021

682 ; 6x 2

63 619 ; 6y 2

47 228 ; 6xy

54 730

Groupe B
6x

795 ; 6y

4 Droite des moindres carrs et corrlation

133

26. Pour un chantillon de 15 familles de 4 personnes on prlve des


donnes sur 2 variables :
X : Le revenu hebdomadaire net.
Y : Les dpenses en nourriture.
Voici les donnes :
X

150
175
210
220
220

80
60
85
70
79

225
230
250
260
275

88
89
81
86
86

290
320
370
380
500

88
90
89
92
95

a) Calculez le coefficient de corrlation.


b) Dterminez la droite des moindres carrs et interprtez les valeurs de
a et de b.
c) Estimez les dpenses en nourriture d'une famille dont le revenu
hebdomadaire net est de (i) 150 $ ; (ii) 500 $.
d) Une faon classique d'exploiter le lien entre deux variables est base
sur le rapport de la somme des Y la somme des X. Ce rapport ici
vaut 6y 6x 1 258 4 075 0 , 309 , ce qui veut dire qu'en moyenne
30,9 % du revenu est dpens en nourriture. En appliquant ce
pourcentage au revenu d'une famille on obtient une estimation de ses
dpenses en nourriture. Employez cette mthode pour faire les
estimations demandes en (c). Quels sont les inconvnients de cette
approche ?
e) Croyez-vous que la droite des moindres carrs puisse fournir de
bonnes estimations des dpenses pour les familles avec un revenu
hebdomadaire de 5 000 $ ?
f)

Faites un test pour dterminer si les variables X et Y sont rellement


dpendantes.
6x

4 075 ; 6y

1 258 ; 6x 2

1 221 075 ; 6y 2

106 638 ; 6xy

349 370 .

27. Une faon d'tudier les dterminants gntiques d'un trait humain
consiste mesurer ce trait sur des jumeaux qui ont vcu spars. Dans
une telle tude, 36 paires de jumeaux ayant t spars trs jeunes
passent un test d'aptitudes. On obtient les scores qui paraissent au
tableau voisin.

134

Introduction la statistique applique

X = score du premier jumeau, Y = score du second.


n

36 ; 6x

887 ; 6y

2
828 ; 6x

2
24 381 ; 6y

21 746 ; 6xy

22 509 .

Dterminez le coefficient de corrlation r entre les aptitudes du premier


et du second jumeau. La corrlation est-elle significative ? Discutez.
28. Pour tenir compte de certaines caractristiques d'un contexte on peut
vouloir poser d'emble l'galit a = 0, pour ne considrer que le modle
y = bx. Dans ce cas, pour calculer b, il suffit de remplacer x et y par 0
dans la formule pour b donne dans ce chapitre. On a alors
b 6x i y i 6x i2 . Utilisez cette formule pour dterminer le coefficient b dans
le problme prcdent.
Paire

Premier

Second

Paire

Premier

Second

Paire

Premier

Second

1
2
3
4
5
6
7
8
9
10
11
12

5
8
15
13
14
12
14
15
21
18
22
23

3
6
12
14
5
24
7
23
12
22
25
28

13
14
15
16
17
18
19
20
21
22
23
24

21
23
23
25
25
26
26
27
26
28
28
29

16
29
20
31
19
26
23
25
25
23
32
32

25
26
27
28
29
30
31
32
33
34
35
36

31
30
31
32
32
30
32
36
36
33
37
40

23
29
33
27
31
19
27
27
31
25
36
38

*29. Certaines associations ne peuvent pas tre reprsentes par une


quation linaire. La concentration d'un mdicament dans le sang, par
exemple, ne diminue pas de faon linaire aprs son absorption, car le
taux d'limination du produit est proportionnel la quantit prsente
dans le sang. Certains arguments thoriques rendent plausible
l'hypothse que la concentration y est lie la dure x depuis
l'absorption par une quation de la forme
y

ae  bx .

Le problme est encore de trouver a et b partir du tableau ci-dessous,


qui prsente des donnes sur la concentration y du mdicament dans le
sang diffrents moments (x). Les mthodes de ce chapitre peuvent tre
utilises, condition de transformer la variable Y en une variable Y' qui,
elle, est linaire en X. C'est la transformation logarithmique qui a cet

4 Droite des moindres carrs et corrlation

135

effet. Par l'quation exponentielle ci-dessus, nous avons log y = log a


bx. Donc la variable Y' = log Y s'exprime comme fonction linaire
y ' a ' b ' x
o a' = log a et b' = b.
X

Nombre
d'heures

Concentration
(mg/ml)

Nombre
d'heures

Concentration
(mg/ml)

Nombre
d'heures

Concentration
(mg/ml)

0,5
1,0
1,5
2,0
2,5
3,0

0,091 6
0,089 8
0,080 5
0,059 0
0,057 8
0,053 4

3,5
4,0
4,5
5,0
5,5
6,0

0,052 3
0,031 7
0,038 4
0,037 6
0,030 8
0,029 3

6,5
7,0
7,5
8,0
8,5
9,0

0,025 5
0,023 5
0,023 1
0,019 6
0,016 7
0,016 6

Le tableau donne les concentrations prleves chaque demi-heure


pendant 9 heures aprs la consommation.
a) Construisez un nuage de points pour montrer que la relation entre X
et Y n'est pas linaire.
b) Dterminez a' et b', les coefficients de la droite de rgression entre Y'
et X.
c) Dterminez les paramtres a et b de l'quation exponentielle

y ae bx .
d) Utilisez l'quation pour estimer la concentration 2 heures et 15
minutes aprs la consommation.
n 18 ; 6x i
6log y i

85 , 5 ; 6x i2

>

527 , 25 ; 6x i log y i

59 195 ; 6 log y i

30 598 ;

199 908.

*30. Cet exercice montre une faon de quantifier la distribution des


ressources dans une population, comme les terres arables, le capital, le
revenu. Considrons la proportion X de la population qui est la plus
dmunie et notons par Y la proportion des ressources que cette partie de
la population possde. Avec des statistiques, on peut obtenir pour une
srie de valeurs de X une valeur de Y correspondante. La forme de la
courbe reliant X Y renseigne sur le degr d'ingalit de la distribution.
L'galit parfaite se traduit par la droite y = x qui passe de (0, 0) (1, 1).

136

Introduction la statistique applique

En gnral, la courbe se situe au-dessous de la droite, rejoignant


cependant les points (0, 0) et (1, 1), et passe trs bas au-dessous de la
droite dans des situations de profondes ingalits. Un modle possible
pour cette courbe est l'quation
y

o b est un paramtre qui doit tre estim. Une galit est alors mesure
par la valeur de b, qui est toujours suprieure ou gale 1. Le tableau
suivant donne la valeur de y pour certaines valeurs de x.
X

0,25
0,30
0,35
0,40
0,45

0,032
0,055
0,079
0,115
0,173

0,50
0,55
0,60
0,65
0,70

0,180
0,259
0,275
0,367
0,453

0,75
0,80
0,85
0,90
0,95

0,588
0,618
0,650
0,843
0,860

>

n 15 ; 6log x i

>

6 log y i

8 774 ; 6 logx i

43 274 ; 6log x i log y i

7 535 ; 6log y i

20 714 ;

18 037.

Pour dterminer la valeur de b, on peut faire les transformations


y' = log(y), x' = log(x). On a alors la relation
y ' bx '
o b peut tre estim en utilisant la formule propose l'exercice 28.
Dterminez b.
*31. Une conseillre pdagogique reoit les donnes suivantes sur 15 classes
de mathmatique sous sa juridiction. Son but est de dterminer si un
certain jeu qu'elle a conu amliore l'apprentissage des mathmatiques.
La variable X reprsente le nombre d'heures passes pendant l'anne
jouer au jeu ; et Y est la note moyenne de la classe un examen de
mathmatique. Remarquez que chaque y i est une moyenne d'un nombre
variable de notes. Par consquent, les formules pour calculer a et b
changent. Nous pouvons toujours les crire sous la forme suivante :
b

( xy  x y ) ( x  x )

et

y  bx ; mais les moyennes impliques

doivent tre pondres : par exemple, xy


Calculez a et b pour les donnes suivantes.

6n i x i y i n et x 2

6n i x i2 n .

4 Droite des moindres carrs et corrlation

137

Effectif

Effectif

Effectif

22
28
33
20
27

2
8
14
20
26

70
68
80
86
85

31
27
37
19
32

4
10
16
22
28

66
74
71
69
90

36
30
41
28
25

6
12
18
24
30

63
76
89
81
92

32. Un spcialiste dveloppe un test dans le but d'tablir une relation entre
la dextrit manuelle et l'aptitude mentale des lves du secondaire.
l'occasion d'une analyse prliminaire il fait passer des tests 25 lves,
obtenant pour chacun le score (X) un test d'aptitude et le score (Y) un
test de dextrit manuelle. Pour s'assurer d'une bonne reprsentation, il
choisit un groupe de chaque niveau du secondaire. Il obtient les rsultats
suivants :
Secondaire 1

b
a
r
Z

Secondaire 2

Secondaire 3

Secondaire 4

Secondaire 5

26
28
32
36
38

25
29
27
25
27
0,04
27,8
0,12
0,20

42
43
44
46
49

37
35
34
35
39

56
57
59
61
62

43
47
45
46
44

68
69
72
73
75

54
56
55
53
55

80
82
84
87
92

61
66
63
62
63

0,39
18,5
0,54
1,11

0,04
42,7
0,06
0,11

0,07
59,3
0,17
0,29

0,01
64,0
0,03
0,05

Pour le groupe au complet :


6x

1 461 ; 6y

1 126 ; 6x 2

94 457 ; 6y 2

54 950 ; 6xy

71 868.

Selon les rsultats ci-dessus, il n'y a rien de significatif. Vrifiez que


nanmoins, le coefficient de corrlation obtenu en runissant les 25
donnes est 0,98, fortement significatif. Dessinez un nuage de points
dans lequel vous reprsenterez chaque classe par un symbole diffrent
et, partir de ce dessin, interprtez la contradiction entre les conclusions
bases sur chaque classe et celle base sur l'ensemble des classes.
Tchez d'viter le langage technique dans vos explications.
*33. Une facult universitaire considre la possibilit d'imposer un test
d'admission. Elle fait passer le test un ensemble de 46 tudiants dj

138

Introduction la statistique applique

inscrits, et calcule le coefficient de corrlation entre le rsultat (X) et la


moyenne obtenue au premier trimestre (Y). Voici les rsultats :
X

5
10
12
12
13
15
18
19
21
23

24
35
29
37
38
29
35
44
38
50

25
27
29
30
32
35
36
36
38

42
60
44
52
57
56
60
67
56

39
39
41
41
42
43
45
45
46

52
70
72
67
61
75
72
79
67

47
48
49
49
51
52
52
53
56

65
81
73
69
75
87
70
85
90

57
57
58
59
59
60
60
61
62

90
70
85
86
92
95
80
90
85

Le coefficient de corrlation, qui est ici 0,95, encourage l'administration


de l'universit utiliser le test l'avenir. Cette information aurait t
perdue en grande partie si l'on avait procd immdiatement
l'utilisation du test. Supposons, par exemple, que l'universit ait refus
l'admission tous les candidats qui n'avaient pas obtenu un score de 50
ou plus. Il lui resterait pour son exprience les 14 sujets admis. Le
coefficient de corrlation pour ceux-ci n'est que 0,46. Faites un nuage de
points montrant les 46 sujets, puis indiquez ceux qui seraient admis
avec ce critre. Expliquez par un argument graphique pourquoi le
coefficient de corrlation baisse tellement.
*34. On tudie l'effet de la scolarit sur la tendance tre libral sur des
questions conomiques. On prlve des sujets appartenant trois
classes sociales, A, B et C ; A reprsente la classe ouvrire, B la petite
bourgeoisie, C la classe dirigeante. On recueille les donnes suivantes,
o X est le nombre d'annes de scolarit et Y est le score dans un test de
libralisme.
Pour le groupe au complet :
6x

404 ; 6y 1 084 ; 6x 2

6 138 ; 6y 2

45 656 ; 6xy 14 533 .

Pour chaque groupe, la relation entre la scolarit et le libralisme est


forte et significative. Vrifiez, cependant, que lorsqu'on runit les trois
groupes on obtient un coefficient de corrlation de 0,03, ce qui est
parfaitement non significatif. Dessinez un nuage de points dans lequel
vous reprsenterez chaque classe par un symbole diffrent. partir de ce
dessin, interprtez la contradiction entre les conclusions bases sur
chaque groupe et celle base sur l'ensemble des groupes. Tchez d'viter
le langage technique dans vos explications.

4 Droite des moindres carrs et corrlation


Classe A

Classe B

139

Classe C

5
6
6
7
8
8
10
10
7
8

25
30
30
20
50
55
65
60
40
45

11
12
13
14
15
16
17
17
14
15

20
20
20
25
55
40
55
59
30
40

16
17
18
19
20
21
18
18
19
19

15
20
25
35
45
55
35
25
25
20

8,37

6,91

7,30

20,8

63,1

105,0

0,89

0,89

0,84

5,56

5,44

4,36

*35. Dans le tableau 4.2 nous prsentons des donnes prleves en 1977 sur
les salaires au moment de l'engagement de 93 employs, dont 32 sont de
sexe masculin et 61 de sexe fminin . Les salaires sont ceux auxquels les
employs ont t engags ; l'exprience est le nombre de mois
d'exprience pralable dans un domaine connexe ; la priode est la date
d'engagement, exprime en nombre de mois depuis le ler janvier 1969.
Voici les moyennes des diffrentes variables pour les hommes et pour les
femmes.
Salaires (1 000 $)
ducation
Exprience
Priode

Femmes

Hommes

Tous

5,139
11,97
99,81
17,44

5,957
13,53
103,05
15,34

5,420
12,51
100,93
16,72

On a prlev ces donnes dans le but de dterminer s'il y a eu


discrimination dans les engagements. premire vue, les moyennes
salariales pourraient appuyer l'hypothse d'une discrimination, mais on
constate que les femmes ont moins de scolarit et moins d'exprience
que les hommes et ces diffrences pourraient expliquer les diffrences
salariales. D'autre part, les femmes ont t engages en moyenne plus
tard que les hommes, ce qui devrait avoir pour consquence d'augmenter

Roberts, H.V. (1979), Harris Trust and Savings Bank : An analysis of employee compensation, Report 7946,
Center for Mathematical Studies in Business and Economics, University of Chicago, Graduate School of Business.

140

Introduction la statistique applique

leur salaire et non de les diminuer. Il est vident que toute comparaison
de salaires devrait tre faite partir de moyennes ajustes. Dans cet
exercice on vous demande de calculer des moyennes salariales ajustes.
a) Vrifiez que la droite de rgression du salaire (Y) sur la scolarit (X) et
le coefficient de corrlation sont
pour les femmes, Y = 4,382 + 0,063X, r = 0,27
pour les hommes, Y =4,120 + 0,136X, r = 0,37
et que la dpendance est significative dans les deux cas. Calculez la
valeur de Y qui correspond X = 12,51, pour les hommes et pour les
femmes. Les valeurs obtenues sont des moyennes ajustes. Le
concept est identique celui prsent au chapitre 2, mais la
technique change du fait que la variable pour laquelle on ajuste est
quantitative. Interprtez les rsultats.
b) On fait des oprations analogues pour obtenir des moyennes
salariales ajustes qui tiennent compte de la diffrence de priode.
Vrifiez que la droite de rgression du salaire (Y) sur la priode
d'engagement (X) et le coefficient de corrlation sont
pour les femmes, Y = 4,752 + 0,022X, r = 0,43
pour les hommes, Y = 5,550 + 0,027X, r = 0,37
Vrifiez que la dpendance est significative dans les deux cas et
calculez des moyennes ajustes. Commentez.
c) Vrifiez que la droite de rgression du salaire (Y) sur l'exprience (X)
et le coefficient de corrlation sont
pour les femmes, Y = 4,927 + 0,002 1X, r = 0,34
pour les hommes, Y = 5,964 0,000 1X, r = -0,01
Vous constatez que la dpendance n'est pas significative pour les
hommes, ce qui pose un dilemme. moins d'attribuer ce qu'on
observe ici un accident du hasard, nous devons expliquer le fait
que le salaire dpend de l'exprience pour les hommes mais pas pour
les femmes. Cette question ne peut tre tranche ici, mais le lecteur
pourrait trouver instructif de se livrer ses propres spculations.
Autre problme : comment ajuster les donnes ? S'il est certain que Y
ne dpend pas de X, alors ajuster n'a pas de sens. D'autre part, cette
conclusion n'est jamais vraiment certaine. Il est donc raisonnable de

4 Droite des moindres carrs et corrlation

141

procder comme aux deux numros prcdents, d'autant plus que


l'ajustement se rvle presque sans effet. Vous pouvez confirmer ceci
en calculant les moyennes ajustes pour les femmes et pour les
hommes.
TABLEAU 4.2

Salaire initial, scolarit, exprience et date d'engagement de 61 femmes


Femmes
Salaire
(mille $)
3,99
4,02
4,29
4,38
4,38
4,38
4,38
4,38
4,44
4,50
4,50
4,62
4,80
4,80
4,80
4,80
4,80
4,80
4,80
4,80
4,80
4,80
4,89
5,10
5,10
5,10
5,10
5,10
5,10
5,16
5,22

Scolarit
(annes)
12
10
12
8
8
12
12
12
15
8
12
12
8
12
12
12
12
12
12
12
12
16
8
8
12
12
15
15
16
12
8

Exprience
(mois)
0,0
44,0
5,0
6,2
7,5
0,0
0,0
4,5
75,0
52,0
8,0
52,0
70,0
6,0
11,0
11,0
63,0
144,0
163,0
228,0
381,0
214,0
318,0
96,0
36,0
59,0
115,0
165,0
123,0
18,0
102,0

Priode
(mois)
1
7
30
7
6
7
10
6
2
3
19
3
20
23
12
17
22
24
12
26
1
15
25
33
15
14
1
4
12
12
29

Salaire
(mille $)
5,22
5,28
5,28
5,28
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,52
5,52
5,58
5,64
5,70
5,70
5,70
5,70
5,70
6,00
6,00
6,12
6,30
6,30

Scolarit
(annes)
12
8
8
12
8
8
12
12
12
12
12
12
15
15
15
15
12
12
12
12
12
12
15
15
15
12
15
12
12
15

Exprience
(mois)
127,0
90,0
190,0
107,0
173,0
228,0
26,0
26,0
38,0
82,0
169,0
244,0
24,0
49,0
51,0
122,0
97,0
196,0
132,5
55,0
90,0
116,5
51,0
61,0
241,0
121,0
78,5
208,5
86,5
231,0

Priode
(mois)
29
11
1
11
34
33
11
33
22
29
27
1
13
27
21
33
17
32
30
9
23
25
17
11
34
30
13
21
33
15

142

Introduction la statistique applique

TABLEAU 4.2

Salaire initial, scolarit, exprience et date d'engagement de 32 hommes


Salaire
(mille $)
4,62
5,04
5,10
5,10
5,22
5,40
5,40
5,40
5,40
5,40
5,70
6,00
6,00
6,00
6,00
6,00

Scolarit
(annes)
12
15
12
12
12
12
12
12
15
15
15
8
12
12
12
12

Exprience
(mois)
11,5
14,0
180,0
315,0
29,0
7,0
38,0
113,0
17,5
359,0
36,0
320,0
24,0
32,0
49,0
56,0

Hommes
Priode
Salaire
(mois)
(mille $)
22
6,00
3
6,00
15
6,00
2
6,00
14
6,00
21
6,00
11
6,00
3
6,00
8
6,30
11
6,60
5
6,60
21
6,60
2
6,84
17
6,90
8
6,90
33
8,10

Scolarit
(annes)
12
12
15
15
15
15
15
16
15
15
15
15
15
12
15
16

Exprience
(mois)
252,0
272,0
25,0
35,5
56,0
64,0
108,0
45,5
72,0
64,0
84,0
215,5
41,5
175,0
132,0
54,5

Priode
(mois)
11
19
13
32
12
33
16
3
17
16
33
16
7
10
24
33

d) Revenons aux deux droites de rgression en a). Nous avons trouv


que pour X = 12,51 le salaire moyen des femmes est infrieur celui
des hommes. Toutefois les deux droites de rgression ne sont pas
parallles et elles se rencontreront pour une certaine valeur de X ; et
au-dessous de ce point, ce sont les femmes qui ont le plus gros
salaire. Pour quelle valeur de X les deux droites se rencontrent-elles ?
La conclusion dtermine en a) change-t-elle ? Pourquoi ou pourquoi
pas ?
e) Les techniques utilises ici ne sont malheureusement pas adquates,
puisqu'elles ne permettent pas de rconcilier les conclusions en a) et
en b). On devrait pouvoir ajuster les moyennes pour tenir compte
simultanment de la diffrence de scolarit et de la diffrence de
priode. Il existe une gnralisation des concepts prsents dans ce
chapitre qui permet d'exprimer la dpendance entre le salaire (Y) et
plusieurs autres variables. Une rgression utilisant plusieurs
variables porte le nom de rgression multiple. En particulier, nous
pouvons exprimer la dpendance entre le salaire (Y), d'une part, et la
scolarit (X1) et la priode (X2), d'autre part. Les quations pour les
femmes et les hommes sont :
pour les femmes, Y = 3,882 8 + 0,071 0X1 + 0,023 3X2
pour les hommes, Y = 3,885 8 + 0,125 2 X1 + 0,024 6X2
Dterminez les moyennes ajustes et commentez.

Variables alatoires et
probabilits
5.1

5.2

5.3
5.4
5.5

Espace chantillon et vnement


Espace chantillon
vnement
Probabilits
Lois des probabilits
Indpendance
Indpendance de plusieurs vnements
Probabilits conditionnelles
Variables alatoires
Esprance et variance
Proprits lmentaires de E(X) et de Var(X)
RSUM
EXERCICES

144

Introduction la statistique applique

Introduction Nous avons vu, dans les premiers chapitres, comment prsenter
des donnes quantitatives tires d'une population et comment en extraire
certaines caractristiques. Nous avons vu aussi que dans la plupart des cas,
une tude statistique se restreint la considration d'un chantillon et
l'tablissement des conditions mathmatiques selon lesquelles les
conclusions tires de l'examen de l'chantillon peuvent s'tendre la
population entire. Une telle dmarche suppose l'usage d'un certain nombre
d'outils mathmatiques, et en particulier de ceux qui rgissent l'tude des
phnomnes alatoires et des probabilits.
On peut prvoir le moment exact d'une clipse de soleil, on peut aussi
dterminer l'avance la trajectoire d'un projectile si l'on connat les
conditions de son envol. De tels phnomnes sont dterministes. De
nombreux autres phnomnes par contre sont alatoires , c'est--dire qu'on
ne peut pas en prvoir l'issue. Ainsi en est-il des jeux de hasard, comme du
nombre de naissances qui surviendront l'an prochain dans une clinique
donne d'obsttrique. C'est cette dernire catgorie de phnomnes qu'tudie
la statistique.
Nous nous intresserons donc dans ce chapitre aux expriences alatoires,
c'est--dire toute opration dont on peut dcrire, ou numrer, l'ensemble
des rsultats possibles, mais dont on ne peut prvoir lequel arrivera. Cela
nous amnera naturellement dfinir les probabilits et en tudier les lois
lmentaires, ainsi que les variables alatoires, c'est--dire les quantits
dont la variation est soumise au hasard.

5.1

ESPACE CHANTILLON ET VNEMENT


Espace chantillon Pour dcrire le comportement du rsultat d'une
exprience alatoire, il faut d'abord dterminer l'ensemble de tous les
rsultats possibles. Cet ensemble porte le nom d'espace chantillon, not :
(lettre grecque omga).
: = {1, 2, 3, 4, 5, 6}.

Exemple 1

On lance un d ordinaire.

Exemple 2

On lance deux fois un d. Il y a 36 rsultats possibles.


: = {(1, 1), (1, 2), ..., (6, 6)}

Du latin ala : coup de d, chance.

5 Variables alatoires et probabilits

Exemple 3

145

On choisit une personne au hasard et on observe la couleur de ses yeux.


: = {bleu, brun, gris, autre couleur} .

Comme le montre l'exemple 3, la dtermination de l'espace chantillon :


n'est pas toujours unique. On aurait trs bien pu considrer d'autres
couleurs, dfinir autrement les classes, etc. Il faut toutefois s'assurer que
l'ensemble : qu'on a choisi contient vraiment tous les rsultats possibles de
l'exprience et ne contient chacun qu'une fois.
Au fond, cette dtermination de : est un problme de modlisation crer un
modle d'une situation concrte, c'est d'abord se concentrer sur les aspects
essentiels ou pertinents de cette situation, quitte ne pas prendre en
compte les aspects secondaires ou ngligeables.
Exemple 4

On choisit une personne au hasard et on observe le nombre de frres et


surs qu'elle a. Ici, il est commode de prendre : = {0, 1, 2, ... }. Il est bien
vident que personne n'a un million de frres et soeurs, mais il est bien
dlicat de choisir une borne qui ne serait pas arbitraire.
i

vnement Un vnement est un sous-ensemble de l'espace chantillon. Le


plus souvent, un vnement peut aussi se dfinir au moyen d'une
proposition affirmative du genre la boule est bleue ou le rsultat est
impair . Les deux reprsentations sont fondamentalement quivalentes :
toute proposition, qui peut tre vraie ou fausse selon le rsultat de
l'exprience, on fait correspondre le sous-ensemble de : compos des
rsultats pour lesquels la proposition est vraie.
Exemple 5

On lance trois fois un sou. Il y a 8 rsultats possibles et on a


: = {PPP, PPF, PFP, FPP, PFF, FPF, FFP, FFF} .
Plusieurs vnements peuvent tre considrs. En voici quelques-uns
prsents la fois sous forme de proposition et sous forme de
sous-ensemble.
Proposition

Sous-ensemble correspondant

On a exactement deux faces.

{PFF, FPF, FFP}

On n'a que des piles.

{PPP}

On a le mme nombre de piles que de faces.

(sous-ensemble vide)

On a plus de piles que de faces.

{PPP, PPF, PFP, FPP}

On a moins de 4 faces.

: (tout l'espace chantillon)

146

Introduction la statistique applique

Il va sans dire qu'il y a souvent plusieurs faons de dire la mme chose.


L'vnement avoir deux piles est le mme que avoir une seule face et
chacun d'eux correspond au mme sous-ensemble {PPF, PFP, FPP}.
L'vnement impossible, correspondant au sous-ensemble vide , de mme
que l'vnement certain, correspondant :, peuvent aussi s'noncer de
bien des faons ! La reprsentation des vments au moyen des
sous-ensembles de : a l'avantage de se prter facilement toutes les
oprations qu'on peut faire sur les ensembles.
i
Avant d'aller plus loin, rappelons le sens et la porte des symboles utiliss.
Si A et B sont deux sous-ensembles de :, alors :
AB

(runion de A, B) est form des lments de : qui


appartiennent A ou B.

AB

(intersection de A, B) est form des lments de : qui


appartiennent A et B.

Ac

(complment de A) est form des lments de : qui


n'appartiennent pas A.

AB

(diffrence de A, B) est form des lments de A qui


n'appartiennent pas B. A B = A Bc.

On utilise les diagrammes de Venn pour visualiser les oprations sur les
ensembles.

A
B

AB

5 Variables alatoires et probabilits

A
B

AB

A
B

AB

147

148

Introduction la statistique applique

La reprsentation gomtrique suivante peut s'avrer particulirement utile


quand plus de deux ensembles sont en cause :

:
C

(A B) (A C)

Quand on joint deux propositions au moyen d'un ou , on en obtient une


nouvelle, qui sera vraie si l'une ou l'autre des deux premires propositions
est vraie et qui ne sera fausse que si les deux propositions initiales sont
fausses. Cette nouvelle proposition correspond au sous-ensemble A B,
form par l'union des sous-ensembles A et B correspondant aux deux
propositions de dpart.
Exemple 6

La proposition compose l'lve choisi est dou ou l'lve choisi est


travailleur correspond essentiellement aux lves qui russissent.
i
D'autre part, quand deux propositions sont jointes par un et , il faut que
les deux soient vraies pour que la nouvelle proposition le soit. Cette nouvelle
proposition correspond donc au sous-ensemble A B.

Exemple 7

La proposition La personne est rousse et la personne est une femme est


vraie (et n'est vraie que) pour une femme rousse.
i
Enfin, la ngation d'une proposition en donne une nouvelle qui est vraie si la
premire est fausse, et fausse si la premire est vraie. Ce nouvel vnement
est donc le complment du premier.

Exemple 8

La proposition il est faux que la personne est rousse correspond toutes


les autres personnes : blondes, brunes, etc.
i

5 Variables alatoires et probabilits

Exemple 9

149

On lance deux fois un d.

(1,1) (1, 2 ) (1, 3 ) (1, 4 ) (1, 5 ) (1, 6 )

( 2 ,1) ( 2 , 2 ) ( 2 , 3 ) ( 2 , 4 ) ( 2 , 5 ) ( 2 , 6 )

( 3 ,1) ( 3 , 2 ) ( 3 , 3 ) ( 3 , 4 ) ( 3 , 5 ) ( 3 , 6 )

( 4 ,1) ( 4 , 2 ) ( 4 , 3 ) ( 4 , 4 ) ( 4 , 5 ) ( 4 , 6 )

( 5 ,1) ( 5 , 2 ) ( 5 , 3 ) ( 5 , 4 ) ( 5 , 5 ) ( 5 , 6 )

( 6 ,1) ( 6 , 2 ) ( 6 , 3 ) ( 6 , 4 ) ( 6 , 5 ) ( 6 , 6 )

Considrons les trois vnements :


A = La somme des points gale 5.
B = La face 2 est apparue au moins une fois.
C = Les deux ds donnent la mme face.
Ces vnements correspondent aux sous-ensembles :
A = {(l, 4), (2, 3), (3, 2), (4, 1)}
B = {(l, 2), (2, 2), (3, 2), (4, 2), (5, 2), (6, 2), (2, 1), (2, 3), (2, 4), (2, 5),
(2,6)}
C = {(l, 1), (2, 2), (3, 3), (4,4), (5, 5), (6, 6)}
On trouve alors, entre autres :
A B = {(l, 4), (2, 3), (3, 2), (4, 1), (1, 2), (2, 2), (4, 2), (5, 2), (6, 2), (2, 1),
(2, 4), (2, 5), (2, 6)}
A B = {(2, 3), (3, 2)}
A C = {(1, 4), (2, 3), (3, 2), (4, 1), (1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}
AC=
Bc = {(1, 1), (1,3), (1, 4), (1, 5), (1, 6), (3, 1), (3, 3), (3, 4), (3, 5), (3, 6),
(4,1), (4,3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 3), (5, 4), (5, 5), (5, 6),
(6,1), (6,3), (6,4), (6,5), (6, 6)}
Ac Cc = (A C)c = c = :
A B = {(1, 4), (4, 1)}

150

5.2

Introduction la statistique applique

PROBABILITS
Afin de complter le modle probabiliste qui permettra de dcrire le comportement du rsultat de l'exprience alatoire considre, il faut maintenant
trouver une faon de dterminer la probabilit de chacun des vnements
que nous aurons considrer.
On peut dj dire que la probabilit d'un des rsultats d'une exprience
alatoire sera une mesure de l'importance de ce rsultat dans l'ensemble de
tous les rsultats possibles de l'exprience.
Il est souvent commode de se reprsenter la probabilit d'un vnement
comme une sorte de poids . Un poids total de 1 est rparti sur les lments
de l'espace chantillon.
Plus le poids d'un rsultat est grand, plus grande est la probabilit que
l'exprience alatoire donne ce rsultat. Une fois dtermine la probabilit de
chacun des rsultats, c'est--dire de chaque lment de :, il sera ais de
calculer la probabilit d'un vnement, c'est--dire d'une partie de :.
Notons par P(r) la probabilit (ou le poids) du rsultat r. Les probabilits
ngatives (ou suprieures 1) tant manifestement absurdes, on doit avoir,
pour tout lment r de : :
0 d P ( r ) d 1.

Notons au passage qu'on a rarement P(r) = 0 car si un rsultat est


impossible, on n'avait pas le mettre dans :. Il arrive cependant qu'on ne
sache pas l'avance quelle sera la probabilit de chacun des lments de : ;
ou encore qu'il soit naturel, pour effectuer des comparaisons, d'utiliser un
mme espace chantillon pour des expriences alatoires lgrement
diffrentes. Il est alors bien commode de pouvoir attribuer une probabilit
nulle certains rsultats plutt que de les retirer de l'espace chantillon.
Une autre contrainte, dj implicitement reconnue, est que la somme des
probabilits de tous les rsultats doit donner exactement 1.

P (r )

1.

r :

Remarque La notation

r :

P ( r ) reprsente la somme des valeurs de P(r)

pour tous les lments r de l'ensemble :.

5 Variables alatoires et probabilits

151

Quand la probabilit de chacun des rsultats lmentaires est dtermine, la


probabilit de n'importe quel vnement A (sous-ensemble de Q) s'obtient en
calculant la somme des probabilits des lments qui le constituent.
P ( A)

P ( r ).
r A

Le poids d'un objet est bien la somme des poids de ses parties ; ainsi en
est-il de la probabilit d'un vnement.
Exemple 10 On lance un d. : = {1, 2, 3, 4, 5, 6}. Si on suppose que le d est bien
quilibr, chacun de ces 6 rsultats doit avoir la mme probabilit. Le poids
total de 1 sera donc divis en 6 parties gales et on obtient :
P (1)

P ( 2)

P ( 3)

P ( 4)

P (5)

P (6)

1
6

L'vnement le rsultat est pair correspond l'ensemble A = {2, 4, 6} et on


calcule :
P ( A)

P(r )

P ( 2)  P ( 4)  P ( 6)

1
6

r A

Il y a donc une chance sur deux que le rsultat du d soit un nombre pair
(et une chance sur deux qu'il soit impair).
i
Il arrive frquemment que, par un simple argument de symtrie, on puisse
facilement admettre que tous les lments de : sont quiprobables. La
probabilit de chaque rsultat est alors ncessairement 1/n, o n est le
nombre d'lments de :. Dans ce cas, appel modle uniforme, la
probabilit de n'importe quel vnement A s'obtient par la formule :
P ( A)

nombre de rsultats favorables A


nombre total des rsultats possibles
Card ( A )
Card ( : )

o la notation Card(A) dsigne la cardinalit de A, c'est--dire le nombre


d'lments de l'ensemble A. Rappelons que cette formule commode ne peut
tre utilise que si le modle uniforme est satisfait, c'est--dire si tous les
lments de : ont la mme probabilit.

152

Introduction la statistique applique

C'est ce qui arrive dans la plupart des situations relies aux jeux de hasard :
les faces d'un d, les cartes d'un jeu sont au dpart quiprobables. Les
calculs de probabilit se ramnent alors des problmes de dnombrement.
La symtrie de telles situations, c'est--dire le fait que chaque rsultat ait la
mme importance, permet alors d'attribuer une probabilit a priori
chacun des rsultats.
Exemple 11 Un vase contient 3 boules blanches et 7 boules noires. On tire une boule au
hasard. Considrons l'vnement A = la boule tire est blanche .
En utilisant des indices qui permettent de bien distinguer chacune des
boules, on peut crire :
: = {b1, b2, b3, n1, n2, n3, n4, n5, n6, n7}
et

A = {b1, b2, b3}

Toutes les boules ayant exactement le mme statut, le modle uniforme peut
tre appliqu et on obtient :
P ( A)

Card( A )

Card( : )

10

Exemple 12 Considrons une classe qui compte 25 lves, dont 5 sont blonds et
20 bruns. Alors l'exprience observer la couleur des cheveux d'un lve tir
au hasard est de mme nature que celle de l'exemple 11. On aura
P( blond ) = 5
0 , 2 et P( brun ) = 20
0 ,8 .
i
25
25
La plupart des situations concrtes, par contre, ne dbouchent pas sur des
rsultats aussi symtriques et ne permettent pas d'identifier des probabilits
a priori. La probabilit de chaque rsultat doit alors tre estime de faon
empirique ; c'est le plus souvent la frquence de ce rsultat, telle que calcule
partir de donnes dj disponibles ou des rsultats d'une suite
d'expriences ad hoc.
Exemple 13 Supposons que nous nous demandions quelles sont les chances qu'il pleuve
un 10 juillet. L'exprience alatoire ici est l'observation du temps le 10 juillet
et, pour simplifier, on peut dire que : = {pluie, beau temps}. Nous
consultons les archives mtorologiques et nous y trouvons qu'il a plu
22 fois durant les 117 dernires annes, un 10 juillet. Personne ne sera alors
surpris si nous disons qu'une estimation raisonnable de la probabilit qu'il
pleuve un 10 juillet est de 22 sur 117 , donc de 0,188.
i

5 Variables alatoires et probabilits

153

Remarque La distinction entre le cas empirique et le cas a priori peut se


rvler dlicate ; c'est ainsi qu'on pourrait attribuer a priori la probabilit 1
2
au rsultat avoir un garon lors d'une naissance, alors qu'en ralit la
probabilit (empirique) est lgrement suprieure 1 .
2
Quelle que soit la faon dont les probabilits sont obtenues (de faon
empirique ou a priori), elles obiront un certain nombre de lois, que nous
allons maintenant prsenter. Chacune de ces lois pourrait tre formellement
dmontre, mais il nous a plutt sembl prfrable d'en donner une illustration gomtrique. On conviendra, pour ce faire, qu'une fois : reprsent
par un rectangle d'aire 1, un vnement quelconque A sera reprsent par
une surface d'aire P(A). Cette illustration (ou reprsentation) permet de
visualiser parfaitement aussi bien les lois ci-dessous que toute autre relation
impliquant des probabilits.

Lois des probabilits


LOI 1 : P(:) = 1
L'vnement certain a probabilit 1.
LOI 2 : P(O) = 0
L'vnement impossible a probabilit 0.
LOI 3 : P(Ac) = 1 P(A)
La probabilit qu'un vnement ne se produise pas est 1 moins la
probabilit qu'il se produise.
Illustration

A
C

154

Introduction la statistique applique

L'aire de AC vaut celle de : moins celle de A. tant donn notre convention,


P(AC) = 1 P(A).
LOI 4 : P(A B) = P(A) + P(B) P(A B)
Illustration

L'aire de A B s'obtient en additionnant les aires de A et de B ; mais alors


l'aire de la partie commune (A B) est compte 2 fois (1 de trop). D'o
P(A B) = P(A) + P(B) P(A B).
L'illustration ci-dessus suggre que la loi 4
particulirement simple quand A et B sont disjoints :

prend

Si A B = , on dit que A et B sont incompatibles ; dans ce cas


P(A B) = P(A) + P(B).
Illustration
A

une

forme

5 Variables alatoires et probabilits

155

LOI 5 : P(A B) = P(A) P(A B)


En effet, on peut crire A = (A B) (A BC) et, puisque les vnements B
et BC sont incompatibles, les vnements A B et A BC le sont aussi. En
vertu de la remarque prcdente, on trouve donc que P(A) = P(A B) +
P(A BC). Enfin, utilisant la dfinition de A B, on obtient :
P(A B) = P(A BC) = P(A) - P(A B)
Illustration

Indpendance Nous voulons


intersection : P(A B).

B
AB

AB

maintenant

valuer

la

probabilit d'une

Deux cas peuvent alors se prsenter, selon que A et B ont, ou non, de


l'influence l'un sur l'autre. Voyons d'abord en dtail le cas o A et B n'ont
pas d'influence rciproque (le second cas sera dvelopp la section 5.3).
Deux vnements A et B sont dits indpendants s'ils n'ont aucune influence
l'un sur l'autre ; autrement dit, si la probabilit de l'un n'est d'aucune faon
modifie par le fait que l'autre soit ou non ralis. Cette dfinition de
l'indpendance, verbale et intuitive, se traduit mathmatiquement par la loi
suivante.
LOI 6 : A et B sont indpendants si et seulement si P(A B) = P(A)P(B)
Exemple14

On tire une carte au hasard dans un jeu ordinaire de 52 cartes. Considrons


les vnements :
A = La carte est un j.
B = La carte est un Roi.

156

Introduction la statistique applique

A et B sont indpendants : en effet Card(:) = 52, Card(A) = 13, Card(B) = 4 et


1
1
Card(A B) = 1. On obtient donc P(A B) = 52
= 13
x 14 = P(A)P(B).
Cela est aussi en accord avec notre intuition : que la carte tire soit ou non
i
un Roi, la probabilit qu'elle soit un j demeure toujours 1 4 .
Remarque Dans le cas d'vnements dont la probabilit est dfinie
empiriquement par leur frquence relative, l'indpendance apparatra,
l'occasion, comme une sorte d'vidence intuitive ; il en est srement ainsi, par
exemple, lors du choix au hasard d'un citoyen canadien adulte, de l'vnement
il a les cheveux blonds et de l'vnement il conduit une voiture 4 portes .
L'indpendance n'est toutefois tablie mathmatiquement que par la
vrification de l'identit
P(A B) = P(A) u P(B)
par exemple, en utilisant le tableau des frquences conjointes, comme au
chapitre 3.

Indpendance de plusieurs vnements La notion d'indpendance se


gnralise plus de deux vnements. On dira que n vnements A1, A2, ...,
An sont indpendants si aucun d'entre eux n'est influenc par la ralisation
ou la non-ralisation des autres. L'nonc mathmatique correspondant est
plus complexe que celui de la loi 6 ; voyons-le dans le cas o n = 3.
LOI 6' : (cas n = 3)
A1, A2 et A3 sont des vnements indpendants si et seulement si
P(Al A2) = P(Al)P(A2)
P(Al A3) = P(Al)P(A3)
P(A2 A3) = P(A2)P(A3)
P(Al A2 A3) = P(Al)P(A2)P(A3).
La proprit la probabilit de l'intersection gale le produit des probabilits
individuelles doit donc tre vrifie pour les vnements pris 2 2 et 3 3.
Dans le cas de n vnements, ladite proprit devra tre vrifie pour les
vnements pris 2 2, 3 3, ... n n.

5 Variables alatoires et probabilits

157

Exemple 15 Dans une manufacture, trois systmes d'alarme sont installs de telle faon
que n'importe lequel des trois va sonner si quelque chose d'anormal se
produit. Si chacun des trois systmes a une probabilit de 0,95 de bien
fonctionner, quelle est la probabilit que l'alarme soit dclenche si c'est
ncessaire ?
Solution
P(l'alarme sonne)
= P(au moins un des systmes fonctionne)
= 1 P(aucun des systmes ne fonctionne)
En supposant que les trois systmes fonctionnent indpendamment, on a :
P(aucun des systmes ne fonctionne)
= P(1er ne fonctionne pas et 2e non plus et 3e non plus)
= P(1er ne fonctionne pas) u P(2e non plus) u P(3e non plus)
= 0,000 125.
Donc P(Falarme sonne) = 1 0,000 125 = 0,999 875.

5.3

PROBABILITS CONDITIONNELLES
Quand deux vnements A et B sont indpendants, on value la probabilit
que l'un et l'autre se produisent par la formule P(A B) = P(A)P(B). Dans la
mesure o un calcul de probabilit se ramne trs souvent un exercice de
dnombrement, cette identit correspond au principe de base de la
combinatoire, qu'on pourrait formuler ainsi :
Si une opration peut tre faite de n faons et si une deuxime peut l'tre
indpendamment de m faons, alors les deux ensembles peuvent tre faites
de m u n faons.
Ainsi, quelqu'un ayant 4 pantalons et 5 chemises peut arborer 20 (= 4 u 5)
tenues vestimentaires diffrentes. Toutefois, il peut arriver que le choix de la
chemise dpende du pantalon choisi, ce qui modifie les calculs. En somme, il
arrive que des vnements ne soient pas indpendants. Voyons d'abord un
exemple technique avant d'laborer une formule pour le calcul de P(A B)
dans les cas de dpendance.

158

Introduction la statistique applique

Exemple 16 On lance un d. Posons


A = le rsultat est pair ;
B = le rsultat est plus grand ou gal 5 ;
C = le rsultat est plus grand ou gal 3 .
On a A = {2,4,6}, B = {5,6}, C = {3,4,5,6}, et A C = {4,6}, B C = {5,6}.
On trouve donc que :
P(A)P(C) =
P(B)P(C) =

3
6

4
6

2
6

1
3

=
4
6

P(A C) (A et C sont indpendants).


=

2
9

2
6

= P(B C) (B et C ne sont pas


i

indpendants).

Deux vnements, tels B et C dans l'exemple 16 ci-dessus, qui ne sont pas


indpendants, sont dits dpendants. Voyons un exemple qui suggre une
faon de calculer alors P(A B).
Exemple 17 Un sac contient 3 boules noires et 2 boules blanches. On tire
successivement (sans remise) deux boules du sac. Quelle est la probabilit
que ces deux boules soient noires ?
Dfinissons les deux vnements suivants :
A = La premire boule est noire.
B = La deuxime boule est noire.
L'vnement qui nous intresse, les deux boules sont noires , est
l'vnement A B. On veut calculer P(A B).
On conviendra aisment que, pour que A B soit ralis, il faut d'abord que A
soit ralis, ce qui se produira avec une probabilit gale 35 . Il faudra
ensuite que la seconde boule soit noire aussi. Or, on a dj, en ralisant A,
retir une boule noire du sac qui ne contient, pour le second tirage, que 4
boules : 2 blanches et 2 noires. La probabilit que la seconde boule soit noire
sachant que la premire boule tait noire est donc 24 . La probabilit que les
deux boules soient noires s'obtient alors en calculant P(A B) =

3
5

3
10

.i

5 Variables alatoires et probabilits

159

Dans l'exemple qui vient d'tre prsent, nous avons calcul P (A B) au


moyen de la formule :
P(A B) = P(A)P(B|A)
La barre verticale se lit quand , sachant que ou tant donn que .
Cette formule gnrale s'applique toutes les situations. Par symtrie, on
peut aussi l'crire sous la forme :
P(A B) = P(B)P(A|B)
La probabilit que deux vnements se ralisent est le produit de la
probabilit que l'un deux se ralise par la probabilit que le second se ralise
aussi sachant que le premier vnement est ralis. Le terme P(A|B) dsigne
la probabilit conditionnelle de A sachant que B est ralis. En divisant
par P(B) les deux membres de l'galit P(A B) = P(B)P(A|B) on obtient :
P( A B)

P( A B)

(si P(B) z 0).

P(B)
Symtriquement, P(B|A) est la probabilit conditionnelle de B sachant que A
est ralis. On obtient de la mme faon
P ( B A)

P( A B)

(si P(A) z 0).

P ( A)
Comme le montrent ces formules, les probabilits conditionnelles P(A|B) et
P(B|A) mesurent respectivement l'importance relative de A B par rapport
B et A.
Le traitement des probabilits conditionnelles est donc tout fait analogue
ce qu'on a dj fait, dans le chapitre 3, au sujet des distributions
conditionnelles : la donne d'une condition B fait qu'on ne considre plus, de
l'espace chantillon :, que la tranche o la condition B est ralise.
Exemple 18 On lance un d qui donne X points. Calculer : P(X est pair |X t 4).
Dfinissons les vnements :
A = X est pair .
B = X t 4 .

160

Introduction la statistique applique

Dans l'espace chantillon : = {1,2,3,4,5,6}, les vnements A, B et A B


sont : A = {2,4,6}, B = {4,5,6} et A B = {4,6}.
On trouve donc :
P( A B)

P( A B)

P(B)

Cette rponse est en accord avec l'intuition : si X t 4, trois valeurs seulement


sont possibles, 4, 5, et 6, parmi lesquelles deux sont paires et une seule est
impaire.
i
Exemple 19 On lance deux ds. Calculer :
P(la somme des points est t 9|la face 6 ne parat pas).
Dfinissons les vnements :
A = La somme des points est t 9.
B = La face 6 ne parat pas .
Rsultat du deuxime d

Rsultat du premier d

1
2
3
4
5
6

L'espace chantillon : est un ensemble de 36 lments. On peut le


reprsenter par la grille ci-dessus.
Le lancement des deux ds correspond au choix alatoire de l'une ou l'autre
des 36 cases (quiprobables) de la grille. Marquant d'un A ou d'un B les
cases pour lesquelles les vnements correspondants sont raliss, on
obtient la nouvelle grille qui parat la page oppose.

5 Variables alatoires et probabilits

L'observation des lettres de cette grille donne P(A) =


P(A B) =

3
36

10
36

, P(B) =

161
25
36

et

. On trouve donc :
P( A B)

P( A B)

P(B)

25

36

25

36

Si la face 6 ne parat sur aucun d, il y a donc 3 chances sur 25 que la


somme des points soit suprieure ou gale 9.
i
On a dj vu que deux vnements A et B sont indpendants si P(A B) =
P(A)P(B). Si A et B sont indpendants on obtient donc :
P( A B)

P( A B)

P ( A) P ( B )

P(B)

P(B)

P( A B)

P ( A) P ( B )

P ( A)

P ( A)

P ( A)

et
P ( B A)

P(B)

ce qui nous redonne la dfinition intuitive de l'indpendance : deux


vnements sont indpendants si la ralisation de l'un ne modifie pas la
probabilit de ralisation de l'autre.

Rsultat du premier d

Rsultat du deuxime d
1

AB

AB

AB

162

Introduction la statistique applique

Dans plusieurs situations, les vnements considrs sont notoirement


indpendants. Quand ce n'est pas le cas, des informations supplmentaires
peuvent nous aider ; l'exemple qui suit illustre une faon simple d'utiliser de
telles informations.
Exemple 20 Soient A et B deux vnements tels que :
P(A) = 0,5 ; P(B) = 0,3 ; P(A B) = 0,2.
Trouver :
a) P(A B)
b) P(Ac B)
Solution
a) D'aprs la loi 4,
P( A B)

P ( A)  P ( B )  P ( A B )
0,5  0,3  0, 2

0,6

b) Dans une situation comme celle-ci, il est commode de considrer le


tableau suivant (qui n'est rien d'autre qu'un tableau de distribution
conjointe) :
Bc
P(A Bc)
P(Ac Bc)
P(Bc)

B
P(A B)
P(Ac B)
P(B)

A
Ac

P(A)
P(Ac)
1

o il est facile de voir que chaque ligne (chaque colonne) est forme
d'vnements incompatibles ; par exemple, A B et Ac B sont
incompatibles (car A et Ac le sont) et leur union (A B) (Ac B) est
gale B. On a donc
P(B) = P(A B) + P(Ac B).
Si l'on revient au problme pos, on complte le tableau comme suit :
B
0,2

A
A

B
0,5

A
0,3

1,0

Donc P(Ac B) = 0,1.

0,2

A
c

B
0,5

0,5

0,3 0,7 1,0

0,2 0,3 0,5


c

0,1 0,4 0,5


0,3 0,7 1,0

5 Variables alatoires et probabilits

5.4

163

VARIABLES ALATOIRES
Une variable alatoire est une caractristique numrique rsultant d'une
exprience alatoire. toutes fins pratiques, une variable alatoire est donc
simplement une quantit qui varie au hasard.
Comme pour les variables statistiques dj rencontres dans les quatre
premiers chapitres, les variables alatoires sont conventionnellement
reprsentes par des lettres majuscules habituellement choisies vers la fin
de l'alphabet (X, Y, Z, S, ... ), alors qu'on rserve les premires lettres (A, B,
C, ... ) pour identifier les vnements.
Une variable alatoire peut tre discrte ou continue. Nous ne traiterons ici
que des variables discrtes ; le cas continu sera abord dans le chapitre 7.
Le comportement d'une variable alatoire X discrte est compltement dcrit
par la donne de deux listes :
a) la liste des valeurs x1, x2, ... , xn possibles pour X ;
b) la liste des probabilits p(x1), p(x2), ... , p(xn) de chaque valeur possible.
L'expression p(xi) est une notation concise qui reprsente P(X = xi), la
probabilit que la variable alatoire X prenne la valeur xi. On peut aussi
crire simplement p1, p2, ... pn, au lieu de p(x1), p(x2), ... , p(xn).
Rappelons que le P majuscule s'applique aux vnements ; on peut crire
P(A) ou P(X d 2), jamais p(A) ou p(X d 2). Le p minuscule, lui, s'applique
directement aux nombres ; on peut crire p(3), jamais p(X d 3).
Les probabilits p1, p2, ... pn tiennent le mme rle, dans la description du
comportement de la variable alatoire X, que celui tenu par les frquences f1,
f2, ... fn dans la description de la distribution des donnes exprimentales.
On peut se reprsenter la probabilit pi comme tant la valeur thorique vers
laquelle convergerait la frquence fi si l'on pouvait rpter l'exprience une
infinit de fois.
La fonction p(x) est appele fonction de masse ou fonction de probabilit.
Puisque les nombres p(x1), p(x2), ... , p(xn) reprsentent des probabilits, ils
doivent satisfaire aux deux conditions suivantes :
1.

0 d p(xi) d 1 pour i = 1, 2, ..., n

2.

p ( xi )

n
i 1

164

Introduction la statistique applique

De mme qu'on pouvait le faire pour illustrer les frquences, on peut


reprsenter la fonction de masse p(x) au moyen d'un diagramme btons.
Exemple 21 Un sac contient 10 billets de banque : 4 billets de 1 $, 3 billets de 2 $, 2
billets de 5 $ et 1 billet de 10 $. On tire un billet au hasard ; il vaut X $.
Les valeurs possibles pour X sont 1, 2, 5, et 10. Les probabilits de chacune
de ces valeurs sont p(l) = 4 10 , p(2) = 3 10 , p(5) = 2 10 et p(10) = 1 10 .
Cette fonction de masse p(x) est illustre par un diagramme btons
(figure 5. 1).

5.5

ESPRANCE ET VARIANCE
Combien de points, en moyenne, un d donne-t-il ? Pour rpondre cette
question, imaginons que le d est lanc un trs grand nombre de fois ;
disons 6 000 fois. Normalement, chacune des faces devrait apparatre
environ 1 000 fois. Ce sont l les effectifs thoriques que nous savons dj
calculer.
Puisque chacune des valeurs 1, 2, 3, 4, 5, 6 apparatra environ 1 000 fois, la
somme des 6 000 rsultats obtenus du d devrait tre voisine de :
(1 000 u 1) + (1 000 u 2) + (1 000 u 3) + (1 000 u 4) + (1 000 u 5) + (1 000 u 6) = 21 000

Illustration d'une fonction de masse p(x) au moyen d'un diagramme btons


p (x )

0,5
0,4
Frquence

FIGURE 5.1

0,3
0,2
0,1

0
1

10

11

5 Variables alatoires et probabilits

165

Le rsultat moyen sera donc voisin de :


21 000

6 000

3, 5

On conviendra sans peine que si l'on pouvait lancer le d une infinit de fois,
la moyenne de tous les rsultats serait exactement 3,5. Cette moyenne
thorique porte le nom d'esprance mathmatique.
En fait, on n'a pas vraiment besoin d'imaginer une infinit d'observations
d'une variable alatoire X pour pouvoir en calculer l'esprance
mathmatique, note E(X). On n'a qu' appliquer la formule
E( X )

x i p ( x i ).

Cette formule est analogue celle qu'on a dj amplement utilise pour


calculer la moyenne x partir des frquences fi :
x

xi f i

En y remplaant les frquences exprimentales fi par les frquences


thoriques (ou probabilits) p(xi), la formule donne, plutt que la moyenne
exprimentale x , la moyenne thorique E(X).
Exemple 22 Considrons encore le sac et les billets dcrits dans l'exemple 21. On
obtient :
E( X )

xi p ( xi )

4
3
2
1

1 u  2 u  5 u  10 u



10
10
10
10

3.

En moyenne, le billet tir du sac vaut donc 3 $, mme si les billets de 3 $


n'existent pas ! Si on rptait 1 000 fois l'exprience, en replaant le billet
tir afin de ne pas modifier la composition du sac, la valeur totale des 1 000
billets tirs serait voisine de 3 000 $.
i
L'esprance mathmatique d'une variable alatoire X est aussi reprsente
par l'expression Px (P = mu, le m grec) ou par P, s'il n'y a pas d'ambigut. Les
notations Px (respectivement P) et E(X) sont quivalentes.

166

Introduction la statistique applique

L'esprance mathmatique peut aussi s'appliquer une transformation d'une


variable alatoire donne. Par exemple, E(X + 2) dsigne la moyenne
thorique de la variable X + 2 obtenue de X en lui ajoutant 2. De mme,
E(X2) dsigne la moyenne thorique du carr de X.
Une transformation particulirement utile est celle donne par le carr de la
distance entre X et sa moyenne. Elle conduit la variance de X.
Var ( X )

E (( X  P ) 2 )

( xi

 P ) 2 p ( x i ).

Cette formule permet de calculer la moyenne thorique du carr de l'cart


entre X et sa moyenne thorique. C'est l'analogue direct de la formule
donnant la variance exprimentale s2 :
s2

( xi

 x )2 fi

On n'a fait que remplacer les fi par leur quivalent thorique p(xi) ainsi que
remplacer x par son quivalent thorique P.
Exemple 23 Considrons encore le sac contenant 4 billets de 1 $, 3 billets de 2 $, 2 de
5 $ et 1 de 10 $. On a dj calcul, dans l'exemple 22, que P = 3. On peut
maintenant calculer que :
Var ( X )

( xi

2
 P ) p ( xi )
2

(1  3 ) ( 0 , 4 )  ( 2  3 ) ( 0 , 3 )  ( 5  3 ) ( 0 , 2 )  (10  3 ) ( 0 ,1)
( 4 u 0 , 4 )  (1 u 0 , 3 )  ( 4 u 0 , 2 )  ( 49 u 0 ,1)
7 , 6.
En moyenne, le billet tir vaut 3 $ ; de plus, comme on vient de calculer, le
carr de la distance entre X et 3 vaut, en moyenne, 7,6. C'est une mesure de
dispersion.
i
La variance Var(x) est aussi note V X2 (V = sigma, le s grec) ou V 2 s'il n'y a
pas d'ambigut. Comme c'tait le cas avec les donnes exprimentales, la
racine carre V X (respectivement V) de la variance thorique est aussi
appele cart-type (ou cart-type thorique).
Exemple 24 Considrons le nombre X de points donns par un d.
On veut calculer P et V.

5 Variables alatoires et probabilits

167

Les valeurs possibles pour X sont 1, 2, 3, 4, 5 et 6 et la probabilit de


chacune de ces valeurs est 1 6 . On trouve donc :
E( X )

xi p ( xi )
1
1
1
1
1
1
1u  2 u  3 u  4 u  5 u  6 u

6
6
6
6
6
6
21

3, 5

conformment ce qu'on a dj vu au dbut de la section 5.5. On trouve


aussi :
2

Var ( X )

( xi

 P ) p ( xi )

xi  p ( x i )
2

7
1
7
1
7
1

1  u  2  u    6  u

2
6
2
6
2
6

25 1 9 1 1 1 1 1 9 1 25 1

u  u  u  u  u 
u

4 6 4 6 4 6 4 6 4 6 4 6

70

35

24

12

V2

2 , 916 67

1, 707 8.
i

Remarque On sait dj calculer s2 au moyen de la formule rapide s2 = x 2  x 2 .


La variance thorique V2 se calcule aussi au moyen d'une formule analogue.
On a
V2

E ( X 2 )  ( E ( X )) 2
E( X 2 )  P 2 .

168

Introduction la statistique applique

Exemple 25 Reprenant le calcul de la variance du nombre X de points donns par un d,


on trouve
E( X 2 )

xi

p ( xi )

2 1 2 1 2 1 2 1 2 1 2 1
1 u  2 u  3 u  4 u  5 u  6 u

6
6
6
6
6
6

91

15 ,166 67.

6
Donc
V2

E( X 2 )  P 2

15 ,166 67  ( 3, 5 ) 2

2 , 916 67

valeur obtenue, aprs un calcul plus lourd, dans l'exemple 24.

Proprits lmentaires de E(X) et de Var(X) Comme nous l'avons dj fait


remarquer, bien qu'une dfinition mathmatique soit toujours suffisante
pour les fins de calcul, son application mcanique conduit souvent des
calculs fort longs, qu'on peut abrger en dveloppant, sous forme de
formules , quelques consquences simples de la dfinition. C'est ainsi
qu'en partant de la dfinition de E, nous pouvons dduire des formules pour
E(bX), E(a + bX), E(X Y), et qu'en partant de la dfinition de Var, nous
dduisons des formules pour Var(bX), Var(a+ bX), Var(X Y). Nous donnons
ces formules sans dmonstration : certaines sont d'ailleurs analogues aux
formules que nous connaissons dj pour x et s2.
1. E(bX) = bE(X)
2. E(a + bX) = a + bE(X)
3. E(X Y) = E(X) E(Y)
4. Var (a + bX) = b2Var(X)
5. Si X et Y sont indpendantes, alors
Var(X Y) = Var(X) + Var(Y).
Nous n'avons pas encore formellement dfini ce qu'taient des variables
alatoires indpendantes. Intuitivement, deux variables alatoires X et Y
sont indpendantes si elles n'ont aucune influence l'une sur l'autre,

5 Variables alatoires et probabilits

169

c'est--dire si le comportement conditionnel de l'une n'est pas affect par la


valeur prise par l'autre. Techniquement, le critre d'indpendance que nous
avons utilis pour les vnements peut tre adapt aux variables alatoires
et devient, dans le cas discret : X et Y sont indpendantes si, pour toutes
valeurs x et y on a
P(X = x et Y = y) = P(X = x)P(Y = y).
Avec cette dfinition, on peut montrer que si X et Y sont indpendantes, tout
vnement A qui ne porte que sur X et tout vnement B qui ne dpend que
de Y sont indpendants.
Les formules qui permettent de calculer l'esprance et la variance d'une
somme (ou d'une diffrence) de deux variables alatoires se gnralisent
directement une somme arbitrairement longue. On obtient les formules
suivantes :
1. Pour l'esprance :
E(X1 X2 ... Xn) = E(X1) ... E(Xn)
2. Pour la variance :
Si X1, ..., Xn sont indpendantes,
Var(X1 ... Xn) = Var(X1) +... + Var(Xn)
Exemple 26 On lance 1 000 ds. Posons Y = Le nombre total de points obtenus . On
veut calculer E(Y) et Var(Y). Posons Y = X1 + X2 + ... + X1 000, o X1, X2, ...,
X1 000 dsignent les rsultats successifs de chacun de ces lancers. Dans
l'exemple 24, on a dj calcul que chacun de ces Xi a une esprance de 3,5
et une variance de 2,916 67. On trouve donc
E (Y )

E ( X 1  X 2    X 1 000 )
E ( X 1 )  E ( X 2 )    E ( X 1 000 )
3, 5  3, 5    3, 5
1 000 u 3, 5
3 500.

170

Introduction la statistique applique

En vertu de l'indpendance des variables X1 + X2 + ... + X1 000 on trouve aussi


Var (Y ) Var ( X 1  X 2    X 1 000 )
Var ( X 1 )  Var ( X 2 )    Var ( X 1 000 )
1 000 u 2 , 916 67
2 916 , 67.

L'cart-type V vaut donc

2 916 , 67

54 , 01 .

En lanant 1 000 ds on obtient donc en moyenne 3 500 points. On a de


plus calcul que le nombre de points obtenus (Y) est en gnral de 3 500
54.
i
Exemple 27 Dans une serre exprimentale, une parcelle de terre est dcoupe en 4 carrs
identiques. Sans engrais, la production de tomates pour chaque carr est
une variable d'esprance 600 kg et d'cart-type 60 kg. En utilisant un
certain engrais, l'esprance sera de 630 kg avec un cart-type 80 kg.
Supposons que 2 carrs sont sems sans engrais et 2 avec engrais.
a) Soit T la production totale des 4 carrs. Quelle est l'esprance et l'carttype de T ?
b) Soit X la production moyenne des deux lots avec engrais et Y la
production moyenne des deux lots sans engrais. Quelle est l'esprance et
l'cart-type de la diffrence X Y ?
Solution : Soit X1, X2 et Y1, Y2 les productions des lots avec et sans engrais,
respectivement. Alors E(X1) = E(X2) = 630, Var(Xl) = Var(X2) = (80)2 ; E(Y1) =
E(Y2) = 600, Var(Y1) = Var(Y2) = (60)2.
Nous supposerons que ces 4 variables sont indpendantes, puisque la
culture dans un carr n'est pas affecte par celle d'un autre.
a) T = X1 + X2 + Y1 + Y2. Donc E(T)= E(X1 + X2 + Y1 + Y2) = E(X1) + E(X2) + E(Y1)
+ E(Y2) = 630 + 630 + 600 + 600 = 2 460.
Var(T) = Var(X1 + X2 + Y1 + Y2) = Var(X1) + Var(X2) + Var(Y1) + Var(Y2) =
(80)2 +(80)2 +(60)2 +(60)2 =2 000.
Donc, l'cart-type de T est

20 000 = 141,42.

b) X = (1/2)( X1 + X2), Y = (1/2)( Y1 + Y2), E(X) = (1/2)(E(X1 + X2)) =


(1/2)(630 + 630) = 630, E(Y) = 600.

5 Variables alatoires et probabilits

171

Var ( X )

1
Var ( X 1  X 2 )

2
2

1
>Var ( X 1 )  Var ( X 2 ) @

2
2

1
( 80 2  80 2 )

2
3 200
Var(Y) = 1 800. Donc E(X Y) = 630 600 = 30 et Var(X Y) = Var(X) + Var(Y)
= 3 200 + 1 800 = 5 000. L'cart-type de X Y est donc

5 000 = 70,71.

RSUM
1. L'espace chantillon d'une exprience alatoire est l'ensemble de tous
les rsultats possibles de cette exprience.
2. Un vnement est un nonc relatif au rsultat d'une exprience.
Chaque vnement correspond un sous-ensemble de l'espace
chantillon.
3. chaque rsultat r est associe une probabilit P(r) qui est un nombre
compris entre 0 et 1. La somme des probabilits de tous les rsultats de
l'exprience vaut 1. La probabilit d'un vnement A est la somme des
probabilits des lments de A.
4. Si tous les lments de : sont quiprobables (modle uniforme), la
probabilit d'un vnement A peut tre obtenue en calculant :
P ( A)
5.

nombre de rsultats favorables A

Card( A )

nombre total de rsultats possibles

Card( : )

I P(:) = 1 o : est l'espace chantillon (vnement certain).


II P() = 0 o est l'ensemble vide (vnement impossible).
III P(Ac) = 1 P(A), o Ac est le complment de A.
IV P(A B) = P(A) + P(B) P(A B).
V P(A B) = P(A) P(A B).

172

Introduction la statistique applique

VI Deux vnements A et B sont indpendants si et seulement si


P(A B) = P(A)P(B).
6. A et B sont dits incompatibles si A B = . Dans ce cas,
P(A B) = P(A) + P(B)
7. P(A B) = P(A)P(B|A) = P(B)P(A|B) o P(B|A) dsigne la probabilit que
B se produise sachant que A s'est produit :
P( A | B)

P( A B)

(si P(B) z 0)

P( B)
ou
P ( B | A)

P( A B)

(si P(A) z 0)

P ( A)
8. Si deux vnements A et B sont indpendants, alors
P(A|B) = P(A) et P(B|A) = P(B).
9. On appelle variable alatoire une caractristique numrique des
rsultats d'une exprience alatoire. Une variable alatoire est donc une
quantit qui varie au hasard.
10. Soit X une variable alatoire discrte dont l'ensemble des valeurs
possibles est {x1, x2, ..., xn}. On appelle fonction de masse p la fonction
dfinie par
p(xi) = P(X = xi).
11. L'esprance mathmatique E(X) de X est dfinie par
P

E( X )

xi p ( xi )

et sa variance Var(X) est dfinie par


V2

Var ( X )

( xi

 E ( X )) 2 p ( x i )

E ( X 2 )  ( E ( X )) 2 .

12. L'esprance et la variance d'une variable alatoire jouissent des


proprits suivantes :
I E(bX) = bE(X)
II E(a + bX) a + bE(X)

5 Variables alatoires et probabilits

173

III E(X Y) = E(X) E(Y)


IV Var(a + bX) = b2Var(X)
V Si X et Y sont indpendantes, alors
Var(X Y) = Var(X) + Var (Y).
13. Deux variables alatoires discrtes X et Y sont indpendantes si, pour
toutes valeurs de x et y on a
P(X = x et Y = y) = P(X = x)P(Y = y).
Si X et Y sont indpendantes, il suit que tout vnement A qui porte
uniquement sur X et tout vnement B qui porte uniquement sur Y sont
indpendants.

EXERCICES
ESPACE
CHANTILLON

1. Pour chacune des expriences alatoires suivantes, donnez une description rigoureuse de : ; si possible, numrez-en les lments.
a) Lancer 4 sous et observer le rsultat.
b) Interroger des gens sur le parti fdral qu'ils favoriseraient s'il y avait
lection le lendemain.
c) Observer la temprature maximale un 10 janvier.
d) Observer la temprature maximale un 12 juillet.
e) Lancer 3 ds et observer la somme des nombres obtenus.
f)

Tirer un chantillon de 10 pneus dans la production d'une firme N et


compter le nombre de pneus dfectueux.

g) Observer le type d'habitat d'un Qubcois choisi au hasard.


2. une personne choisie au hasard, on pose un certain nombre de
questions sur la peine capitale. Considrons les vnements suivants :
A : La personne choisie rpond oui la question : tes-vous en
faveur de la peine de mort pour le meurtre d'un policier ?
B : La personne choisie rpond oui la question : tes-vous en
faveur de la peine de mort pour un meurtre commis par un
dtenu en prison ?

174

Introduction la statistique applique

C : La personne choisie rpond oui la question : tes-vous en


faveur de la peine de mort pour tout meurtre ?
D : La personne choisie rpond oui la question Y a-t-il des
crimes pour lesquels vous favorisez la peine de mort ?
E : La personne choisie rpond oui la question : tes-vous en
faveur de l'abolition totale de la peine de mort ?
a) Dcrivez en mots les vnements suivants :
i) A C

ii) A B

iii) D E

iv) A E

b) Quelle est la relation entre les vnements C et A ?


PROBABILIT

3. Un sac contient 2 billes identiques sauf pour la couleur : une verte et


une jaune, et une balle de golf blanche. On tire au hasard un des 3
objets du sac :
a) Peuton dire a priori que P(j) = P(v) = P(b) ?
b) Lesquelles des affirmations suivantes sont vraies ?
i) P(v) = P(j)

ii) P(b) = 1

iii) P(v) + P(j) + P(b) = 1

iv) P(b) = 0

v) P(v) = P(b)

vi) Si P(v) = 1/4, P(b) = 1/2.

4. Une exprience alatoire a quatre rsultats possibles : r1, r2, r3, r4.
Lesquelles des donnes suivantes sont acceptables, et pourquoi ?
a)
b)
c)
d)

P(r1)
P(r1)
P(r1)
P(r1)

=
=
=
=

0,2 ; P(r2) = 0,3 ; P(r3) = 0,4 ; P(r4) = 0


0,2 ; P(r2) = 1,0 ; P(r3) = 0,1 ; P(r4) = 0,1
0 ; P(r2) = 0 ; P(r3) = 0 ; P(r4) = 1
1/2 ; P(r2) = 1/2 ; P(r3) = 1/2 ; P(r4) = 1/2

5. On choisit au hasard une personne parmi les tudiants d'une classe;


considrons les vnements suivants :
A : La personne choisie est une fille.
B : La personne choisie est un garon.
C : La personne choisie a les yeux bleus.
D : La personne choisie a les cheveux blonds.
Dcrivez en mots le contenu de chacun des lments suivants :
A B, A C, Ac, C D, Cc D, A C D, A - C, D - C, D - B.
6. Soit P(A) = 0,3 ; P(B) = 0,5; P(A B) = 0,7. Trouvez :
a) P(A B)

b) P(Ac Bc)

c) P(B Ac)

5 Variables alatoires et probabilits

175

7. Un architecte soumet un projet deux bureaux X, Y. Supposons que la


probabilit que X accepte le projet est de 0,5, celle que Y refuse est de 0,6
et celle que le projet soit rejet par au moins un bureau est de 0,7.
Trouvez la probabilit :
a) que les bureaux X et Y acceptent le projet ;
b) que X accepte le projet, mais Y le refuse ;
c) qu'au moins un des bureaux accepte le projet.
8. On prend au hasard un enfant dans une classe. Considrons les
vnements suivants :
M : L'enfant
F : L'enfant
D : L'enfant
G : L'enfant

est
est
est
est

un garon.
une fille.
droitier.
gaucher.

Si P(M) = 0,5 ; P(G) = 0,1 et P(F G) = 0,03, dterminez P(F), P(D),


P(F G), P (F D).
9. On choisit une personne au hasard. Les vnements A et B ci-dessous
sont-ils incompatibles ? Sont-ils, d'aprs vous, indpendants ? L'un est-il
contenu dans l'autre ?
a) A : La personne choisie est une femme.
B : La personne choisie est un homme.
b) A : La personne choisie est pour l'abolition du droit de grve dans le
secteur public.
B : La personne choisie est d'avis que le droit de grve est un droit
inalinable de tous les travailleurs.
c) A : La personne choisie est pour l'abolition du droit de grve pour
tous les travailleurs.
B : La personne choisie est pour l'abolition du droit de grve dans le
secteur public.
d) A : La personne choisie a les cheveux blonds.
B : La personne choisie a un quotient intellectuel suprieur 100.
e) A : La personne choisie mesure plus de 1,50 m.
B : La personne choisie mesure plus de 1,30 m.

176

Introduction la statistique applique

f)

A : La personne choisie mesure moins de 1,70 m.


B : La personne choisie mesure plus de 5 m. (Utilisez la dfinition
mathmatique de l'indpendance)

g) A : La personne choisie mesure moins de 1,70 m.


B : La personne choisie a les yeux bleus.
10. Une bote renferme 8 billes rouges, 3 blanches et 9 vertes. Si l'on extrait
sans remise 3 billes au hasard, calculez la probabilit que :
a)
b)
c)
d)
e)

les 3 billes soient rouges.


les 3 billes soient blanches.
les 2 premires billes soient rouges, la 3e blanche.
au moins une des billes soit blanche.
les billes soient tires dans l'ordre rouge, blanche, verte.

11. Une tudiante suit un cours de marketing et un cours de statistique. La


probabilit qu'elle russisse en marketing est de 0,5 et en statistique de
0,7 ; la probabilit qu'elle russisse les deux cours est de 0,3. Calculez
chacune des probabilits suivantes :
a) Elle russit au moins un des deux cours.
b) Elle choue les deux cours.
c) Elle choue en statistique et russit en marketing.
VARIABLES
ALATOIRES

12. De chaque exprience alatoire suivante, isolez une ou deux variables


alatoires et donnez-en les valeurs possibles.
a) D'une urne contenant 3 billes rouges et 4 vertes, tirer une bille.
b) D'une urne contenant 5 billes rouges et 6 vertes, tirer trois billes.
c) D'une assemble o sigent 10 femmes et 8 hommes, extraire un
comit de 4 personnes.
d) Choisir un tudiant au hasard dans la classe.
13. On lance 4 pices de monnaie ; soit X le nombre de faces. Dterminez la
fonction de masse de X et faites-en une reprsentation graphique.
Calculez E(X) et Var(X).
14. On assigne un numro distinct chacun des 1 000 invits un party
de bureau. On procde ensuite au tirage au hasard d'un numro ; le
gagnant reoit un cadeau de 100 $.
a) Soit X le gain d'un des invits. Dterminez E(X) et Var(X).
b) Soit X le gain d'un couple d'invits. Dterminez E(X) et Var(X).

5 Variables alatoires et probabilits

177

15. On assigne un numro distinct chacun des 1 000 invits un party


de bureau. On procde ensuite au tirage alatoire de deux numros, sans
remise ; le premier gagnant reoit un cadeau de 1 000 $, le second
100 $.
a) Soit X le gain d'un des invits. Dterminez E(X) et Var(X).
b) Soit X le gain d'un couple d'invits. Dterminez E(X) et Var(X).
16. Un d est pip de telle sorte que tous les nombres ont la mme chance
d'apparatre, sauf le 1 qui a trois fois plus de chances d'apparatre que
chacun des autres.
a) Calculez la probabilit d'avoir un nombre < 4.
b) Si vous jouez systmatiquement le 1, gagnant 5 $ quand il sort et
perdant 1 $ dans les autres cas, quelle est votre esprance de gain ?
17. Soit X la valeur dans un an d'une action de la compagnie A et Y la valeur
dans un an d'une action de la compagnie B. Supposons que E(X) = 30,
Var(X) = 25, E(Y) = 40, Var(Y) = 16, et que, de plus, X et Y sont
indpendantes.
a) Dterminez la valeur totale dans un an de
i) 8 actions de A et 9 actions de B ;
ii) 12 actions de A et 6 de B.
b) Discutez l'hypothse que X et Y sont indpendantes.
18. Votre ami et vous achetez chacun un billet de loterie. Soit X1 votre gain
brut et X2 le sien. Supposons que X1 et X2 sont indpendantes, les deux
de moyenne 1,50 $ et d'cart-type 10 $. Vous dcidez de partager les
gains ventuels. Soit X votre gain sous cette hypothse. Calculez E(X) et
Var(X) ; comparez avec l'esprance et la variance de X, et X2.
DIVERS

19. Soient A et B deux vnements incompatibles ; dites pourquoi la


situation suivante est impossible :
P(A) = 0,4,

P(B) = 0,3,

P(Ac Bc) = 0,2

20. Une bote contient 5 billes, dont 2 sont marques [1], 1 est marque [2] et
2 sont marques [3]. On tire une bille et on note X son numro ; on tire
une deuxime bille (sans remettre la premire) et on note Y son numro.
Trouvez :
a) E(X)

b) E(Y)

c) E(X + Y)

178

Introduction la statistique applique

21. Si l'on suppose que les trente lves d'une classe constituent un choix
parfaitement alatoire d'une certaine population, quelle est la probabilit
qu'au moins un lve appartienne au premier centile de la population en
intelligence ?
22. Un petit restaurateur emploie 3 serveurs. Il constate que les 5 dernires
assiettes casses accidentellement l'ont t par le mme serveur, Louis
Lacasse. Peut-il conclure que Louis est particulirement maladroit ?
23. Un marchand de parapluies peut gagner 400 $ par jour quand il pleut, et
perdre 100 $ par jour s'il fait beau. Sachant qu'il y a 3 fois plus de beaux
jours que de jours de pluie, quelle est son esprance de gain quotidien ?
24. On retourne l'une aprs l'autre les 52 cartes d'un jeu ; quelle est la
probabilit que le premier roi rencontr soit
a) la 1re carte retourne.
b) la 3e carte retourne.
c) la 50e carte retourne.
25. Dans une classe de maternelle compose de 15 garons et de 10 filles,
deux enfants sont choisis successivement au hasard pour reprsenter la
classe un concours. Calculez la probabilit :
a)
b)
c)
d)

que 2 garons soient choisis ;


qu'une fille soit choisie en premier, un garon en deuxime ;
qu'un garon soit choisi au 1er tirage ;
qu'un garon soit choisi au 2e tirage.

26. D'un jeu de 52 cartes, on tire une 1ere carte, puis une 2e sans remettre la
1ere dans le jeu. valuez les probabilits suivantes :
a)
b)
c)
d)

P (1ere carte soit un as).


P (les 2 cartes soient un as).
P (au moins une des cartes soit un as).
P (aucune des 2 cartes ne soit un as).

27. On vous propose le jeu suivant : vous payez 2 $ pour tenter de deviner le
rsultat du lancer d'un d quilibr. Si vous devinez correctement, on
vous donne K $ plus votre mise ; sinon vous perdez votre mise. Quelle
doit tre la valeur de K pour que votre esprance de gain soit nulle ?

5 Variables alatoires et probabilits

179

28. Soit A et C des vnements indpendants. Si P(A) = 1 3 et P(C) = 1 5 ,


calculez :
a) P(Ac C)

b) P(A Cc)

29. Soit A et B deux vnements tels que P(A) = 0,4 et P(B) = 0,3. Dterminez
P(A B) pour chacune des hypothses suivantes :
a) P(A B) = 0,1

b) A et B sont incompatibles

c) P(A|B) = 0,8

d) P(A Bc) = 0,15

e) B A
30. Une bote contient 2 billes noires et 3 blanches. On tire une bille la fois
(sans remise) jusqu' ce qu'apparaisse une bille noire. Soit X le nombre
de tirages requis. Trouvez E(X).
31. Un solide a quatre faces, numrotes de 1 4. Sachant que P(l) = P(3) = p
et P(2) = P(4) = 2p :
a) Trouvez l'esprance mathmatique de : X = Le nombre qui apparat
sur la face infrieure quand on lance le solide.
b) Si vous lancez ce solide 2 fois et que vous notiez la somme des
rsultats obtenus, en identifiant les sous-ensembles suivants de : :
A = {somme paire}, B = {somme impaire}, C = {somme suprieure 5},
valuez :
i) P(B)

ii) P(A B)

iii) P(Bc A)

iv) P(C|B)

v) P(B C)

32. On suppose que le poids (en kg) des adultes se distribue avec une
moyenne de 64 et un cart-type de 12. Soit X le poids total de 14
personnes qui s'entassent dans un ascenseur. Calculez E(X) et Vx.
33. Si l'on suppose que le poids, en grammes, des ufs est de moyenne 56 et
de variance 20, quelle est l'esprance mathmatique et la variance du
poids d'une douzaine d'ufs ?
34. Dans le problme prcdent, si on place au hasard 6 ufs dans chaque
plateau d'une balance, quelle est l'esprance et la variance de la
diffrence de poids entre la premire et la deuxime demi-douzaine ?

180

Introduction la statistique applique

35. Une compagnie d'assurances offre une police d'annulation de voyage. La


prime est de 25 $ par personne ; le cot pour la compagnie d'assurance
est de 800 $ en cas d'annulation. Supposons que, d'aprs les
statistiques, la probabilit qu'un client annule son voyage est de 0,02.
Soit X le gain de la compagnie lorsqu'elle assure une personne (en
ngligeant tous les frais autres que le versement ventuel de 800 $).
a) Calculez E(X) et Var(X).
b) Soit X1 et X2 les gains associs deux clients et X = X1 + X2 le gain
total. Dterminez Var(X) si
i)

les deux clients sont trangers l'un l'autre ;

ii) les deux clients appartiennent la mme famille, et une


annulation entrane automatiquement l'autre. (On suppose que la
probabilit que le couple annule est 0.02.)
36. Au numro prcdent, supposons que le cot d'annulation C est
variable, mais que la probabilit d'annulation demeure fixe 0,02. La
compagnie voudrait conserver en profit 30 % des primes recueillies. Quel
pourcentage de C doit-elle exiger comme prime ?
*37. Un jury est form de 3 juges. Les 2 premiers sont des juges honntes qui
prennent la bonne dcision avec probabilit p(p > 1 2 ). Le 3e juge prend
sa dcision au moyen d'un pile ou face . La dcision du jury est prise
la majorit simple. Quelle est la probabilit que le jury prenne la bonne
dcision ?

Quelques lois discrtes

6.1
6.2

6.3
6.4
6.5

Factorielle et combinaisons
Loi binomiale
Fonction de masse
Justification de la formule
Esprance mathmatique et variance d'une variable binomiale
Justification de la formule
Loi hypergomtrique
Loi gomtrique
Loi de Poisson
Approximation de la loi binomiale par la loi de Poisson
Conditions d'application de la loi de Poisson
RSUM
EXERCICES

182

Introduction la statistique applique

Introduction Nous avons vu au chapitre 5 qu'il est possible de dvelopper la


fonction de masse d'une variable alatoire particulire partir des lois
lmentaires des probabilits. Cette approche signifie que chaque nouveau
contexte prsente un problme nouveau que l'on rsout indpendamment
des autres. Or, il est vident que certains problmes ont des similitudes
entre eux qui font que la solution de l'un est solution de l'autre. On pargne
beaucoup de temps et d'efforts en reconnaissant, dans un problme donn,
une structure probabiliste dj identifie, car il suffit alors d'appliquer une
solution dj dveloppe.
C'est ce que nous ferons dans ce chapitre : nous identifierons des grandes
classes de variables alatoires et pour chacune nous dvelopperons une
fonction de masse gnrale. La fonction de masse sera exprime l'aide
d'une formule mathmatique, qui permet de passer d'une valeur de la
variable sa probabilit en effectuant un calcul relativement simple. Il est
possible ainsi d'viter les tableaux dans lesquels sont numres toutes les
valeurs d'une variable et leur probabilit et qui, au chapitre 5, taient notre
seul moyen de prsenter une fonction de masse. Nous donnerons, en outre,
une expression pour la moyenne et la variance de chacune des lois tudies.
Avant d'aborder l'tude de ces lois nous prsentons quelques notations qui
seront utiles pour la suite.

6.1

FACTORIELLE ET COMBINAISONS
Certaines des formules que nous utiliserons par la suite exigent qu'on
calcule le produit des entiers 1, 2, 3, ..., n. Pour simplifier l'criture, on
reprsente ce produit par le symbole n!, appel factorielle n :
n! = 1 u 2 u ... u (n 1) u n.
Par exemple,
3! = 1 u 2 u 3 = 6,
6! = 1 u 2 u 3 u 4 u 5 u 6 = 720.
Cette dfinition, videmment, ne s'applique qu'aux entiers positifs. Ajoutons
l'utile convention suivante :
0! = 1.

6 Quelques lois discrtes

183

Un autre calcul qui figure dans les formules de ce chapitre est celui

symbolis par nx

et dfini par

nx

n!
x!( n  x )!

o x et n sont des entiers non ngatifs et x d n. Par exemple,


5
3

La quantit nx

5!

5!

1u 2 u 3 u 4 u 5

4u5

3! (5 - 3)!

3!2!

(1u 2 u 3 )(1u 2 )

1u 2

10.

est appele nombre de combinaisons de x objets parmi n. On

trouvera, la page 397, une table des nombres

,
n
x

aussi appels

coefficients du binme de Newton. L'ensemble de ces nombres forme le


triangle de Pascal. La premire ligne du tableau, correspondant n = 0,
donne 00 ; la deuxime, correspondant n = 1, donne 10 et 11 ; la

troisime, correspondant n = 2, donne

,
2
0

2
1

gnral, pour n = 0, 1, , 20, le tableau donne

; ainsi de suite. En
, , ..., . Chaque

et

2
2

n
0

n
1

n
n

ligne du tableau peut tre facilement calcule partir de la ligne prcdente


en prenant les sommes des paires de nombres successifs, ainsi :
n=7

n=8

21

28

35

56

35

70

21

56

28

part le nombre 1 aux deux extrmits, chaque nombre dans la ligne n = 8


est la somme des deux nombres situs juste au-dessus. Le lecteur peut
vrifier qu'il obtiendra bien la ligne n = 9 partir de la ligne n = 8 en
utilisant la mme technique.
Il est intressant de noter la signification des symboles n! et


n
x

dans la

solution des problmes de dnombrement.


Le nombre n! reprsente le nombre de permutations de n objets.
Exemple 1

Combien y a-t-il de faons de placer 3 personnes, A, B, et C, sur un banc de


trois places ? Le schma suivant montre pourquoi la rponse est 3! = 6.

184

Introduction la statistique applique

Premire place

Deuxime place

Troisime place

Il y a trois choix possibles pour la premire place : A, B, ou C. Pour chacun


de ces choix, il y en a deux pour la deuxime. Finalement, les occupants des
deux premires places ayant t choisis, il ne reste plus qu'une seule
possibilit pour la troisime. Donc, le nombre de permutations gale 3 u 2 u
1, soit 3!.
i
La solution du problme de l'exemple 1 est clairement gnralisable
n'importe quel nombre d'objets.
Le nombre

reprsente le nombre de faons de choisir, sans tenir compte


n
x

de l'ordre, x objets parmi n. Nous ne le dmontrerons pas.


Exemple 2

Combien y a-t-il de faons de choisir, sans tenir compte de l'ordre, trois


livres parmi six ?
Solution : On cherche la valeur de
6

3

. Par la formule
6
3

n
x

6!

1u 2 u 3 u 4 u 5 u 6

3! ( 6  3 )!

(1u 2 u 3 ) u (1u 2 u 3 )

n!
x !( n  x ) !

on obtient :

20.

Cette valeur s'obtient aussi directement de la table des coefficients du


binme de Newton, la case dtermine par les valeurs n = 6 et x = 3. Si les
6 livres sont dsigns par les lettres a, b, c, d, e et f, les 20 choix possibles
de 3 livres sont :
abc, abd, abe, abf, acd, ace, acf, ade, adf, aef,
bcd, bce, bcf, bde, bdf, bef, cde, cdf, cef, def.

6 Quelques lois discrtes

6.2

185

LOI BINOMIALE
Considrons les quatre expriences alatoires suivantes :
a) On lance 20 pices de monnaie et on obtient X faces .
b) On lance 36 ds ; Y est le nombre de 1 .
c) Il y a 10 naissances dans un hpital ; U est le nombre de filles.
d) 45 % des gens sont en faveur d'un projet de loi. Dans un chantillon de
100 personnes choisies au hasard, on en trouve W qui sont en faveur du
projet de loi.
Ces quatre expriences alatoires ont en commun un certain nombre de
caractristiques fondamentales :

chacune des variables X, Y, U et W peut tre considre comme tant le


nombre de succs obtenus en un certain nombre n d'essais,

chacun des n essais a la mme probabilit de donner un succs.

Une autre caractristique fondamentale - parfois vidente, parfois pas - est


la suivante :

les essais sont indpendants.

Ces caractristiques communes sont assez fondamentales pour que les


variables X, Y, U et W, malgr leurs diffrences superficielles, aient un
comportement probabiliste de mme type. On dit qu'elles sont toutes de
mme loi, la loi binomiale. Leurs fonctions de masse ne sont pas identiques,
mais nous verrons plus bas qu'elles sont de mme forme. Elles se
distinguent l'une de l'autre par la valeur de deux quantits appeles des
paramtres :
n : le nombre d'essais, et
p : la probabilit, chaque essai, d'obtenir un succs.
Une variable qui reprsente le nombre de succs obtenus lors de n essais
indpendants est de loi binomiale avec paramtres n et p, note B(n, p).
Vrifions les conditions qui dfinissent la loi binomiale dans chacun des
exemples ci-dessous.

186

Introduction la statistique applique

a) Le nombre X de faces en 20 lancers d'une pice de monnaie. Il y a


n = 20 essais, le succs est obtenir face , la probabilit d'obtenir face
est p = 1/2.
L'indpendance des preuves ici est indiscutable : il suffit de raliser que
le fait d'avoir eu, disons face , un certain essai n'a aucun effet sur la
probabilit d'avoir face au prochain. On dit alors que X est de loi
B(20, 1/2).
b) Le nombre Y de 1 en 36 essais. Ici n = 36, le succs est obtenir 1 ,
la probabilit de succs est p = 1/6. L'indpendance est ici aussi
vidente. Alors Y est de loi B(36, 1/6).
c) Le nombre U de filles parmi 10 nouveaux-ns. Il y a n = 10 essais, le
succs est avoir une fille , et la probabilit de succs est, d'aprs les
statistiques, voisine de p = 0,487. Il est presque certain que les essais
sont indpendants, la seule condition qu'il n'y ait pas de jumeaux
homozygotes dans l'chantillon. U est de loi B(10; 0,487). En pratique, on
utilisera souvent la loi B(10; 0,5) comme approximation.
d) Le nombre W de personnes en faveur du projet de loi dans un chantillon
de 100 personnes. Si l'on envisage l'chantillonnage comme une
succession de 100 tirages dans la population, alors il y a n = 100 essais,
le succs est la personne choisie est en faveur du projet de loi , et la
probabilit de succs est p = 0,45 chaque tirage. L'indpendance des
preuves n'est vrifie que si les tirages sont effectus avec remise. Si les
tirages se font sans remise, chaque tirage modifie la composition de la
population et donc rduit ou augmente la probabilit de succs aux
essais suivants. La variable W n'est alors plus de loi binomiale. Toutefois,
lorsque la population est trs grande, la dpendance entre les preuves
est trs faible et la loi binomiale peut alors tre utilise comme
approximation.

Fonction de masse La fonction de masse p(x) d'une variable alatoire X de loi


B(n,p) est donne par la formule
p( x)

p
n
x

(1  p ) n  x pour x

0 , 1, 2 ,  , n .

Avant de justifier cette formule, nous donnons un exemple pour illustrer son
application.

6 Quelques lois discrtes

Exemple 3

187

Un archer atteint la cible avec une probabilit de 60 %. Il tire 7 flches.


Tracer le diagramme btons de la fonction de masse p(x) o X reprsente le
nombre de coups au but.
X est de loi B(7; 0,6). Par la formule donnant p(x) on obtient
p (0)

7!

(0,6 ) (0, 4 )

1u 0 , 001 638 4

0 , 001 638 4

7 u 0 , 002 457 6

0 , 017 203 2

0!7!
p (1)

7!

(0, 6 )1 (0 , 4 ) 6

1! 6!
p (2)

7!

(0,6 ) (0, 4 )

21u 0 , 003 686 4

0 , 077 414 4

(0,6 ) (0, 4 )

35 u 0 , 005 529 6

0 ,193 536 0

(0, 6 ) (0, 4 )

35 u 0 , 008 294 4

0 , 290 304 0

21u 0 , 012 441 6

2!5!
p (3)

7!
3! 4!

p( 4)

7!
4!3!

p (5)

7!

(0, 6 ) (0, 4 )

0 , 261 273 6

5! 2!
p(6)

7!

(0, 6 ) (0, 4)

7 u 0 , 018 662 4

0 ,130 636 8

1u 0 , 027 993 6

0 , 027 993 6.

6!1!
p (7)

7!

(0, 6) (0, 4)

7!0!

Cette fonction de masse est illustre dans la figure 6.1.

Justification de la formule Avant d'aborder le cas gnral o n et p prennent


des valeurs quelconques, considrons en dtail le cas particulier o n = 4 et
p =1/3.
Exemple 4

On suppose que, dans un certain magasin, un client sur trois paye au


moyen d'une carte de crdit (et 66 32 % des clients payent d'une autre faon :
argent comptant, chque, etc). Quatre clients sont en ligne la caisse. Soit X
le nombre de clients qui, parmi eux, utiliseront une carte de crdit.
Cette variable X est de loi B(4,1/3) car on peut aisment la visualiser comme
tant le nombre de succs obtenus en 4 essais indpendants avec, chaque
fois, une chance sur 3 d'avoir un succs.

FIGURE 6.1

Introduction la statistique applique

Fonction de masse d'une variable B(7; 0,6)


P (X)
Frquence

188

0,3
0,2
0,1
X

0
0

i
Les valeurs possibles pour X sont videmment les entiers 0, 1, 2, 3 et 4. Il
reste dterminer la probabilit de chacun de ces rsultats. C'est ce que
nous ferons en considrant au long tous les rsultats exprimentaux
possibles, c'est--dire, tous les lments de l'espace chantillon.
Notant par les lettres S (succs : carte de crdit) ou E (chec : pas de carte de
crdit) les rsultats successifs obtenus chacun des 4 essais ; on voit que
les 16 lments de l'espace chantillon correspondent aux 16 mots de 4
lettres qui peuvent tre forms en utilisant uniquement les lettre S et E. Le
tableau 6.1 donne la liste de ces 16 mots, la probabilit de chacun, ainsi que
la valeur de X (le nombre de S) qui lui est associe.
Dans le tableau 6.1, la probabilit d'un mot est calcule en multipliant les
probabilits des rsultats qui le composent. L'indpendance des essais
justifie ces calculs.
Il est maintenant ais de calculer la probabilit de chacune des valeurs
possibles pour X en effectuant la somme des probabilits de chacun des
mots qui donnent cette valeur de X.
Par exemple, la valeur X = 3 est obtenue de quatre mots diffrents (SSSE,
SSES, SESS et ESSS) et la probabilit de chacun de ces mots est de 2/81.
On obtient donc :
p (3)

P(X

3)

4u

81

81

0 , 098 8.

6 Quelques lois discrtes


TABLEAU 6.1

189

Les 16 rsultats possibles avec n = 4 et p = 1/3


Mot

Probabilit du mot

SSSS

1
3

1
3

1
81

SSSE

1
3

u u u

2
3

2
81

SSES

1
3

1
3

1
3

2
81

SSEE

1
3

4
81

SESS

1
3

1
3

1
3

1
3
1
3

2
3

1
3

2
3

2
3

2
3

1
3

1
3

2
81

SESE

1
3

2
3

1
3

2
3

4
81

SEES

1
3

2
3

2
3

1
3

4
81

SEEE

1
3

2
3

2
3

2
3

8
81

ESSS

2
3

1
3

1
3

1
3

2
81

ESSE

2
3

1
3

1
3

2
3

4
81

ESES

2
3

1
3

2
3

1
3

4
81

ESEE

2
3

1
3

2
3

2
3

8
81

EESS

2
3

2
3

1
3

1
3

4
81

EESE

2
3

2
3

1
3

2
3

8
81

EEES

2
3

2
3

2
3

1
3

8
81

EEEE

2
3

2
3

2
3

2
3

16
81

De mme, on trouve :
p (0)

16
81

, p (1)

32
81

, p (2)

24
81

, p (3)

8
81

et p ( 4 )

81

La distribution de X est illustre par un diagramme btons (figure 6.2).

Dans l'exemple qui vient d'tre prsent, il a t possible de calculer les p(x)
en considrant individuellement chacun des 24 = 16 cas possibles. Si l'on
avait eu n = 10, le nombre de cas considrer aurait t 210 = 1 024. Avec
n = 20, on en aurait eu plus d'un million ! On conviendra aisment qu'il est
hors de question d'utiliser pareille mthode de calcul pour des valeurs de n
qui sont le moindrement leves. Il serait commode de pouvoir employer une
formule qui permette de calculer directement les p(x) sans qu'on ait remplir
le tableau, souvent monstrueux, des 2n cas possibles.

190

Introduction la statistique applique

Considrons de nouveau le tableau 6.1. On constate que, pour des valeurs


quelconques de n et de p, chaque mot form de x lettres S et (n x) lettres E
est obtenu avec une probabilit toujours gale px(1 p)n x. Pour calculer
p(x), il suffira donc de savoir dnombrer le nombre de mots forms de
x lettres S et (n - x) lettres E, c'est--dire le nombre de faons de choisir
x espaces parmi n, les x espaces choisis recevant les x lettres S et les (n x)
espaces qui restent recevant des E. Or, ce nombre de faons de choisir x
espaces parmi n est prcisment ce qui est valu par le coefficient nx du

binme de Newton.
FIGURE 6.2

Fonction de masse d'une variable B(4,1/3)


32/81
8/27
16/81
8/81
1/81
x
0

Si une variable X est de loi B(n, p), il y a, comme on vient de le voir,

mots qui
n
x

conduisent X = x. Chacun de ces mots ayant une probabilit px(1 p)n x, on


obtient donc :
p( x )

p
n
x

q nx

pour x = 0, 1, 2, , n

o, pour allger les notations, on a pos 1 p = q. Il convient de rappeler que


p0 = q0 = 1.
Exemple 5

On lance 10 sous et on appelle X le nombre de faces obtenues.


Dterminer la fonction de masse p(x).
Ici, X est de loi B(10, 1/2). On a donc, pour x = 0, 1, 2, .... 10,
p( x)


10
x

10  x

1 1

2 2


10
x

10

1

2

1
.
10x 1 024

6 Quelques lois discrtes

191

Le tableau des coefficients du binme de Newton donne donc :


p (0)

, p (1)

1 024
p (4)

210

, p (5)

45

, p (2)

1 024

1 024
p (8)

10

, p(6)

1 024

1 024

120

, p (3)

1 024

252

10

, p (9 )

45

210

120

, p (7)

1 024
1

, p (10 )

1 024

1 024
,

1 024
.

1 024

i
Exemple 6

Dans une manufacture, on inspecte les lots d'articles produits en srie en


utilisant des mthodes d'chantillonnage. Dans chaque lot, dix articles sont
choisis au hasard et le lot est rejet si 2 articles ou plus sont dfectueux. Si
un lot contient exactement 5 % d'articles dfectueux, quelle est la probabilit
que le lot soit accept ? Refus ?
Dans cet exemple, X est B(10; 0,05) et le lot est accept si X = 0 ou 1.
La probabilit que le lot soit accept est donc :
P ( lot accept)

p ( 0 )  p (1)

( 0 ,05 )
10
0

( 0 , 95 ) 10 

0 , 598 74  0 , 315 12

( 0 ,05 )
10
1

( 0 , 95 ) 9

0 , 913 86.

La probabilit que le lot soit refus est donne par


P ( lot refus)

p ( 2 )  p ( 3 )    p (10 )
1  p ( 0 )  p (1)
1  0 , 913 86
0 , 086 14.

192

Introduction la statistique applique

Esprance mathmatique et variance d'une variable binomiale Comme on l'a vu


au chapitre 5, l'esprance mathmatique d'une variable alatoire s'obtient en
calculant
P

x i p ( x i ).

Appliquant cette formule aux rsultats numriques obtenus dans l'exemple


3, o X est B(7; 0,6), on obtient
P = (0 u 0,001 638 4) + (1 u 0,017 203 2) +... + (7 u 0,027 993 6) = 4,2.

tait-il ncessaire de calculer au long chacun des p(x) pour connatre P ?


Heureusement, non. Le rsultat P = 4,2 s'obtient directement du produit
n u p = 7 u 0,6 = 4,2. On admettra facilement que si chaque essai a une
probabilit p de donner un succs, alors, en n essais, on s'attend obtenir
environ n u p succs. C'est l la valeur attendue pour X, son esprance
mathmatique.
De mme, il est possible de trouver une expression particulirement simple
pour la variance V2 d'une variable de loi binomiale. Rappelons qu'en gnral,
la dfinition de la variance est
V2

(xi

 P ) 2 p ( x i ),

ce qui donne, pour la variable de l'exemple 3,


V2

( 0  4 , 2 ) 2 u 0 , 001 638 4    ( 7  4 , 2 ) 2 u 0 , 027 993 6

1, 68

Le mme rsultat s'obtient avec la formule


V

npq

7 u 0,6 u 0, 4

1, 68.

Nous avons donc les rsultats gnraux suivants :


Si X est B (n, p), alors
E(X )

np et Var ( X )

V2

npq .

Justification de la formule La formule pour la variance, V2 = npq (o q = 1 p), est


plus malaise justifier que celle pour la moyenne. On peut, bien sr, la
dmontrer algbriquement en dveloppant l'expression
V

x 0

x 0

( x  P ) 2 p ( x ) ( x  np ) 2 nx p x q n  x .

6 Quelques lois discrtes

193

Une preuve plus simple peut cependant tre obtenue en remarquant que le
nombre X de succs obtenus en n essais peut s'exprimer sous la forme
X = X1 + X2 + + Xn

o Xi vaut 0 ou 1 selon que le i-ime essai a donn un chec ou un succs.


Puisque chacun de ces Xi vaut 0 ou 1 avec des probabilits respectives de q
et p, on trouve aisment que
E(Xi )

( 0 u q )  (1u p )

et
Var ( X i )

( 0  p ) u q  (1  p ) u p
2

p (1  p )  p (1  p )

p (1  p )( p  1  p )
p (1  p )

pq .

Utilisant le fait, vu au chapitre 5, que l'esprance d'une somme de variables


alatoires est la somme des esprances de ces variables, on obtient
E(X )

E( X1  X 2  X n )
p  p  p

E( X1 )  E( X 2 )   E( X n )

np .

tant donn que les essais sont indpendants, les variables X1, , Xn sont
indpendantes, et puisque la variance d'une somme de variables
indpendantes est la somme des variances de chacune des variables, on
obtient
Var ( X )

Var ( X 1  X 2    X n )
pq  pq    pq

Exemple 7

Var ( X 1 )  Var ( X 2 )    Var ( X n )

npq .

On suppose que, dans la population d'une grande ville, 30 % des gens sont
partisans d'une certaine option politique. Lors d'un sondage auprs de 1 000
personnes, X personnes se dclarent en faveur de ce parti politique.
Dterminer E(X) et Var(X).
Les preuves ne sont pas strictement indpendantes, puisque les tirages ne
se font pas gnralement avec remise. Cependant, il s'agit d'une grande ville
et d'un chantillon relativement petit. Donc, l'effet d'un tirage sur la
population est ngligeable, la variable X ici considre est peu prs de loi
B(l 000; 0,3),

194

Introduction la statistique applique

E(X )

V2

Var ( X )

et l'cart-type V vaut

210

np

1 000 u 0 , 3

npq

300

1 000 u 0 , 3 u 0 , 7

210

= 14,49.

Serait-il surprenant d'obtenir X t 350 ? Bien sr, puisque 350 se situe


plus de 3,4 carts-types droite de P, ce qui est vraiment exceptionnel.

6.3

LOI HYPERGOMTRIQUE
Supposons qu'on prlve un chantillon de taille n d'une population de N
individus, dont une proportion p possde une certaine proprit. Notons par
X le nombre d'individus, dans l'chantillon choisi, qui ont la proprit
considre. Alors X est de loi B(n,p), condition que les tirages soient
indpendants. Les tirages sont indpendants s'ils sont faits avec remise ; et
ils sont peu prs indpendants s'ils sont faits sans remise mais dans une
population beaucoup plus grande que l'chantillon.
Supposons, cependant, que la population n'est pas incomparablement plus
grande que l'chantillon. La loi binomiale ne peut plus tre applique. Une
autre loi, appele loi hypergomtrique, s'applique dans ce cas. Nous
commenons par un exemple qui illustre un cas particulier de la loi
hypergomtrique.

Exemple 8

Une petite classe est compose de 5 filles et 3 garons. On tire, au hasard,


quatre tudiants et on note par X le nombre de filles dans cet chantillon.
Calculer P(X = 2).
Nous pouvons rsoudre ce problme en utilisant les techniques de
dnombrement. Considrons l'ensemble : de tous les rsultats possibles ; il
est raisonnable de supposer que les rsultats sont quiprobables. Par
consquent, la probabilit de l'vnement {X = 2}, que nous noterons A, est
calcule en divisant le nombre d'lments dans A par le nombre d'lments
dans :. Puisque : est l'ensemble de tous les chantillons de taille 4 tirs
d'une population de taille 8, il contient 84 = 70 lments. L'vnement A est

l'ensemble de tous les chantillons forms de 2 filles et 2 garons. Le nombre


de faons de choisir les deux filles est 52 = 10 ; pour chacun des 10 choix de


3
2

= 3 faons de choisir les 2 garons. Il y a donc 10 u 3 =


deux filles, il y a
30 faons de choisir 2 filles et 2 garons. Donc P(A) = 30 70 = 3 7 .
i

6 Quelques lois discrtes

195

Le cas gnral se rsout de la mme faon. Une population contient N


lments, dont N1 appartiennent une certaine catgorie, disons la catgorie 1. Si l'on note par N2 le nombre d'individus qui n'appartiennent pas la
catgorie 1, alors
N = N1 + N2.

La proportion des individus qui appartiennent la catgorie 1 est


p

N1

Si X est le nombre d'individus qui appartiennent la catgorie 1 dans un


chantillon de taille n, alors on dit que X est de loi hypergomtrique (X
est Hpg(n, N1, N2)).
On voit aisment que :
Xdn

car on ne tire que n individus.

X d N1

car seulement N1 individus ont la proprit voulue.

Xt0

car X ne peut tre ngatif.

X t n N2

car n X d N2 ; le nombre d'individus tirs n'ayant pas


la proprit voulue ne peut tre suprieur N2.

Par un raisonnement semblable celui prsent dans l'exemple 8, on


obtient :
si X est Hpg(n, N1, N2), alors
p( x )


N1
x

N2
nx


N
n

pour max ^0 , n  N 2 ` d x d min ^n , N 1 `.

Remarque Il n'est pas ncessaire de vrifier les conditions max{0, n N1} d x


d min{n, N1}, car ds que x sort de cet intervalle, la formule pour p(x) prend
automatiquement la valeur zro. Par exemple, si N1, = 5 et x = 6, le terme

N1
x

, au numrateur de la formule, est gal zro, puisqu'il n'y a aucune


5
6

faon de choisir 6 objets parmi 5.

196

Introduction la statistique applique

Un calcul algbrique un peu plus pouss permet de montrer que :


si X est Hpg(n, N1, N2), alors
E(X )

np

Var ( X )

npq

N n
N 1

o p

N1

et q

1 p

Exemple 9

N2

Un bloc d'habitation, compos de 16 logements, est mis en vente. L'actuel


propritaire prtend que seulement 4 de ces logements ont un systme
lectrique dfectueux. Un client ventuel, voulant vrifier cette affirmation,
fait inspecter 5 logements choisis au hasard. Dans 3 d'entre eux, on trouve
que le systme lectrique est refaire. Le propritaire a-t-il
(vraisemblablement) menti ?
Si le propritaire a dit vrai, le nombre X de logements avec installations
lectriques dfectueuses, parmi les 5 logements visits, devrait suivre une loi
Hpg(5, 4, 12).
La formule de la fonction de masse donne :
p (0)

792
4 368

p (1)

1 980

p ( 2)

4 368

1 320

p (3)

4 368

264

p( 4)

4 368

12
4 368

La valeur X = 3 exprimentalement obtenue est passablement grande. En


fait, on trouve que P(X t 3) =

276
4 368

| 0,063 2.

Il semble bien que le propritaire ait menti car la probabilit est bien faible
d'obtenir une aussi grande valeur de X.
On aurait pu se contenter de calculer simplement
P = np = 1,25 et V2 = npq(N n)/(N 1) = 0,687 5 (V = 0,829 2).

La valeur observe, X = 3, tant situe 2,11 fois l'cart-type droite de P


peut tre juge significativement grande et conduire la conclusion que le
propritaire a apparemment menti.
i

6 Quelques lois discrtes

6.4

197

LOI GOMTRIQUE
Aux sections 6.2 et 6.3, nous avons considr des expriences constitues
d'un nombre fixe d'essais, chaque essai pouvant donner un succs avec
mme probabilit p. La variable alatoire X est le nombre de succs. Ici, nous
considrons une exprience constitue d'une srie d'preuves indpendantes, mais o c'est le nombre d'preuves qui est alatoire et non le nombre
de succs. L'exprience consiste rpter les essais jusqu' ce qu'un premier
succs soit obtenu.
Si l'on dsigne par X le nombre d'essais effectus pour obtenir ce premier
succs, cette variable X est dite de loi gomtrique : X est Gom(p).
La fonction de masse d'une variable de loi gomtrique est aisment
dveloppe. Si x est un entier positif, l'vnement {X = x} se ralise si et
seulement si les x 1 premiers essais ont produit des checs et le x-ime a
produit un succs. En d'autres termes, p(x) est la probabilit du rsultat
EEEE...EES




x 1 fois

La probabilit d'un tel rsultat est


q u q u q u q uq u q u p



q x 1p,

x 1 fois

o
q

1 p.

Nous avons donc le rsultat suivant


si X est Gom(p), alors
p( x )

pq x 1 pour x

1, 2 , 3 , 

Il est possible dans le cas de la loi gomtrique de dterminer une formule


donnant la probabilit des vnements {X > x} et {X d x}. L'vnement {X > x}
se produit si et seulement si les x premiers essais ont conduit des checs.
Par consquent,
P( X ! x)

qx

198

Introduction la statistique applique

et donc
P( X d x)

1 q x .

1 P ( X ! x )

Il n'est pas aussi facile d'tablir les formules pour l'esprance et la variance
d'une variable de loi gomtrique. Ainsi nous les donnons sans justification :
si X est Gom(p), alors
P( X ! x)

pour x 1, 2 , 3 , 

,V

Exemple 10 Une compagnie ptrolire effectue des forages. On suppose que chaque puit
creus a une chance sur 5 de donner du ptrole. Si l'on dsigne par X le
nombre de puits qui doivent tre creuss pour obtenir (enfin !) un hit ,
tracer le diagramme btons de p(x) et calculer P(X > 7). Dterminer aussi
E(X) et Var(X). Dans cet exemple, X est de loi Gom(1/5). Pour x = 1, 2, 3, ,
on a donc p(x) = 15 u ( 54 )x 1.
p (1)

0,2 p ( 2)

0 ,16 p ( 3 )

0 ,128 p ( 4 )
P ( x ! 7)

0 ,102 4 p ( 5 )

(0,8)

0 , 065 536 , 

0 , 081 92 p ( 6 )

0 , 209 715 2.

Aussi, par les formules appropries,


E(X )
FIGURE 6.3

1
p

5 , Var ( X )

V2

20 et V

20

4 , 472.

Fonction de masse d'une loi Gom(1/5)


P (X)
0,2

0,1

0
0

9 10 11 12 13 14 ...

6 Quelques lois discrtes

199

Chaque bton a une hauteur gale 80 % de celle du bton qui le prcde ;


les hauteurs des btons forment donc une progression gomtrique, d'o le
nom donn cette loi de probabilit.
i
Remarque Pour que le modle gomtrique puisse s'appliquer au dernier
exemple, il faut que les lieux de forage soient suffisamment loigns les uns
des autres pour qu'on puisse raisonnablement supposer que les rsultats des
forages sont indpendants. Si on effectue tous les forages au mme site,
l'indpendance de leurs rsultats est loin d'tre assure et la loi gomtrique
ne convient plus la description du comportement de la variable X.

6.5

LOI DE POISSON
Il arrive frquemment qu'on ait considrer le nombre d'vnements qui se
produisent, non pas en un nombre fixe d'essais (ce qui relve de la loi
binomiale) mais plutt durant un certain intervalle de temps. Par exemple, le
nombre d'appels tlphoniques reus par un standardiste entre 10 heures et
11 heures ; ou encore le nombre de crevaisons subies par une flotte de taxis
durant une certaine semaine ; ou le nombre de particules mises, en une
seconde, par une substance radioactive. C'est alors la loi de Poisson, plutt
que la loi binomiale, qui s'applique.
Une variable alatoire X suit une loi de Poisson avec moyenne O (lambda)
si sa fonction de masse est
p( x )

e O Ox

pour x

0 , 1, 2 , 3 , 

x!

o e est une constante mathmatique fondamentale voisine de 2,718 28.


Exemple 11 Une compagnie d'assurances reoit, en moyenne, 4,2 rclamations par jour.
Dterminer la probabilit que, durant une certaine journe, le nombre de
rclamations reues soit infrieur ou gal 2.
Solution : Nous supposons que X, le nombre de rclamations reues, suit
une loi de Poisson avec moyenne O = 4,2 (X est Poisson(4,2)).

200

Introduction la statistique applique

On trouve donc que


P ( X d 2)

p ( 0 )  p (1)  p ( 2 )

( 4,2) 0 ( 4,2)1 ( 4,2) 2




e 4 , 2
0!
1!
2!

0 , 210 24

La loi de Poisson ne s'applique pas uniquement au nombre d'vnements


dans un intervalle de temps. L'exemple suivant montre qu'il peut tre
question d'espace aussi bien que de temps.
Exemple 12 Un dactylographe fait, en moyenne, 2 fautes de frappe par page de texte
dactylographi. Il vient de taper un texte qui couvre 1,5 page. Quelle est la
probabilit que le texte contienne moins de 2 fautes ?
Le nombre moyen de fautes attendu sur un texte de 1,5 page est O = 3.
Utilisant la loi de Poisson, on trouve
P ( X  2)

p ( 0 )  p (1)

3 0 31


e 3
0!

1
!

0 ,199 15.

Pour connatre la distribution d'une variable alatoire qui suit une loi de
Poisson, il suffit de connatre sa moyenne P = O. La variance V2 s'obtient
aussi directement de O.
Si X est de loi Poisson(O), alors
E(X )

O et Var ( X )

O.

Dans les deux exemples prcdents, le choix de la loi de Poisson a t fait de


faon plutt dsinvolte. Les conditions dans lesquelles la loi de Poisson
s'applique ne sont pas toujours videntes. Pour mieux dcrire ces conditions
nous ferons d'abord un rapprochement avec la loi binomiale.

Approximation de la loi binomiale par la loi de Poisson La loi de Poisson est


souvent prsente comme un cas limite de la loi binomiale ; c'est le cas o n
augmente indfiniment (tend vers l'infini) alors que p diminue (tend vers 0)
simultanment, de telle sorte que le produit O = np demeure fixe. Dans ces
conditions, on peut dmontrer que la loi binomiale tend vers la loi de
Poisson. Cette notion de convergence d'une binomiale nous permettra plus
bas de cerner les conditions qui permettent l'emploi de la loi de Poisson.

6 Quelques lois discrtes

201

Toutefois, cette loi a une application plus immdiate : si n est grand et p


petit, alors une variable de loi B(n, p) est approximativement de loi de
Poisson(O) o O = np. Ceci nous permet de remplacer la formule

p
n
x

(1  p ) n  x

par
e  O Ox
x!

avec O = np lorsqu'on calcule P(X = x).


Exemple 13 On suppose que 3 % des appareils fabriqus par une certaine compagnie
sont dfectueux. Appelons X le nombre d'appareils dfectueux dans un lot de
60 appareils choisis au hasard dans la production.
En toute rigueur, X est de loi B(60; 0,03) et, pour x = 0, 1, ..., 60, p(x)
s'obtient par la formule p ( x ) 60
( 0 , 03 ) x ( 0 , 97 ) 60  x .
x

On obtient p(0) = 0,160 8 ; p(l) = 0,298 4 ; p(2) = 0,272 3 ; p(3) = 0,162 8 ;


p(4) = 0,071 7 ; p(5) = 0,024 9 ; p(6) = 0,007 0 ; p(7) = 0,001 7 ; p(8) = 0,000 3 ;
p(9) = 0,000 1 ; etc.
Puisque p = 0,03 est petit et n = 60 est assez grand, la loi de Poisson(O) avec
O = np = 1,8 donnera, par la formule p(x) = e -1,8(1,8)x/x!, des probabilits trs
voisines des valeurs exactes obtenues de la loi binomiale. L'utilisation de la
loi de Poisson (1,8) donne :
p(0) = 0,165 3 ; p(l) = 0,297 5 ; p(2) = 0,267 8 ; p(3) = 0,160 7 ; p(4) = 0,072 3 ;
p(5) = 0,026 0 ; p(6) = 0,007 8 ; p(7) = 0,002 0 ; p(8) = 0,000 5 ; p(9) = 0,000 1;
etc.
i

Conditions d'applications de la loi de Poisson Une faon de justifier en


pratique la supposition qu'une variable X est de loi de Poisson consiste
montrer que X peut tre considre comme une variable de loi binomiale
avec n trs grand et p trs petit. Voyons ce que ceci implique dans un
contexte particulier. Nous avons dit, par exemple, que le nombre X d'appels
reus par un standardiste entre 10 heures et 11 heures est de loi Poisson.
Pour interprter X comme une variable binomiale, dcoupons l'intervalle de
10 11 heures en un grand nombre de sous-intervalles, disons les 3 600
secondes de l'heure. Considrons ces 3 600 secondes comme 3 600 essais,
chacun avec deux rsultats possibles : il y a eu un appel (succs) et il n'y a

202

Introduction la statistique applique

pas eu d'appel (chec). Dans ce cas, le nombre d'appels X est le nombre de


succs en n = 3 600 essais. Si les essais sont indpendants, et si la
probabilit d'avoir plus d'un appel dans un sous-intervalle est ngligeable,
alors X est peu prs de loi binomiale. Le nombre d'essais est grand et on
aurait pu le choisir plus grand encore. Si l'on choisit des intervalles plus
courts, chose qu'on peut faire volont, on augmente n et diminue p
simultanment ce sont prcisment les conditions dans lesquelles la loi
binomiale approche la loi de Poisson.
Ainsi donc, nous concluons que le nombre d'appels reus dans une heure
est une variable de loi de Poisson, condition que les suppositions que nous
avons faites soient raisonnables. Malheureusement, nous ne savons pas
toujours si elles le sont. Est-il lgitime de supposer que les essais sont
indpendants ? Et que chacun d'eux n'a que deux rsultats possibles ? Le
contexte peut rendre chacune de ces hypothses plus ou moins plausible,
mais rarement certaine. Lorsqu'il s'agit d'appels tlphoniques, on peut
srement supposer que la probabilit de plus d'un appel dans un intervalle
assez petit est ngligeable. Cette supposition n'est toutefois pas raisonnable
lorsque les vnements peuvent survenir simultanment. Ainsi le nombre
d'accidents dans une ville est peut-tre de loi de Poisson, mais le nombre de
personnes impliques dans des accidents ne l'est pas : un mme instant peut
produire plusieurs victimes.
De mme, l'hypothse d'indpendance ne peut pas tre faite la lgre. Les
arrives chez un marchand de journaux sont-elles indpendantes ? Parfois,
mais on peut facilement imaginer des causes possibles de dpendance : une
personne qui arrive peut tre suivie de ses compagnons ; ou certaines
arrives peuvent en dcourager d'autres si le marchand a des concurrents
ct ; ou encore on peut avoir des arrives massives dues l'arrt d'un
autobus ou la fermeture d'un bureau. Il y a aussi les cas o les
vnements apparaissent selon un rythme rgularis, comme, par exemple,
les passages des autobus. Les passages des taxis, moins rgulariss que
ceux des autobus, se prtent mieux l'application de la loi de Poisson.
Nous avons suppos, dans les exemples ci-dessus que l'intensit du
processus (le nombre moyen d'vnements par unit de temps) demeure
constante. Nous avons nglig les phnomnes du type heure de pointe . Il
peut toutefois se prsenter des problmes o il serait incorrect de ne pas
tenir compte des variations dans l'intensit du processus. Par exemple, le
nombre moyen de vhicules qui, par minute, traversent un certain pont est

6 Quelques lois discrtes

203

srement plus lev aux heures de pointe (8 heures et 17 heures) qu'au


milieu de la nuit. Si l'intensit n'est pas constante, le calcul du nombre
attendu d'vnements dans un intervalle de temps donn peut se rvler
assez dlicat.

RSUM
Loi

B (n, p)

Hpg ( n , N 1 , N 2 )

Gom ( p )

Poisson (O )

Valeurs

p(x)

possibles
0 , 1, 2 , ! , n
0dxdn
n  N 2 d x d N1

1, 2 , 3 , !

0 , 1, 2 , 3 , !

n
x

q nx

N1
x

N2
nx

np

npq

np

x 1

e O Ox

npq

N n
N 1

N
n

pq

1
p

q
p

x!

Loi binomiale (B(n, p)) : X est le nombre de succs obtenus en n essais


indpendants o p reprsente la probabilit d'un succs, l'un quelconque
des essais.
Loi hypergomtrique (Hpg(n, N1, N2)) : Une population est forme de N1,
individus de type I et N2 individus de type II. X est le nombre d'individus de
type I obtenus dans un chantillon de taille n (parmi tous les N = N1 + N2
individus).
Loi gomtrique (Gom(p)) : X reprsente le nombre d'essais ncessaires
l'obtention d'un premier succs.
Loi de Poisson (Poisson(O)) : X est le nombre d'vnements qui se produisent
durant un certain intervalle de temps .

204

Introduction la statistique applique

EXERCICES
FACTORIELLE
ET
COMBINAISONS

1. Calculez
a) 5!

b) 7!

c) 8!

d) 10!

2. Calculez
5

a)
2

b)
3

c)
4

100

98

d)

1 000

e)

3. De combien de faons cinq personnes peuvent-elles s'asseoir sur une


banquette d'autobus ?
4. Combien de mots de 6 lettres peut-on former en permutant les lettres
A-B-C-D-E-F ?
5. De combien de faons peut-on choisir trois personnes parmi 8 ? Si les
trois personnes doivent constituer un comit form d'un prsident, un
secrtaire et un trsorier, de combien de faons peuvent-elles tre
affectes ces postes ?
6. De combien de faons peut-on choisir 3 nombres distincts parmi les
nombres entiers 1, 2, ..., 49 ?
7. Un groupe de 11 personnes doit tre spar en deux groupes, le premier
de 5 personnes, le second de 6. Combien y a-t-il de faons de former le
premier groupe ? Le deuxime groupe ? Vous devriez constater dans cet
exercice que 11
= 11
, et comprendre pourquoi en gnral, nx = nn x .
5
6

LOI BINOMIALE

8. On lance 5 pices de monnaie et on observe le nombre X de faces


obtenues.
a) Dressez la liste des 32 lments de : et dterminez la valeur de X
associe chacun de ces rsultats.
b) Reprsentez la fonction de masse p(x) au moyen d'un diagramme
btons.
9. Soit X une variable alatoire B(5, 1/3). Calculez
a) P(X = 2)

b) P(X t 3)

6 Quelques lois discrtes

205

10. a) On tire avec remise 4 personnes d'une population dont 20 % sont


gauchers. Quelle est la probabilit qu'exactement 2 soient gauchers ?
b) On lance un d 5 fois. Quelle est la probabilit d'avoir 4 fois un
nombre suprieur 4 ?
c) On tire avec remise 10 boulons d'une caisse qui contient 100 boulons
dont 10 sont dfectueux. Quelle est la probabilit que 9 des 10
boulons tirs soient dfectueux ?
11. On lance une pice de monnaie quilibre 4 fois et X reprsente le
nombre de piles.
a) Dterminez la fonction de masse de X.
b) Calculez la probabilit d'avoir au moins 3 piles.
12. cause d'un certain dfaut gntique, une femme sait qu' chacun de
ses accouchements prochains la probabilit que son enfant soit sain
n'est que 3/4. Elle se demande quelle est la probabilit que sur 5
grossesses elle ait exactement 3 enfants sains. Calculez cette probabilit
en suivant les tapes suivantes :
a) numrez les lments de l'espace chantillon sous forme de
quintuplets du genre (S, M, M, S, M), o S signifie sain et M
signifie malade .
b) Les rsultats numrs
quiprobables ?

dans

l'espace

chantillon

sont-ils

c) Quelle est la probabilit du rsultat (S, S, S, M, M) ?


d) Cette probabilit est-elle la mme pour tous les cas favorables
l'vnement 3 enfants sont sains ?
e) Combien y a-t-il de cas favorables l'vnement 3 enfants sont
sains ?
f)

Quelle est la probabilit que 3 des 5 enfants soient sains ?

13. La probabilit qu'un radar dtecte un avion ennemi est 0,9. Si cinq de
ces radars sont disponibles, quelle est la probabilit :
a) qu'exactement trois d'entre eux dtectent l'avion ennemi ?
b) qu'au moins un d'entre eux dtecte l'avion ennemi ?

206

Introduction la statistique applique

14. Pour une certaine marque de lampes de tlvision, en moyenne 10 %


brlent durant la priode de garantie. Un marchand a vendu 10 de ces
lampes et X reprsente le nombre de lampes qu'il devra remplacer durant
la priode de garantie.
a) Calculez E(X).
b) Quelle est la probabilit qu'il doive remplacer plus de 2 lampes ?
LOI HYPERGOMTRIQUE

15. On tire 5 cartes d'un jeu ordinaire de 52 cartes. Soit X le nombre de


cartes de coeur parmi ces 5 cartes.
a) Dterminez E(X) et Var(X).
b) Calculez P(X = 1).
c) Calculez P(X t 2).
16. Vous avez besoin de 2 piles pour votre lampe de poche. Vous avez en
rserve 10 piles parmi lesquelles 6 sont bonnes et 4 sont uses . Vous
tirez 2 piles au hasard. Quelle est la probabilit qu'elles soient toutes les
deux bonnes ?
17. On partage un jeu de cartes en deux piles gales (26 cartes par pile). Soit
X le nombre de cartes rouges (coeur ou carreau) dans la premire pile.
a) Dterminez E(X) et Var(X).
b) Est-il surprenant de trouver X > 17 ?
18. Une classe est compose de 3 filles et 5 garons. Un jour, cause d'une
tempte de neige, seulement 4 tudiants sont venus. Soit X le nombre de
filles prsentes au cours. Dterminez la fonction de masse p(x).

LOI
GOMTRIQUE

19. Un couple dcide d'avoir des enfants jusqu' ce qu'il ait un garon.
Quelle est la probabilit qu'il ait 4 enfants ? Quelle est la probabilit qu'il
ait 4 enfants ou plus ? Quelle est l'esprance mathmatique du nombre
d'enfants qu'il aura ?
20. On lance un d jusqu' ce qu'apparaisse la face 6 . Quelle est la
probabilit que le d soit lanc exactement 8 fois ? 8 fois ou plus ?
21. Vous avez besoin de monnaie pour un billet d'un dollar. Si l'on suppose
qu'une personne sur trois peut (et accepte de) vous changer votre billet,
quelle est la probabilit que vous deviez solliciter plus de 4 personnes
avant d'obtenir satisfaction ?

6 Quelques lois discrtes

207

22. Un joueur la roulette mise toujours sur le noir, avec l'intention de


s'arrter au premier gain. Quelle est la probabilit qu'il doive jouer plus
de 6 fois ? (On suppose que la probabilit d'avoir noir la roulette est
18/38 = 9/19.
LOI DE
POISSON

23. En moyenne, 300 voitures arrivent un poste de page en une heure. En


supposant que la loi de Poisson s'applique, calculez la probabilit qu'il y
ait au moins 4 arrives en une minute.
24. Calculez P(X = 2) si :
a) X est B(6, 1/2)
b) X est B(30, 1/10)
c) X est B(300, 1/l00)
d) X est B(3 000, 1/1 000)
e) X est Poisson(3).
25. Une standardiste reoit en moyenne 144 appels entre 14 heures et
16 heures. En supposant que la loi de Poisson s'applique, calculez la
probabilit que la standardiste reoive 10 appels entre 14:00 et 14:10.
26. On suppose que, dans une certaine ville, il se produit en moyenne
1,5 dcs par jour. Calculez la probabilit que, la semaine prochaine
(7 jours) il y ait :
a) exactement 8 dcs ;
b) exactement 10 dcs ;
c) exactement 2 jours sans dcs ;
d) au moins un dcs chaque jour.
27. Le taux de naissance au Canada est d'environ 43 par heure. Quelle est la
probabilit que durant les 5 prochaines minutes il y ait 3 naissances ou
plus ? Quelle est la probabilit que 10 minutes s'coulent sans aucune
naissance ?

DIVERS

28. Un psychiatre croit que 75 % de toutes les personnes qui visitent un


mdecin ont des problmes de nature psychosomatique. Afin de vrifier
sa thorie, il choisit 25 patients au hasard et il considre X le nombre de
patients ayant des problmes psychosomatiques.

208

Introduction la statistique applique

a) Si sa thorie est vraie, que vaut E(X), Var(X) ?


b) Si seulement 10 des 25 patients interviews ont des problmes
psychosomatiques, quelles conclusions tirez-vous au sujet de sa
thorie ? Expliquez.
29. Au coin de la rue, il passe en moyenne un taxi toutes les 3 minutes mais
40 % seulement de ces taxis sont inoccups. J'ai besoin d'un taxi.
a) Quelle est la probabilit que les trois premiers taxis qui passent
soient occups ?
b) Quelle est la probabilit qu'aucun taxi libre n'arrive durant les
20 premires minutes ?
c) Quelle est l'esprance du nombre de taxis occups qui prcderont
l'arrive du premier taxi libre ?
30. Un lot de 120 oranges comporte 10 % de gtes. On forme, au hasard,
10 sacs de 12 oranges chacun.
a) Quelles sont l'esprance et la variance du nombre d'oranges gtes
dans un sac donn ?
b) Quelle est la probabilit qu'un sac donn ne compte que des oranges
saines ?
c) Parmi les 10 sacs, combien devraient, en moyenne, ne compter que
des oranges saines ?
31. En supposant l'quiprobabilit des sexes, dterminez le nombre d'enfants
qu'un couple devrait avoir pour que la probabilit qu'au moins deux
d'entre eux soient des garons, soit suprieure ou gale 0,9.
32. Un couple dcide d'avoir des enfants jusqu' ce qu'il ait au moins un
enfant de chaque sexe.
a) Quelle est la probabilit qu'il ait 4 enfants ?
b) Quelle est la probabilit qu'il ait 4 enfants ou plus ?
c) Quelles sont l'esprance et la variance du nombre d'enfants qu'il
aura ?
Remarque Aprs que la premire naissance soit observe, ce problme se
ramne essentiellement au problme 19 o, possiblement, le mot garon
doit tre remplac par le mot fille .

6 Quelques lois discrtes

209

33. Deux quipes de hockey s'affrontent dans une srie 4 dans 7 . L'quipe
A, plus forte, a 2 chances sur 3 de vaincre l'quipe B chacune des
parties. Quelle est la probabilit que l'quipe A gagne la srie ?
34. Deux quipes de hockey, de mme force, s'affrontent dans une srie
4 dans 7 . Soit X le nombre de parties ncessaires la dtermination
de l'quipe championne. Dterminez la fonction de masse p(x), calculez
E(X) et Var(X).
35. On suppose que, dans un certain pays, 50 % des gens sont contre la
peine de mort, 30 % sont pour et 20 % sont sans opinion.
a) Lors d'un petit sondage auprs de 10 personnes, calculez la
probabilit d'obtenir au moins 5 rponses favorables la peine de
mort.
b) Lors d'un sondage, plus ambitieux, auprs de 1 000 personnes,
dterminez l'esprance mathmatique, la variance et l'cart-type du
nombre X de rponses favorables la peine de mort.
c) Convient-il de retoucher les hypothses initiales si, en b, on obtient
X = 250 ? Si l'on obtient X = 315 ?
d) Convient-il de retoucher les hypothses initiales si, avec n = 10, on
obtient X = 4 ? Si, avec n = 1 000 on obtient X = 400 ?
36. Soit a et b deux entiers, a d b et X de loi Gom(p).
Montrez que P(X > b|X > a) = P(X > b a).
37. Une partie liminatoire de hockey oppose les quipes A et B. Durant la
saison rgulire (80 parties), l'quipe A a marqu 320 buts et en a
accord 288 ; l'quipe B a marqu 304 buts et en a subi 256.
a) En supposant que les rsultats de la saison rgulire soient
reprsentatifs des forces relles de chaque quipe, l'offensive
comme la dfensive, combien de points chaque quipe devrait-elle
marquer durant la partie ?
b) Quelle est la probabilit qu'aucun but ne soit marqu durant la
premire priode ?
c) Quelle est la probabilit que l'quipe A marque exactement 2 buts en
premire priode ?
d) Quelle est la probabilit que 6 buts ou plus soient marqus durant la
partie ?

210

Introduction la statistique applique

e) Quelle est la probabilit que l'quipe B marque au moins un but


chacune des trois priodes ?
38. Afin d'estimer le nombre k de truites qui se trouvent dans un certain lac
on ralise l'exprience qui suit : on prlve 100 truites du lac puis, aprs
les avoir marques, on les remet l'eau. Plus tard on repche 200 truites
du lac et on observe le nombre X de truites marques dans ce second
prlvement.
a) Si X = 5, quelle valeur de k vous parat la plus vraisemblable ?
b) Le rsultat X = 5 vous parat-il tonnant si, en ralit, k = 5 000 ?
20 000 ? 1 000 ? Commentez.
39. On lance un d jusqu' ce que la face 6 soit obtenue pour la 10e fois.
Dterminez l'esprance mathmatique et la variance du nombre de
lancers requis.
Suggestion : Posez X = X1 + X2 + ... + X10 o X1 est le nombre de lancers
ncessaires l'obtention du premier 6 , X2 est le nombre de lancers
supplmentaires ncessaires l'obtention du deuxime 6 , etc.
Justifiez intuitivement l'indpendance des variables X1, X2, ..., X10.
*40. On lance un d ordinaire jusqu' ce que chacune des six faces soit
apparue au moins une fois. Soit X le nombre de lancers requis.
a) Posons X = X1 + X2 + ... + X6 o Xk est le nombre de lancers
supplmentaires ncessaires l'obtention de la k-ime nouvelle face.
Expliquez intuitivement les raisons qui font que ces Xk sont
indpendants et que chaque Xk est de loi Gom(7 k)/6).
b) Dterminez E(X) et Var(X).
41. Dterminez l'esprance mathmatique, la variance et l'cart-type de
chacune des variables alatoires suivantes :
a) Le nombre de faces obtenues en lanant 200 pices de monnaie.
b) Le nombre de personnes nes un lundi dans un groupe de 20
personnes.
c) Le nombre de naissances durant une certaine heure dans un hpital
o, en moyenne, il se produit 12 naissances par jour.
d) Le nombre total de points obtenus en lanant 100 ds.

6 Quelques lois discrtes

211

e) Le nombre de cartes de coeur parmi 13 cartes tires d'un jeu de


cartes ordinaire.
f)

Le nombre de fois qu'il faut lancer deux ds afin d'obtenir un 12 .

g) Le nombre de fois qu'il faut lancer trois ds afin d'obtenir un 18 .


42. On lance un d 4 500 fois et on observe le nombre X de fois qu'apparat
le rsultat 6 .
a) Calculez E(X), Var(X) et Vx.
b) Convient-il de supposer que le d est mal quilibr si l'on obtient
X = 722 ? Si l'on obtient X = 822 ?
43. On a fait 24 muffins avec une pte laquelle on a ajout 250 raisins
secs. Quelle est la probabilit qu'un muffin tir de cette production ne
contienne pas plus de 4 raisins secs ?
*44. Soit X le nombre de femmes parmi quatre personnes assises une table
de restaurant. Pour savoir si X est de loi binomiale, on observe la valeur
de X pour 70 tables. Voici la distribution observe de X :
Valeur de X

TOTAL

Nombre de tables

15

15

11

14

15

70

Utilisez un test du khi-deux pour tester l'hypothse que la variable


alatoire X est de loi binomiale de paramtre p = 0,45 (Cette valeur de p
est la proportion habituelle (connue) de femmes parmi les clients de ce
restaurant. Il faudra procder un groupement des classes pour avoir
des effectifs thoriques d'au moins 5). Si vous trouvez que X n'est pas de
loi binomiale, pouvez-vous l'expliquer ?
45. Dans une ville, le nombre d'accidents est en moyenne de 4 par jour.
Donc, si X reprsente le nombre d'accidents en un jour donn,
l'esprance de X est 4. Pour voir si X est de loi de Poisson, on observe le
nombre d'accidents par jour pendant 92 jours. Voici la distribution
observe de X :
Valeur de X

TOTAL

Nombre de jours

12

18

20

13

10

10

92

212

Introduction la statistique applique

Utilisez un test du khi-deux pour tester l'hypothse que la variable


alatoire X est de loi de Poisson de paramtre O = 4. (Les effectifs
thoriques sont dtermins par la fonction de masse d'une variable de loi
de Poisson ; il faudra procder un groupement des classes pour avoir
des effectifs thoriques d'au moins 5).
46. Un clbre magicien qui prtendait avoir des pouvoirs de perception
extrasensorielle a accept de se livrer une exprience dans laquelle il se
proposait de deviner le rsultat du lancer d'un d. En 12 essais, il a
russi deviner le rsultat 10 fois. Vrifiez que la probabilit d'un
nombre de succs suprieur ou gal 10 est excessivement petite pour
quelqu'un qui rpond au hasard ; et expliquez quelle conclusion ce fait
a tendance mener.
47. Un certain test psychologique consiste lire un paragraphe, et puis
rpondre 20 questions portant sur le texte lu. Un choix de 5 rponses
est donn pour chaque question. Un valuateur, tentant de dmontrer
que le test ne mesure pas l'aptitude la lecture, rpond aux 20
questions sans avoir lu le texte. Il choisit la bonne rponse 8 des
questions. Calculez la probabilit d'avoir 8 succs ou plus, et discutez les
implications sur la qualit du test.
48. Il existe des conjectures selon lesquelles certaines personnes sont
capables, dans une certaine mesure, de surseoir leur mort afin de
pouvoir une dernire fois vivre un des bons moments de la vie.
Dfinissant un anniversaire de naissance comme un de ces bons
moments, des chercheurs ont prlev les dates de naissance et de mort
dans un chantillon de 500 dcs. Ils ont constat que sur ces 500
dcs, 5 sont survenus le jour mme de l'anniversaire du dcd. Ce
nombre est suprieur la normale, mais l'est-il assez pour confirmer les
conjectures ?
*49. Un laboratoire qui effectue sur une grande chelle des tests pour dtecter
un certain anticorps peut pargner de l'effort en faisant un seul test sur
plusieurs spcimens la fois. Lorsque l'anticorps n'est pas prsent dans
l'ensemble des spcimens, c'est parce qu'il n'est prsent dans aucun. On
dclare alors un rsultat ngatif pour tous les patients sans plus de
tests. Si le rsultat est positif, cependant, on analyse chaque spcimen
sparment.

6 Quelques lois discrtes

213

a) Si l'on utilise cette approche avec 10 spcimens d'une population


dont une certaine proportion p ont l'anticorps en question (sont
positifs ), quelle est l'esprance du nombre de tests qu'il faudra
effectuer
i)

si p = 0,10

ii) si p = 0,25.

b) Pour quelles valeurs de p l'approche dcrite ici est-elle prfrable


l'approche usuelle (tester les 10 spcimens sparment) ?
c) Si n est le nombre de spcimens qu'on groupe, montrer que
l'approche dcrite ici est prfrable l'approche usuelle si et
seulement si
p < 1 (1/n)1/n.
Calculez la valeur limite de p pour n = 5, 10, 30, 50, 100, et expliquez
intuitivement la dcroissance de vos rponses.
50. On suppose que dans une certaine rgion, la proportion des gens qui
sont en faveur du libre-change est p = 40 %. Lors d'un sondage auprs
de 15 personnes, on trouve X = 11 personnes en faveur du libre-change.
a) Dterminez l'cart absolu |X E(X)| entre la valeur observe de X et
son esprance.
b) Calculez la probabilit d'un cart absolu suprieur ou gal l'cart
calcul en a).
c) tant donn la probabilit calcule en b), y a-t-il lieu de retoucher
l'hypothse que p = 0,4 ?
51. Une compagnie se fait accuser de discrimination pour avoir engag 6
hommes et une femme pour 7 postes identiques alors que des
17 candidats qui s'taient prsents, 9 taient des femmes. Calculez la
probabilit d'avoir si peu de femmes (c'est--dire, une ou moins) en
supposant un choix au hasard. Qu'est-ce que ce calcul de probabilit
peut apporter au dbat ?
52. Dans un village o ont t entreposs des dchets chimiques, on
constate que 8 personnes ont t atteintes d'une certaine sorte de cancer
dans une priode de 5 ans. tant donn que la population du village
n'est que de 8 000, ce nombre semble excessif. Une commission, charge
de dterminer si les dchets chimiques ont contribu hausser le taux,
prlve des donnes sur les populations de plusieurs villages de taille et

214

Introduction la statistique applique

situation comparables. La commission dcouvre que durant la mme


priode, il y a eu 588 cas dans un bassin de population de 2 350 000
habitants. Considrez ce taux comme un taux normal (et connu sans
erreur) pour calculer la probabilit d'avoir 8 cas ou plus dans une
population de 8 000. Expliquez ce que ce calcul peut contribuer la
question pose par la commission.
53. Si X est de loi B(10; 0,4), et si la cote Z est dfinie comme d'habitude par
Z = (X P)/V, o P = E(X) et V2 = Var(X), calculez a) P(|Z| t 2), et b) P(|Z|
t 3). Comparez avec les bornes fournies par le thorme de Tchebychev.
54. Supposons que le nombre d'erreurs typographiques dans un livre est une
variable de loi de Poisson de paramtre O. On tire une page au hasard, et
on n'y trouve aucune erreur.
a) Calculez P(X = 0) en supposant que O = 5. La valeur O = 5 est-elle
plausible ?
b) Calculez P(X = 0) en supposant que O = 1. La valeur O = 1 est-elle
plausible ?
c) Convenons d'appeler plausible toute valeur de O pour laquelle
P(X = 0) t 0,05. Quel est l'ensemble des valeurs plausibles de O ?
55. Un dfaut dans la fabrication de certaines plaques d'mail se produit
normalement un taux moyen de O = 1,2 par plaque. Afin de s'assurer
que le taux de dfectuosit reste bas, on adopte une procdure de
contrle qui consiste prlever une plaque dans chaque lot de
production et de rejeter le lot si la plaque contient 3 dfauts ou plus.
a) Quelle est la probabilit de rejeter un lot acceptable (c'est--dire, un
lot pour lequel O = 1,2) ?
b) Quelle est la probabilit d'accepter un lot pour lequel O = 3 ?
c) Comment doit-on modifier la procdure si on veut que la probabilit
de rejeter un lot acceptable (O = 1,2) ne soit que de 5 % ?
*56. Une population de comptes recevoir est considre inacceptable si la
proportion p de comptes errons est suprieure 5 %. Un comptable
utilise la procdure de vrification suivante : il tire les comptes, l'un
aprs l'autre, et les vrifie au fur et mesure. Si au x-ime compte tir il
n'a encore trouv aucun compte erron, il dclare que la population est
acceptable ; si le premier compte erron arrive au x-ime tirage ou avant,
il dclare que la population est inacceptable.

6 Quelques lois discrtes

215

a) Si x = 10, quelle est la probabilit qu'il dclare acceptable une


population dont la proportion de documents errons est p = 6 % ?
b) Quelle doit tre la valeur de x s'il veut que la probabilit de dclarer
acceptable une population pour laquelle p = 6 % ne soit pas
suprieure 1 % ?

Quelques lois continues

7.1
7.2
7.3
7.4

7.5

Variables continues et fonction de densit


Loi uniforme
Loi exponentielle
Loi normale (ou loi de Laplace-Gauss)
Lecture de la table de la loi N(0, 1)
Calcul gnral avec P et V2 quelconques
Somme et transformation linaire de variables normales
Thorme limite central
Approximation de la loi binomiale par la loi normale
Distribution d'une moyenne
RSUM
EXERCICES

7 Quelques lois continues

7.1

217

VARIABLES CONTINUES ET FONCTION DE DENSIT


On sait dj que le comportement alatoire d'une variable discrte est
compltement dcrit par la donne de l'ensemble de toutes les valeurs qu'elle
peut prendre et de la fonction de masse p(x) qui donne la probabilit de
chacune de ces valeurs.
Il arrive toutefois frquemment que la variable alatoire considre puisse,
du moins en thorie, prendre des valeurs lies les unes aux autres de faon
continue. Par exemple, le poids d'un uf peut tre 56 grammes ou
56,01 grammes ou 55,999 99 grammes. La probabilit qu'un uf pse
exactement 56 grammes (ou tout autre poids prcis donn l'avance) est
zro. Chaque valeur particulire est impossible ; seuls les intervalles
contiennent suffisamment de points pour avoir une probabilit positive. Si
l'on note X le poids, en grammes, de l'uf, on sait qu'il est impossible que X
soit exactement gal 56 mais il se peut trs bien qu'on obtienne
55 < X < 60.
Un autre exemple de variable alatoire continue est le temps d'attente (en
minutes) avant que soit livre la pizza qu'on vient de commander par
tlphone. Il est impossible que ce temps d'attente soit exactement
25,000 0 minutes mais il est tout fait possible que l'attente dure entre 24
et 26 minutes.
Le comportement d'une variable alatoire X continue sera dcrit au moyen
d'une fonction f(x), appele fonction de densit, telle que la probabilit que
X prenne une valeur entre deux bornes donnes a et b soit dtermine par la
surface, entre a et b, sous le graphique de f(x).
L o la fonction f(x) est leve, les valeurs de x sont plus probables, plus
frquentes, que l o f(x) est basse.
La fonction de densit doit possder les deux proprits suivantes :
a) f(x) t 0 pour tout x.
b) La surface totale sous le graphique de f(x) doit tre gale 1.
La premire de ces deux proprits rend impossible l'obtention d'intervalles
de probabilit ngative. La seconde nous assure que
P ( f  X  f ) 1.

218

Introduction la statistique applique

L'esprance mathmatique et la variance d'une variable alatoire continue


s'obtiennent de sa fonction de densit par un traitement analogue celui qui
permettait de les obtenir, dans le cas discret, au moyen de la fonction de
masse p(x). Techniquement, il suffit de remplacer les sommes (discrtes) par
des intgrales (continues). Le lecteur qui ne connat pas le calcul intgral n'a
pas s'inquiter : tout peut tre fait en raisonnant directement sur les
graphiques. Qu'il soit suffisant de faire remarquer que l'esprance
mathmatique P correspond au centre de gravit du graphique de la
fonction de densit, c'est -dire, au point o l'on devrait placer un pivot sous
le graphique de f(x), dcoup dans du carton d'paisseur uniforme, pour
qu'il reste en quilibre horizontal.

FIGURE 7.1

Fonction de densit
f(x)

x
a

7 Quelques lois continues


FIGURE 7.2

219

Visualisation de P en termes de centre de gravit


f(x)

Cette visualisation de l'esprance mathmatique en termes de centre de


gravit, aussi applicable au diagramme btons (dans le cas discret), permet
souvent d'viter d'avoir recours aux techniques du calcul intgral.
Exemple 1

Considrons une variable alatoire continue dont la fonction de densit est

f ( x)

1 2 si 1  x  3

0 sinon

Le graphique de cette fonction de densit apparat la figure 7.3.


On vrifie aisment que f(x) t 0 pour tout x et que la surface totale sous le
graphique se rduit celle d'un rectangle de hauteur 1/2 et de longueur 2.

220

Introduction la statistique applique

FIGURE 7.3

Densit uniforme entre 1 et 3


f(x)

1/2

x
1

Cette surface totale est donc 1. Enfin, par un simple argument de symtrie,
on voit que P = 2, le point central du rectangle. Si l'on observait un trs
grand nombre de valeurs de X, on sent bien que les petites valeurs de X
(disons, entre 1 et 2) seraient exactement compenses par des valeurs aussi
nombreuses dans la seconde moiti de l'intervalle. Plus le nombre
d'observations sera grand, plus la moyenne des rsultats obtenus aura
tendance s'approcher du point central P = 2.
i
Exemple 2

Considrons une variable alatoire X dont la fonction de densit est :

f ( x)

2 x si 0  x  1

0 sinon

Dterminer P(0,2 < X < 0,8).


La fonction de densit f(x) apparat la figure 7.4.

7 Quelques lois continues


FIGURE 7.4

221

Calcul de P(0,2 < X < 0,8)


f(x)
2,0
1,6

0,4
x
0,2

0,8

On vrifie aisment que la surface totale sous le graphique de f(x) est bien
gale 1 puisque c'est la surface d'un triangle de base 1 et de hauteur 2.
La probabilit cherche, P(0,2 < X < 0,8) est donne par la surface de la
rgion ombre dans la figure 7.4. Cette surface S s'obtient aisment par
simple tois. Quand x varie de 0,2 0,8, la densit f(x) = 2x varie (en ligne
droite) de 0,4 1,6. La surface cherche est donc celle d'un trapze de base
0,6 et de hauteur moyenne (0,4 + 1,6)/2 = 1.
On trouve donc P(0,2 < X < 0,8) = S = 0,6.
On obtient aussi P ( 0  X  0 , 2 )

0,2 u 0, 4

0 , 04

et P ( 0 , 8  X  1) 0 , 2 u

1, 6  2 , 0

0 , 36

Remarquons que la probabilit qu'une variable alatoire continue


appartienne un certain intervalle n'est aucunement influence par la
nature des ingalits qui limitent l'intervalle. Les points extrmes de
l'intervalle peuvent tre exclus (ingalits strictes) ou inclus (ingalits non
strictes), chaque point isol tant de probabilit nulle. Ainsi, dans
l'exemple 2, on a
P (0,2  X  0,8)

P (0,2  X d 0,8 )

P 0,2 d X  0,8)

P (0,2 d X d 0,8 )

0 , 6.

222

7.2

Introduction la statistique applique

LOI UNIFORME
Une variable alatoire X est dite de loi uniforme sur l'intervalle (a, b) si sa
fonction de densit est :
f (x)

1 ( b  a ) si a  x  b

0
sinon

La fonction de densit f est illustre la figure 7.5.


FIGURE 7.5

Fonction de densit d'une variable de la loi uniforme sur (a, b)


f(x)

1/(b a)

x
a

La valeur 1/(b - a) a videmment t obtenue du fait que le rectangle doit


tre de surface 1. Il s'agit bien sr d'une gnralisation immdiate de
l'exemple 1.
On utilise la notation X est U(a, b) pour indiquer que la variable alatoire
X est de loi uniforme sur l'intervalle (a, b). Il va de soi que si X est U(a, b)
alors P = (a + b)/2, le point central de l'intervalle accessible . La formule
donnant la variance V2, qui peut s'obtenir par les techniques du calcul
intgral, n'est ici donne que par souci de compltude.
Si X est U(a, b), alors sa moyenne et sa variance s'expriment en fonction de a
et b :
P

ab
2

, V2

(b  a) 2
12

7 Quelques lois continues

223

Notons enfin que la loi uniforme n'est pas d'application trs frquente ; on la
rencontre dans des situations comme celle de l'exemple suivant.
Exemple 3

Quand on regarde une horloge, l'aiguille des secondes peut indiquer


n'importe quelle direction. Si l'on suppose que le nombre X indiqu par
l'aiguille est (en thorie) observ avec une prcision infinie, on a que X est de
loi U(0, 60).
On a alors que
P

E(X)

30 , V 2

Var ( X )

300 | 17 , 320 51.

300 , V

On peut aussi calculer que P(0 < X < 30) = 1/2,


P (1, 3  X  9 ,1)

1
60

7.3

( 9 ,1  1, 3 )

7,8

0 ,13 , etc .

60

LOI EXPONENTIELLE
Une variable alatoire X est dite de loi exponentielle avec moyenne T > 0
(lettre grecque thta) si sa fonction de densit est :

f (x)

1 x T
si x ! 0
e
T

sinon
0

En notation abrge, on crira : X est Exp(T) .


Graphiquement, cette fonction de densit a l'allure illustre par la figure 7.6.
La loi exponentielle se rencontre dans une foule de situations. En particulier,
presque tous les phnomnes alatoires du type temps d'attente avant que
ne se produise un certain vnement admettent la loi exponentielle comme
modle probabiliste.
La loi exponentielle est intimement lie la loi de Poisson. En fait, si des
vnements se produisent selon un processus de Poisson, c'est--dire si le
nombre d'vnements qui se produit, durant un intervalle de temps de
longueur t, suit une loi Poisson(O) avec O = ct, alors le temps d'attente entre
deux vnements conscutifs suivra une loi exponentielle avec T = 1/c.
Intuitivement, on voit que s'il se produit en moyenne c vnements par
heure, il y aura, en moyenne, 1/c heure entre les vnements conscutifs.

224

Introduction la statistique applique

FIGURE 7.6

Fonction de densit d'une variable Exp(T)


f(x)
1/T

x
0

Exemple 4

Si, la salle d'urgence d'un hpital, il se produit en moyenne 20 arrives


l'heure, on peut supposer que le nombre d'arrives durant une priode de t
heures suivra une loi Poisson(20t). Le temps d'attente entre deux arrives
conscutives suivra alors une loi Exp(1/20).
i
La moyenne et la variance d'une variable de loi exponentielle s'expriment
trs simplement en fonction du paramtre T, tout comme l'aire sous la
courbe droite d'une valeur donne.

Si X est de loi Exp(T), alors


P

et

Exemple 5

T,

P(X ! x)

V
e

x

pour x t 0.

Dans une certaine machine, le fusible de scurit saute, en moyenne, toutes


les 40 heures d'utilisation. Quelle est la probabilit que la machine
fonctionne plus de 70 heures sans que le fusible n'ait tre remplac ?
En supposant que le temps de fonctionnement X (en heures) de la machine
est de loi Exp(40), on obtient
P ( X ! 70 )

70

40

e 1, 75

0 ,173 77.

7 Quelques lois continues

7.4

225

LOI NORMALE (OU LOI DE LAPLACE-GAUSS)


Une variable alatoire X est dite de loi normale si sa fonction de densit est
1

f (x)

 ( x  P ) 2 / 2V 2

V 2S

o les paramtres P et V2 dsignent respectivement l'esprance et la


variance de X et o e et S sont les constantes mathmatiques bien connues,
dont les valeurs approximatives sont
e | 2,718 281 83, S | 3,141 592 65.
En notation abrge, on crit X est N(P, V2) . La densit f(x) d'une variable
alatoire de loi N(P,V2) a l'allure illustre par la figure 7.7.
FIGURE 7.7

Fonction de densit d'une variable N(P, V2)


f(x)
points d'inflexion

x
PV

P+V

La fonction de densit d'une variable de loi N(P, V2) est symtrique de part et
d'autre de la moyenne P. L'cart-type V est plus malais visualiser : il
correspond la distance entre l'axe de symtrie (x = P) et l'un ou l'autre des
deux points d'inflexion, c'est--dire des deux points o la courbure change de
sens.
Innombrables sont les exemples de variables normales ou pratiquement
normales. Des mesures analogues prises sur des objets semblables ont en
effet souvent tendance se distribuer selon une courbe en cloche : les
valeurs moyennes sont les plus frquentes et, de part et d'autre de ces
valeurs moyennes, les valeurs extrmes sont, symtriquement, de plus en
plus rares.

226
FIGURE 7.8

Introduction la statistique applique

Quelques exemples de lois normales


f(x)
0,6
0,5
0,4
0,3
0,2
0,1

N(3, 1)

N(0, 1)
N(4, 1)

x
6

f(x)
0,4
0,3
0,2
0,1

N(1, 4)

N(4, 4)

x
-5

f(x)
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2

N(3, 1/4)

N(0, 1/4)
N(5/2, 1/4)

0,1
x
6

La loi normale permet alors d'obtenir, sinon une description exacte de la


distribution, du moins une excellente approximation de celle-ci.

7 Quelques lois continues

227

Si, par exemple, on achte une bote de clous de mme format et qu'on
mesure avec prcision la longueur de chaque clou, on obtiendra plusieurs
mesures, vraisemblablement toutes voisines les unes des autres.
L'histogramme des rsultats obtenus sera semblable celui prsent la
figure 7.9.
Histogramme des longueurs de 160 clous

60

50

50
Effectifs

FIGURE 7.9

39

40

30

30
20
10

15

13

0
47

48

49

50

51

52

53

54

Longueur des clous, en millimtres

Comme l'indique l'histogramme de la figure 7.9, les valeurs anormalement


grandes ou anormalement petites deviennent de plus en plus rares,
symtriquement, de part et d'autre de la bosse correspondant aux valeurs
moyennes. C'est un exemple comme tant d'autres d'un phnomne dont la
reprsentation graphique a indniablement l'allure d'une normale.

Lecture de la table de la loi N(0, 1). la fin de cet ouvrage, on trouve une
table 3 applicable au cas o P = 0 et V2 = 1. Si Z est une variable alatoire de
loi N(0, 1), la table permet de trouver directement les probabilits de la forme
P(Z > z) o z t 0.
Par exemple, P(Z > 0,84) = 0,200 5. Ce rsultat se trouve l'intersection de la
range correspondant z = 0,8 et de la colonne qui permet de raffiner la
seconde dcimale 0,04.
Tirant profit du fait que la densit de Z est symtrique par rapport zro et
que la surface totale sous la courbe donne 1, la table de la loi N(0, 1) est
suffisante pour solutionner tout problme de la forme P(a < N(0, 1) < b).

228

Introduction la statistique applique

FIGURE 7.10

P(0,67 < N(0, 1) < 1,22) = 0,637 4

0,67

FIGURE 7.11

1,22

P(N(0, 1) > 0,84) = 0,200 5

surface = 0,200 5
z
0

Exemple 6

0,84

Calculer P(0,67 < Z < 1,22) si Z est N(0, 1).


Solution
P ( 0 , 67  Z  1, 22 )

1  P ( Z t 1, 22 )  P ( Z t 0 , 67 )
1  0 ,111 2  0 , 251 4
0 , 637 4.

i
La densit d'une variable N(0, 1) tend trs rapidement vers zro gauche
comme droite. Afin d'illustrer la vitesse de cette convergence, qu'il soit
suffisant d'indiquer que :

7 Quelques lois continues

P ( N ( 0 ,1) ! 4 , 75 )

229

1
1 000 000

P ( N ( 0 ,1) ! 6 , 00 )

1
1 000 000 000

Calcul gnral avec P et V 2 quelconques. videmment, rares sont les cas o


on a la chance d'avoir P = 0 et V2 = 1. Habituellement, les valeurs de P et V2
sont quelconques et on doit transformer la variable x, de loi N(P,V2) pour que
la table soit utilisable. La transformation requise, heureusement, est simple.
Si X est de loi N(P,V2), alors
Z

X P

est de loi N ( 0 ,1).

Z est simplement la cote Z de X. Cette proprit fondamentale de la loi


normale peut tre nonce sous une autre forme, plus directement
applicable :
P ( a  N ( P ,V 2 )  b )

Exemple 7

bP
aP
P
N ( 0 ,1) 
V 
V

Si l'on suppose que le poids, en grammes, d'un bb la naissance suit une


loi N(3 300,250 000), dterminer la probabilit que le poids d'un certain bb
soit compris entre 3,0 kg et 4,0 kg.
Solution : Dans cet exemple, on cherche P(3 000 < X < 4 000) o X est de loi
N(P,V2) avec P = 3 300 et V = 500.
On trouve
P ( 3 000  X  4 000 )

P ( 3 000  N ( 3 300 , 250 000 )  4 000 )


4 000  3 300
3 000  3 300

P
 N ( 0 ,1) 

500
500

P ( 0 , 60  N ( 0 ,1)  1, 40 )
1  P ( N ( 0 ,1) ! 0 , 60 )  P ( N 0 ,1) ! 1, 40 )
1  0 , 274 3  0 , 080 8
0 , 644 9.

Selon nos calculs, environ 64,5 % des bbs psent donc entre 3 kg et 4 kg.i

230

Introduction la statistique applique

Somme et transformation linaire de variables normales Nous venons de voir


que si X est normale, Z l'est aussi. C'est l une des nombreuses applications
d'une importante proprit de la loi normale, souvent rsume par la phrase
toute combinaison linaire de normales indpendantes est normale , et dont
l'nonc mathmatique comporte les deux parties suivantes :
a) Si X est de loi normale N(P,V2), alors a + bX est normale, de loi
N(a + bP, b2V2).
b) Si X1, ..., Xn, sont des variables normales indpendantes, de lois
respectives N(P1, V 12 ), , N(Pn, V n2 ), alors leur somme X1 + ... + Xn est
normale, de loi
N ( P 1  ...  P n , V 12  ...  V n2 ).

On voit qu'en particulier, une somme ou une diffrence de deux variables


normales indpendantes est normale.
X  Y est N ( P X  P Y , V 2X  V Y2 )

et
Exemple 8

X  Y est N ( P X  P Y , V 2X  V Y2 ).

On suppose que le poids (en grammes) d'un uf se distribue selon une loi
N(56,20). Quelle est la probabilit que la somme des poids de 12 ufs
dpasse 700 grammes ?
Solution : Le poids total X = X1 + ...+ X12 des 12 ufs est tel que E(X) = E(X1 +
+ X12) = 12 u 56 = 672 et Var(X) = Var(X1 + + X12) = 12 u 20 = 240.
Aussi, X tant une somme de variables normales est de loi normale. X est de
loi N(672,240).
On trouve donc
P ( X ! 700 )

P ( N ( 672 , 240 ) ! 700 )

700  672

P N ( 0 ,1) !

240

P ( N ( 0 ,1) ! 1, 807 )
0 , 035 3.

i
Remarque La dernire valeur a t obtenue de la table de la loi N(0, 1) en
interpolant entre les valeurs trouves pour z = 1,80 et pour z = 1,81.

7 Quelques lois continues

7.5

231

THORME LIMITE CENTRAL


L'exemple 8 montre bien quel point il est intressant de pouvoir utiliser la
normalit d'une somme de normales. Toutefois, la loi normale jouit d'une
autre proprit, beaucoup plus puissante et spectaculaire, dcrite dans ce
qu'on appelle le thorme limite central. Ce thorme, dj pressenti au
XVIIIe sicle, et auquel furent associs les noms de mathmaticiens aussi
connus que De Moivre, Gauss et Laplace, a t dmontr dans toute sa
gnralit vers 1920 par Lindeberg et Levy. En voici l'nonc, en mots .
Thorme limite central Soit un grand nombre n de variables indpendantes

X1, X2, , Xn. Alors, sous certaines conditions, leur somme X = X1 + ... + Xn,
suit approximativement une loi normale, mme si ces variables ne sont pas
normales.
Les conditions voques dans l'nonc du thorme se ramnent
essentiellement l'exigence qu'aucune des variables ne soit indment
prpondrante sur les autres. En d'autres termes, ce thorme affirme que si
l'on additionne un grand nombre de petites composantes indpendantes,
leur somme est une variable X approximativement normale.
C'est ainsi, sans doute, qu'on peut expliquer pourquoi un grand nombre de
phnomnes naturels ont une distribution peu prs normale. On peut
prsumer, par exemple, que la taille des individus d'une espce donne est
rsultante d'un grand nombre de facteurs, hrdit, climat, alimentation,
etc., qu'on peut considrer indpendants.
Nous admettons que ces conditions ne sont pas faciles vrifier dans les
situations o seule la somme X est observe et non les termes X1, X2, , Xn.
C'est pourquoi nous ne pouvons pas tre srs a priori de la normalit d'une
variable telle la taille ; nous pouvons souponner que la taille suit une loi
normale, mais nous sentons en gnral le besoin de faire confirmer ces
soupons par des donnes empiriques. Cependant, dans la plupart des
applications du thorme limite central, les variables X1, , Xn dont X est la
somme ne sont pas des variables vaguement dfinies et peine perues. Ce
sont, au contraire, des variables observables et, de plus, elles sont de mme
loi. Dans des cas comme ceux-ci, il est prfrable d'invoquer une autre
version du thorme limite central dont les hypothses sont plus faciles
vrifier. L'nonc suit.

232

Introduction la statistique applique

Thorme limite central (variables de mme loi) Considrons un grand


nombre n de variables indpendantes X1, X2, , Xn de mme loi. Alors leur
somme X = X1 + ... + Xn, suit approximativement une loi normale, mme si ces
variables ne sont pas normales.
Remarquez que nous ajoutons la condition que les variables X1, X2, , Xn
soient de mme loi, mais nous liminons l'allusion d'autres conditions.
Remarque Une condition essentielle au thorme limite central est que n soit
grand : l'approximation sera d'autant meilleure que n sera grand.
Malheureusement, on ne peut pas donner une valeur de n partir de laquelle
l'approximation sera bonne ; d'abord parce que cela exigerait qu'on trouve
une dfinition non arbitraire de bonne ; ensuite parce que la qualit d'une
approximation quelle que soit la faon dont on la mesure dpend fortement
de la distribution des variables dont X est la somme. Pour certains auteurs,
une valeur de n suprieure 30 est suffisante, alors que pour d'autres, il faut
que n dpasse 100. Ces nombres ne sont que des conventions ; ils ne peuvent
avoir de proprits dmontrables que dans des conditions trop prcises pour
tre utiles. L'exprience montre, cependant, que si X1, , Xn suivent une loi qui
n'est pas excessivement asymtrique, leur somme sera assez proche d'une
normale mme avec n relativement petit, par exemple n = 30. Le lecteur pourra
plus loin se faire une ide de la rapidit de la convergence vers une normale
en examinant les quelques cas exposs dans les figures 7.14 et 7.15.
Exemple 9

Considrons la somme X des points obtenus en lanant 100 ds. Les ds


sont indpendants et les variables reprsentant les divers lancers sont de
mme loi. X sera alors approximativement normale, mme si les variables
dont X est la somme ont une distribution uniforme (discrte).
i

Exemple 10 Supposons que le poids (en kg) des adultes se distribue avec une moyenne
de 64 et un cart-type de 12. Dans un ascenseur, une plaque indique
Capacit maximale : 12 personnes ou 1 000 kg . Si 14 personnes
s'entassent dans l'ascenseur, quelle est la probabilit que leur poids total
dpasse 1 000 kg ?
Solution : Si X est le poids total des personnes dans l'ascenseur, alors X est
approximativement normale, avec
P = 14 u 64 = 896 et V2 = 14 u 144 = 2 016.

7 Quelques lois continues

233

Alors
P ( X ! 1 000 )

P ( N ( 896 , 2 016 ) ! 1 000 )


P ( N ( 0 ,1) ! 2 , 32 )
0 , 010 2.

Approximation de la loi binomiale par la loi normale La rptition d'une


exprience de type binomial fournit un bel exemple d'application du
thorme limite central. Dans ce cas, en effet, plusieurs composantes
indpendantes, toutes de mme loi, sont ajoutes, de sorte que leur somme
est alors proche d'une normale. Rappelons que chacune de ces composantes
reprsente un succs ou un chec .
Exemple 11 On lance 16 sous. Calculer la probabilit que le nombre de faces obtenu soit
compris entre 5 et 10, bornes comprises. On cherche P(5 d X d 10) o X est
de loi B(16, 1/2). La rponse exacte peut tre obtenue en utilisant la fonction
de masse d'une loi binomiale, avec n = 16 et p = 1/2, et en calculant
P ( 5 d X d 10 )

p ( 5 )  p ( 6 )  p ( 7 )  p ( 8 )  p ( 9 )  p (10 )
56 134

0 , 856 54.

65 536

Le thorme limite central permet d'obtenir, en moins d'efforts, une


excellente approximation pour la valeur cherche. Il suffit d'approximer la
distribution de X au moyen d'une loi normale ajuste P = np = 8 et
V2 = npq = 4.
X est approximativement de loi N(8,4) et il ne reste plus qu' calculer
P(5 d X d 10).
Il convient cependant de retoucher lgrement les bornes 5 et 10 pour
compenser le fait que la variable X soit, en ralit, une variable discrte qui
ne prend que des valeurs entires.
La figure 7.12 illustre l'ajustement de la loi N(8,4) l'histogramme de la loi
B(16,1/2). On voit aisment que la rponse cherche, p(5) + p(6) + ... + p(10)
correspond la surface, entre 4,5 et 10,5, sous le graphique en escalier du
diagramme btons. Cette surface est trs voisine de celle, comprise entre
les mmes bornes, sous le graphique continu de la loi normale qui pouse le
diagramme btons.

234

Introduction la statistique applique

On trouve enfin :
P ( 5 d X d 10 ) | P ( 4 , 5  N ( 8 , 4 )  10 , 5 )
10 , 5  8
4,5  8

P
 N ( 0 ,1) 

2
2

P ( 1, 75  N ( 0 ,1)  1, 25 )
1  ( P ( N ( 0 ,1) ! 1, 75 )  P ( N ( 0 ,1) ! 1, 25 ))
1  0 , 040 1  0 ,105 6
0 , 854 3.

On constate que cette rponse est trs voisine de la valeur exacte 0,856 54
obtenue prcdemment en utilisant directement la loi binomiale.
Si l'on avait nglig d'effectuer la correction pour la continuit (c'est--dire,
si l'on avait conserv les bornes 5 et 10 plutt que de les porter 4,5 et
10,5), on n'aurait compt qu' moiti la surface des btons extrmes placs
5 et 10, ce qui aurait donn une rponse (0,774 5) trop petite et beaucoup
moins prcise.
i
L'exemple prcdent, et en particulier la figure 7.12, illustre bien
l'importance de la correction pour la continuit. Lorsqu'on fait
l'approximation de la distribution d'une variable discrte par la loi normale,
il convient, si ncessaire, de retoucher les bornes et de les placer mi-chemin
entre l'vnement tudi et son complment.

FIGURE 7.12

Ajustement d'une loi N(8,4) une loi B(16,1/2)

10

11

12

13

14

15

16

7 Quelques lois continues

235

Notons toutefois que si la variable approxime est elle-mme continue,


aucune correction pour la continuit n'est requise.
Remarque Le thorme limite central, appliqu l'approximation de B(n,p) par
N(np, npq), nous apprend qu'elle est d'autant meilleure que n est plus grand.
La prcision de l'approximation dpend donc de n, mais aussi de p. C'est
ainsi qu'on dit souvent que la prcision sera bonne si npq > 5. Bien que cette
rgle soit elle-mme approximative (l'exemple 12 la contredit d'ailleurs jusqu'
un certain point, puisque l'approximation y est trs bonne, alors que npq y est
gal 4), la figure 7.13 montre bien comment, pour un n donn, la tendance
est plus prs d'une normale si p est plus prs de 1/2.
regarder de prs le diagramme btons de B(16; 0,1) (figure 7.13) on peut
sans doute se demander si une distribution de Poisson ne fournirait pas ici
une meilleure approximation qu'une loi normale.
FIGURE 7.13

Diagramme btons de B(16; 0,6) et de B(16; 0,1)

0,2

p(x)

0,18
0,16
0,14
B (16; 0,6)

0,12
0,1
0,08
0,06
0,04
0,02

0
0

10

11

12

13

14

15

16

236

Introduction la statistique applique

0,35

p(x)

0,3
0,25
B (16; 0,1)

0,2
0,15
0,1
0,05
x

0
0

10

Distribution d'une moyenne On a trs souvent, en statistique, estimer la


moyenne P d'une population ; la moyenne chantillonnale X est alors
utilise. Comme nous le verrons en dtail au chapitre 8, il est alors
ncessaire de connatre la distribution de X . Or, le thorme limite central
permet de l'obtenir ; c'est le rsultat suivant :
Si X est la moyenne de n observations indpendantes X1, ..., Xn, o E(Xi) =
P et Var(Xi) =V2, alors, si n est grand, X est approximativement de loi
N(P,V2/n).
Au-del de la normalit, consquence du thorme limite central, ce rsultat
se rvle conforme notre intuition : plus n est grand, plus X aura tendance
tre prs de P et plus la variance de X sera petite ; dans les chantillons de
n observations, les valeurs petites et les valeurs grandes auront tendance
s'quilibrer, faisant apparatre des moyennes X peu disperses.

7 Quelques lois continues

237

Exemple 12 Si l'on suppose que le poids, en grammes, des ufs suit une loi N(56,20),
quelle est la probabilit que le poids moyen de 100 ufs choisis au hasard
soit entre 55 et 57 grammes ?
Ici, X est de loi N(56, 20/100).
On obtient donc que
P ( 55  X  57 )

P ( 55  N ( 56 ; 0 , 2 )  57 )
55  56
57  56
P
 N ( 0 ,1) 

0,2
0 , 2

P ( 2 , 24  N ( 0 ,1)  2 , 24 )
0 , 975 0.

i
Exemple 13 Les figures 7.14 et 7.15 illustrent, pour diffrentes valeurs de n, la
distribution de la moyenne X = (1/n)6Xi. On voit clairement que, plus n est
grand, plus la distribution de X s'approche d'une distribution normale.
Dans la figure 7.14, les variables Xi sont de loi Exp(l).
f (x)

e  x si x ! 0

0
si x d 0

Dans la figure 7.15, les variables Xi suivent une loi triangulaire double
avec la fonction de densit :

f (x)

1  x si 0  x  1

x  1 si 1  x  2

sinon
0

238

Introduction la statistique applique

FIGURE 7.14

Distribution de la moyenne X pour diffrentes valeurs de n


f(x)

f(x)

n=1

n=2

0
1

f(x)

f(x)

n=3

n=5

0
1

f(x)

f(x)

n = 10

n = 30

0
1

0
1

7 Quelques lois continues


FIGURE 7.14

Distribution de la moyenne X pour diffrentes valeurs de n


f(x)

f(x)

n=1

n=2

0
1

f(x)

f(x)

n=5
n=3
1

0
1

f(x)

f(x)

n = 10

n = 30

0
1

0
1

239

240

Introduction la statistique applique

RSUM
La probabilit qu'une variable alatoire continue prenne valeur entre deux
bornes a et b est donne par la surface, entre a et b, sous le graphique de la
fonction de densit f(x).
f(x)

Loi
1

U (a, b)

ba
1

Exp (T )

x T

N ( P ,V )

si x ! 0

e ( x  P )

V 2S
2

ab

si a  x  b

P ( a  N ( P ,V )  b )

V2

2V

(b  a)

12

T2

V2

bP
aP
P
 N ( 0 ,1) 
V
V

Thorme limite central : Si une variable alatoire X est la somme d'un


grand nombre de petites composantes indpendantes, alors X est
approximativement de loi normale.
Si une variable discrte est approxime par la loi normale, il convient
d'effectuer une correction pour la continuit, c'est--dire, de retoucher les
bornes afin de les placer mi-chemin entre l'vnement tudi et son
complment.
est approximativement de loi N(P, V2/n) o P et V2 dsignent l'esprance
et la variance de chacun des Xl, X2, ..., Xn.
X

EXERCICES
VARIABLES
CONTINUES

ET

FONCTION

DE

Parmi les fonctions f(x) suivantes, lesquelles peuvent servir de fonction de


densit ?
a)

f (x)

b)

f (x)

1 si 3  x  4

0 sinon

DENSIT

1.

7 Quelques lois continues

c)

f (x)

2 x si 0  x  1

0 sinon

d)

f (x)

1 2 si 6  x  8

0 sinon

f (x)

2 3 si  1  x  0
1
6 si 0  x  2

0 sinon

f)

f (x)

3  2 x si 0  x  1
4

0 sinon

g)

f (x)

x 2  1 si 1 2  x  3 2

0 sinon

e)

f (x)

1 10 si  2  x  10

0 sinon

2. Considrons une variable alatoire continue dont la densit est


f (x)

1 2 si 0  x  2

0 sinon

Calculez les probabilits suivantes :


a) P(X = 1)
b) P(0 < X < 1/2)
c) P(0 < X d 1/2)
d) P(1,4 < X < 3,2)
e) P(2 < X < 1)
f)

P(0,4 < X < 0,5)

241

242

Introduction la statistique applique

3. Soit X une variable alatoire dont la fonction de densit est


f (x)

x si 0  x  1

1 2 si 2  x  3

0 sinon

Calculez :

LOI UNIFORME

a) P(X < 1,5)

b) P(X < 0,9)

c) P(X > 2,2)

d) P(2 < X < 2)

e) P(1/2 < X < 2/3)

f)

g) P(|X 2| < 0,5)

h) P(|X - 1,5| < 0,9)

4. Soit X une variable alatoire de loi U(3,8). Calculez :


a) P(X > 4)

b) P(X < 4)

c) P(X d 4)

d) P(4 < X d 7)

e) P(4 d X < 9)

f)

g) P(P V, < X < P + V)

h) P(P 2V < X < P + 2V)

i)

LOI
EXPONENTIELLE

P(6 < X < 9)

P(X > P)

Comparez la probabilit calcule en h) avec la borne obtenue de


l'ingalil de Tchebychev.

5. Soit X une variable alatoire de loi Exp(2). Calculez :


a) P(X > 2)

b) P(X t 2)

c) P(X > 5)

d) P(X > 1/5)

e) P(1/5 d X < 5)

f)

g) P(1 d X d 10)

h) P(0,34 < X < 4,75)

P(0 < X < 10)

6. Une certaine machine fonctionne en moyenne 10 jours avant de tomber


en panne. En supposant que ce temps de fonctionnement suive une loi
exponentielle, dterminez la probabilit que :
a) la machine tombe en panne ds le premier jour ;
b) la premire panne survienne durant le quatrime jour ;
c) il n'y ait aucune panne durant les 30 premiers jours.

7 Quelques lois continues

243

7. Arthur a besoin d'un taxi. Devant sa maison il passe, en moyenne, un


taxi (libre) toutes les 3 minutes (selon un processus de Poisson).
Dterminez la probabilit que :
a) Arthur attende plus de 10 minutes avant d'avoir un taxi ;
b) Arthur trouve un taxi durant les 10 premires minutes ;
c) Arthur trouve un taxi durant les 30 premires secondes.
8. Le service d'urgence d'un hpital reoit, en moyenne, 30 patients par
heure. Dterminez la probabilit que :
a) aucun patient n'arrive durant les 5 prochaines minutes ;
b) exactement 4 patients arrivent durant les 2 prochaines minutes.
Remarque La partie b) se fait en utilisant la loi de Poisson.

LA LOI
NORMALE

9.

Soit X une variable alatoire de loi N(0,1). Calculez :


a) P(X > 1)

b) P(l < X < 1)

c) P(1,96 < X < 1,96)

d) P(0 < X < 2)

e) P(X > 3,09)

f)

g) P(0,7 < X < 0,8)

h) P(0,l < X < 7,2)

i)

j)

P(|X| > 2,58)

P(1,28 < X < 1,28)

P(|X 2| < 0,1)

10. Soit X une variable alatoire de loi N(20,25). Calculez :


a) P(X > 15)

b) P(15 < X < 25)

c) P(16 < X < 26)

d) P(X > 30)

e) P(X < 30)

f)

g) P(31,2 < X < 31,3)

h) P(l < X < 42)

i)

j)

P(|X 20| < 9,8)

P(X < 20,4)

P(|X 23| > 10)

244

Introduction la statistique applique

11. Soit X une variable alatoire de loi N(0, 1). Dterminez c tel que :
a) P(X > c) = 0,1

b) P(X > c) = 0,01

c) P(c < X < c) = 0,90

d) P(c < X < c) = 0,99

e) P(X > c) = 0,99

f)

g) P(|X| < c) = 0,99

h) P(c < X < c) = 0,999

i)

j)

P(c < X < c) = 0,1

P(X < c) = 0,10

P(c < X < c) = 0,95

12. Soit X une variable alatoire de loi N(10, 16). Dterminez c tel que :
a) P(X > c) = 1 %

b) P(X < c) = 90 %

c) P(|X 10| > c) = 5 % d) P(|X 10| < c) = 90 %


13. On lance 100 sous et on obtient X faces . Calculez les probabilits
suivantes :
a) P(50 d X d 60)

b) P(49 < X < 61)

c) P(X = 54)

d) P(X > 62)

e) P(60 < X d 65)

f)

P(60,3 < X < 65,9)

14. Dans un certain cours, une note finale de 80 % assure un A. Une note de
70 79 donne un B, une de 60 69 un C, une de 50 59 un D et une
note infrieure 50 mrite un E.
Les notes des tudiants se conforment une loi N(68, 225). Quelles
proportions des tudiants devraient avoir un A ? un B ? un C ? un D ?
un E ?
15. Si X est une variable alatoire normale, quelle est la probabilit qu'elle se
situe :
a) moins d'un cart-type de la moyenne ?
b) moins de deux carts-types de la moyenne ?
c) moins de trois carts-types de la moyenne ?
d) Comparez la probabilit obtenue en b) et c) avec la borne fournie par
l'ingalit de Tchebychev.

7 Quelques lois continues

245

16. Les scores d'une population dans un test d'aptitudes sont distribus
normalement avec moyenne P = 60 et cart-type V = 8. Si votre score est
de 76 :
a) Quelle est votre cote Z ?
b) Quel pourcentage de la population a un score suprieur au vtre ?
c) Quel pourcentage de la population a un score entre 44 et 76 ?
d) Quel pourcentage de la population a un score infrieur 40 ?
17. Soit X et Y deux variables alatoires indpendantes, X de loi N(110, 25),
Y de loi N(100, 35). Calculez
a) P(X + Y < 195)
THORME
LIMITE

b) P(X Y > 25)

18. Soit X une variable de loi B(300; 0,30). Calculez :


a) P(X t 106)

b) P(X > 74)

c) P(X d 98)

d) P(82 < X d 106)

e) P(98 d X d 114)

f)

CENTRAL

P(74 d X < 82)

19. Le poids des pches dans un certain lot est de moyenne 127 grammes et
d'cart-type 20 grammes. Quelle est la probabilit que le poids total de
16 pches soit suprieur 2 200 grammes ?
DIVERS

20. Soit X une variable avec fonction de densit :


f (x)

cx si 0  x  5

0 sinon

Quelle doit tre la valeur de c?


21. Soit X une variable alatoire de loi B(6, 1/3).
Dterminez P(X t 3), P(l d X d 3) et P(X = 3) :
a) au moyen de la formule exacte donnant la fonction de masse.
b) au moyen de l'approximation normale.
c) au moyen de l'approximation par la loi de Poisson.

246

Introduction la statistique applique

22. Certains cbles d'acier peuvent supporter une tension moyenne de


2 120 kg (avec un cart-type de 100 kg) avant de briser. Pour soulever
une lourde charge de 7 900 kg, on dcide d'utiliser 4 cbles. Quelle est la
probabilit que ce quadruple cble soulve la charge sans se briser ?
23. Un jeu de 52 cartes ordinaires contient 12 figures (les valets, les dames
et les rois). On tire 13 cartes du jeu. Calculez la probabilit que cette
main contienne exactement 4 figures :
a) au moyen de la loi hypergomtrique ;
b) au moyen de la loi normale ajuste P et V2.
24. Supposons que les poids des adultes, en kilogrammes, sont d'cart-type
12 kg. On prlve un chantillon de taille n pour estimer la moyenne
inconnue P de la population par la moyenne chantillonnale X . Quelle
est la probabilit que l'cart entre X et P soit suprieur 5 kg si
a) n = 12

b) n = 25

c) n = 35

d) n = 50

25. Soit X une variable alatoire de loi Exp(T). Quelle est la valeur de T si
P(X > 5) = 0,2 ?
26. Un cultivateur sme des graines de haricot par rangs de 100 graines. On
suppose que 80 % des graines germeront.
a) Quel est le nombre moyen de plants obtenus par rang ?
b) Quelle est la variance du nombre de plants obtenus dans un rang ?
c) Quelle est la probabilit qu'un certain rang contienne plus de
85 plants ?
d) Quelle est la probabilit qu'un certain rang contienne moins de
70 plants ?
e) Le cultivateur a sem 20 000 rangs de haricots. Combien de ces
rangs devraient, normalement, contenir moins de 70 plants ?
f)

Quelle est la probabilit que plus de 100 rangs contiennent moins de


70 plants ?

27. Lorsqu'une machine est rgle pour mettre P grammes de petits pois
dans des botes de conserve, elle n'en met pas exactement P grammes. Le
poids rel du contenu varie selon une loi normale de moyenne P et
d'cart-type V grammes.

7 Quelques lois continues

247

a) Si P = 300 et V = 4, quelle proportion des botes contiendront plus de


310 grammes de petits pois ?
b) Si V = 4, quelle valeur doit-on rgler P pour que 1 % seulement des
botes contiennent moins de 300 grammes ?
28. Sondage : On veut connatre la proportion p des gens qui, dans la
population gnrale, sont en faveur d'une certaine proposition. Dans un
chantillon de n personnes, on obtient X rponses favorables la
proposition en question. Notons par p = X/n la proportion exprimentale
de rponses favorables.
a) Si n = 100 et p = 0,5, dterminez P( p > 0,6).
b) Si n = 100 et p = 0,4, dterminez P( p > 0,5).
c) Si n = 100 et p = 0,4, dterminez approximativement c afin que :
P(p c < p < p + c) | 90 %.
d) Si n = 1 000 et p = 0,4, dterminez approximativement c afin que :
P(p c < p < p + c) | 90 %.
e) Si p = 0,4, dterminez n afin que P(| p |l < 0,03) |9 0 %
f)

Si p = 0,2, dterminez n afin que P(| p p| < 0,03) | 90 %

g) Si p = 0,5, dterminez n afin que P(| p p| < 0,03) | 90 %


h) Dterminez n afin que P(| p p| < 0,03) t 90 % pour toute valeur
de p.
29. Un terrain est dcoup en 10 lots identiques. Sans engrais, la production
de crales, en tonnes, pour chaque lot, suit une loi N(6, 1). En utilisant
un certain engrais, la production d'un lot sera de loi N(6,3; 1). Parmi les
10 lots, 6 sont sems sans engrais et 4 reoivent de l'engrais.
a) Quelle est la probabilit que les lots sans engrais produisent, en
moyennne, plus de 6,2 tonnes de crales ?
b) Quelle est la probabilit que les lots avec engrais produisent, en
moyenne, moins de 6,2 tonnes de crales ?
c) Quelle est la probabilit que les 6 lots sans engrais produisent, en
moyenne, plus de crales que les 4 lots avec engrais ?

248

Introduction la statistique applique

30. On lance 20 pices de 5 et 10 pices de 10 . Soit X la valeur totale


des pices qui donnent face.
a) Dterminez E(X) et Var(X).
b) Utilisant l'approximation normale, calculez P(X > 116).
31. Le nombre de litres de peinture ncessaire pour un certain travail suit
une loi N(1,1; 0,04). Est-il prfrable d'acheter un format de 2 litres pour
11 $ ou plutt d'acheter un seul litre (pour 6 $), quitte devoir retourner
en acheter un second si ncessaire ?
32. Deux archers s'affrontent dans un concours de tir l'arc. chaque tir,
Xavier a 50 % de chance d'atteindre la cible. Lgrement plus habile,
Yvon atteint la cible avec une probabilit de 60 %. Chacun tire 20 flches
et le vainqueur sera, videmment, celui qui aura plus de coups au but.
Utilisant l'approximation normale, calculez :
a) la probabilit que Xavier ait plus de 13 coups au but ;
b) la probabilit que Xavier gagne le tournoi ;
c) la probabilit que Yvon gagne le tournoi ;
d) la probabilit d'un match nul.
33. On lance 12 ds et on obtient, en tout, X points.
a) Calculez E(X) et Var(X).
b) Calculez, au moyen de l'approximation normale, P(30 < X < 50).
34. Combien de fois doit-on lancer un d si l'on veut que la moyenne des
points obtenus ait 9 chances sur 10 de se trouver entre 3,0 et 4,0 ?
35. Xavier et Yvonne jouent pile ou face . Xavier lance 10 pices et
Yvonne en lance 12. Le gagnant est celui qui obtient le plus de faces.
a) Quelle est la probabilit que Xavier gagne ?
b

Quelle est la probabilit que Yvonne gagne ?

c) Quelle est la probabilit d'un match nul ?

7 Quelques lois continues

249

36. Le diamtre intrieur (en millimtres) d'un cylindre est une variable de loi
N(10; (0,001)2). Le diamtre d'un piston est de loi N(9,995; (0,002)2).
Quelle est la probabilit qu'un cylindre et un piston s'accordent s'il faut
que le cylindre soit plus grand que le piston et qu'il n'y ait pas plus de
0,01 mm d'cart entre les deux diamtres ?
37. Supposez que la dure en heures d'une ampoule est de loi exponentielle
avec T = 1 000.
a) Utilisez le thorme limite central pour calculer la probabilit que la
dure moyenne de 300 ampoules soit infrieure 1 100 heures.
b) Calculez approximativement la probabilit que 130 ampoules ou plus
dans un chantillon de 300 aient une dure de plus de 1 000 heures.
38. Soit X une variable de loi exponentielle. Montrez que P(X > 3 | X t 2)
= P(X > 1). Plus gnralement, si a < b, montrez que P(X > b | X t a)
= P(X > b a). Interprtez.
39. Un marchand assume la garantie d'un an qui accompagne la vente d'une
certaine pice lectronique, ayant reu du fabricant l'assurance que la
dure de vie de ces pices est de 2 ans en moyenne. Aprs quelque
temps, il constate que sur 100 pices vendues, il a d en remplacer 40,
un nombre qui lui semble excessif et lui fait douter de l'affirmation du
fabricant. Supposez que le fabricant dit vrai et que la dure de vie est de
loi exponentielle.
a) Dterminez l'esprance du nombre de pices qui doivent tre
remplaces.
b) Calculez la probabilit d'avoir 40 pices ou plus remplacer. Vous
semble-t-il encore vraisemblable que la dure moyenne de vie soit de
2 ans ?
40. Le contenu moyen P des botes de sauce aux tomates produites dans une
usine peut varier d'un lot l'autre, mais nous admettrons que
l'cart-type reste fixe environ 4 ml.
a) Si, pour un lot donn, P = 200 ml, quelle est la probabilit que la
moyenne d'un chantillon de 10 botes soit infrieure 198 ml ?
b) Ne connaissant pas la valeur de P, on contrle un lot de production
en prlevant un chantillon de taille 10. Quelle est la probabilit que
la moyenne de l'chantillon s'carte de P de plus de 1 ml ?

250

Introduction la statistique applique

c) Supposons qu'on trouve trop forte la probabilit obtenue en b) : on


souhaiterait que la probabilit d'un cart de plus de 1 ml ne soit que
de 1 %. Quelle est la taille de l'chantillon qu'on devrait prlever ?
d) La moyenne P doit tre de 200 ml. Afin de s'en assurer, un inspecteur
dcide de prlever un chantillon de 10 botes et de suivre la rgle
suivante : si le poids moyen de 10 botes est infrieur 198 ml, il
rejette le lot (dclare que P < 200) ; sinon il l'accepte. Quelle est la
probabilit qu'il rejette un lot pour lequel P = 200 ?
e) Comment doit-on modifier la rgle en d) si l'on veut que la probabilit
de rejeter un bon lot (P = 200) ne soit pas suprieure 1 % ?
41. Dterminez la probabilit qu'une variable de loi exponentielle se situe
plus de 2 carts-types de sa moyenne. Comparez cette probabilit avec la
borne donne par l'ingalit de Tchebychev.
42. Le poids du contenu des botes de conserves dans une certaine usine est
de moyenne P = 300 g et d'cart-type V = 4 g. Soit X le poids moyen d'un
chantillon de 8 botes. Calculez
a) la probabilit que X soit suprieure 302,83 g ?
b) la probabilit que l'cart entre X
suprieur 3 g ?

et P (en valeur absolue) soit

43. Au numro prcdent, quelle est la taille minimale de l'chantillon qu'on


devrait prlever pour que la probabilit d'un cart entre X et P de plus
de 1 g soit infrieure 0,05 ?
44. Une succursale de banque reoit rgulirement des dpts sous la forme
de rouleaux de 40 pices de 25 . Pour s'assurer que ces rouleaux
contiennent bien 40 pices, on dcide de mesurer la longueur des
rouleaux dposs et de rejeter ceux qui seraient trop courts. Afin de fixer
un seuil de rejet on mesure l'paisseur d'un trs grand nombre de pices
de 25 . On trouve que l'paisseur moyenne d'une pice est de 1,625 mm
avec un cart-type de 0,16 mm.
a) Supposons qu'on fixe le seuil 64 mm ; on rejette un rouleau si sa
longueur est infrieure 64 mm.
i)

Quelle est la probabilit de rejeter un rouleau qui contient


40 pices ?

ii) Quelle est la probabilit d'accepter un rouleau qui ne contient que


39 pices ?

7 Quelques lois continues

251

b) Supposons qu'on trouve la probabilit en ii) ci-dessus trop grande ;


on souhaite plutt que la probabilit d'accepter un rouleau qui ne
contient que 39 pices soit d'au plus 5 %. Comment doit-on modifier
le seuil de rejet ?
c) Avec le seuil de rejet choisi en b), quelle est la probabilit de rejeter
un rouleau de 40 pices ? Discutez les avantages et les inconvnients
des deux seuils.

Estimation

8.1
8.2
8.3
8.4

8.5

Estimation ponctuelle
Estimation par intervalle de confiance
Estimation d'une proportion
Estimation d'une moyenne
Cas gnral
Cas o les observations sont de loi normale
Estimation d'un paramtre T quelconque
RSUM
EXERCICES

8 Estimation

8.1

253

ESTIMATION PONCTUELLE
Si l'on veut connatre la proportion relle des gens qui, dans une ville, une
province ou un pays entier ont une certaine caractristique donne, il est
habituellement hors de question d'interroger un un tous les individus
composant la population : ce serait trop long, trop coteux. On se contente
alors d'analyser une partie seulement de la population : un chantillon. Si
l'chantillon est convenablement choisi, il devrait reflter assez fidlement les
qualits de la population entire ; la proportion des gens qui, dans
l'chantillon, possdent la caractristique donne (proportion exprimentale)
devrait tre voisine de la proportion relle pour la population entire
(proportion thorique).
Plus prcisment, si l'on note p la proportion relle (inconnue) qu'on veut
estimer, si l'on note n la taille de l'chantillon (c'est--dire : le nombre
d'individus considrs) et si l'on note X le nombre d'individus qui, dans
l'chantillon, possdent la caractristique qui nous intresse, on a, en supposant la population pratiquement infinie, que X est de loi B(n, p).
La proportion exprimentale de succs sera note

p pour bien la

distinguer de la proportion relle p :


p

n
p est un estimateur de p, c'est--dire une quantit, issue des rsultats

exprimentaux, qui a la proprit d'approximer, numriquement, la valeur


du paramtre inconnu p.
Exemple 1

Deux sondages diffrents, portant sur la mme caractristique, sont


effectus. Dans le premier sondage, avec un petit chantillon de taille n = 5,
on a obtenu X = 3 (et p = X/n = 60 %). Le second sondage, avec un
chantillon plus grand, de taille n = 1 000, a donn X = 600 (et p = 60 %).
Ces deux sondages donnent-ils la mme information ? Non, assurment ! Il
va de soi que, mme si les deux estimateurs ont pris la mme valeur p =
60 %, le second rsultat est beaucoup plus prcis, beaucoup plus fiable que
le premier. D'avoir obtenu X = 3 avec n = 5 n'exclut absolument pas la
possibilit que la valeur relle de p soit, par exemple, 40 % alors que les
rsultats du grand sondage, avec n = 1 000, permettent de rejeter
catgoriquement cette possibilit.
i

254

Introduction la statistique applique

La prcision d'un estimateur dpend visiblement de la taille de l'chantillon


utilis. Nous y reviendrons dans la prochaine section. Pour l'instant, nous ne
considrons que l'estimation ponctuelle, c'est--dire, la dtermination d'un
estimateur convenable pour un paramtre inconnu.
Un bon estimateur doit possder deux qualits naturelles :
a) L'estimateur doit tre sans biais (ou non biais). Un estimateur est sans
biais si son esprance mathmatique est gale la valeur du paramtre
estimer ; ainsi, il n'aura tendance ni surestimer ni sous-estimer
systmatiquement la valeur du paramtre inconnu. On dit d'un
estimateur sans biais qu'il est bien centr.
b) L'estimateur doit avoir une variance aussi petite que possible, afin
d'tre aussi prcis que possible.
Dans l'exemple 1, la frquence exprimentale p = X/n a servi d'estimateur
pour le paramtre p d'une loi binomiale. On vrifie aisment que p est un
estimateur sans biais pour p. En effet,
E ( p )

E(

X)

E( X )

np

p.

La variance de l'estimateur p est


Var ( p )

Var (

1
n

X)

1
n

Var ( X )

npq
n

pq

On remarque que plus n est grand, plus la variance de p , pq/n, est petite et,
par consquent, plus l'estimation sera prcise, conformment ce que
l'intuition nous a dj permis d'affirmer.
Un autre paramtre relativement facile estimer est la moyenne (thorique)
P d'une loi normale. L'estimateur naturel de P est la moyenne exprimentale
obtenue d'un chantillon X1, X2, ..., Xn de taille n. On montre aisment que
X est sans biais pour P. En effet,

8 Estimation

E( X )

255

1
E ( 6X i )
n
1
n

E ( 6X i )

1
n

6E ( X i )

( P  P  ...  P )

nP

P.

De mme, comme on a dj vu au chapitre 7,


Var ( X )

1
Var ( 6X i )
n
1
n2

Var ( 6X i )

1
n2

(V 2  V 2  ...  V 2 )

n2

nV 2

V2

Plus n est grand, plus la variance de X , V2/n, est petite, ce qui est en accord
avec notre intuition : plus nombreuses sont les observations, meilleures sont
les chances que X soit prs du P.
Exemple 2

On suppose que l'ge X, en mois, d'un bb lors de l'apparition de ses


premires dents suit une loi N(P, 2) o P est inconnu. Ayant observ 8 bbs,
on a obtenu les ges suivants :
7,3

5,7

6,4

6,7

8,2

6,0

5,8

8,3

La moyenne de ces 8 observations est X = 6,8 et, puisque la variance de


chaque observation est de 2, la variance de X est V2/n = 2/8 = 1/4. L'carttype de X est donc de 0,5. Si l'on avait dispos de 1 000 observations plutt
que de seulement 8, l'cart-type de X aurait t de

2 1 000 = 0,045 et

l'estimation de P par X aurait t beaucoup plus fiable et plus prcise.

Mise en garde Dans les applications concrtes, il faut videmment prendre


soin que l'chantillon utilis ne soit pas choisi de telle sorte que l'estimation en
soit grossirement affecte. Par exemple, si l'on veut connatre la proportion
des gens qui ont le tlphone, il est hors de question de choisir l'chantillon au
hasard dans ... le bottin tlphonique.

8.2

ESTIMATION PAR INTERVALLE DE CONFIANCE


Il peut s'avrer intressant de savoir que p = 0,60 ou que X = 6,8 mais,
sans aucune indication sur leur degr de prcision, de telles estimations,
purement ponctuelles, ne fournissent qu'une information partielle

256

Introduction la statistique applique

concernant les valeurs relles des paramtres p et P. Le fait d'avoir obtenu


p = 0,60 nous incite supposer que la vritable valeur de p est
vraisemblablement voisine de 0,60. Est-on pratiquement certain que le
vritable p se situe entre 0,59 et 0,61 ou, au contraire, y a-t-il de fortes
chances qu'il ne se trouve mme pas entre 0,40 et 0,80 ?
L'estimation d'un paramtre inconnu n'est vraiment satisfaisante que si elle
est prsente de telle faon qu'elle fournisse aussi une indication concernant
son degr de prcision. Rappelons qu'un estimateur (comme p ou X ) est
une variable alatoire et que plus la taille (n) de l'chantillon est grande, plus
cet estimateur aura de chances de se trouver prs de la valeur relle du
paramtre qu'il a pour but d'estimer. Si n est suffisamment grand, on sera
pratiquement certain que l'erreur d'estimation (la distance entre p et p ou
entre X et P) sera plus petite qu'un certain cart donn et que, par
consquent, la vritable valeur du paramtre qu'on veut estimer sera
l'intrieur d'un certain intervalle s'tendant de part et d'autre de la valeur
prise par l'estimateur. Il reste prciser, quantifier ce qu'on entend par
tre presque certain ; il reste aussi savoir dterminer les bornes de cet
intervalle de confiance dans lequel on s'attend d'avoir captur la
vritable valeur du paramtre estimer.
En pratique, on convient l'avance de courir un certain risque, not D (lettre
grecque alpha). Cette quantit D (habituellement, on choisit D = 1 %, 5 % ou
10 %) reprsente la probabilit que l'intervalle qu'on obtiendra ne contienne pas
la vritable valeur du paramtre qu'on cherche estimer. La quantit 1 D est
appele le niveau de confiance de l'intervalle et indique la probabilit que le
paramtre inconnu soit rellement l'intrieur de l'intervalle qu'on obtiendra.
Les bornes de l'intervalle de confiance seront deux quantits Y1, et Y2,
calcules partir des rsultats exprimentaux (alatoires) dont on dispose.
En notant par T le paramtre estimer, on veut avoir
P ( Y1  T  Y2 )

1D.

Le couple (Y1, Y2) est un intervalle de confiance de niveau 1 - D pour le


paramtre T. Si, par exemple, on a convenu de fixer le risque D 5 %,
l'intervalle de confiance aura 95 chances sur 100 de contenir la vritable
valeur du paramtre T.

8 Estimation

8.3

257

ESTIMATION D'UNE PROPORTION


Dans la premire section de ce chapitre on a vu que la frquence
exprimentale p = X/n est un excellent estimateur (en fait, le meilleur) de la
probabilit thorique p d'une loi binomiale. On a vu aussi que p est sans
biais pour p et que sa variance est
2

V p

pq

Si n est grand on aura, par le thorme limite central, que

p est

2
p

approximativement de loi N(p, V ), c'est--dire,


p  p

est N ( 0 ,1).

V p
Ayant convenu d'un risque D donn, on peut trouver, dans la table de la loi
N(0, 1), un nombre cD, tel que
P (  cD 

p  p
V p

 cD ) | 1  D .

Utilisant ce cD, on aura


P ( p  cD V p  p  p  cD V p ) | 1  D .

Pour obtenir un intervalle de confiance pour le paramtre p, il faut


reformuler cette expression de telle faon que ce soit le paramtre p (plutt
que son estimateur p ) qui soit isol entre les deux ingalits.
On obtient :
P ( p  cD V p  p  p  cD V p ) | 1  D .

L'intervalle ( p cD V p ) a donc une probabilit (approximative) 1 D de


contenir la vritable valeur de p. Il ne s'agit toutefois pas encore de
l'intervalle de confiance dsir et ceci pour la simple raison que, tel
qu'exprim, il est incalculable. En effet, le terme V p

pq n est fonction de

la probabilit thorique p dont la valeur exacte est toujours inconnue.

258

Introduction la statistique applique

Cette difficult est heureusement facile lever. Il suffit d'estimer son tour
la variance thorique V 2p
pq n par la valeur prise par son estimateur
naturel
V 2p

p q

On peut montrer rigoureusement que cette substitution est licite. En


remplaant l'cart-type thorique V p par son estimateur V p , on obtient
enfin l'intervalle de confiance
( p r cD V p )

( p r cD

p q n )

qui est, approximativement, de niveau 1 D pour le paramtre p.


Exemple 3

Lors d'un sondage auprs de 500 personnes et portant sur leurs opinions
politiques, 180 personnes se sont dclares favorables au parti A. Estimer la
proportion thorique p des gens favorables au parti A au moyen d'un
intervalle de confiance de niveau 90 %.
Solution : On a p = X/n = 180/500 = 0,360.
Aussi, pour avoir D = 10 %, on doit prendre cD = 1,645.
Il ne reste plus qu' employer la formule

p r c
D

p q
n

0 , 360 r 1, 645 0 , 36 u 0 , 64

500

( 0 , 360 r 0 , 035 )

( 0 , 325; 0 , 395 ).
i

Remarque cause d'un conflit de notation avec l'emploi de la virgule dcimale


il convient, quand il y a risque d'ambigut dans la prsentation numrique
d'un couple, de remplacer la virgule centrale par un point-virgule.
Remarque C'est un abus de langage de prtendre qu'un intervalle de
confiance numriquement dtermin a une probabilit de 1 - D de contenir le
paramtre inconnu. Dans l'exemple 3, il serait abusif de conclure qu'il y a
9 chances sur 10 que la valeur du paramtre p soit comprise entre 0,325 et
0,395. Ce n'est pas le paramtre qui est alatoire, ce sont plutt les bornes de

8 Estimation

259

l'intervalle de confiance. Une fois calcules, ces bornes ne sont plus des
variables alatoires. Il n'y a plus de hasard ! Prtendre que le paramtre p a
9 chances sur 10 d'tre situ entre tel et tel nombres donns est une
formulation fautive qui laisse entendre que p est une variable alatoire, ce qu'il
n'est pas. Rendu lgitime par l'usage, cet abus de langage est habituellement
tolr.
Remarque La formule que nous utilisons ne donne que des intervalles de
confiance symtriques, c'est--dire, qui partagent le risque D en deux moitis
gales. Le vritable p a donc une probabilit D/2 de se trouver droite de
l'intervalle (erreur de sous-estimation) et une probabilit D/2 de se trouver
gauche de l'intervalle (erreur de surestimation). Il peut arriver qu'on prfre
partager le risque total D de faon non symtrique. Nous ne traiterons pas de
ce cas ici et chaque fois qu'on parlera d'un intervalle de confiance, celui-ci sera
implicitement suppos symtrique.
Remarque Lorsqu'on estime un paramtre au moyen d'un intervalle de
confiance, deux qualits espres, prcision et scurit, sont en opposition.
On ne peut amliorer l'une sans diminuer l'autre. Si l'on exige beaucoup de
scurit (risque D trs petit), on obtiendra un intervalle de confiance plus large
que si l'on se contente d'une scurit plus raisonnable. Si l'on veut beaucoup
de prcision (intervalle troit), il faudra payer cette prcision par un risque
d'erreur plus considrable. La seule faon d'obtenir la fois une bonne
prcision et une grande scurit est de ne pas lsiner sur la valeur de n, ce qui
n'est pas toujours conomique.
Exemple 4

Avec n = 100, on a obtenu p = 0,21. Calculer les intervalles de confiance de


niveau 50 %, 10 %, 5 %, 1 % et 0,1 % pour p.
Solution : Les cinq valeurs de D donnent des cD, qui valent, respectivement,
0,674, 1,645, 1,960, 2,576 et 3,291.
Les cinq intervalles de confiance sont prsents dans le tableau 8.1.

260

Introduction la statistique applique

TABLEAU 8.1
D

cD

Intervalle de confiance

Longueur

50 %

0,674

(0, 18; 0,24)

0,06

10 %

1,645

(0,14; 0,28)

0,14

5%

1,960

(0, 13; 0,29)

0,16

1%

2,576

(0,11; 0,31)

0,20

0,1 %

3,291

(0,08; 0,34)

0,26

Lequel de ces cinq intervalles de confiance est le meilleur ? Assurment, un


risque de 50 % est beaucoup trop fort et le premier intervalle n'est pas trs
satisfaisant. De mme, un niveau de confiance de 99,9 % parat exagr et
rend l'intervalle de 30 % plus large que celui obtenu avec D = 1 %. En
gnral, on choisit D entre 1 % et 10 %, selon le contexte et l'importance
relative de nos besoins en prcision et en scurit.
i
Exemple 5

Si l'on sait dj que la valeur du paramtre p est voisine de 0,15 %, combien


d'observations doit-on effectuer pour que l'intervalle de confiance de niveau
95 % pour p soit de rayon (ou demi-longueur) approximatif 0,05 ? 0,02 ?
0,01 ?
Solution : Puisque D/2 = 2 1/2 %, on doit prendre cD = 1,960. Le rayon de
l'intervalle de confiance sera donc l,960 p q / n . On ne sait pas l'avance
quelle sera la valeur de p mais on peut s'attendre ce qu'il prenne une
valeur voisine de p qu'on a suppos voisin de 0,15. Le rayon r de l'intervalle
de confiance devrait donc tre, approximativement,
r | 1, 960 0 ,15 u 0 , 85 / n

0 , 700 / n .

Exprimant n en fonction de r, on obtient n | 0,490/r2 et, en donnant


successivement r les valeurs 0,05, 0,02 et 0,01 on obtient, pour n, les
valeurs 196, 1 225 et 4 900.
i
Remarque Dans l'exemple 5 on voit que, pour un niveau de confiance donn,
le nombre d'observations requises est inversement proportionnel au carr de
la prcision dsire. Pour avoir une estimation dix fois plus prcise, il faut cent

8 Estimation

261

fois plus d'observations. Ce phnomne se manifeste dans presque tous les


problmes d'estimation, pas seulement dans le cas du paramtre p d'une loi
binomiale.
L'exemple 5 prsente une situation passablement idalise : on y suppose
qu'on connat l'avance la valeur (approximative) de p. Quand, dans la
pratique, on veut dterminer le nombre d'observations requises pour que
l'intervalle de confiance soit de la longueur dsire, on n'a pas toujours la
chance de possder une telle information pralable. Le mieux qu'on puisse
faire est de se fier son jugement, de se rfrer des situations analogues
dj rencontres. On peut aussi procder un prsondage de petite taille qui
aura pour seule fonction de fournir une estimation grossire de p grce
laquelle il sera possible de dterminer la taille n qu'il faudra prendre pour le
sondage principal. On peut aussi adopter une attitude conservatrice et
choisir une valeur de n qui nous assurera que, quelle que soit la valeur de n,
l'intervalle de confiance sera d'un rayon au plus gal la prcision dsire.
Exemple 6

Combien d'observations doit-on effectuer afin que, quelle que soit la valeur de
p, l'intervalle de confiance de niveau 95 % pour p soit de rayon au plus
0,05 ? 0,03 ? 0,02 ? 0,01 ?
Solution : Le rayon de l'intervalle de confiance de niveau 95 % est
1, 960 p q / n .

Or, la valeur maximale possible pour p q est 1/4 (quand p = q = 1/2 Quelle
que soit la valeur de p , le rayon maximum de l'intervalle de confiance gale
r max

1, 960

4n

0 , 98

n . Pour avoir r < rmax, il faut prendre n t (0,98/rmax)2.

En donnant successivement rmax les valeurs 0,05, 0,03, 0,02 et 0,01, on


obtient n t 385, n t 1 068, n t 2 401 et n t 9 604.
Remarque Quand paraissent dans les journaux les rsultats d'un sondage
portant sur la popularit des diffrents partis politiques, il est souvent prcis
que l'erreur d'estimation est d'au plus 3 %, 19 fois sur 20. Ce niveau de
prcision est en accord avec le fait que de tels sondages portent
habituellement sur des chantillons de taille lgrement suprieure 1 000.
Pour les principaux partis (ceux dont la popularit est de l'ordre de 30 % ou
50 %) cette erreur maximale de 3 % est correctement value. Pour les partis
marginaux, dont la popularit est de l'ordre de quelques points peine, l'erreur
vraisemblable est considrablement infrieure au 3 % dclar.

262

8.4

Introduction la statistique applique

ESTIMATION D'UNE MOYENNE


Cas gnral Soit X1, X2, , Xn un chantillon de loi quelconque non spcifie,
pour laquelle la moyenne P et la variance V2 sont inconnues. On veut estimer
la moyenne thorique P au moyen d'un intervalle de confiance de niveau 1
D donn.
On sait dj que, quelle que soit la loi de X, l'estimateur ponctuel P = X est
toujours sans biais pour P. On sait aussi que sa variance est V X2

V 2 n et le

thorme limite central permet d'tablir que, si n est grand,


X est approximativement de loi N ( P , V X2 ).
Ayant convenu d'un risque D donn, on a donc
P ( P  cD V

 X  P  cD V

) | 1 D .

o le terme cD, est obtenu de la table de la loi N(0,1). Isolant le paramtre P


au centre des deux ingalits, on obtient
P ( X  cD V

L'intervalle ( X r c D V X ) ( X r

cD V

 P  X  cD V

) | 1 D.

) a donc une probabilit voisine de 1 D de

contenir la vritable valeur de P. Il ne s'agit cependant pas encore de


l'intervalle de confiance dsir puisque, tel qu'exprim, il est incalculable : la
valeur de l'cart-type V X

n est inconnue et devra donc tre estime.

Si la moyenne thorique P tait connue, la variance V 2


tre estime par
1

(Xi
n

E (( X  P ) 2 ) pourrait

 P )2 .

i 1

Puisque la valeur exacte de P est inconnue, il faudra, dans le calcul, la


remplacer par la moyenne chantillonnale X . La variance V2 peut donc tre
estime par
1
n

(Xi
i 1

 X )2 .

8 Estimation

263

Cet estimateur naturel a cependant un dfaut : il est biais et a tendance


sous-estimer la valeur vritable de V2. On peut montrer (nous ne le ferons
pas) que l'esprance de cet estimateur est nn 1 V 2 plutt que le V2 dsir. Ce
biais systmatique est heureusement facile corriger : il suffit de diviser
6 ( X i  X ) 2 par n 1 plutt que par n. On obtient alors, pour V2 l'estimateur
sans biais
1

V 2

(Xi
n 1

 X )2 .

i 1

L'estimateur V 2 peut s'exprimer sous plusieurs formes algbriquement


quivalentes parmi lesquelles les plus commodes sont
V 2

6X i2  nX 2
n 1

n 2
2
X  X .

n  1

Revenons l'estimation de P.
On a dj tabli que l'intervalle ( X r c D V X ) ( X r c D V

n ) a une probabilit

1 D (approximativement) de contenir la vritable valeur de P. En y


remplaant l'cart-type thorique (inconnu) V, par sa valeur estime V (ou,
ce qui revient au mme, en remplaant V X

par V X

n ) on

obtient l'intervalle de confiance


( X r c D V )
X

( X r c D V

n)

qui est de niveau (approximatif) 1 D pour P.


Exemple 7

En vue d'estimer le nombre moyen de passagers par vhicule automobile


(conducteur inclus) circulant sur une certaine autoroute, un observateur,
install un poste de page, a recueilli les donnes prsentes dans le
tableau suivant :

TABLEAU 8.2
Nombre de
passagers
Effectif

TOTAL

230

248

117

76

14

688

264

Introduction la statistique applique

Estimer la moyenne thorique P au moyen d'un intervalle de confiance de


niveau 95 %.
Solution : Le nombre total d'observations est 688. Les effectifs donns
conduisent 6Xi = 1 469 et 6 X i2 = 3 949, ce qui mne X = 2,135,
V 2 = 1,183 et V = 1,088.
Pour avoir D = 5 %, il faut prendre cD = 1,960 et l'intervalle de confiance pour
P est
( X r c D V

( 2 ,135 r 1, 960 u 1, 088 26 , 23 )

n)

( 2 ,135 r 0 , 081)

( 2 , 054 ; 2 , 216 ).

Cas o les observations sont de loi normale Pour estimer, par intervalle de
confiance, la moyenne thorique P d'une loi quelconque non spcifie, nous
venons d'utiliser le fait que, pour n grand,
X P
V

et

X P
V

sont pratiquement de loi N(0, 1).

Si l'chantillon Xl, X2, ..., Xn est form de variables qui sont dj de loi
normale, on peut faire beaucoup mieux : on peut obtenir, pour P, un
intervalle de confiance exact plutt qu'approximatif, mme pour des valeurs
de n qui sont petites.
Dans le cas o les variables Xl, X2, ..., Xn sont de loi normale, on sait que
leur moyenne X est aussi de loi normale et que
X P
V

est exactement de loi N(0, 1).

En remplaant, au dnominateur, l'cart-type thorique V (inconnu) par


l'cart-type chantillonnal V , on obtient une nouvelle variable,
X P
V

qui n'est pas rigoureusement de loi normale.

Il s'agit d'une nouvelle loi, la loi de Student, et c'est dans une table conue
pour cette loi que sera trouve la valeur de cD, telle que

8 Estimation

X P
P  cD 
 cD

V X

265

1D.

Comme c'tait le cas pour la loi F Q2 , la loi de Student, note tQ, est
paramtrise par un nombre de degrs de libert Q. Ici, Q = n 1. La loi tQ
ressemble beaucoup la loi N(0, 1). En fait, quand Q est grand, ces deux lois
s'avrent pratiquement identiques.
Le risque D tant convenu, le nombre cD, tel que P(tQ > cD) = D/2 sera trouv
dans la table 4 de la page 399 l'intersection de la ligne correspondant Q
et de la colonne correspondant D/2. Ce nombre cD ayant t obtenu de la
table de la loi de Student, on a alors
P (  cD V X  X  P  cD V X )

1D.

Isolant P au centre des ingalits, on obtient


P ( X  cD V X  P  X  cD V X )

1D.

L'intervalle de confiance de niveau 1 D pour P est donc

( X r cD V X )

c V

X r D

Remarquons que cette formule est rigoureusement identique celle qui


s'applique dans le cas d'une loi non spcifie. La seule diffrence est la
source du cD qui provient de la table de la loi de Student (avec Q = n 1)
plutt que de celle de la loi N(0, 1).
Prcisons que quand la loi de l'chantillon n'est pas spcifie, on prfre tout
de mme prendre cD dans la table de la loi de Student plutt que dans celle
de la loi N(0, 1). Si n est trs grand (comme l'exemple 7), les deux tables
donneront pratiquement le mme cD et le choix de la table importe peu. Si n
est plus modeste, il vaut mieux utiliser le cD (lgrement plus grand, plus
scuritaire) fourni par la loi de Student. Mieux vaut utiliser la solution qui
sera plus prcise si les Xi sont vaguement de loi normale que celle qui est
approximative dans tous les cas.

266

Introduction la statistique applique

Exemple 8

On veut connatre le temps moyen que dure une face de disque microsillon.
Ayant chronomtr 5 disques (10 faces), on a obtenu les rsultats suivants
(en minutes) :
17,5

22,4

18,6

24,3

19,5

21,6

15,9

20,4

18,7

20,3

Supposant que ces variables sont de loi normale, calculer l'intervalle de


confiance de niveau 90 % pour P.
Solution

Les

donnes

exprimentales

donnent

6X i

199,2

et

6X i2 = 4 022,02. On trouve donc X = 19,92 et V 2 = ( 6X i2  nX 2 ) ( n  1) =


5,995 1.
Avec D = 10 % et Q = n 1 = 9, la table de la loi de Student donne cD = 1,833.
L'intervalle de confiance pour P est donc
c V

X r D

19 , 92 r 1, 833 5 , 995 1

10

(19 , 92 r 1, 42 )

(18 , 50 ; 21, 34 ).
Avec l'abus de langage habituel, il y a donc 90 chances sur 100 que la
vritable valeur de P se trouve entre 18,50 et 21,34.

8.5

ESTIMATION D'UN PARAMTRE T QUELCONQUE


Dans les sections 8.3 et 8.4 nous avons trait de l'estimation, par intervalle
de confiance, d'une probabilit thorique (p) ainsi que d'une moyenne
thorique (P). Dans chacun de ces cas nous avons obtenu, essentiellement,
des intervalles de confiance de la forme

T r c V
D

o T tait l'estimateur naturel pour le paramtre T qu'on voulait estimer, o


cD, tait obtenu de la table de la loi N(0, 1) en fonction du niveau 1 D dsir
2
et o V 2 tait un estimateur de V Var (T ) .
T

Dans la grande majorit des cas, l'estimation d'un paramtre T pour une loi
quelconque se fait de la mme faon. Il suffit de trouver un estimateur

8 Estimation

267

convenable T dont la variance V T2 peut tre estime. Trs souvent, V T2 peut


s'exprimer en fonction de T et l'estimateur V T2 s'obtient alors en remplaant
simplement T par T dans la formule qui exprime V T2 en fonction de T.
C'est prcisment ce qui a t fait lors de l'estimation du paramtre p d'une
loi binomiale. On a utilis l'estimateur p = X/n dont la variance V 2p
pq / n a
pu tre estime par V 2p

p q / n .

Si, pour n grand, l'estimateur T se comporte normalement (ce sera le cas, par
exemple, s'il est fonction de la somme des Xi), la formule gnrale
(T r cD V ) fournira l'intervalle de confiance dsir.
T

Exemple 9

Soit X1, X2, , Xn, un chantillon de loi Exp(T). Dterminer la formule


donnant l'intervalle de confiance pour T.
Solution : Puisque E(Xi) = T, l'estimateur naturel utiliser est T = X , qui est
sans biais pour T. Puisque Var(Xi) = T2, la variance de X est V 2 = T2/n, qui
T

T 2 n

peut tre estime par V X


de confiance (T r cD V T )

( X r cD X

n . On obtient donc, pour T, l'intervalle

n).

Exemple 10 Soit X1, X2, , Xn un chantillon de loi Poisson (O). Dterminer la formule
donnant l'intervalle de confiance pour O.
Solution : Puisque E(Xi) = O, l'estimateur naturel utiliser est O X , qui est
sans biais pour O. Puisque Var(Xi) = O, la variance de X est V X2 O n , qui
peut tre estime par V X2
de confiance ( O r cD V O )

O n

( X r cD

X n . On obtient donc, pour O, l'intervalle


X n).

268

Introduction la statistique applique

RSUM
Qualits d'un bon estimateur ponctuel :
a) tre sans biais pour le paramtre considr.
b) Avoir une petite variance.
Intervalle de confiance : Couple de variables (Y1, Y2), obtenues de l'chantillon,
tel que P(Y1 < paramtre < Y2) = 1 D.

Loi

Paramtre

Intervalle de

estim

confiance
p q

Binomiale (n grand)

( p r cD

Loi non spcifie


(n grand)

(X r

Loi normale
(solution exacte)

(X r

Loi quelconque
(n grand)

(T r cD V T )

2
V

n
c D V
n
c D V
n

6( X i  X )2

6X i2  nX 2

n 1

n 1

n 1

Source du cD

Loi N(0, 1)

Loi tQ de Student
avec Q = n 1

Loi tQ de Student
avec Q = n 1
Loi N(0, 1)

( X 2  X 2 ).

EXERCICES
ESTIMATION
PONCTUELLE

1. Soit X1, X2, ..., Xn un chantillon de loi Exp(T). Montrez que la moyenne X
est un estimateur sans biais pour T et que sa variance est T 2 n .
2. Soit X1, X2, ..., Xn un chantillon de loi Poisson(O). Montrez que la
moyenne X est un estimateur sans biais pour O et que sa variance est
O/n.

8 Estimation

269

3. Considrons un chantillon X1, X2, de taille n = 2.


a) Montrez que chacun des trois estimateurs suivants est sans biais
pour T = PX.
T1

X 1 , T2

( X 1  X 2 ) 2 , T3

5X1  4 X 2 .

b) Dterminez la variance de chacun de ces trois estimateurs (en


fonction de V X2 ). Quel est le plus prcis pour estimer Px ?
ESTIMATION PAR
INTERVALLE DE
CONFIANCE

ESTIMATION D'UNE
PROPORTION

4. Si, pour estimer un certain paramtre T, on utilise un estimateur T qui


est de loi N(T, 1/100), quelle est la probabilit que l'intervalle (T r 0,2)
contienne la vritable valeur de T ?
5. On veut connatre la proportion d'oranges gtes dans un lot d'oranges.
Un chantillon de 300 oranges contenait 18 fruits gts. Estimez p au
moyen d'un intervalle de confiance de niveau 90 %.
6. Lors d'un sondage auprs de 1 000 personnes et portant sur leurs
opinions politiques, 410 personnes se sont dclares en faveur du parti
A, 342 personnes ont favoris le parti B, 78 personnes ont prfr le parti
C et les autres (170) se sont dclares indcises. Calculez un intervalle
de confiance de niveau 95 % pour chacune des quatre proportions.
7. Durant la saison 1988, le joueur de baseball Tim Raines, qui joue pour les
Expos de Montral, a frapp 116 coups srs en 429 prsences au bton,
ce qui lui a donn une moyenne de 0,270. Estimez sa moyenne vritable
(thorique) au moyen d'un intervalle de confiance de niveau 95 %.
8. Un volume traitant du jeu d'checs contient 360 parties de grands
matres. Parmi ces parties, 172 ont ts gagnes par les blancs, 103 par
les noirs et 85 parties ont t nulles. Estimez, par des intervalles de
confiance de niveau 90 %, les trois probabilits considres.
9. On sait qu'une probabilit p est plus difficile estimer quand elle est
prs de 1/2 car cette valeur de p maximise pq qui vaut alors 1/4. Pour
D = 1 %, 5 % et 10 %, dterminez le nombre n d'observations qui assure
que la distance entre p et p sera infrieure 0,10 ; 0,05 ; 0,02 ; 0,01
avec une probabilit au moins gale 1 D. Il y a 3 u 4 = 12 cas
considrer. Trois de ces cas ont t traits dans l'exemple 6. Prsentez les
12 rsultats dans un tableau.

270

Introduction la statistique applique

ESTIMATION D'UNE
MOYENNE

10. Un archer a tir 20 flches vers une cible. Selon la prcision du tir,
chaque flche donne plus ou moins de points. En ses 20 lancers, l'archer
a obtenu une seule fois 5 points, 3 fois 3 points, 7 fois 2 points, 7 fois 1
point, et a rat 2 fois la cible (aucun point). Estimez, par un intervalle de
confiance de niveau 90 %, la moyenne thorique P de points qu'il obtient
chaque tir.
11. Un leveur de lapins veut connatre le nombre moyen P de lapereaux qui
sont produits par porte. Au cours des quelques derniers mois, 240
lapines ont mis bas, donnant, en moyenne 6,13 lapereaux, avec un
cart-type de 1,31. Estimez P au moyen d'un intervalle de confiance de
niveau 95 %.
12. Un fabricant de pneus d'automobile veut connatre la qualit de sa
production. Dix pneus ont t soumis des preuves de rsistance
l'usure. Les rsultats (en milliers de kilomtres parcourus) sont
95, 108, 86, 92, 94, 101, 79, 89, 91 et 96.
Calculez un intervalle de confiance de niveau 90 % pour la dure
moyenne d'un pneu.
13. Un organisme de protection du consommateur tudie la qualit de
diffrentes marques de piles de lampe de poche. Plusieurs piles ont t
soumises une mme preuve o l'on mesurait leur temps de service.
12 piles de marque A ont dur en moyenne 3,42 heures, avec un
cart-type de 0,39.
8 piles de marque B ont dur en moyenne 4,16 heures, avec un
cart-type de 0,82.
2 piles de marque C ont dur en moyenne 4,02 heures, avec un
cart-type de 1,04.
30 piles de marque D ont dur en moyenne 2,95 heures, avec un
cart-type de 0,53.
Calculez un intervalle de confiance de niveau 90 % pour chaque
moyenne.

ESTIMATION D'UN
PARAMTRE T
QUELCONQUE

14. Dans le service d'obsttrique d'un certain hpital, on a enregistr 472


naissances durant les 100 derniers jours. En supposant que le nombre
de naissances par jour suit une loi Poisson(O), estimez O au moyen d'un
intervalle de confiance de niveau 95 % (estimez O par O X ).

8 Estimation

271

*15. Soit X une variable alatoire de loi B(n, p) o p est connu. On veut
estimer le nombre d'essais n. L'estimateur naturel est n X p , qui est
sans biais.
a) Dterminez la formule donnant l'intervalle de confiance pour n.
b) En n lancements d'un d, la face 6 a t obtenue 25 fois. Estimez n
au moyen d'un intervalle de confiance de niveau 90 %.
*16. Une assemble de 300 personnes vote pour se dsigner un prsident.
Deux candidats, A et B, sont en lice. Aprs dpouillement partiel de 200
bulletins de vote (parmi 300), on constate que A a reu 106 votes et B en
a eu 94. Estimez, au moyen d'un intervalle de confiance de niveau 90 %
le nombre total de votes qui iront au candidat A. (Suggestion : utilisez
l'approximation normale pour la loi hypergomtrique).
DIVERS

17. Soit X1, X2, ..., Xn un chantillon de loi U(0, T). On pose T 2 X . Cet
estimateur est-il sans biais pour T ? Quelle en est la variance ? Cet
estimateur n'est pas le meilleur (voir problme 22).

*18. Soit X1, X2, ..., Xn un chantillon de loi Gom(p). Dterminez un


estimateur convenable pour p.
Suggestion : Dterminez d'abord un bon estimateur pour 1/p.
*19. Soit X une variable alatoire de loi uniforme U(0, T). Montrez que
( 22XD , 2DX ) est un intervalle de confiance de niveau 1 D et pour T.
*20. Soit X1, X2, ..., Xn un chantillon de loi N(P, 4). Quel est le niveau de
l'intervalle de confiance ( X 1, X + 1), pour P, si n = 4 ? si n = 16 ? si
n = 36 ?
*21. Soient T1 , et T2 deux estimateurs, chacun sans biais, pour un mme
paramtre T.
a) Montrez que, pour toute valeur de c, l'estimateur combin
T cT1  (1  c )T2 est aussi un estimateur sans biais pour T.
b) Si T1 , et T2 sont indpendants (par exemple, proviennent d'chantillons diffrents), exprimez V T2 en fonction de V T2 , V T2 , et c.
1

Remarque On peut montrer que c'est en prenant c V 2

T2

V T2 est minimise.

( V 2  V 2 ) , que
T1

T2

272

Introduction la statistique applique

*22. Soit X1, X2, ..., Xn un chantillon alatoire de loi uniforme U(0, T). Posons
Y = max{ X1, X2, ..., Xn }.
a) Utilisant le fait que E(Y) =

n
T
n 1

, de quelle faon peut-on utiliser Y

pour dfinir un estimateur T qui soit sans biais pour T ?


b) Utilisant le fait que Var(Y) =

nT

( n 1 ) 2 ( n  2 )

, quelle est la variance de

l'estimateur T obtenu en a) ? Cet estimateur est-il meilleur que celui


prsent au problme 17 ?
23. n ds ont t lancs et ont donn, en tout, 117 points. Estimez n au
moyen d'un intervalle de confiance de niveau 90 %.
24. En employant les donnes de la section 1.4, page 15, dterminez un
intervalle de confiance pour la probabilit qu'un enfant naisse lors de la
pleine lune.
25. On prlve un chantillon de 20 paquets de petits pois de format 400 g et
on en pse le contenu. Voici les rsultats :
402

398

398

397

401

394

399

397

399

396

401

398

400

399

402

398

397

394

401

398

Supposons que vous travaillez pour une association de consommateurs


et que vous souponnez le fabricant d'avoir volontairement rduit le
contenu des paquets. Sachant que le fabricant produit 100 000 paquets
par anne, et que 1 kg de petits pois lui cote en moyenne 30 , estimez
le montant d'argent pargn annuellement avec ses pratiques
frauduleuses. Entourez votre estimation d'un intervalle de confiance de
niveau 95 %.
26. L'une des tches d'une usine consiste peindre des grands panneaux de
6 m2 de surface. On a toujours employ une peinture qui cote
actuellement 4 $ le litre. Son pouvoir couvrant est bien connu, car au
cours des annes on a peint 10 000 panneaux et on sait qu'il a fallu
employer 7 500 litres de peinture pour le faire. Il est question maintenant
d'adopter une nouvelle peinture, dont le prix est de 4,50 $ le litre, mais
dont le pouvoir couvrant est possiblement suprieur.

8 Estimation

273

Avec la nouvelle peinture, on peint 10 panneaux, et on mesure avec soin


la quantit de peinture employe pour chacun. Voici les rsultats, en
litres :
0,65

0,62

0,58

0,54

0,56

0,52

0,53

0,59

0,63

0,61

a) Dterminez un intervalle de confiance pour la quantit moyenne de


nouvelle peinture requise pour peindre un panneau (prendre
D = 5 %).
b) Dterminez un intervalle de confiance pour l'pargne moyenne par
panneau qui rsulterait de l'emploi de la nouvelle peinture (prendre
D = 5 %).
c) Dterminez un intervalle de confiance pour le montant de l'pargne
annuelle si on peint 2 000 panneaux par anne (prendre D = 5 %).
27. Dans un chantillon de 300 hommes, on a trouv 90 fumeurs. Dans un
autre chantillon, form de 100 femmes, on a trouv 20 fumeuses.
a) Estimez, par des intervalles de confiance de niveau 95 % chacune des
proportions ph et pf de fumeurs chez les hommes et chez les femmes.
b) Utilisant le fait que les hommes forment 49,3 % de la population (et
les femmes 50,7 %), estimez la proportion p de fumeurs dans la
population. Dterminez V p , V p et dterminez un intervalle de
confiance de niveau 95 % pour p.
*28. Pour chacun de 15 couples maris choisis au hasard on a observ l'ge
de l'poux (X) et l'ge de l'pouse (Y). On a obtenu les donnes du tableau
suivant

TABLEAU 8.3

X (poux)

Y (pouse)

X (poux)

Y (pouse)

X (poux)

Y (pouse)

37

32

39

28

61

55

65

64

25

22

43

42

23

23

40

43

52

47

36

37

45

39

34

33

54

51

31

30

48

51

274

Introduction la statistique applique

On veut estimer la diffrence moyenne T = PX PY entre l'ge d'un poux


et celui de son pouse (par un intervalle de confiance de niveau 90 %).
a) Posez W = X Y et calculez les 15 valeurs de Wi. Estimez T par T =
2

W et V T par V W . Quel intervalle de confiance obtenez-vous ?

b) Un statisticien amateur estime T par T = W  Y et V T2 par V X2 + V Y2 .


Comparez l'cart-type V T qu'il utilise avec celui obtenu en a). Quelle
erreur a-t-il commise ?

Tests d'hypothses

9.1
9.2
9.3
9.4

9.5

Test d'hypothse sur une proportion


Test sur l'galit de deux proportions
x Cas o les donnes sont apparies
Test d'hypothse sur une moyenne
Test sur l'galit de deux moyennes
x Cas o les variances sont supposes gales
x Cas o les donnes sont apparies
Test d'hypothse sur un paramtre T quelconque
x Test sur l'galit de Tx et Ty
RSUM
EXERCICES

276

Introduction la statistique applique

Introduction Nous avons dj trait, dans les premiers chapitres, de certains


tests d'hypothse : les tests bass sur le calcul de F2 ou sur celui du
coefficient de corrlation r. Chaque fois, une hypothse (appele hypothse
nulle et note H0) tait mise et on se permettait de la rejeter si les rsultats
chantillonnaux s'cartaient trop de ce que l'hypothse permettait de prvoir.
Nous allons maintenant tudier les tests d'hypothse de faon plus
systmatique, sans manquer l'occasion d'en mettre en lumire les
mcanismes mthodologiques. Il n'est peut-tre pas inutile en effet de
rappeler que toute dmarche scientifique (et cela s'entend aussi bien des
sciences physiques que des sciences humaines) procde selon le mme
schma : nonc d'une hypothse, collecte de donnes exprimentales qui
constituent l'chantillon, acceptation ou rejet de l'hypothse partir de la
comparaison entre les donnes de l'chantillon et les rsultats prdits par
l'hypothse. Tire de considrations et de calculs probabilistes, la conclusion
est assortie d'une marge d'erreur, dont on fixe le seuil au dpart.
Ce chapitre est donc au cur de ce manuel, comme la matire qu'il traite est
au cur de la statistique. Hors son importance dans toute dmarche
exprimentale, il est aussi l'occasion d'utiliser fond les techniques
mathmatiques dveloppes dans les chapitres prcdents et (nous
l'esprons) de mieux en apprcier le contenu et la porte. Nous dveloppons
maintenant l'exemple d'une situation qui va nous permettre d'illustrer les
ides et de faire la synthse des techniques propres aux tests d'hypothse.
Nous allons donc supposer qu'une conserverie met sur le march des botes
de petits pois, dont l'tiquette indique que le contenu pse 400 g. Soucieux
de l'image de la compagnie et de sa marge de profit le directeur de la mise
en march se propose de vrifier si le poids rel est bien tel que prtendu. Il
procdera alors selon les grandes tapes suivantes :
1. noncer clairement une hypothse tester. Bien entendu, son hypothse
ici est que le poids moyen P de toute sa production (la population) est de
400 g. H0 : P = 400 g. En gnral, les tests simples usuels sont de ce
type : ils proposent une hypothse qui attribue une valeur dtermine au
paramtre tudi.
H0 : T = T0.

9 Tests d'hypothses

277

2. Se donner un risque d'erreur (D). Au-del d'un certain contenu intuitif, ce


nombre D a d'abord un sens mathmatique, de nature probabiliste, que
nous prcisons plus loin.
3. Tirer un chantillon de la population en gnral et, ici, de la production
totale. Comme nous le verrons au chapitre 10, il y a diverses faons de le
faire ; dans tous les cas, un chantillon devra tre un reflet fidle de la
population.
4. Calculer un estimateur du paramtre. Ici, il s'agira de l'estimateur de P, le
poids moyen X des botes dans l'chantillon. En gnral, on notera T
cet estimateur pour le paramtre T tudi.
5. tudier l'cart entre T0 et T . Si cet cart est grand, l'hypothse H0 sera
rejete ; si cet cart est petit, l'hypothse sera accepte (ou non rejete).
La dlimitation prcise des mots petit et grand dpend du risque D
et est value par un calcul de probabilit. De faon globale, un intervalle
est form autour de T0 et l'on convient que les valeurs de T l'intrieur
de cet intervalle sont proches de T0 (rgion d'acceptation de
l'hypothse) ; les valeurs de T hors de cet intervalle mnent au rejet de
l'hypothse.
acceptation de H0

T0
cart trop grand entre T et T 0

6. Tirer une conclusion. On aura donc rejet H0 ou t dans l'impossibilit de


le faire ; dans ce dernier cas, on affirme, en gnral, avoir accept H0.
Selon le cas, deux types d'erreur sont possibles : on peut rejeter H0 mme
si elle est vraie (risque D), ou encore on peut accepter H0, alors qu'elle est
fausse. Ce second type d'erreur est plus malais valuer, puisqu'il
dpend du degr de fausset de H0. Ces deux risques d'erreur sont, en
gnral, opposs : plus on prend D petit et plus l'on court de risques
d'accepter une hypothse nulle fausse ; inversement, si l'on prend D trop
grand, on risque de rejeter une hypothse nulle vraie.
Pour en terminer avec les petits pois, on voit donc que selon la valeur
observe de X , celui qui mne l'exprience

278

Introduction la statistique applique

x

ou bien rejettera H0 et conclura que les botes sont trop lourdes ou trop
lgres ; peut-tre fera-t-il recalibrer la chane de production (ou rcrire
les tiquettes ... ). Dans tous les cas, s'il se trompe il occasionnera la
compagnie des frais inutiles ; c'est cette erreur qui a probabilit D ;

x

ou bien ne rejettera pas H0 et conclura que le poids marqu est vraisemblablement correct. Il risque alors de continuer inonder le march de
botes trop lourdes (pertes importantes) ou trop lgres, abusant de la
bonne foi des consommateurs. La probabilit de ce type d'erreur n'est
pas contrle.

Maintenant, nous allons voir comment ces principes gnraux s'appliquent


dans des cas particuliers.

9.1

TEST D'HYPOTHSE SUR UNE PROPORTION

Exemple 1

En 10 000 naissances, on a observ 4 852 filles (et 5 148 garons).


L'hypothse d'quiprobabilit (p = 1/2) est-elle vraisemblable ?
Solution : L'hypothse nulle, si elle est vraie, est telle que le nombre X de
filles doit tre de loi B(10 000, 1/2), c'est--dire de loi approximativement
N(5 000, 2 500). La valeur observe, X = 4 852, est prs de 3 carts-types
gauche de P, valeur statistiquement incompatible avec l'hypothse nulle qui
est rejete.
Le mme test aurait pu tre obtenu en calculant la valeur de p . Sous
l'hypothse nulle, p devrait tre de loi N(1/2, pq/n) = N(1/2, 1/40 000).
Encore une fois, la valeur de p = 0,485 2 se trouve prs de 3 carts-types
gauche de P = 1/2. L'hypothse nulle est rejeter.
On aurait pu aussi utiliser le test du khi-deux, vu au chapitre 1. L'hypothse, encore, aurait t rejete.
i
Prsente dans un cadre plus gnral et plus formel, la situation est la
suivante : on observe une variable X de loi B(n, p) o n est connu et p est
inconnu. On met l'hypothse nulle H0 : p = p0 o p0 est un nombre donn.
On convient l'avance d'un risque D. On sait dj que, si H0 est vraie,
p = X/n sera approximativement de loi N(p0, p0q0/n) o q0 = 1 p0.
Autrement dit, si H0 est vraie, on aura que :

9 Tests d'hypothses

n ( p  p 0 )

279

sera approximativement de loi N(0, 1).

p0 q 0

L'hypothse nulle sera rejete si Z est trop grand ou trop petit, c'est--dire si
Z est hors de l'intervalle (cD, cD) o cD est tel que P(cD < N(0, 1) < cD = 1-D.
H0 est rejete si |Z| ! cD ;
H0 est accept si |Z| d cD.

Cette procdure peut tre aussi prsente sous la forme :


H0 est rejete si | p  p 0 | !

cD

H0 est accepte si | p  p 0 | d
Exemple 2

p0 q 0

n
cD

p0 q 0

On met l'hypothse que 25 % des gens, dans la population, sont gauchers.


Tester cette hypothse avec un risque D = 10 % en utilisant le fait qu'un
chantillon de 120 personnes a donn 18 gauchers.
Solution : On a ici p0 = 0,25, p = 18/120 = 0,15.
Aussi, puisque D = 10%, on prend CD = 1,645. On obtient donc que
cD

p0 q 0 / n

0 , 065 .

Puisque | p p0| = |0,15 0,25| = 0,10 > 0,065, on doit rejeter l'hypothse
nulle. En conclusion, la proportion vritable de gauchers n'est pas 25 % ;
elle est vraisemblablement plus petite.
i
Remarque L'hypothse nulle H0 : p = p0 peut aussi tre teste au moyen de
2
2
F
6 (O  T ) / T . Dans l'exemple 2, on a O1 = 18, O2 = 120 18 = 102,
T1 = 120p0 = 30, T2 = 120q0 = 90 et on trouve F2 = 6,4. On peut montrer que F2
est algbriquement quivalent au carr de Z = ( p p0)/ p 0 q 0 / n et observer
que le point critique pour F2, 2,706, est exactement le carr du point critique
utilis pour Z, soit 1,645. Les deux tests sont donc rigoureusement
quivalents.

280

Introduction la statistique applique

Remarque En utilisant les donnes de l'exemple 2 on obtient, pour p,


l'intervalle de confiance p r c D

p q / n = (0,096; 0,204). La valeur p0 = 0,25,

propose par l'hypothse nulle, n'est pas dans l'intervalle de confiance :


l'hypothse nulle est donc rejete. Il convient d'observer que, dans le calcul de
l'intervalle de confiance, l'cart-type de p , V p
V p

pq / n , a t approxim par

p q / n alors que, pour le test, on utilise plutt la valeur

p 0 q 0 / n . Il peut

donc arriver que, dans certains cas o la dcision est serre, les deux
mthodes ne mnent pas rigoureusement la mme conclusion.

9.2

TEST SUR L'GALIT DE DEUX PROPORTIONS


Lorsqu'on considre deux populations diffrentes, le problme se pose
souvent de savoir si ces deux populations admettent une mme distribution
commune. C'est en comparant deux chantillons, issus de chacune de ces
populations, qu'on pourra accepter ou non l'hypothse selon laquelle les
distributions sont identiques.
Si aucune supposition n'est faite concernant la forme des distributions
compares, le test d'indpendance bas sur le calcul de F2 vu au chapitre 3,
permet d'atteindre une conclusion. Si, comme c'est souvent le cas, on sait
quel genre de loi on a affaire (loi binomiale, par exemple) il vaut mieux tirer
profit de cette information et utiliser un test dans lequel on compare
directement les estimateurs des paramtres qu'on obtient de chacun des
chantillons.

Exemple 3

Dans son dition du 30 mars 1987, la revue TIME rapportait les rsultats
d'une tude effectue par des chercheurs de l'Universit du Maryland et de
l'Universit de Pennsylvanie et qui portait sur le taux de mortalit de
92 patients atteints de troubles cardiaques srieux. 53 de ces patients
possdaient un animal familier (chien, chat, poissons rouges, ... ) ; 3 de ces
patients ont survcu moins d'un an. Parmi les 39 patients qui ne
possdaient pas d'animal familier, 11 sont dcds durant la mme priode
d'un an. Les probabilits de dcs sont-elles gales pour les deux groupes ?
Les rsultats exprimentaux donnent p = 3/53 = 0,057 pour ceux qui
possdent un animal et p = 11/39 = 0,282 pour ceux qui n'en ont pas.
Compte tenu des tailles des deux chantillons, l'cart est-il significatif ?
Nous y reviendrons plus loin, quand nous aurons dvelopp un test qui
permettra de rpondre cette question.
i

9 Tests d'hypothses

281

Considrons deux variables alatoires X et Y, chacune de loi binomiale, X est


B(nX, pX) et Y est B(nY, pY). On veut tester l'hypothse

H0 : pX = pY.

On sait dj que px et py peuvent tre estims par les frquences


chantillonnales p X X / n X et p Y Y / n Y . C'est en comparant p X et p Y
qu'on pourra dtecter si les paramtres pX et pY sont gaux ou non.
L'hypothse selon laquelle ils sont gaux sera rejete si la distance entre p X
et p Y est significativement grande.
On sait dj que, si les tailles nX et nY des deux chantillons sont grandes,
alors
p X est approximativement de loi N ( p X , V p2 ) o V p2
X

et

p Y est approximativement de loi N ( pY , V p2 ) o V p2


Y

pX qX
nX

pY q Y

nY

Puisqu'ils sont issus de deux chantillons diffrents, les estimateurs p X et


p Y sont indpendants et on obtient que :
p X p Y est approximativement de loi N ( p X  pY , V p2

 V p2 ) ,
Y

ce qui entrane que

p X  p Y  ( p X  pY )
V p2

est approximativement de loi N(0, 1).

 V p2

Les variances V p2 et V p2 , qui paraissent au dnominateur, peuvent tre


X

estimes par V p2
grands,

p X q X / n X et V p2

p Y q Y / n Y et on obtient, si nx et ny sont

282

Introduction la statistique applique

p X  p Y  ( p X  pY )
V p2

est approximativement de loi N(0, 1).

 V p2

Si l'hypothse H0 : px = py est vraie, le terme (px py), qui parat au


numrateur de l'expression prcdente, prend valeur zro. Il s'ensuit donc
que, si H0 est vraie, la variable
Z

p X  p Y
V p2

p X  p Y
2

 V p

p X q X

nX

est approximativement de loi N(0, 1).

p Y q Y
nY

On obtient donc un test de risque D en convenant de rejeter l'hypothse H0 :


px = pY si |Z| > CD,o CD est choisi tel que P (  c D  N ( 0 , 1)  c D ) 1  D .
Exemple 4

Reprenons l'exemple 3 o on l'avait laiss. Parmi les nX = 53 patients qui


possdent un animal familier, 3 sont dcds, ce qui donne pX = 0,057.
Parmi les nY = 39 patients qui ne possdent pas d'animal familier, 11 sont
dcds et on a p Y = 0,282. On trouve donc que
Z

p X  p Y
p X q X
nX

0 , 057  0 , 282

p Y q Y

2 , 86 .

0 , 001 01  0 , 005 19

nY

Mme en prenant D = 1 % (et cD = 2,576) on a |Z| > cD, ce qui conduit au


rejet de H0 : pX = pY. Le taux de mortalit est significativement plus faible
chez les patients qui possdent un animal familier. L'interprtation de cette
conclusion ne relve plus des mathmatiques...
i

Cas o les donnes sont apparies Il arrive parfois que les donnes soient
prleves de telle sorte qu'on doive tester l'hypothse H0 : pX = pY d'une autre
faon. Ce sera le cas, par exemple, si les donnes sont apparies,
c'est--dire, si c'est le mme chantillon qui a servi estimer chacune des
deux proportions pX et pY .
Exemple 5

Supposons qu'on veuille tester si la proportion pX des foyers qui possdent


un four micro-ondes est gale la proportion pY des foyers qui possdent
un magntoscope. Lors d'un sondage portant sur 773 foyers, on a obtenu
pX = 502/773 = 0,649 et pY = 478/773 = 0,618. Pour tester H0 : pX = pY, il

9 Tests d'hypothses

283

serait incorrect d'utiliser le test prcdent qui n'est valide que si les
estimateurs pX et pY sont indpendants, ce qui n'est pas le cas ici , car c'est
le mme chantillon de foyers qui a servi estimer pX et pY. Intuitivement,
les familles riches ont beaucoup de chances de possder les deux
appareils alors que les familles pauvres ont beaucoup de chances de n'en
possder aucun. Pour un foyer tir au hasard, les deux variables qualitatives
possder un four micro-ondes et possder un magntoscope sont
sans doute dpendantes.
La probabilit pX qu'un foyer possde un four micro-ondes est la somme de
deux composantes :
pX = P(possder les deux appareils) + P(four et pas de magntoscope).
De mme, on a
pY = P(possder les deux appareils) + P(magntoscope et pas de four).
L'hypothse nulle H0 : pX = pY peut donc tre reformule d'une autre faon :
H0 : P(four et pas de magntoscope) = P(magntoscope et pas de four).
Pour tester H0, nous ne considrons donc que le sous-chantillon form des
foyers qui possdent un des appareils et ne possdent pas l'autre et nous
allons tester si, parmi ces foyers particuliers, la probabilit p qu'il soit du
type four et pas de magntoscope est gale 1/2. L'hypothse nulle H0 :
pX = pY est devenue H0 : p = 1/2 et l'chantillon a t rduit aux seuls foyers
qui ne possdent qu'un des deux appareils.
Le tableau suivant indique la distribution conjointe des deux variables, pour
les 773 foyers formant l'chantillon :

Pas de magntoscope
Magntoscope
TOTAL

Pas de four M.-O.

Four M.-O.

TOTAL

231

64

295

40

438

478

271

502

773

Parmi les 773 foyers qui forment l'chantillon complet, on en trouve


64 + 40 = 104 qui ne possdent qu'un seul des deux appareils. Dans ce souschantillon de taille n = 104, une proportion p = 64/104 = 0,615 sont du type
four et pas de magntoscope . Pour tester l'hypothse H0 : p = p0 = 1/2, il
suffit de comparer Z

n ( p  p 0 ) / p 0 q 0 avec le point critique cD, qui, si on

prend D = 5 %, vaut 1,960. On obtient

284

Introduction la statistique applique

104 ( 0 , 615  0 , 5 ) / 1

2 , 35 .

Puisque |Z| > cD, l'hypothse nulle est rejete et on conclut que plus de
foyers possdent un four micro-ondes qu'un magntoscope. Remarquons
que si l'on avait (erronment) fait comme si pX et pY taient indpendants, on
aurait obtenu
Z

( p X  p Y ) / p X q X / n X  p Y q Y / n Y

1, 27

et l'hypothse nulle n'aurait pas t rejete.

9.3

TEST D'HYPOTHSE SUR UNE MOYENNE


Considrons un chantillon X1, X2, .... Xn, form de variables (de loi non
spcifie) dont la moyenne thorique P et la variance thorique V2 sont
inconnues. On veut tester l'hypothse nulle

H0 : P

P0

o P0 est un certain nombre donn.


L'estimateur naturel pour P est P
n suffisamment grand,

X P
V

o V 2

1
n 1

X P

X et, comme on a vu au chapitre 8, pour

est pratiquement de loi N(0, 1).

V / n

6 ( X i  X ) 2 est l'estimateur de V2.

Nous savons aussi que, si les observations X1, X2, .... Xn sont de loi normale,
X P
V

X P
V / n

est exactement de loi tQ (Student, avec Q = n 1).

9 Tests d'hypothses

285

Mme si les variables X1, X2, .... Xn ne sont pas rigoureusement de loi
normale, il est prfrable d'utiliser quand mme la loi de Student (plutt que
la loi normale) car elle conduit gnralement des rsultats plus prs des
valeurs exactes. C'est ce que nous ferons dans toute la suite en traitant le
cas d'un chantillon de loi non spcifie comme s'il s'agissait d'un
chantillon de loi normale et en laissant sous-entendu que si l'chantillon
est vraiment de loi normale, les rsultats seront exacts, mme pour les
petites valeurs de n.
Si l'hypothse H0 : P = P0 est vraie, on peut donc considrer que, si n est
assez grand, la variable

X  P0
V

X  P0
V / n

est pratiquement de loi tQ (Student, avec Q = n 1).

L'hypothse nulle sera rejete si T est trop grand ou trop petit, c'est--dire si
T est hors de l'intervalle (cD, cD) o cD est tel que P(cD < tn1 < cD) = 1 D.
H0 est rejete si |T| > cD.
H0 est accepte si |T| d cD.
Cette procdure peut aussi tre prsente sous la forme :
H 0 est rejete si | X  P 0 |

c D V

H 0 est accepte si | X  P 0 |d

Exemple 6

n
c D V

Des expriences passes ont permis de dterminer que le temps moyen de


sommeil des gens est de 7,7 heures. Une compagnie pharmaceutique,
voulant tester la valeur d'un nouveau somnifre, a effectu des expriences.
Un chantillon de taille 10, o le somnifre a t utilis, a donn les
rsutats :
7,8 8,3 7,2 9,1 8,4 6,8 7,3 7,7 8,9 9,2
Tester, avec D = 5 %, l'hypothse selon laquelle le nouveau somnifre n'a
aucun effet sur la dure moyenne du sommeil, c'est--dire H0 : P = P0 = 7,7.

286

Introduction la statistique applique

Solution : n = 10, 6X i = 80,7 et 6X i2 = 657,61, ce qui donne X = 8,07 et


V = 0,840 7. De ces valeurs on obtient
T

n ( X  P0 )

10 ( 8 , 07  7 , 7 )

1, 392.

0 , 840 7

Puisque Q = n 1 = 9 et D = 5 %, on obtient, de la table de la loi de Student,


cD = 2,262.
Puisque |T| < cD, l'hypothse nulle n'est pas rejete. Rien ne prouve que le
somnifre modifie la dure du sommeil.
i

9.4

TEST SUR L'GALIT DE DEUX MOYENNES


Un des problmes statistiques les plus frquemment rencontrs est celui de
pouvoir tester l'hypothse selon laquelle, pour deux populations diffrentes,
une certaine variable prend, en moyenne, la mme valeur. On dispose de
deux chantillons, X1, X2, ..., XnX, et Y1, Y2, ..., YnY, provenant de chacune des
deux populations, et l'hypothse nulle qu'on veut tester est H0 : PX = PY.

Exemple 7

On veut savoir si deux espces de poules, l'espce A et l'espce B, pondent


des ufs de mme calibre. Le poids moyen de 50 ufs provenant de poules
de l'espce A, est de 52,4 grammes, celui de 80 ufs provenant de l'espce B
est de 54,3 grammes. L'cart de 1,9 grammes observ entre ces deux
moyennes est-il suffisamment grand pour qu'on puisse rejeter l'hypothse
selon laquelle les poids moyens thoriques PX et PY sont gaux ? Tel que pos,
ce problme n'a pas de solution car il y manque une information cruciale : la
dispersion des observations. L'cart de 1,9 observ entre X et Y sera jug
grand (ou petit) selon que, dans les chantillons, les observations sont
fortement concentres (ou largement disperses). Nous y reviendrons plus
loin, aprs avoir dvelopp les formules pertinentes.
i
Considrons deux chantillons indpendants X1, X2, ..., XnX, et Y1, Y2, ..., YnY,
de lois non spcifies, et pour lesquelles les moyennes et les variances
thoriques PX, PY, V X2 et V Y2 sont inconnues. On veut tester l'hypothse nulle
H0 : P X

PY .

On sait que si les tailles nx et ny des chantillons sont grandes, les moyennes
exprimentales X et Y sont approximativement de lois N ( P X , V X2 n X ) et
N ( P Y , V Y2 n Y ) , respectivement. X et Y tant indpendants, on obtient que

9 Tests d'hypothses
2
2

V
V
X  Y est approximativement de loi N P X  P Y , X  Y

nX
nY

287

d'o il vient que


X  Y  ( P X  PY )
V X2

nX

est approximativement de loi N(0, 1).

V Y2
nY

Si l'hypothse H 0 : P X

PY

est vraie, le terme ( P X

PY )

qui parat au

numrateur de l'expression prcdente disparat et on obtient que


X Y
V 2X

nX

est approximativement de loi N(0, 1).

V Y2
nY

Si nx et ny sont grands, les variances inconnues V 2X et V Y2 qui paraissent au


dnominateur peuvent tre remplaces par leurs valeurs estimes V 2X et
V Y2 . On obtient donc que, si H0 est vraie,

X Y
V X2
nX

est approximativement de loi N(0, 1).

V Y2
nY

L'hypothse nulle sera rejete si Z prend une valeur trop grande ou trop
petite, c'est--dire, si Z est hors de l'intervalle (cD,cD) o cD, est tel que
P(cD < N(0, 1) < cD) = 1 D.
H0 est rejete si |Z| > cD.
H0 est accepte si |Z| < cD.
Cette procdure peut aussi tre prsente sous la forme

288

Introduction la statistique applique

H0 est rejete si | X  Y | ! c D

H0 est accepte si | X  Y | d c D
Exemple 8

2
V X

nX
V X2
nX

2
V Y

nY

V Y2

nY

Reprenons l'exemple 7 dans lequel on voulait savoir si deux espces de


poules pondaient des ufs de poids moyen identiques. Avec nx 50 et ny = 80,
on avait obtenu X = 52,4 et Y = 54,3.
a) quelle conclusion arrive-t-on si V X = 2,7 et V Y = 4,5 ? (prendre
D = 5 %).
b) quelle conclusion arrive-t-on si V X = 10,6 et V Y = 7,4 ? (prendre
D = 5 %).
Solution : Avec D = 5 %, on prend cD = 1,960. L'hypothse nulle est
H0 : P X
PY .
a) On trouve
Z

( X Y )

V 2 / n X  V 2 / n Y
X

 1, 9

0 ,145 8  0 , 253 1

3 , 01 .

Puisque |Z| > cD, l'hypothse nulle est rejete. Les poules de l'espce B
pondent des ufs significativement plus lourds que celles de l'espce A.
b) On trouve maintenant Z

 1, 9

2 , 247 2  0 , 684 5

1,11 . Puisque |Z| < cD,

l'hypothse nulle est accepte. La diffrence entre X et Y est aisment


explique par le hasard.
i

Cas o les variances sont supposes gales Il arrive frquemment qu'il soit
naturel de supposer que les variances inconnues V 2X et V Y2 sont gales. Ce
sera le cas, par exemple, si l'on veut tester l'efficacit d'un engrais agricole,
d'un mdicament, d'un traitement particulier. On peut alors supposer que
l'engrais ou le mdicament n'agit que sur la moyenne de la variable mesure,
ne fait que dplacer la courbe des donnes sans en affecter la dispersion.

9 Tests d'hypothses

289

Quand les variances V 2X et V Y2 sont gales, on n'a plus les distinguer ;


chacune est gale au mme V 2 . Alors, X  Y est approximativement de loi

N P X  P Y , V 2 ( n1 
X

1
nY

) . Si H 0 : P X

X Y
V

1
nX

P Y est vraie,

est approximativement de loi N(0, 1).


1
nY

La variance commune V 2 peut tre estime au moyen d'une moyenne


pondre des deux estimateurs V 2X et V Y2 . On pose
( n X  1)V 2X  ( n Y  1)V Y2

V 2

n X  nY  2
6 ( X i  X ) 2  6 (Y i  Y ) 2
n X  nY  2
6X i2  n X X 2  6Y i 2  n Y Y

n X  nY  2

On peut montrer que cet estimateur est sans biais pour V 2 . On peut aussi
montrer que si les observations Xi et Yi sont de loi normale (et si H0 est vraie),
X Y

T
V

1
nX

est exactement de loi tQ.


1
nY

n x  nY  2.

290

Introduction la statistique applique

D'autres formes quivalentes pour T sont :


T

X Y

n X nY

n X  nY

L'hypothse nulle sera rejete si T prend une valeur trop grande ou trop
petite, c'est--dire, si T est hors de l'intervalle (cD,cD) o cD est tel que
P ( cD  t n

 nY  2

 cD

1 D .

Si les observations sont de loi normale, le cD obtenu de la table de la loi de


Student (avec Q = nx + ny 2) conduit un test rigoureusement exact. Si les
observations ne sont pas de loi normale, on prfre prendre quand mme le
cD dans la table de la loi de Student plutt que dans celle de la loi normale.
Exemple 9

Un jardinier amateur veut savoir si l'engrais qu'il utilise pour ses plants de
tomates est vraiment efficace. Pour ce faire, il a priv d'engrais 2 de ses
plants de tomates, choisis au hasard en dbut de saison, et n'a donn de
l'engrais qu'aux 6 autres plants. Au moment de la cueillette, il a pes la
production de chaque plant.
Les plants sans engrais ont fourni respectivement 12,3 et 13,6 kg de
tomates. Pour les plants traits l'engrais, les rsultats, en kilogrammes,
ont t : 14,1, 12,8, 15,1, 13,7, 13,4 et 15,4.
En supposant que l'engrais n'agit que sur P sans affecter V, tester, avec
D = 10 %, l'hypothse selon laquelle l'engrais n'a aucun effet.
Solution : Notant par X les productions des plants sans engrais et par Y
celles des plants traits l'engrais, on trouve :
nX

2, X

12 , 95 , V X2

0 , 845 , n Y

6, Y

14 , 08 , V Y2

1, 006

d'o on obtient que V 2 = 0,979 et T = 1,40.


Avec D = 10 % et Q = nx + ny 2 = 6, la table de la loi de Student donne
cD = 1,943.
Enfin, puisque |T| < cD, l'hypothse H 0 : P X
observ entre X et Y n'est pas significatif.

P Y ne peut tre rejete. L'cart

Remarque Quand les variables sont normales, l'emploi de la loi de Student


pour la dtermination de cD permet d'obtenir un test exact (c'est--dire : dont le
risque rel est exactement le risque D dsir) seulement dans le cas o les

9 Tests d'hypothses

291

variances inconnues sont supposes gales. Si l'on ne fait pas cette


supposition, l'obtention d'un test exact est beaucoup plus difficile et on doit se
contenter d'appliquer le test approximatif dvelopp au dbut de la prsente
section. Soulignons que, pour plus de scurit, on prfre parfois ne pas
utiliser la loi normale mais tirer plutt le cD de la loi de Student o le nombre
de degrs de libert sera le plus petit des deux nombres nx 1 et ny 1.

Cas o les donnes sont apparies Il est souvent avantageux par exemple,
quand on veut savoir si un certain traitement a un effet rel ou non
d'utiliser les mmes units statistiques (les mmes individus) pour mesurer
sur chacun la fois X et Y, la valeur avec traitement et la valeur sans
traitement.
Les deux chantillons sont alors ncessairement de mme taille (nx = ny = n)
et l'hypothse selon laquelle le traitement est sans effet est H0 : PX = PY .
Dans un tel contexte exprimental, chacun des chantillons X1, X2, , Xn, et
Y1, Y2, , Yn, est bien form de variables indpendantes entre elles mais,
d'un chantillon l'autre, la condition d'indpendance n'est plus satisfaite.
La mesure Xi et la mesure Yi provenant toutes deux du mme individu, tout
porte croire qu'elles seront vraisemblablement lies l'une l'autre. Pour
tester H0 : PX = PY, il est donc hors de question d'utiliser les tests qui
viennent d'tre dvelopps, qui ne sont valides que si les deux chantillons
sont indpendants l'un de l'autre. Quand les donnes sont apparies, le test
qu'il convient d'appliquer est, en fait, plus simple que celui qui suppose
l'indpendance : il suffit de calculer, pour chaque individu, l'effet du
traitement

Wi = Xi - Yi

L'hypothse nulle H0 : PX = PY devient alors

H0 : PW = 0

292

Introduction la statistique applique

et le test sur l'galit de deux moyennes est remplac par un test


paramtrique portant sur une seule moyenne, celle de W. Pour tester
H0 : PW = 0, il suffit donc d'appliquer les techniques dveloppes la section
9.3, c'est--dire, calculer
W  P0

V W

o V W2

2
( 6W i  nW

nW
V W

) ( n  1) , puis

rejeter H0 si |T| > cD


ou accepter H0 si |T| d cD
o cD est tel que P(cD < tn-1 < cD) = 1 D.
Exemple 10 Dix individus ont t pess avant et aprs avoir cess de fumer durant une
priode d'un mois. Les donnes recueillies sont celles du tableau suivant :
i

10

Poids avant (Y kg)

78

70

90

81

55

68

76

60

73

74

Poids aprs (X kg)

78

69

92

83

55

72

74

63

74

76

Tester, avec D = 10 %, l'hypothse selon laquelle le fait de cesser de fumer


n'a aucun effet sur le poids.
Solution Les gains de poids Wi = Xi - Yi, pour chacun des 10 individus, sont
0

On trouve 6W i
T

nW V W

11, 6W i 2

0
43 , W

4
2
1,1, V W

2
3 , 433 , V W

1, 853 , ce qui donne

1, 877 .

Avec Q = n 1 = 9 et D = 10 %, la table de la loi de Student donne cD = 1,833.


Puisque |T| > cD, l'hypothse nulle est rejete (de justesse !). Le fait de cesser
de fumer semble avoir un effet rel sur le poids. Remarquons que si l'on
avait (erronment) trait les deux chantillons initiaux comme s'ils taient
indpendants, on aurait grossirement surestim la variance de W X  Y en
calculant V 2X n X  V Y2 n Y (103 , 82 10 )  (101, 39 10 ) 20 , 521 , valeur prs de 6
fois trop grande et qui aurait conduit une acceptation fautive de H0.

9 Tests d'hypothses

9.5

293

TEST D'HYPOTHSE SUR UN PARAMTRE T QUELCONQUE


Ici encore, les concepts dj dvelopps dans le chapitre 8 dans un contexte
d'estimation se transposent directement dans le prsent contexte de test
d'hypothse.
On dispose d'un chantillon X1, X2, ..., Xn, de loi spcifie (Poisson, gomtrique, etc. ; on a dj trait le cas binomial) dont la distribution prcise
dpend d'un certain paramtre que nous notons T. Dans le cas binomial, T
tient lieu de p ; dans le cas d'une loi de Poisson, T reprsente O. On suppose
que seul T est inconnu et on veut tester
H0 : T = T0 o T0 est un nombre donn.
On dispose d'un estimateur convenable T dont on sait exprimer la variance
V 2 en fonction de T (et de n). On suppose aussi, que, pour n grand, T est
T
approximativement de loi N(T, V T2 ) ; cette supposition est habituellement
satisfaite si T est dfini en fonction, par exemple, de la somme des Xi. On a
alors que

T  T
V

est approximativement de loi N(0, 1).

Si l'hypothse nulle est vraie, T = T0 et on a que

T  T 0
V

est approximativement de loi N(0, 1),

o V

est connue puisqu'on sait exprimer V 2 en fonction de T et qu'on


T

connat la valeur de T, gale T0 (si l'hypothse nulle est vraie).

294

Introduction la statistique applique

Il ne reste plus qu'


rejeter H0 si |Z| > cD
ou accepter H0 si |Z| d cD
o cD, est tel que P(cD < N(0, 1) < cD) = 1 D.
C'est prcisment ce qui a t fait dans le cas du paramtre p de la loi
binomiale et qu'on peut faire maintenant pour plusieurs autres lois.
Exemple 11 Dans une certaine ville, il se produit, en moyenne 2,3 vols par effraction par
jour. Depuis 50 jours une campagne d'information sur les moyens de
prvention est en cours, Durant cette priode, il s'est produit 91 vols.
Peut-on conclure que la campagne a eu un effet rel ?
Solution : Le nombre X d'vnements (vols) qui se produisent durant une
certaine priode de temps devrait suivre une loi de Poisson. Si l'on note par X1,
X2, .... Xn les nombres de vols qui ont eu lieu chaque jour, chacun de ces X1
devrait suivre une loi Poisson(O) o, si l'hypothse nulle est vraie, O = O0 = 2,3.
L'estimateur naturel de O est O

O  O 0

X et V 2
O

V 2X

O n . Si H0 est vraie,

devrait tre de loi N(0, 1).

O0 n

Il ne reste plus qu' voir si |Z| > cD, puis dcider, selon le cas, de rejeter ou
d'accepter l'hypothse nulle.
Dans notre exemple, n = 50, O0 = 2,3 et 6Xi = 91, ce qui donne O = X = 91/50 =
1,82 et Z - (1,82 2,3)/ 2, 3 50 = 2,24. Avec D = 5 %, on a cD = 1,96 et

l'hypothse nulle est rejete. La campagne d'information a un effet rel.

Test sur l'galit de Tx et Ty Encore une fois, la loi est spcifie et on compare
deux populations pour savoir si, chez chacune, le paramtre T a la mme
valeur. On dispose de deux chantillons indpendants X1X, X2, ..., Xn et Yl,
Y2, ..., YnY, qui fournissent les estimateurs T X et TY . On suppose que ces
deux estimateurs sont approximativement de lois
N T X , V 2 et N T Y , V 2
TY
TX

9 Tests d'hypothses

295

et que, par consquent,

T X  TY  (T X  T Y )
V 2

TX

V

est approximativement de loi N(0, 1).

2
T

On suppose aussi que

T X  TY  (T X  T Y )
V 2

TX

o V 2

TX

est approximativement de loi N(0, 1),

 V 2

TY

est l'estimateur de V 2

TX

obtenu en remplaant Tx par T X dans la

formule qui exprime Var( T X ) en fonction de Tx et de nx (et V 2

TY

est obtenu de

faon analogue).
Si l'hypothse nulle H0 : TX = TY est vraie, le terme Tx Ty disparat et on
obtient que

T X  TY
V 2

TX

est approximativement de loi N(O, 1).

2
 V

TY

Il ne reste qu'

rejeter H0 si |Z| > cD


ou accepter H0 si |Z| d cD

296

Introduction la statistique applique

Exemple 12 On suppose que la dure de vie (en heures) d'une certaine pice de
machinerie se distribue selon une loi exponentielle, que 10 pices de marque
A, mises l'preuve, ont dur, en moyenne, 8,4 heures et que 15 pices de
marque B ont dur, en moyenne, 12,3 heures. L'hypothse selon laquelle les
deux marques sont de mme qualit doit-elle tre rejete ? Prendre D = 5 %.
Solution : On sait que l'esprance et la variance d'une variable de loi Exp(T)
sont, respectivement, T et T 2. L'estimateur T X X est donc sans biais pour
Tx et sa variance,
V 2

TX

Var ( X i )

T X2

nx

nX

est estime par


V 2

TX

On fait de mme pour TY

nx

X2

nX

nX

Y et on obtient que, si H0 : TX = TY est vraie,

X Y

T X2

est approximativement de loi N(0, 1).


2

nY

Ici, nX = 10, X = 8,4, nY 15 et Y = 12,3. On obtient donc que


Z

( 8 , 4  12 , 3 )

70 , 56 10  151, 29 15

0 , 94.

Cette valeur tant l'intrieur de l'intervalle (cD,cD) o cD = 1,960,


l'hypothse nulle ne peut tre rejete. Les rsultats exprimentaux ne
permettent pas d'affirmer qu'une marque est meilleure que l'autre.

RSUM
Test d'hypothse L'hypothse nulle est rejete si les rsultats
exprimentaux s'cartent trop de ce que le hasard devrait permettre. Le
risque D est la probabilit de rejeter H0 quand elle est vraie.

9 Tests d'hypothses

Loi de la

(ou non spcifie)

n 1

| Z | ! cD

p0 q 0

P = P0

n ( X  P0 )

-  T 0
V

n 1

Loi N(0, 1)

| T |! cD

Z
n

6( X i  X )2

n ( p  p 0 )

T = T0

Quelconque

Source du cD

rejet de H0

p = p0

Normale

Condition de

H0

Binomiale

* V 2

Variable utilise

Hypothse

population

297

Loi de Student
avec Q = n 1

**

| Z | ! cD

Loi N(0, 1)

2
2
( X  X ).

** V 2 est obtenu en remplaant T par T0 dans la formule qui donne Var( T ).


T

Test sur l'galit de deux paramtres


Loi de la
population

Hypothse

Variable

Condition de

Source du

H0

utilise

rejet de H0

cD

| Z | ! cD

Loi N(0, 1)

p X  p y

Z
Binomiale

p X q X

pX = p Y

p Y q Y

nX
Normale
(ou non spcifie)

PX = PY

X Y

VX = VY

Normale
(ou non spcifie)

TX = TY

V 2X

| T |! cD

X Y

nX

Loi quelconque

n X nY
n X  ny

Z
PX = PY

nY

TX

avec Q = n 1
Loi N(0, 1) ou loi

| Z | ! cD

V Y2
nY

de Student o Q est
le plus petit de
nX 1 et nY 1

**

T X  TY
V 2

Loi de Student

 V 2

TY

| Z | ! cD

Loi N(0, 1)

298

Introduction la statistique applique


2
2
( n X  1)V X  ( nY  1)V Y

* V 2
** V T2

n X  ny  2
X

est obtenu en remplaant T X par T X dans la formule qui donne

Var( T X ) ; de mme pour Y.


Cas o les donnes sont apparies. H0 : px = py. On ne considre que le
sous-chantillon pour lequel les deux variables prennent des valeurs
diffrentes l'une de l'autre. L'hypothse nulle se rduit alors H0 : p = 1/2
o p est la proportion de cas (0, 1) parmi l'ensemble des cas (0, 1) et (1, 0)
retenus dans le sous-chantillon.
H0 : PX = PY. On pose Wi = Xi Yi et l'hypothse nulle se rduit H0 : PW = 0.

EXERCICES
TEST
D'HYPOTHESE SUR
UNE PROPORTION

1.

Un politicologue prtend que, lors des lections, 95 % des poux votent


pour le mme parti que leur femme. Un sondage effectu auprs de 540
couples a rvl que dans 42 cas, l'poux et l'pouse n'avaient pas vot
pour le mme parti. Testez, avec D = 5 %, l'hypothse mise par le
politicologue.

2. Deux joueurs de ping-pong, Andr et Bernard, ont jou 30 parties. Andr


en a gagn 18 et Bernard en a gagn 12. Testez, avec D = 10 %,
l'hypothse selon laquelle Andr et Bernard sont de mme force au
ping-pong.
*3. On veut tester l'hypothse qu'un sou est bien quilibr (c'est--dire, que
la probabilit d'avoir face est gale celle d'avoir pile ). On prend
D = 10 %.
a) Si, en ralit, la probabilit d'avoir face est 0,52 et si on lance le
sou 1 000 fois, quelle est la probabilit que l'hypothse nulle soit
rejete ?
b) Si la probabilit d'avoir face est 0,52, combien de fois le sou doit-il
tre lanc pour que la probabilit que l'hypothse nulle soit rejete
soit de 0,90 ?

9 Tests d'hypothses

TEST SUR
L'GALIT DE
DEUX
PROPORTIONS

299

4. Une tude des dcisions rendues par des jurs dans des cas de vols par
effraction o l'accus tait de race noire a rvl les faits suivants : parmi
les 28 cas o les victimes taient de race noire, l'accus a t trouv
coupable dans 12 cas ; parmi les 36 cas o les victimes taient de race
blanche, l'accus a t trouv coupable dans 23 cas. Peut-on conclure que
les jurs ont une plus forte tendance dclarer coupables ceux qui sont
accuss d'avoir commis des vols contre des Blancs? (Utilisez D = 10 %).
5. Dans une classe, 98 tudiants sont ns au Canada et 47 ailleurs. On
constate que 20 des tudiants ns au Canada et 7 de ceux qui sont ns
ailleurs portent des lunettes. La diffrence entre les deux groupes est-elle
significative ? (Utilisez D = 0,05).
6. Pour comparer deux procds de fabrication, on prlve un chantillon
de 300 pices produites par le procd A et 400 pices produites par le
procd B. On trouve que 10 pices du procd A et 15 pices du procd
B sont dfectueuses. La diffrence entre les deux procds est-elle
significative ?
7. Pour valuer l'efficacit d'un somnifre, on fait l'exprience suivante avec
100 sujets. On rpartit les sujets au hasard en deux groupes gaux. Le
premier groupe, appel groupe exprimental , reoit le somnifre un soir
au coucher. Le deuxime groupe, appel groupe tmoin , reoit un
placebo. Le lendemain on pose la question suivante : Avez-vous mieux
dormi que d'habitude ? Dans le groupe exprimental, 30 personnes disent
oui, alors que dans le groupe tmoin seulement 25 personnes disent oui.
Peut-on affirmer que le somnifre a un effet ? (Utilisez D = 0,20).
8. Dans le cadre d'une tude portant sur la scurit routire et la visibilit
nocturne des couleurs, on a conu une exprience dans laquelle deux
objets de mme dimension, l'un rouge et l'autre jaune, taient prsents
des gens qui devaient dclarer s'ils parvenaient ou non les percevoir.
218 personnes ont particip l'exprience ; 138 d'entre elles ont vu les
deux objets, 25 n'ont vu que l'objet jaune, 11 n'ont vu que l'objet rouge,
et les 44 autres personnes n'ont vu aucun des deux objets. Testez
l'hypothse selon laquelle la probabilit de perception est la mme pour
les deux couleurs. (Utilisez D = 5 %).

300

Introduction la statistique applique

TEST
D'HYPOTHESE SUR
UNE MOYENNE

9. Une revue prtend que ses lecteurs ont un revenu annuel moyen de
45 000 $ Pour vrifier cette affirmation, on prlve un chantillon de
20 lecteurs et on note leurs revenus annuels. Voici les donnes, en
milliers de dollars.
42,1

43,5

41,8

47,2

46,1

39,2

32,3

28,2

49,1

52,2

61,5

31,2

34,3

21,1

31,5

46,2

48,9

31,2

22,7

28,2

Est-il vraisemblable que le revenu moyen des lecteurs soit de 45 000 $ ?


(Utilisez D = 0,05).
10. Pour tester l'hypothse que la moyenne P d'une population est gale
95, on prlve un chantillon de taille 9.
a) Testez l'hypothse que P = 95 si les donnes sont
94

95

96

98

100

102

104

105

106

b) Testez l'hypothse que M = 95 si les donnes sont :


60

70

80

90

100

110

120

130

140

c) Remarquez que la moyenne X est gale 100 pour les deux


chantillons. Donc, en un sens les deux chantillons sont aussi
loigns l'un que l'autre de la moyenne de 95 stipule par l'hypothse
nulle. Donnez la raison intuitive pour laquelle on rejette l'hypothse
dans un cas et pas dans l'autre.
TEST SUR
L'GALIT DE
DEUX MOYENNES

11. Un analyste au service du personnel d'une compagnie se demande quels


sont les traits de personnalit qui font qu'un vendeur est un bon
vendeur. En particulier, il veut savoir si le fait d'tre extraverti est un
atout. Il choisit 20 vendeurs connus dans la compagnie comme
excellents ; et 32 vendeurs plutt mdiocres. Il leur fait passer un test
d'extraversion. Voici les scores qu'il a obtenus (les extravertis ont des
scores levs) :
Bons vendeurs : 12, 17, 20, 19, 11, 9, 7, 4, 12, 15, 13, 18, 20, 16, 15,
16, 18, 13, 11, 10.
Vendeurs mdiocres : 12, 7, 9, 13, 15, 17, 12, 11, 13, 10, 9, 8, 7, 15, 13,
6, 5, 5, 13, 15, 17, 19, 18, 20, 19, 17, 13, 16, 8, 6, 7, 8.

9 Tests d'hypothses

301

Testez au niveau D = 5 % l'hypothse que les bons vendeurs ne sont ni


plus ni moins extravertis que les vendeurs mdiocres.
12. Lors d'une tude sur le concept de soi des adolescents nigrians,
Jegede (1982) a administr le Piers-Harris Self-Concept Scale 1 380
lves de niveau secondaire Ibadan.
a) Le score moyen a t 58,19 avec un cart-type de 10,06. Dans une
tude antrieure faite auprs de 1 183 adolescents amricains on
avait trouv une moyenne de 51,84 avec un cart-type de 13,87. La
diffrence entre les Amricains et les Nigrians est-elle significative ?
b) L'chantillon de Jegede tait compos de 552 filles et 828 garons.
Les filles avaient une moyenne de 56,82 avec un cart-type de 9,96 ;
et les garons une moyenne de 59,11 avec un cart-type de 10,01. La
diffrence entre les garons et les filles est-elle significative ?
13. Peterson (1976) a relev les rsultats au test ACT (American College
Testing Program) d'un groupe de 305 tudiants de classes dfavorises et
de 2 182 tudiants de classes favorises. Parmi les dfavoriss, la
moyenne tait de 1,68 avec un cart-type de 1,088 alors que parmi les
favoriss la moyenne tait de 2,07 avec un cart-type de 1,015. La
diffrence entre les deux groupes est-elle significative ?
14. Les donnes suivantes portent sur des diplms d'universit de
1974-1975, interrogs en 1978. On leur a demand, entre autres, quelle
tait la dure de leur dernire priode de chmage. Parmi les 3 445
diplms anglophones la dure moyenne tait de 14,2 semaines avec un
cart-type de 13,3, alors que parmi les 12 571 diplms francophones la
dure moyenne tait de 18,5 semaines avec un cart-type de 15,3. La
diffrence entre francophones et anglophones est-elle significative?
15. On met l'hypothse que, dans un couple, l'poux est en moyenne plus
g de deux ans que son pouse. Un sondage effectu auprs de 100
couples a donn une diffrence moyenne de 2,68 ans avec un cart-type
de 3,8 ans. L'hypothse nulle est-elle rejete par le test avec D = 10 %,
avec D = 5 % ?

Service gnral des communications, Relance l'universit, Direction politique et plans, MEQ 1979.

302

Introduction la statistique applique

16. Une nouvelle convention collective prvoit, pour la premire fois, des
congs de maladie remboursables. On s'attend ce que cela rduise le
taux d'absentisme. Pour voir si c'est bien vrai, on prlve des donnes
sur le taux d'absentisme (nombre d'absents par jour par 1 000
employs) dans les 11 usines de la compagnie pendant deux priodes de
6 mois, l'une avant et l'autre aprs l'entre en vigueur de la nouvelle
convention. Voici les donnes :
Usine

10

11

Avant

25

28

29

26

28

27

22

25

27

28

29

Aprs

21

23

22

21

26

29

21

22

23

22

25

Testez 5 % l'hypothse selon laquelle la nouvelle convention collective


n'a pas eu d'effet sur le taux d'absentisme.
17. Pour connatre l'efficacit d'un certain rgime amaigrissant, on le fait
suivre 6 sujets. On prend leurs poids avant et aprs le rgime. Voici les
rsultats :
Sujet

Avant

64

54

73

59

64

68

Aprs

61

54

71

58

61

66

Le rgime a-t-il un effet ? Fixez D = 5 %.


TEST
D'HYPOTHSE SUR
UN PARAMTRE T
QUELCONQUE

18. On suppose que la dure de vie d'une certaine pice de machinerie suit
une loi exponentielle. Le fabricant des pices prtend qu'elles durent en
moyenne 10 heures. Ayant mis 12 pices l'preuve, on a observ que
ces pices ont dur, en moyenne, 7,4 heures. Testez, avec D = 10 %,
l'hypothse selon laquelle le fabricant n'a pas menti.
19. Une compagnie d'assurances reoit, en moyenne, 30,6 rclamations par
semaine.
a) La semaine dernire la compagnie a reu 38 rclamations. Cette
observation s'carte-t-elle significativement de la moyenne gnrale ?
b) Le mois dernier (4 semaines) la compagnie a reu 148 rclamations,
ce qui donne une moyenne de 37 rclamations par semaine. Cette
observation s'carte-t-elle significativement de la moyenne gnrale ?
20. Durant une certaine priode de temps, 35 crimes ont t commis dans la
ville A et 21 dans la ville B. Sachant que les populations de ces villes
sont 58 000 pour A et 22 000 pour B, testez l'hypothse selon laquelle le
taux de criminalit (par 1 000 habitants) est le mme pour ces deux
villes. Prenez D = 5 %.

9 Tests d'hypothses

DIVERS

303

21. Supposons qu'en gnral, la probabilit d'avoir un garon est de 0,515.


On prlve un chantillon de 125 naissances parmi les membres d'une
secte religieuse dont les murs sexuelles seraient susceptibles
d'influencer le sexe du bb. On trouve que 68 des 125 nouveaux-ns
sont des garons. Peut-on conclure que la probabilit d'avoir un garon
chez les gens de cette secte est diffrente de 0,515 ?
22. Supposons que le revenu moyen des familles canadiennes est de
30 000 $. On prlve un chantillon de 250 familles dont le chef est une
femme. On trouve que leur revenu moyen est de 17 610 $ avec un
cart-type de 8 540 $. Peut-on conclure que les familles dont le chef est
une femme ont un revenu moyen infrieur celui de l'ensemble des
familles canadiennes ?
23. Supposons que le revenu mdian des familles canadiennes est de
28 890 $. On prlve un chantillon de 250 familles dont le chef est une
femme. On trouve que 24 d'entre elles ont un revenu suprieur
28 890 $. Testez l'hypothse selon laquelle le revenu mdian des familles
dont le chef est une femme est gal 28 890 $.
24. La fabrication d'un certain article cote 20 la pice et 10 % de ces
pices sont dfectueuses. On essaye un nouveau procd de fabrication
qui cote 21 la pice mais qui pourrait avoir un taux de dfectuosit
plus faible. Sur 500 pices fabriques par le nouveau procd, on trouve
13 pices dfectueuses. Testez l'hypothse selon laquelle le nouveau
procd n'est ni plus avantageux ni moins avantageux que l'ancien.
25. Deux archers, Xavier et Yvon, s'exercent au tir l'arc. En 100 lancers,
Xavier a atteint la cible 58 fois. Yvon, lui, a atteint la cible 99 fois en 150
tirs. Avec D = 10 %, doit-on rejeter l'hypothse selon laquelle les deux
archers sont de mme force ?
26. On veut savoir si, dans deux quartiers diffrents d'une ville, les
logements ont en moyenne le mme nombre de pices habitables. Dans
le quartier A, 80 logements choisis au hasard ont donn X = 4,32 et
V X = 1,07. Dans le quartier B, un chantillon de 50 logements a donn
Y = 3,92 et V Y = 0,95. Avec D = 5 %, testez l'hypothse H0 : PX = PY.

304

Introduction la statistique applique

*27.Considrons l'ensemble des maisons de Montral habites par leur


propritaire ; et supposons que, pour les fins d'une enqute, on divise cet
ensemble en blocs de 10 maisons chacun. On prlve au hasard un
chantillon de 100 blocs, on interroge tous les propritaires choisis, et on
note pour chaque bloc la valeur de la variable
X : nombre de propritaires qui emploient les services d'un jardinier.
On obtient la distribution suivante :
X

TOTAL

Effectif

25

10

12

16

10

100

Nous voulons tester l'hypothse selon laquelle 34,5 % des propritaires


utilisent les services d'un jardinier. Une autre formulation de cette mme
hypothse est la suivante : le nombre moyen de propritaires, dans un
bloc, qui utilisent les services d'un jardinier est de 3,45. Testez cette
hypothse 5 % :
a) En considrant qu'on a prlev un chantillon de 1 000 maisons
dans une population de maisons.
b) En considrant qu'on a prlev un chantillon de 100 blocs dans une
population de blocs.
*28.Une usine fabrique des vis qu'elle met dans des botes de 100. Soit X le
nombre de vis dfectueuses dans une bote. Supposons qu'une longue
exprience du procd de fabrication a permis de dresser la fonction de
masse suivante :
X

TOTAL

0,13

0,27

0,27

0,18

0,09

0,04

0,02

1,00

Un nouveau procd est considr, et pour le tester on l'emploie la


fabrication de 100 botes de vis. On obtient la distribution suivante :
X

TOTAL

Effectif

30

21

13

15

12

100

Le patron de l'usine demande trois statisticiens de tester l'hypothse


nulle selon laquelle le nouveau procd est pareil l'ancien . Le
statisticien A fait un test du khi-deux. Le statisticien B fait un test bas
sur la proportion p de vis dfectueuses parmi les 10 000 de l'chantillon.
Le statisticien C, enfin, fait un test bas sur le nombre moyen X de vis
dfectueuses par bote.
Effectuez les trois tests et commentez.

9 Tests d'hypothses

305

29. Dans une tude sur la relation entre certains traits de personnalit et
des facteurs astrologiques, Sakofske, Kelly et McKerracher (1982) ont fait
complter le Eysenck Personality Questionnaire 241 tudiants
no-zlandais. L'hypothse, avance antrieurement par des astrologues,
que ces chercheurs se proposaient de vrifier est que les personnes nes
sous un signe positif (Blier, Balance, Gmeaux, Lion, Verseau,
Sagittaire) sont moins introverties que les personnes nes sous un signe
ngatif (Cancer, Capricorne, Poisson, Scorpion, Taureau, Vierge). Sur
l'chelle introversion-extraversion du test, les extravertis ont un score
lev.
a) Parmi les sujets, 117 taient ns sous un signe positif ; ceux-ci ont
obtenu un score moyen de 13,28 avec un cart-type de 4,51. Les
autres 124 sujets taient ns sous un signe ngatif ; ceux-ci ont eu
un score moyen de 14,28 avec un cart-type de 4,41. La diffrence
entre les deux groupes est-elle significative ?
b) L'chantillon tait compos d'hommes et de femmes. Voici les
donnes pour chaque groupe :
Hommes
Signe du zodiaque

Femmes

V X

nX

V Y

nY

Positif

13,50

4,38

38

13,17

4,57

79

Ngatif

15,52

4,21

38

13,73

4,39

86

Comparez les deux groupes pour les hommes et les femmes


sparment.
30. Dans une tude sur diffrents traits de personnalit, Sadowski et Wenzel
(1982) ont fait passer un test appel le Buss-Durkee Hostility-Aggression
Inventory 157 sujets, dont 61 hommes et 96 femmes. Un score lev au
test dnote un haut degr d'hostilit ou d'agression.
a) Sur l'chelle d'hostilit, les hommes ont eu une moyenne de 6,90
avec un cart-type de 3,70 ; et les femmes ont eu une moyenne de
7,45 avec un cart-type de 4,30. La diffrence entre hommes et
femmes est-elle significative ?
b) Sur l'chelle d'agression, les hommes ont eu une moyenne de 26,59
avec un cart-type de 7,20 et les femmes ont eu une moyenne de
25,81 avec un cart-type de 6,52. La diffrence entre hommes et
femmes est-elle significative ?

306

Introduction la statistique applique

31. Dans une tude sur la sexualit des jeunes en Australie, Hong (1983) a
fait remplir un questionnaire 560 tudiants d'universit. Le
questionnaire rempli permet de calculer un score qui indique dans quelle
mesure l'attitude du rpondant est permissive.
Voici les rsultats :
Vont l'glise

Rgulirement

3,31

1,54

128

De temps en temps

4,73

1,10

230

Jamais

5,24

0,79

202

Comparez les groupes deux deux et dites s'il y a des diffrences


significatives. (Il existe des techniques qui permettent de comparer
simultanment les moyennes de plus de deux groupes. Mais ces
techniques dpassent le niveau de ce livre. C'est pourquoi on vous
propose de comparer les groupes deux deux.)
32. Pour comparer l'aptitude en mathmatiques des Orientaux celle des
Amricains de race blanche, Tsang (1984) a prlev les donnes
suivantes sur les rsultats obtenus au Scholastic Aptitude Test (SAT) par
10 097 Orientaux et 502 990 Amricains de race blanche.
Score au SAT

Orientaux

Blancs

700-800

601

22 564

600-690

2 001

86 521

500-590

3 190

158 049

400-490

2 788

151 466

300-390

1 309

74 498

200-290

208

9 892

TOTAL

10 097

502 990

a) Testez l'hypothse selon laquelle la moyenne des Orientaux est gale


la moyenne des Blancs.
b) On aurait pu envisager la solution suivante au problme pos en a) :
la moyenne pour les Blancs est de 505,762 et l'cart-type est de
113,011. On pourrait alors songer tester l'hypothse selon laquelle
la moyenne des Orientaux est P = 505,762, en utilisant soit
l'cart-type V = 113,011, soit l'cart-type V calcul partir de
l'chantillon d'Orientaux. Effectuez ces deux tests et discutez de leur
validit.

9 Tests d'hypothses

307

c) Les rsultats en a) et b) sont trs semblables. Donnez une explication


intuitive de ce fait.
*33. Une usine fabrique des vis qu'elle met dans des botes de 100. Soit X le
nombre de vis dfectueuses dans une bote. Pour comparer deux
procds de fabrication, A et B, on les emploie la fabrication de 100
botes chacun. Voici la distribution de X pour chacun des deux
procds :

TOTAL

Effectif
procd A

13

27

27

18

100

Effectif
procd B

30

21

13

15

12

100

Le patron de l'usine demande trois statisticiens de tester l'hypothse


nulle selon laquelle Ies deux procds sont pareils. Le statisticien X fait
un test du khi-deux sur le tableau ci-dessus. Le statisticien Y fait un test
bas sur les proportions de vis dfectueuses dans chaque chantillon de
10 000 vis. Le statisticien Z enfin, fait un test bas sur les nombres
moyens de vis dfectueuses par bote dans les deux chantillons.
Effectuez les trois tests et commentez. Sont-ils tous les trois valides ?
*34. Xavier a lanc nX ds et obtenu un total de 77 points. Yvon a lanc nY ds
et a obtenu un total de 114 points. Testez l'hypothse selon laquelle ils
ont lanc le mme nombre de ds. (Utilisez D = 5 %).
35. Deux groupes de 11 enfants de troisime anne du cycle primaire ont
complt le test psychologique IAR (Intelligence Achievement
Responsibility) avant et aprs une priode de 4 mois et demi
d'exprimentation avec l'un ou l'autre de deux langages informatiques :
LOGO et Delta Drawing. Contrairement au LOGO, le langage Delta
Drawing n'attache pas une grande importance la dcomposition d'un
problme complexe ou l'apprentissage par la correction des erreurs. Le
test IAR mesure la tendance du sujet se croire matre de ses
apprentissages et de son succs intellectuel. Les chercheurs (Barbara
Burns et Alison Hagerman) ont voulu montrer que l'exercice du langage
LOGO augmente cette tendance. Les rsultats obtenus sont prsents
dans le tableau la page suivante.

308

Introduction la statistique applique

Effectuez chacun des tests suivants en prenant et D = 10 % et en


supposant l'galit des variances.
a) Testez l'hypothse selon laquelle les deux groupes taient, au dpart,
quivalents.
b) Testez l'hypothse selon laquelle les deux groupes taient, aprs
exprimentation, quivalents.
c) Testez l'hypothse selon laquelle l'augmentation au score IAR est la
mme pour les deux groupes.
d) Pour chacun des groupes, testez l'hypothse selon laquelle l'exercice
du langage informatique ne modifie pas le score IAR.
e) Pour chacun des groupes, testez l'hypothse selon laquelle
l'augmentation au score IAR est la mme pour les garons et pour les
filles.

groupe LOGO
Sexe

groupe Delta Drawing

Score IAR

Sexe

Score IAR

Avant

Aprs

16

29

Avant
15

Aprs
21

20

24

18

22

21

23

21

21

22

21

21

19

22

26

22

20

23

30

22

20

24

26

23

23

24

23

23

30

25

32

26

21

27

34

27

25

28

29

30

27

SOURCE Journal of Educational Computing Research (1989), Vol 5(2), pp 199-212).

36. Un cardiologue du Johns Hopkins Medical Institution a rapport les


donnes suivantes au congrs de l'American Heart Association Dallas
en 1986. Il avait observ 103 patients qui avaient eu une attaque du
cur et se rtablissaient sans complications. Trente des 103 patients

9 Tests d'hypothses

309

avaient vcu des pisodes d'ischmie silencieuse , un arrt intermittent


du dbit sanguin au cur. Une anne plus tard, 9 de ceux-ci mouraient
d'un arrt cardiaque. Parmi les 73 qui n'avaient pas connu d'pisode
d'ischmie silencieuse, 8 seulement mouraient d'un arrt du cur.
Peut-on conclure que ceux qui souffrent de ces ischmies silencieuses
ont une plus forte probabilit de mourir d'un arrt cardiaque ? (Source :
TIME, December 1, 1986)
*37. Au congrs de l'American Heart Association Dallas en 1986, des
chercheurs ont prsent les donnes suivantes sur 98 femmes dont 51
avaient t victimes d'une attaque du cur ; les 47 autres non. Les
femmes taient toutes ges de plus de 50 ans. On a constat que parmi
les 51 femmes qui avaient eu une attaque, 12 n'avaient jamais eu
d'enfants, alors que parmi les 47 autres, 2 seulement n'avaient jamais eu
d'enfants. (Source : TIME, December 1, 1986). Considrons un tirage
dans la population d'o sont issues ces patientes (des femmes de plus de
50 ans), et dfinissons les vnements A et B comme suit :
A : la personne choisie a une crise cardiaque ;
B : la personne choisie n'a pas eu d'enfants.
a) Estimez partir des donnes les probabilits P(B | A) et P(B | Ac).
b) Testez l'hypothse que P(B | A) = P(B | Ac).
c) Des donnes de ce genre sont gnralement prleves dans le but de
tester l'hypothse que le fait d'avoir eu ou pas des enfants n'influence
pas l'tat de sant cardiaque. Or, cette hypothse se traduit plutt
par P(A | B) = P(A | Bc) et non par P(B | A) = P(B | Ac). Montrez qu'en
fait ces deux galits sont quivalentes. Une faon de le faire est de
montrer que les deux sont quivalentes p1p4 = p2p3 o p1, p2, p3 et
p4 sont les probabilits des 4 intersections indiques dans le tableau
suivant :
B

BC

TOTAL

p1

p2

p 1 + p2

p3

p4

p 3 + p4

TOTAL

p1 + p3

p 2 + p4

310

Introduction la statistique applique

38. Un groupe de 22 000 mdecins se sont rpartis au hasard en deux


groupes de mme taille. Le groupe exprimental a consomm 325 mg
d'aspirine chaque deux jours, le groupe tmoin a pris un placebo. Dans
le groupe exprimental, 104 ont eu une crise cardiaque ; dans le groupe
tmoin, 189 ont eu une attaque cardiaque. Que peut-on conclure ?
(Adapt de TIME, February 6, 1988)
39. Le SIDA se transmet-il plus facilement d'un homme infect son pouse
que d'une femme infecte son poux ? Un article dans le Journal of the
American Medical Association a rapport les rsultats d'une tude base
sur un groupe de 55 femmes et 25 hommes infects par le virus. En plus
de deux ans, deux des femmes avaient transmis le virus leur mari ;
alors que 10 des 25 hommes avaient transmis le virus leur femme.
Montrez que la diffrence est significative. (Source : TIME, March 21,
1988).
Les problmes qui suivent sont de nature diffrente de ceux qui prcdent. Plus
thoriques, ils ont pour but d'illustrer certains aspects des tests d'hypothses qui
n'ont pas t discuts dans le texte.
*40. Supposons qu'on sache par exprience que 60 % des rats infects d'un
certain virus finissent par en mourir. Un chercheur a l'intention
d'injecter le virus un groupe de 20 rats afin de tester l'efficacit d'un
certain mdicament. Sa conjecture est que le mdicament pourrait
rduire le taux de dcs 55 % donc un cart de 5 %.
a) Si l'cart est effectivement de 5 %, quelle est la probabilit qu'il
conclue que le mdicament est efficace ?
b) Quelle est la probabilit de conclure que le mdicament est efficace si
l'cart est infrieur 5 % ? (Il suffit de faire le calcul pour quelques
valeurs entre 5 % et 0 % et de donner une explication intuitive des
rsultats.)
c) Pensez-vous que l'exprience vaut la peine d'tre tente, compte tenu
des probabilits calcules en a) et b) ?
*41. Un test d'estime de soi donne normalement un score moyen de 40 avec
un cart-type (connu) de 16. Une psychologue voudrait vrifier une
certaine conjecture, soit que les acteurs de thtre ont un score moyen P
suprieur la moyenne. Elle a l'espoir de convaincre au plus 8 acteurs
de passer le test et vous demande si, avec un chantillon aussi petit,

9 Tests d'hypothses

311

l'exprience vaut la peine d'tre tente. Elle estime que l'cart G = P


40 entre le score moyen des acteurs et celui de la population gnrale,
n'est pas suprieur 2.
a) Si effectivement G = 2, quelle est la probabilit de conclure, avec un
test 5 %, que P > 40 ?
b) Quelle doit tre la valeur de G pour que, avec un chantillon de taille
8, la probabilit de conclure que P > 40 soit de 50 % ? (Autre faon
d'exprimer la question : quel cart peut-on dceler avec une
probabilit de 50 % ?)
c) Quelle devrait tre la taille de l'chantillon pour que la probabilit de
dceler un cart de G = 2 soit d'au moins 50 % ?
*42. Pour tudier l'effet de l'alcool sur les rflexes, on fait passer 14 sujets
un test de dextrit avant et aprs qu'ils aient consomm 100 ml de vin.
Les scores avant et aprs sont donns dans le tableau suivant (ce sont
des temps de raction ; donc, un score lev signifie un ralentissement
dans les rflexes) :
Sujet

10

11

12

13

14

Avant(X) 57

54

62

64

71

65

70

73

68

70

77

74

80

83

Aprs(Y) 55

60

68

69

70

73

74

74

75

76

76

78

81

90

a) Testez l'hypothse que l'alcool n'a pas d'effet en utilisant le test bas
sur la loi de Student.
b) Une autre faon de tester essentiellement la mme hypothse
consiste noter seulement la direction du changement, c'est--dire
s'il y a eu baisse ou augmentation du score. Soit U le nombre de
changements positifs (augmentation du score) et n le nombre de
changements (qui peut tre diffrent du nombre de sujets si certains
sujets n'ont pas chang). Alors U est de loi binomiale de paramtre n
et p.
i)

Exprimez l'hypothse que l'alcool n'a pas d'effet en fonction de p.

ii) Effectuez un test de cette hypothse en utilisant comme seule


observation la valeur de U (et non les scores eux-mmes).
c) Les conclusions en a) et en b) sont les mmes. Mais supposons que le
huitime sujet ait obtenu les scores 75 et 74 au lieu de 73 et 74.
i)

Testez encore l'hypothse de deux manires ;

312

Introduction la statistique applique

ii) Expliquez les contradictions dans les conclusions (reprsentez les


diffrences par des points sur une droite ; la raison pour laquelle
on rejette avec un test et pas avec l'autre devrait devenir
apparente).
*43. On utilise gnralement le test bas sur les diffrences Wi = Xi Yi
lorsque Xi et Yi sont dpendantes. Mais on l'utilise aussi lorsque Xi et Yi
sont apparies sans tre dpendantes. Supposons, par exemple, qu'une
psychologue tente de dmontrer qu'il est possible de faire crotre le score
d'une personne un test de rapidit de lecture en lui faisant faire
certains exercices. Une approche possible est la suivante. On choisit les
sujets de telle sorte qu'on puisse former des paires de sujets semblables.
On les accouple selon un critre pertinent comme, disons, l'intelligence.
Le modle est le suivant. Pour le i-ime couple, on observe Xi et Yi de
moyennes PiX et PiY, respectivement. Ces moyennes peuvent varier d'un
couple l'autre. La diffrence Wi = Xi Yi, est de moyenne Gi = PiX PiY et
de variance V2. L'hypothse nulle est que Gi = 0 pour i = 1, ..., n. Lorsque
H0 est vraie, les Wi sont toutes de moyenne nulle et de mme variance V2.
Supposons donc qu'on ait choisi 14 paires de sujets, chaque paire
correspondant un quotient intellectuel donn. Un membre de chaque
paire est affect au hasard au groupe exprimental (qui fait des
exercices), l'autre au groupe tmoin (qui n'en fait pas). Supposons qu'on
obtienne les rsultats suivants :
Paire

10

11

12

13

14

Tmoin

14

14

18

21

23

24

25

25

29

32

32

32

43

45

Exprimental

17

19

17

23

25

23

27

29

26

35

34

38

45

44

a) Testez l'hypothse que les exercices n'ont pas d'effet.


b) Testez la mme hypothse en supposant cette fois-ci que les donnes
n'avaient pas t accouples.
c) Comparez l'estimation de l'cart-type de W X  Y dans les deux
modles. La diffrence explique-t-elle les conclusions contradictoires
tires en a) et b) ?
*44. Il existe d'autres tests pour la diffrence entre deux groupes.
Considrons les donnes de l'exercice 35, disons les scores aprs
l'exprimentation. Testez l'hypothse qu'il n'y a pas de diffrence entre
les deux groupes en suivant les tapes dcrites ci-dessous.

9 Tests d'hypothses

313

a) Rangez les donnes des deux groupes en ordre croissant, puis


reprez la mdiane des 22 donnes.
b) Dressez un tableau 2 u 2 contenant les donnes suivantes :
Nombre d'lments du premier groupe
au-dessus de la mdiane

Nombre d'lments du deuxime groupe


au-dessus de la mdiane

Nombre d'lments du premier groupe


au-dessous de la mdiane

Nombre d'lments du deuxime groupe


au-dessous de la mdiane

c) Expliquez en quel sens un test du khi-deux d'indpendance constitue


un test de l'hypothse selon laquelle il n'y a pas de diffrence entre
les groupes LOGO et le groupe Delta Drawing.
d) Le test effectu en c) ne contredit pas la conclusion nonce au
numro 35. Pouvez-vous imaginer des donnes (quelques
modifications de celles-ci, par exemple) o il y aurait contradiction
entre les deux conclusions ?
Mise en garde Le test qui est propos ici exige des effectifs
gnralement suprieurs ceux qui ont servi cet exercice.
*45. Lors d'un projet d'tude des problmes de racisme dans une force
policire, on prlve un chantillon de 32 policiers, dont 16 ont 11 ans de
scolarit ou moins et 16 ont plus de 11 ans de scolarit. Chacun des
deux groupes est divis en deux sous-groupes de 8. L'un des deux
sous-groupes suit un cours de sensibilisation aux groupes ethniques,
l'autre pas. Le tableau suivant donne les rsultats un test d'hostilit
aux groupes ethniques.
Niveau de scolarit

N'ont pas suivi


le cours de
sensibilisation

Ont suivi
le cours de
sensibilisation

6x

6x

d 11 ans

> 11 ans

60 58 56 54

36 36 33 32

52 50 48 46

30 29 26 26

424 , 6x 2

22 640

6x

248 , 6x 2

7 798

50 48 46 44

30 28 26 24

42 40 38 36

22 20 28 26

344 , 6x 2

14 960

6x

204 , 6x

5 280

314

Introduction la statistique applique

a) Montrez que le cours de sensibilisation a eu un effet pour les policiers


ayant 11 ans de scolarit ou moins.
b) Montrez que le cours de sensibilisation a eu un effet pour les policiers
ayant plus de 11 ans de scolarit.
c) Montrez que si l'on ne fait pas cas du niveau de scolarit, on ne
trouve pas de diffrence significative entre ceux qui ont suivi et ceux
qui n'ont pas suivi le cours de sensibilisation.
*46. Supposons que la dure (en milliers d'heures) des pices lectroniques
d'un certain type est de loi exponentielle de paramtre T. Pour tester
l'hypothse H0 : T = 10, on tire une pice au hasard et on observe sa
dure X. Considrez les deux tests suivants :
TEST 1 : on rejette H0 si X < 0,5.
TEST 2 : on rejette H0 si X < 0,2.
Le but de ce problme est d'tudier les avantages et dsavantages relatifs
de ces deux tests.
a) Dterminez la probabilit de rejeter H0 si H0 est vraie : i) lorsqu'on
utilise le test 1 ; ii) lorsqu'on utilise le test 2.
Lequel des deux tests parat meilleur avec ce critre ?
b) Vrifiez les probabilits dans le tableau suivant
Probabilit de rejeter H0

Valeur
de T

Test 1

Test 2

0,054 0

0,022 0

0,095 2

0,039 2

0,5

0,632 1

0,329 7

0,1

0,993 3

0,864 7

0,05

0,999 95

0,981 7

Lequel des deux tests semble meilleur la lumire de ces calculs ?


c) Supposons qu'on dcide qu'on rejettera H0 si X d a. Quelle doit tre
l'a valeur de a si l'on veut que la probabilit D de rejeter H0 tort soit
i) 5 % ? ii) 1 % ? iii) 0,5 % ?

9 Tests d'hypothses

315

*47. Supposons que le nombre de fautes typographiques dans une page est
de loi de Poisson. Considrez deux procdures pour tester l'hypothse H0
que le nombre moyen T d'erreurs par page dans un livre est 1.
Procdure 1 : on tire une page au hasard ; on rejette H0 si le nombre
d'erreurs X est suprieur ou gal 4.
Procdure 2 : on tire deux pages au hasard ; on rejette H0 si le nombre
total d'erreurs Y dans les deux pages est suprieur ou gal 6.
a) Dterminez la probabilit de rejeter H0 si H0 est vraie : i) lorsqu'on
utilise la procdure 1 ; ii) lorsqu'on utilise la procdure 2. Lequel des
deux tests parat meilleur avec ce critre ?
b) Vrifiez les probabilits dans le tableau suivant :
Probabilit de rejeter H0

Valeur
de T

Procdure 1

procdure 2

1,0

0,019 0

0,016 6

1,2

0,033 8

0,035 7

1,3

0,043 1

0,049 0

1,4

0,053 7

0,065 1

Lequel des deux tests semble meilleur la lumire de ces calculs ?


c) Supposons qu'on dcidera de rejetter H0 si X t a. Quelle doit tre la
valeur de a si l'on veut que la probabilit D de rejeter H0 tort soit
infrieure ou gale 1 % ?

10

Techniques
de sondages

10.1 chantillonnage d'une population finie


x Notation
x Estimateur de la moyenne
x Formule de calcul
x Intervalle de confiance pour la moyenne
x Estimation d'un total
10.2 chantillonnage stratifi - estimation d'une moyenne
10.3 Allocation des observations
x Allocation proportionnelle
x Allocation optimale
x Paramtres inconnus
x Strates recenses
10.4 Estimation d'une proportion
x Allocation optimale
10.5 chantillonnage systmatique
10.6 chantillonnage en grappes
RSUM
EXERCICES

10 Techniques de sondages

317

Introduction Nous avons jusqu'ici prsent un seul mode d'chantillonnage :


l'chantillonnage alatoire simple, dans lequel on effectue n tirages
indpendants, chaque fois dans la population entire. Cette description
convient certains types de sondages et un grand nombre d'expriences
scientifiques. Lorsqu'on pse n rats soumis un certain traitement, les n
poids peuvent tre considrs comme les rsultats de n tirages d'une mme
population. La population est infinie puisqu'elle reprsente l'ensemble de
tous les poids qu'on pourrait thoriquement observer. Il est donc raisonnable
de prendre pour modle n variables alatoires X 1 , X 2  , X n , indpendantes
et de mme loi.
Certains sondages, auprs de grandes populations, obissent peu prs ce
modle. Ce sont les sondages dont le procd simule le tirage alatoire de
boules dans une urne : d'une liste complte des lments de la population,
on tire successivement n lments, en donnant chaque fois une
probabilit de slection gale pour tous les lments. Une municipalit peut
chantillonner les logements de la ville de cette faon, puisqu'elle dispose
gnralement d'une liste des logements. L'administration d'une compagnie
peut utiliser cette approche pour choisir un chantillon d'employs.
Remarque Un sondage tlphonique est parfois considr comme un
chantillon alatoire simple, bien qu'il soit abusif de le considrer comme un
chantillon de mnages : certains mnages ont plus d'un numro de tlphone
et donc plus de chance que les autres d'tre choisis ; alors que d'autres
mnages, sans tlphone, n'ont aucune chance d'tre choisis. Il s'agit donc
d'un chantillon alatoire simple de la population de numros de tlphone.
Dans les sondages informels, comme ceux que peuvent mener certains
journalistes, on ne tient pas compte de ce problme, ce qui est quivalent
supposer que, dans la trs grande majorit des cas, un mnage a exactement
un numro de tlphone. Les sondages plus sophistiqus font gnralement
des ajustements pour compenser le fait que les mnages avec plusieurs
tlphones ont plus de chance d'tre reprsents - mais ils ne peuvent toujours
pas inclure dans un sondage tlphonique les mnages sans tlphone.
Pour plusieurs raisons, des raisons de commodit, d'conomie ou de
prcision, on pratique souvent un mode de sondage plus complexe que
l'chantillonnage simple dcrit plus haut. Un sondage d'opinion auprs de la
population canadienne est un exemple typique. Il ne serait pas ais de
dresser une liste de tous les adultes canadiens. On commence normalement

318

Introduction la statistique applique

par stratifier la population, c'est--dire la rpartir en sous-populations. Une


rpartition selon la province est un dbut naturel, mais on ne s'arrte pas l.
On voudra galement sparer les rgions urbaines des rgions rurales, ainsi
que les trs grandes agglomrations des plus petites. On dcidera sans doute
que les quelques grandes villes devront toutes tre reprsentes, mais pas
tous les villages. Dans les villages on choisira des logements, alors que dans
les villes on commencera peut-tre par faire un choix de quartiers, puis de
rues, puis de logements. Ce qui rsulte d'une telle procdure est un
chantillon dont les proprits sont trs diffrentes de celles d'un chantillon
alatoire simple.
part l'chantillonnage alatoire simple, les procdures les plus courantes
sont l'chantillonnage stratifi, l'chantillonnage systmatique, et
l'chantillonnage en grappes. Dans ce chapitre, nous prsenterons
l'chantillonnage stratifi ; les deux autres techniques ne seront que
brivement dcrites. Une caractristique commune toutes ces techniques,
connues sous le nom de techniques de sondage, c'est qu'elles prsupposent
une population finie dont on peut numrer les lments. Cette seule
diffrence entrane des changements la thorie dveloppe dans les
chapitres prcdents, mme dans le cas de l'chantillonnage simple. Nous
commenons par discuter ces changements.

10.1

CHANTILLONNAGE D'UNE POPULATION FINIE


Aux chapitres 8 et 9, nous nous sommes limits aux modles qui supposent
une population infinie. Ces modles s'appliquent dans l'une ou l'autre des
conditions suivantes :
1. La population est rellement infinie. Lorsqu'on estime le poids moyen
d'un bb la naissance, par exemple, la population, idalise, est
l'ensemble thoriquement infini de tous les bbs possibles.
2. La population est finie, mais les tirages se font avec remise. Ce mode
d'chantillonnage, dans lequel un mme lment de la population peut se
retrouver plus d'une fois dans l'chantillon, est pratiqu dans certaines
circonstances particulires mais il n'est pas trs courant. Un exemple est
mentionn dans la section 10.6 sur l'chantillonnage en grappes.
3. La population est si grande compare l'chantillon qu'on peut, toutes
fins pratiques, la considrer infinie, mme si les tirages se font sans

10 Techniques de sondages

319

remise. Un sondage sur les opinions des Canadiens, par exemple, est
gnralement constitu d'un chantillon d'au plus quelques milliers ; la
population est de plusieurs millions.
Le troisime cas ci-dessus est le plus frquent, et c'est la grande taille de la
population qui motive le recours l'chantillonnage. Il existe toutefois des
cas o la population est petite, assez petite pour que les tirages ne soient
plus indpendants, mme approximativement. Typiquement, c'est le cas o
l'chantillonnage s'impose non pas par la grande taille de la population mais
par le cot lev des observations. Supposons, par exemple, qu'une
municipalit se propose d'tudier la qualit du sol dans ses parcs. Si les
analyses chimiques sont longues et coteuses, on trouvera trop onreux
d'obtenir les donnes sur tous les parcs, mme si le nombre de parcs n'est
pas norme. On se contentera donc d'un chantillon, lequel, bien sr, sera
tir sans remise.
Nous verrons que les proprits des estimateurs se trouvent modifies par le
fait que les observations ne sont pas indpendantes. Heureusement, la
modification est relativement mineure et n'affecte que la variance de
l'estimateur.

Notation Les lments de la population sont des nombres que nous


dnoterons par
v 1 , v 2 , , v N
o N dsigne la taille de la population. La taille de l'chantillon sera note n ,
comme d'habitude. La moyenne P et la variance V 2 de la population sont
dfinies de la mme faon qu'au chapitre 2, soit
P

1
N

vi ; V

i 1

v i  P

i 1

Estimateur de la moyenne La moyenne arithmtique X est encore


l'estimateur ponctuel de P , et elle est sans biais dans ce contexte galement,

c'est--dire, E X

P . Nous devrons estimer l'cart-type de X

afin de

construire un intervalle de confiance pour P . On estime l'cart-type de X


par
V X

V
n

1

n
N

V
n

1 f ,

320

Introduction la statistique applique

o V 2 est la variance chantillonnale dfinie par

i 1 X i  X
n

et f

n 1

n N est appele fraction (ou taux) d'chantillonnage.

Remarque Rappelons que lorsque la population est infinie, la variance de


2
X est estime par V n . Ce qui change, donc, c'est le facteur 1  f , appel
facteur de correction :

Facteur de correction 1  f

1

n
N

qui est infrieur un et donc a pour effet de diminuer l'cart-type de X . Le


taux d'chantillonnage f est la quantit dterminante. Si f est petit,
c'est--dire, si l'chantillon est petit par rapport la population, le facteur de
correction est proche de 1, et la variance ne diminue que de peu. Inversement,
si f est grand, le facteur de correction est beaucoup plus petit que 1 et la
variance est rduite considrablement.

Formule de calcul On a dj fait remarquer que la somme des carrs,

Xi  X

, au numrateur de V 2 , est quivalente la diffrence

X i2  nX 2 , ce qui donne la formule suivante pour le calcul de V 2 .


n

V 2

i 1 X i2  nX 2 .
n 1

Intervalle de confiance pour la moyenne Nous avons donn au chapitre 8 la


formule suivante pour un intervalle de confiance :
X  c D V X d P d X  c D V X ,
o c D est trouve dans la table de la loi de normale ou de la loi de Student.
Lorsque la population est finie, la formule demeure la mme dans sa forme
extrieure. Mais il y a deux changements :

10 Techniques de sondages

321

1. Il n'existe pas de thorie exacte pour des petits chantillons et une


population normale, base sur la loi de Student. Donc, la formule ne
peut tre utilise que lorsque l'chantillon est grand, et la valeur de c D ,
vient gnralement de la table de la loi normale.
2. L'estimateur V X de l'cart-type, qui est V / n pour une population
infinie, est modifie par le facteur

1 f .

La formule complte pour un intervalle de confiance est donc


X  cD

V
n

1

n
N

d P d X  cD

V
n

1

Remarque Rappelons les conditions dans lesquelles les intervalles de


confiance ont t dvelopps au chapitre 8. Nous avons propos deux
procdures. L'une est base sur la supposition que la population est normale ;
l'autre s'appuie sur le thorme limite central. Les deux procdures sont
invalides par le fait que la population n'est pas infinie : la premire parce que
la notion de normalit se dfinit mal dans le cas des populations finies ; et la
deuxime parce que le thorme limite central exige que les variables soient
indpendantes, hypothse qui nest pas vrifie lorsque les tirages se font sans
remise. Il est vrai qu'on peut donner une dfinition intuitive de la normalit
d'une population finie : la population est normale si l'histogramme des valeurs
v 1 , , v N a la forme symtrique d'une fonction de densit normale. Dans la
mesure o cet histogramme prend la forme d'une loi normale, la distribution de
la variable X aura effectivement tendance tre normale. Cet nonc plutt
vague devra remplacer le thorme nonc rigoureusement au chapitre 7 : si la
population est normale, X est normale. Quant au thorme limite central, il en
existe une version pour les populations finies qui permet de conclure la
normalit de X . Nous ne l'nonons pas ici, mais notons qu'il faut non
seulement que n soit grand, mais que N  n le soit aussi. Ainsi la moyenne
d'un chantillon de taille 1 000 est normale si la population est de taille
1 000 000, mais pas si la population est de taille 1 010.

322

Introduction la statistique applique

Exemple 1

D'une population de N 8 427 comptes recevoir, on prlve un chantillon


de taille n 30 afin d'estimer la valeur moyenne d'un compte. Voici les
rsultats, en dollars :

240,82

232,50

740,81

860,32

224,10

7,15

324,11

240,12

10,02

190,08

182,75

160,20

148,22

41,10

119,25

113,85

108,30

107,10

101,19

9,15

99,21

93,12

88,13

80,15

78,13

72,15

67,13

65,14

132,19

32,17.

Estimer la moyenne de la population et l'cart-type de l'estimateur et


dterminer un intervalle de confiance 95 % pour P .
Nous avons
4 968 , 66 , X i2

Xi

1 864 906 , 49.

L'estimateur de la moyenne est


X

4 968 , 66 / 30

165 , 62 $.

L'cart-type V de l'chantillon, et l'cart-type V X de l'estimateur sont


2

X i  nX

1 864 906 , 49  30 4 968 , 66 / 30 2

n 1
V

V
X

35 930 , 59

189 , 55

30  1
n

35 930 , 59

30

1

1

30

34 , 61 1  0 , 003 56

34 , 55.

8 427

Le facteur de correction n'est pas important ici : s'il avait t omis, l'carttype aurait t estim V X 34 , 61 , assez proche de la valeur 34,55 calcule
plus haut. L'intervalle de confiance est donn par
X  c D V X d P d X  c D V X .
X

165 , 62 , V X

34 , 55 , et 95 %, c D

1, 96. Donc, l'intervalle est

165 , 62  1, 96 34 , 55 d P d 165 , 62  1, 96 34 , 55 ,

97 , 90 d P d 233 , 34.

10 Techniques de sondages

323

L'intervalle, trs large, montre que, tant donn la dispersion importante de


la population ( V = 189,55), l'chantillon n'est pas assez grand pour donner
une meilleure prcision.
videmment, ces rsultats sont approximatifs, puisque la normalit de la
population est trs douteuse et l'chantillon n'est pas trs grand.
i

Estimation d'un total Nous avons, dans le cas fini, un paramtre qui n'est pas
dfinissable dans une population infinie. C'est le total des donnes de la
population, que nous noterons W . Puisque W NP , le problme n'est pas
nouveau. W est estim par W NX , et l'intervalle de confiance pour W est
calcul en multipliant par N les limites de l'intervalle de confiance pour P
Exemple 2

Dans l'exemple 1, on estime la valeur totale des comptes recevoir par


W NX = 8 427(165,62) = 1 395 679,74 $. Un intervalle de confiance est
donn par 8 427(97,90) d W d 8 427(233,34), soit 825 003 d W d 1 966 356.

10.2

CHANTILLONNAGE STRATIFI - ESTIMATION D'UNE MOYENNE


Il arrive qu'une population soit naturellement divise en sous-populations :
la population d'un pays est rpartie en rgions gographiques ; les clients
d'une compagnie sont des particuliers, des dtaillants ou des grossistes ; les
tudiants d'une universit appartiennent l'une ou l'autre des facults ; les
employs d'une compagnie relvent de diffrents services ou succursales. Si
l'on veut chantillonner cette population pour estimer quelque paramtre, il
est parfois commode de prlever un chantillon dans chacune des souspopulations pour les runir ensuite. Les sous-populations sont alors
appeles des strates, et le mode d'chantillonnage est appel
chantillonnage stratifi. Prcisons la notation et la procdure. La
population est forme de K strates, et

N 1 , N 2 , , N K dnotent les tailles des strates ;


P 1 , P 2 , , P K dnotent leurs moyennes ; et
V 12 , V 22 , , V K2 dnotent leurs variances.

324

Introduction la statistique applique

Nous considrons le cas o dans chaque strate on prlve un chantillon


alatoire simple (tirages successifs, sans remise). Nous avons donc K
chantillons, et

n1 , n 2 ,  , n K dnotent les tailles des chantillons ;


X 1 , X 2 ,  , X K dnotent leurs moyennes ; et
V 12 , V 22 ,  , V K2 dnotent leurs variances.
FIGURE 10.1

Illustration d'un chantillon stratifi


Paramtres des strates

Population
(taille N)

N1
P1
V1

N2
P2
V2

n1
chantillons

Nk
Pk
Vk

n2

nk

x1

x2

xk

V 1

V 2

V k

Donnes chantillonnales

La situation est schmatise dans la figure 10.1. Puisque les chantillons


sont prlevs sparment, les moyennes X 1 , X 2 , , X K sont des variables
indpendantes qui estiment, respectivement, les paramtres P 1 , P 2 , , P K .

10 Techniques de sondages

325

Pour chacune des strates, les paramtres, les estimateurs et leurs proprits
sont exactement ceux prsents dans la section 10.1. Pour i 1, 2 ,  , K ,
l'estimateur de P i est X i et l'cart-type de X i est estim par

V X

o f i

V i
i

1

ni

ni

V i

Ni

ni

1 fi ,

n i N i . Donc, rien de nouveau en ce qui concerne l'estimation des

paramtres des strates. Rappelons toutefois que la population cible est la


runion des strates, et que les paramtres que l'on veut estimer sont ceux de
la population entire. Il faudra donc runir les donnes des K chantillons
de faon obtenir un estimateur de la moyenne de la population. La
moyenne P de la population peut tre exprime en fonction des moyennes
P i des strates :
P

N 1 P1  N 2 P 2   N K P K

N1

Les proportions N 1 / N , N 2 / N ,  , N K N

P1 

N2
N

P 2  

NK
N

PK .

sont les tailles relatives des K

strates. Nous les noterons W1 , W 2 , , W K . Nous pouvons exprimer P en


fonction des W i

Ni N :
K

W1 P 1  W 2 P 2    W K P K

Wi P i .
i 1

Pour estimer P , il suffit de remplacer chaque P i dans l'expression ci-dessus


par son estimateur X i . On a alors l'estimateur P dfini par
K

W1 X 1  W 2 X 2    W K X K

Wi X i .
i 1

L'cart-type de P est estim par


K

V P

2
2
W i V X
i 1

2
Wi
i 1

V i2
n
1 i .
n i
N i

326

Introduction la statistique applique

Exemple 3

Pour estimer la superficie moyenne des maisons et appartements d'une ville,


on commence par classer les habitations en trois strates :
Strate 1 : Nouvelles maisons construites sur l'ancien terrain de golf ;
Strate 2 : Vieilles maisons ;
Strate 3 : Appartements, duplex et autres.
On prlve un chantillon de chacune des strates. Les tailles des strates et
des chantillons sont
N1
n1

80

N2

10 n 2

200
20 n 3

N3

500

30.

Voici les superficies des maisons ou appartements dans les trois chantillons
(en mtres carrs) ainsi que quelques calculs :
Strate 1
466

428

506

458

408

373

429

397

422 , 6 , X i2

1 803 308 ,

1 9 1 803 308  10 422 , 6 2

1 933 , 378.

Xi
2
V 1

394

4 226 , X 1

367

Strate 2
301

319

232

228

268

201

233

220

261

203

261

370

214

242

296

234

280

270

259

195

Xi

5 087 , X 2

254 , 35 , X i2

1 19 1 330 573  20 254 , 35 2

2
V 2

1 330 573
1 931, 292 .

Strate 3
234

178

197

160

156

141

171

194

203

160

224

186

150

182

174

205

190

171

183

155

180

173

212

149

160

139

149

180

182

167

Xi
2
V 3

5 305 , X 3

176 , 83 , X i2

1 29 954 313  30 176 , 83 2

954 313 ,
559 , 040.

10 Techniques de sondages

327

La taille de la population est N =80 + 200 + 500 + 780 ; les tailles relatives
des strates sont W1 N i N = 80/780 = 8/78 | 0,1026, W 2 = N 2 N = 20/78 |
0,2 564, W 3

N 3 N =50/78 | 0,6 410. La moyenne de la population est

estime par
P

8
20
50

78 422 , 6  78 254 , 35  78 176 , 83

221, 91.

La variance de P est estime par


2

V P2

10 20 1 931, 292
20
8 1 933 , 378

1


1

78

10
80 78
20
200

30
50 559 , 040

1

30
500
78

1, 780  5 , 714  7 ,198

14 , 692.

Donc, l'cart-type estim de P

14 , 692 3, 833, et un intervalle de confiance

approximatif 95 % pour P est P r 1, 96V P 221, 91 r 1, 96 3, 833 , soit


214 , 4 d P d 229 , 4.

Remarque Plusieurs chercheurs effectuent des analyses partir des donnes


publies dans des documents officiels. Souvent, ils supposent que les donnes
sont issues d'un chantillon alatoire simple alors qu'elles peuvent avoir t
obtenues par un chantillon stratifi. C'est une erreur dont les consquences ne
sont pas ngligeables. Supposons, dans l'exemple 3, qu'on considre les n = 60
donnes comme si elles constituaient un chantillon alatoire simple d'une
population de taille N = 780. On aurait alors estim la moyenne par X , un
estimateur qui n'est pas sans biais dans une situation comme celle-ci o
certaines strates sont proportionnellement mieux reprsentes que d'autres.
Nous aurions obtenu, en effet, X 243,633, au lieu de 221,91. Cette
surestimation est attribuable au nombre proportionnellement grand d'units
appartenant aux deux premires strates. L'cart-type de X aurait galement t
mal estim : nous l'aurions estim par la formule V

intervalle de confiance aurait t


220 , 7 d P d 266 , 6.

n 1 f

11, 720 , et notre

328

Introduction la statistique applique

Cet intervalle est beaucoup plus long que l'intervalle obtenu correctement plus
haut. Il se trouve que l'erreur n'est pas grave dans la mesure o elle donne une
vision plutt pessimiste : l'estimation est de fait plus prcise que ne laisse
croire l'intervalle. Dans certains cas, une procdure errone peut donner lieu
des rsultats indment optimistes, ce qui est plus grave.

10.3

ALLOCATION DES OBSERVATIONS


Supposons que la valeur de n est fixe partir de considrations
conomiques. Comment doit-on rpartir cet effectif total entre les strates ?
Dans l'exemple 3, l'chantillon total est de taille n = 60, rparti ainsi : n1 , =
10, n 2 = 20, et n 3 = 30. Les mme 60 observations auraient pu tre alloues
diffremment. Quelles sont les consquences des diffrentes allocations ? Les
consquences sont en fait importantes, car la variance de l'estimateur en
dpend. D'ailleurs, la stratification n'est pas toujours impose par la nature :
on y recourt souvent volontairement, prcisment dans le but de rduire la
variance de l'estimateur.

Exemple 4

Utilisons les estimations V 12 =1 933,378, V 22 =1 931,292 et V 32 = 559,040


obtenues des donnes de l'exemple 3 pour estimer l'cart-type de P pour
diffrentes

allocations

n1 , n 2 , n 3 . Pour

une

allocation

donne

des

60

observations, l'cart-type de P est estim par


2
2
8 V 1

78 n

2
2
n 20 V 2

1 1 

80 78 n 2

2
2
n 50 V 3

1 2 

200 78 n 3

1 3 .

500

Voici l'cart-type de P qui rsulte de quelques allocations possibles :


Allocation
( n1 , n 2 , n 3 )
(9,22,29)

cart-type de

3,82

(6,15,39)

4,05

(20,20,20)

4,18

(30,10,20)

4,85

(50,5,5)

8,39

10 Techniques de sondages

329

Nous voyons que l'allocation a un effet important sur l'cart-type. Deux types
d'allocation sont utiliss couramment : l'allocation proportionnelle et
l'allocation optimale.

Allocation

proportionnelle

Une
allocation naturelle
est l'allocation
proportionnelle, qui rpartit l'chantillon de la mme faon que la population :
les n i sont proportionnels aux N i , (ou aux W i , ce qui revient au mme). Nous
avons approximativement les galits suivantes :
ni

nWi .

Dans l'exemple 3, l'allocation proportionnelle donne


n1

78 | 6, n

60 8

60 20

78

| 15, n

60 50

78

| 39.

Nous voyons aux calculs de l'exemple 4 que l'allocation proportionnelle n'est


pas la meilleure : elle donne un cart-type de 4,05, alors que pour
l'allocation (9, 22, 29), l'cart-type est de 3,82.
Si l'allocation proportionnelle n'est pas la meilleure, peut-on nanmoins dire
qu'elle est relativement bonne ? En particulier, un chantillon stratifi avec
allocation proportionnelle est-il prfrable un chantillon non stratifi ? La
rponse est oui, condition que les moyennes des strates soient assez
diffrentes les unes des autres. Cette condition est vrifie dans la plupart
des cas car c'est prcisment lorsque les strates sont trs diffrentes qu'il est
naturel de stratifier.

Allocation optimale Nous avons vu que mme si l'allocation proportionnelle


est gnralement bonne, il y en a de meilleures. Est-il possible de trouver la
meilleure de toutes ? Plus prcisment, tant donn un nombre total n
d'observations, y a-t-il moyen de les rpartir entre les strates de faon
minimiser la variance de P ? Il y a effectivement une allocation unique pour
laquelle la variance (et donc l'cart-type) de P est minimale ; elle est appele
allocation optimale. Puisque cette allocation dpend des variances des
strates, nous supposons ces variances connues pour le moment. On peut
dmontrer que l'allocation optimale est donne par
les n i proportionnels aux quantits Wi

Ni

V 1 | Wi V i

Ni  1

o l'galit approximative est vraie dans la mesure o les N i sont grands.

330

Introduction la statistique applique

Exemple 5

Considrons une population rpartie en 4 strates dont les paramtres sont


les suivants.

Ni

100

200

300

400

Vi

365

38

14

Dterminons l'allocation optimale d'un chantillon de taille 50. Les valeurs


de Wi V i sont
(0,1)(365), (0,2)(38), (0,3)(14), (0,4)(5),
soit

36,5 7,6 4,2 2,0.

La somme de ces nombres est 50,3, et l'allocation optimale est donne par
n1

36 , 5
50 , 3

50 | 36 ; n 2

7,6
50 , 3

4,2

50 | 8 ; n 3

50 , 3

50 | 4 ; n 4

2, 0

50 | 2.

50 , 3

Pour un chantillon de taille 50, l'cart-type de P est plus petit avec cette
i

allocation qu'avec toute autre.

Nous pouvons aisment dterminer une formule prcise pour les n i : dire
que les n i sont proportionnels aux Wi V i , c'est dire que pour une certaine
constante a , n i

aWi V i ; puisque n i
aWi V i

n , alors

n a Wi V i

na

n / Wi V i .

Nous avons donc la formule suivante pour n i :


ni |

Wi V i
k

j 1W j V j

n.

Paramtres inconnus Pour dterminer l'allocation proportionnelle, il suffit de


connatre les Wi . Pour dterminer l'allocation optimale, par contre, il faut
aussi connatre les V i . Or, les V i sont des paramtres de la population et
sont donc inconnus. Il n'y a pas de solution gnrale ce problme : en
pratique on tente, d'une faon ou d'une autre, d'obtenir une estimation des

10 Techniques de sondages

331

V i : soit par un chantillonnage conu cette fin, soit en se basant sur des
donnes semblables prises dans d'autres populations.

Strates recenses Il peut arriver que la formule pour l'allocation optimale


donne pour certaines strates une valeur de n i suprieure N i . Dans ce cas,
on prlve toutes les units des strates en question, et on utilise l'allocation
optimale pour les autres strates.
Exemple 6

Considrons une population de taille N = 130 rpartie en trois strates


d'effectifs 15, 40 et 75, respectivement, et d'carts-types 28 313, 2 032 et
276, respectivement. Quelle est la rpartition optimale d'un chantillon de
taille 25 ?
Les valeurs de Wi V i sont 3 267, 625 et 159 et leur somme est 4 051. Donc,
l'chantillon doit tre rparti selon les proportions 3 267/4 051 = 0,81,
625/4 051 = 0,15 et 159/4 051 = 0,04.
L'allocation est donc
ni

0 , 81 25 | 20 , n 2 0 ,15 25 | 4

et n 3

0 , 04 25 | 1.

Il est impossible de prlever un chantillon de taille 20 dans la premire


strate, qui ne contient que 15 lments. On en prlvera donc 15, la strate au
complet ; et on rpartira ensuite les 10 observations qui restent entre les deux
dernires strates. Les 10 observations seront rparties proportionnellement aux nombres 625 et 159, dont la somme est 784. Les tailles des deux
derniers chantillons sont donc n 2 625 784 10 | 8 , n 3 159 784 10 | 2 . La
moyenne est estime comme d'habitude par P
puisque W1 X 1

W1 X 1  W2 X 2  W3 X 3 mais

W1 P 1 , le premier terme est fixe et sa variance est nulle. La

formule usuelle pour l'estimateur de la variance s'applique quand mme ; on


verra que le premier terme est automatiquement nul cause du facteur de
correction 1  n1 N 1 1  N 1 N 1 0.

10.4

ESTIMATION D'UNE PROPORTION


Un chantillonnage par stratification peut tre employ profitablement pour
estimer une proportion p. La thorie ne change pas, car une proportion est
une moyenne : c'est la moyenne d'une variable dichotomique, c'est--dire,
une variable qui ne prend que les valeurs 0 et 1. Par exemple, si p est la

332

Introduction la statistique applique

proportion de fumeurs dans une population de N personnes, alors


p 1 N v j , o v j est gal 1 si la j -ime personne est fumeuse et v j 0
sinon. Donc, p est identique ce que nous avons not P dans les sections
prcdentes. Les proportions des strates seront dnotes par p i , (au lieu de
P i ), et les proportions chantillonnales par p i (au lieu de X i ). La moyenne
pondre que nous avons note X sera ici note p :

W1 p 1  W 2 p 2    W K p K

W i p i .
i 1

La nature dichotomique de la variable permet de donner des expressions


plus simples pour les variances. On peut montrer que pour une variable
dichotomique la variance chantillonnale de la strate i devient

ni

V i2

ni  1

p i 1  p i

ni
ni 1

p i q i | p i q i ,

la dernire galit approximative n'tant vraie que si les n i sont grands. Il n'y
a pas d'autre changement de notation : les formules pour les estimateurs des
carts-types des p i et de p sont identiques celles pour les X i et pour X :
V p

V i
i

1

ni

ni

V i

Ni

ni

1  fi

pour p i et
K

V p

Wi V 2p
i 1

pour p .

V i2
n
1 i
Wi
n i
N i
i 1
K

Wi 2
i 1

p i q i
n
1 i
n i  1
N i

10 Techniques de sondages

333

Le paramtre W dfini dans la section 10.1 devient ici W Np et reprsente


un effectif : si p est la proportion de fumeurs dans une population, W est le
nombre de fumeurs dans la population.
Exemple 7

Pour estimer la proportion d'employs en faveur d'un plan de soins


dentaires, on prlve un chantillon alatoire simple dans chacune des 4
divisions de la compagnie. Les effectifs des 4 divisions sont 4 523, 3 456,
1 300, 1 124, et les tailles des chantillons sont 22, 17, 6 et 5,
respectivement. Le nombre de personnes favorables est 10, 5, 3, et 3.
a) Les Wi sont 4 523/10 403 = 0,434 8 ; 3 456/10 403 = 0,332 2 ;
1 300/10 403 = 0, 125 O ; 1 124/10 403 = 0,108 0.
Les p i sont 10/22 = 0,454 5 ; 5/17 = 0,294 l ; 3/6 = 0,5 ; 3/5 = 0,6.
Donc p = (0,434 8)(0,454 5) + (0,332 2)(0,294 1) + (0,125 0)(0,5)
+ (0, 108 0) (0,6) = 0,422 6.
On estime que 42,26 % des employs de la compagnie sont en faveur
du plan. Donc, on estime que le nombre d'employs en faveur du plan
est
W = 10 403 x 0,422 6 = 4 396.

b) la variance de p est

4 523

10 403

10 12

2
22 22
22 3 456

1


21
4 523 10 403

1 300


10 403

0 , 5 0 , 5
5

1

1 124


1 300 10 403
6

5 12

17 17
17

1

16
3
456

0 , 6 0 , 4
4

1

1 124
5

0 , 005 12.

L'cart-type de p est donc

0 , 005 12

0 , 071 6.

c) Un intervalle de confiance approximatif 95 % pour p est donn par


p r 1, 96V p o p 0, 422 6 et V p 0, 071 6 , soit
0 , 282 3 d p d 0 , 562 9.

334

Introduction la statistique applique

Avec 95 % de confiance, on peut affirmer qu'il y a entre 28,2 % et


56,3 % d'employs en faveur du plan.
d) Nous pouvons dterminer un intervalle de confiance approximatif
pour W en multipliant les deux bornes par N = 10 403. Nous
obtenons :
2 937 d W d 5 856.

Nous pouvons affirmer avec peu prs 95 % de confiance que le nombre


d'employs en faveur du plan se situe entre 2 937 et 5 856.
i

Allocation optimale L'allocation optimale est, bien sr, toujours la mme, soit
approximativement
les n i proportionnels aux Wi V i
o V i2

p i 1  p i .

Il peut arriver, en l'absence d'information sur les p i , qu'on les suppose


gaux. Dans ce cas, l'allocation optimale est une allocation proportionnelle.
En pratique, la supposition que les p i sont gaux ne sera pas vrifie.
Cependant, la formule ci-dessus montre que l'allocation optimale dpend des
produits p i 1  p i et non des p i eux-mmes. Or, en gnral les valeurs du

produit p i 1  p i ne varient pas beaucoup, moins que les p i s'loignent

beaucoup de 1/2. Donc, moins que les valeurs des p i soient extrmes,
l'allocation optimale
proportionnelle.
Exemple 8

n'est

pas

tellement

diffrente

de

l'allocation

Les 3 strates d'une population contiennent respectivement 175, 375 et 450


units. Nous considrons la rpartition optimale d'un chantillon de taille
100 sous deux hypothses : (i) p1 0 , 4 , p 2 0 , 5 , p 3 0 , 6 , et (ii)
p1

0 , 05 , p 2

0 ,15 , p 3

0 , 25. Les valeurs de Wi sont 0 ,175 , 0 , 375 , 0 , 450.

Sous l'hypothse (i) les valeurs de W i V i

Wi

p i 1  p i

sont 0,085 7, 0, 187 5,

0,220 5, leur somme est 0,493 7, et l'chantillon doit tre rparti selon les
proportions 0,085 7/0,493 7, 0,187 5/0,493 7, 0,220 5/0,493 7, ce qui
donne environ n i = 17, 38 et 45. Sous l'hypothse (ii) les n i sont 10, 37, 53.
On voit bien que la premire rpartition, le cas o les p i sont proches de
0,5, est essentiellement la rpartition proportionnelle.

10 Techniques de sondages

10.5

335

CHANTILLONNAGE SYSTMATIQUE
L'chantillonnage systmatique est un mode d'chantillonnage motiv
surtout par des questions de commodit. Supposons que les patients d'une
clinique mdicale sont reprsents dans un fichier alphabtique. On peut
toujours indexer chaque fiche par un numro qui la situe dans le fichier, et
ensuite faire un tirage alatoire des numros. Une faon plus naturelle de
procder consiste tirer les fiches des intervalles rguliers. Par exemple, si
l'on veut tirer n = 50 fiches d'une population qui en contient N = 10 000, on
les tirera des intervalles de 200 fiches. Plus prcisment, la premire est
choisie au hasard parmi les 200 premires du fichier. Aprs elle, les 49
autres suivent des intervalles de 200. Si, par exemple, la premire fiche est
celle du rang 123, les fiches suivantes sont de rangs 323, 523, 723, 923, ...,
9 523, 9 723, 9 923.
Ce mode d'chantillonnage a beaucoup d'attrait, indpendamment des
questions de commodit. On sent qu'un chantillon tir de cette faon a
chantillon
Strate

10

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

plus de chance de couvrir la population entire. Ceci est particulirement


vrai des expriences agricoles : en tirant une plante chaque 10 ranges,
disons, on s'assure que le champ entier soit reprsent. Cet objectif, de
couvrir toutes les parties d'une population, est parfois ce qu'on vise
lorsqu'on stratifie. Il y a d'ailleurs un certain lien entre l'chantillonnage
systmatique et l'chantillonnage stratifi : supposons qu'on tire un
chantillon systmatique de taille n = 5 d'une population de 50 lments,
numrots de 1 50 dans le tableau ci-dessus.
On prendra donc comme point de dpart un nombre au hasard entre 1 et
10, aprs quoi on tirera chaque 10-ime lment. Ainsi, si le nombre choisi
est 4, l'chantillon sera form des lments 4, 14, 24, 34 et 44 : la quatrime
colonne. Chacune des 10 colonnes est donc un des dix chantillons
possibles. Si on considre les lignes comme des strates, l'chantillon

336

Introduction la statistique applique

comprend un lment de chaque strate et donc il s'agit en un sens d'un


chantillon stratifi. Mais contrairement un chantillon stratifi, le tirage
systmatique restreint l'chantillon une mme colonne. Cette restriction
peut rendre l'chantillon systmatique moins efficace ou plus efficace que
l'chantillon stratifi.
On peut dmontrer mathmatiquement que, lorsque N est un multiple entier
de n, la moyenne arithmtique X des donnes de l'chantillon est un
estimateur sans biais de la moyenne P de la population. Donc l'estimateur
est identique celui utilis dans un chantillon alatoire simple.
Malheureusement, il n'existe pas d'estimateur de la variance de X ou de p ,
et donc aucune possibilit de dterminer des intervalles de confiance.
L'chantillonnage systmatique dpend de l'ordre dans lequel les lments
de la population sont disposs et l'effet de l'ordre peut tre soit d'augmenter,
soit de diminuer la prcision de l'estimateur. D'une part, les chantillons
systmatiques peuvent amliorer la prcision de l'estimateur grce au fait
qu'ils couvrent toutes les parties de la population. D'autre part, il est
possible d'imaginer des donnes ayant une structure cyclique qui rend les
estimations trs peu prcises.
Remarque Certains analystes estiment l'cart-type de X ou de p comme si
l'chantillon avait t tir de faon purement alatoire. Une faon de justifier
cette approche est la suivante : la position des units dans la population est
elle-mme alatoire, dans le sens qu'elles auraient pu, sous l'effet du seul
hasard, avoir t disposes autrement. Si l'on suppose que toutes les faons
d'ordonner la population taient a priori quiprobables, alors l'chantillon
systmatique est effectivement un chantillon alatoire simple, prlev en
deux tapes : d'abord, les donnes de la population sont disposes dans un
ordre alatoire ; ensuite un chantillon systmatique est tir. Mais la premire
tape est effectue par la nature, pas par le statisticien ; c'est ce fait curieux
qui affaiblit l'argument : comment sait-on si les permutations des lments de
la population sont vraiment quiprobables, si on ne les effectue pas
soi-mme ?

10 Techniques de sondages

10.6

337

CHANTILLONNAGE EN GRAPPES
Supposons qu'on veuille chantillonner les lves des coles primaires d'une
province pour tester leur connaissance des mathmatiques. Un
chantillonnage stratifi, avec les coles comme strates, exigerait qu'on
prlve un chantillon dans chacune des coles, ce qui peut tre
malcommode et coteux, surtout lorsque les coles sont disperses sur un
grand territoire. Un chantillon alatoire simple d'lves est impossible sans
une liste exhaustive des lves, chose qu'on n'a pas toujours. Une liste
d'coles est facilement disponible, et peut tre exploite pour faire ce qu'on
appelle un chantillonnage en grappes : on commence par faire un choix
alatoire d'coles, qu'on appelle alors des grappes ou units primaires ; et
puis on choisit, l'intrieur de chaque cole, un chantillon d'lves, qu'on
appelle alors units secondaires ou sous-units. La situation est
schmatise dans la figure 10.2.
L'conomie que permet de raliser cette approche est claire. Un chantillon
alatoire simple, une fois choisi, est une liste de n lves qu'on doit aller
chercher dans les coles o ils se trouvent. Cela peut obliger de nombreux
voyages coteux. L'chantillonnage en grappes permet de mieux rentabiliser
ces voyages ; on peut tester plusieurs lves dans chaque cole peu de frais
supplmentaires.
En gnral, on recourt l'chantillonnage en grappes pour des raisons
d'conomie et de commodit et non pour des raisons de prcision dans
l'estimation. Contrairement l'chantillonnage par strates, qui peut tre
choisi uniquement pour son efficacit statistique, l'chantillonnage en
grappes n'est pas en gnral efficace. Prcisons cette affirmation : pour un
mme nombre n d'units secondaires (d'lves), l'chantillonnage en grappes
donne des variances plus grandes que l'chantillonnage alatoire simple.
Mais puisqu'il est plus conomique, on peut au mme cot obtenir un plus
grand nombre d'units secondaires ; et donc en dfinitive atteindre un degr
de prcision suprieur celui que peut fournir un chantillon alatoire
simple de mme cot.
L'chantillonnage en grappes est complexe car il existe plusieurs faons de
prlever les grappes, aucune ncessairement suprieure aux autres. Il est
naturel au premier stade de prlever un chantillon alatoire simple de
grappes dans la population de grappes. Cette approche attache toutefois la
mme importance toutes les grappes, les plus petites comme les plus
grandes. Cela n'est pas le meilleur moyen d'amliorer la prcision.

338

Introduction la statistique applique

Une autre faon de prlever les grappes consiste les tirer successivement,
avec remise, et avec probabilits proportionnelles aux tailles des grappes :
les plus grandes grappes ont les plus fortes chances d'tre tires. C'est une
faon de donner plus d'importance aux plus grandes grappes.
FIGURE 10.2

Schma d'un chantillonnage en grappes

chantillon d'coles

chantillon d'lves
dans les coles

Plusieurs choix peuvent tre exercs au deuxime stade aussi. On peut


facilement imaginer de multiples combinaisons des diffrents modes
d'chantillonnage. Les grappes sont elles-mmes stratifies, si l'on

10 Techniques de sondages

339

commence par sparer les coles en rgions, ou en appartenance


linguistique, ou selon d'autres catgories (prives, publiques, par exemple).
Le tirage l'intrieur d'une grappe peut tre exhaustif (tous les lves de
l'cole) ; ou alatoire simple ; ou encore en grappes (les classes sont
elles-mmes des grappes l'intrieur des grappes).
L'estimation des paramtres et de leur variance dpend de manire cruciale
du mode d'chantillonnage ; et se complique mesure que se complique le
plan d'chantillonnage. On ne peut pas analyser des donnes sans tenir
compte des moyens utiliss pour les obtenir. Plusieurs erreurs d'estimation
sont commises en traitant des donnes provenant d'un plan
d'chantillonnage complexe comme si elles avaient t obtenues par
chantillonnage alatoire simple. Alors rien n'est plus garanti : les
estimateurs usuels peuvent tre biaiss, les variances peuvent tre
surestimes ou sous-estimes.

RSUM
1. Soit X la moyenne d'un chantillon alatoire simple tir sans remise
d'une population de taille N de variance V 2 . L'estimateur X est sans
biais et son cart-type est estim par
V X

1

n
N

o V 2 est la variance chantillonnale dfinie par

i 1 X i
n

X

n 1

Lorsque les donnes sont dichotomiques (certaines valent 1, les autres 0), la
moyenne P est la proportion de 1 , note p ; l'estimateur X de p est not
p et V 2 prend la forme plus simple :
V 2

n
n 1

p 1  p

n
n 1

p q | p q .

340

Introduction la statistique applique

2. Un intervalle de confiance approximatif pour P (ou pour p ) est donn


par
X  cD

1

n
N

d P d X  cD

1

n
N

o cD , est obtenu d'une table de la loi normale.


3. La moyenne
K

W1 P 1  W 2 P 2    W K P K

Wi P i
i 1

d'une population stratifie est estim par


K

W1 X 1  W 2 X 2    W K X K

Wi X i .
i 1

Pour des donnes dichotomiques, P est not p :


K

W1 p1  W 2 p 2    W K p K

Wi p i
i 1

et son estimateur est


K

W1 p 1  W 2 p 2    W K p K

Wi p i .
i 1

4. L'cart-type de cet estimateur est estim par

Wi 2
i 1

V i2
n
1 i
n i
N i

> n

o V i2 est la variance du i -ime chantillon, donne par n i

 1 p i q i

lorsque les donnes sont dichotomiques.


5. L'allocation proportionnelle est la rpartition
proportionnellement aux tailles des strates
ni

nWi .

de

l'effectif

total

10 Techniques de sondages

341

6. L'allocation optimale est celle qui, pour un effectif total n , minimise la


variance de P . L'allocation proportionnelle est donne par
les n i proportionnels aux quantits Wi

Donc, n i |

Wi V i
K

j 1W j V j

Ni

V i | Wi V i .
Ni  1

n.

7. L'chantillonnage systmatique suppose une population de taille N


dont les units sont ranges dans un ordre dtermin. Pour prlever un
chantillon de taille n , un point de dpart est tir au hasard, aprs quoi
on tire chaque k -ime unit, o 1 k est la fraction d'chantillonnage.
8. Lorsque les units d'une population (les units secondaires) sont
groupes en grappes (les units primaires), une faon de les
chantillonner est de tirer d'abord les grappes ; et ensuite de prlever
une partie ou toutes les units secondaires contenues dans les grappes.

EXERCICES
1. Considrez la petite population de taille N = 6 dont les units sont les
suivantes :

^1, 3, 5, 7 , 8, 9`.
a) Calculez P et V 2 .
b) Dressez la liste des 15 chantillons de taille n = 2 qu'on peut prlever
de cette population et calculez X et V 2 pour chacun des
chantillons.
c) Prsentez sous forme de tableau la fonction de masse de X .
d) Vrifiez en utilisant la fonction de masse en c) que X
estimateur sans biais pour P .

est un

e) Calculez la variance de X en utilisant la fonction de masse en c).


f)

Calculez E V 2

et vrifiez que V X2

n 1  n N , avec n = 2 et

N = 6, est un estimateur sans biais pour la variance de X .

342

Introduction la statistique applique

2. D'une population de N personnes on tire sans remise un chantillon de


taille 25 afin d'estimer le revenu moyen P de la population. On trouve
X = 32 et V = 12, en milliers de dollars. Vrifiez les donnes du tableau
suivant, qui prsente la demi-largeur d'un intervalle de confiance 95 %
pour P pour quelques valeurs de N . Faites un commentaire gnral sur
l'effet d'un accroissement de N sur la prcision d'un estimateur.

Demi-largeur de l'intervalle

30

1,920 4

40

2,880 6

50

3,326 2

150

4,294 1

500

4,584 9

10 000

4,698 1

1 000 000

4,703 9

4,704 0

3. D'une population forme de 3 strates de 1 670, 610 et 915 units, on


prlve un chantillon stratifi. On obtient les rsultats suivants :
chantillon de la strate 1 :
2, 3, 4, 2, 3, 4, 3, 2, 6, 5, 3, 4, 2, 5, 6, 2, 3, 5, 4, 2, 3, 8.
n1

22 , X i

81 X i2

353

chantillon de la strate 2 :
68, 98, 87, 56, 34, 33, 44, 28.
n2

8, X i

448 X i2

29 898

chantillon de la strate 3 :
687, 675, 237, 99, 123, 456, 231, 324, 543, 654, 345, 234.
n3

12 , X i

4 608 X i2

2 271 312

10 Techniques de sondages

343

a) Estimez la moyenne P de la population.


b) Estimez le total W de la population.
c) Estimez l'cart-type de P .
d) Estimez l'cart-type de W .
e) Dterminez un intervalle de confiance 95 % pour P .
f)

Dterminez un intervalle de confiance 95 % pour W .

g) Utilisez les donnes de l'chantillon pour estimer l'allocation optimale


d'un chantillon de taille 42. (Vous supposerez ici que V i est un
estimateur adquat de V i ).
h) Estimez ce qu'aurait t l'cart-type de P si l'allocation optimale
avait t utilise.
4. Dterminez l'allocation optimale d'un chantillon de taille 100 pour
estimer la moyenne d'une population dont les 3 strates contiennent 30,
300, et 2 000 units, et les carts-types sont 150, 38, et 14.
5. Une population est forme de 5 strates comprenant 235, 432, 1590, 2
300, et 4 321 units. Les carts-types V sont 60, 36, 14, 12, et 10.
a) Dterminez l'allocation optimale d'un chantillon de taille 180.
b) Comparez l'cart-type de

pour l'allocation proportionnelle et

l'allocation optimale.
6. Les tudiants d'une universit sont rpartis en 4 facults ayant 1 230,
3 000, 2 500, et 8 000 tudiants, respectivement. On prlve un
chantillon de 25, 61, 51 et 163 tudiants dans les 4 strates pour
estimer la proportion p d'tudiants qui ont dj utilis la cooprative
tudiante. On trouve que les nombres d'tudiants qui l'ont dj utilise
dans les 4 chantillons sont 20, 43, 46, et 81, respectivement.
a) Estimez la proportion p d'tudiants dans la population qui ont dj
utilis la coop, ainsi que l'cart-type de l'estimateur.
b) Dterminez un intervalle de confiance 95 % pour p .

344

Introduction la statistique applique

c) Estimez le nombre W d'tudiants dans la population qui ont dj


utilis la cooprative.
d) Dterminez un intervalle de confiance 95 % pour W .
e) Utilisez l'estimation de p obtenue en a) pour estimer l'cart-type d'un
estimateur bas sur un chantillon alatoire simple de taille 300.
f)

Utilisez les rsultats de ce sondage pour dterminer l'allocation


optimale d'un ventuel deuxime sondage bas sur un chantillon de
taille 300. Estimez la variance d'un estimateur p bas sur un
chantillon de taille 300 rparti de faon optimale.

g) Quelle devrait tre la taille de ce prochain chantillon si l'on veut que


la demi-largeur d'un intervalle de confiance 95 % soit de 0,04 ? (Ne
tenez pas compte des facteurs de correction dans vos calculs).
7. Une population de 4 850 comptes est rpartie selon le type de client :
clients industriels, grossistes et dtaillants. Les effectifs des strates sont
N 1 = 50, N 2 = 800 et N 3 = 4 000, respectivement. Dans un chantillon
stratifi de taille 85 on obtient les montants suivants :

Strate 1 : Clients industriels


50 212

30 215

12 564

36 598

37 222

36 527

96 532

95 684

69 854

68 594

X1

53 400 , 20 , V 1

28 272 , 321

Strate 2 : Grossistes
3 652

6 598

6 537

5 656

6 644

6 563

6 521

6 549

6 598

6 537

3 268

8 854

6 582

8 457

6 584

9 658

6 532

9 564

9 856

6 598

9 723

6 549

2 147

3 345

5 465

X2

6 601, 48 , V 2

2 035 , 57

10 Techniques de sondages

345

Strate 3 : Dtaillants
325

695

658

423

214

659

854

632

632

654

985

658

745

698

365

256

985

654

965

965

985

658

321

123

365

965

965

856

452

325

445

323

765

139

239

432

871

347

138

325

762

769

126

247

246

235

345

345

345

298

X3

535 , 58 , V 3

275 , 656 8

a) Estimez le montant moyen des comptes.


b) Estimez le montant total des comptes de la population.
c) Dterminez un intervalle de confiance 95 % pour la valeur totale
des comptes dans la population.
d) Estimez l'allocation optimale en utilisant les donnes de l'chantillon.
e) Estimez l'cart-type de P bas sur un chantillon de taille 85 avec
allocation optimale.
8. Considrez une population de 60 logements, de laquelle on prlve un
chantillon systmatique de taille 6 dans le but d'estimer le nombre
moyen de personnes par logement. Les donnes pour la population
entire sont prsentes, ligne par ligne, dans le tableau suivant :

X2

27

21

18

15

24

24

21

18

27

21

139

103

70

43

112

118

91

64

131

85

a) Dterminez l'ensemble des 10 valeurs possibles de X , la moyenne


d'un chantillon systmatique de taille 6.

b) Dterminez E X , et donc vrifiez que X est un estimateur sans


biais.

c) Dterminez Var X .

346

Introduction la statistique applique

9. Afin de prdire le volume de transport (en millions de tonnes kilomtriques) qu'elle assurera l'an prochain, une compagnie de camionnage
dcide d'interroger 500 de ses expditeurs rguliers. Les donnes des
annes prcdentes permettent de classer les clients en quatre strates,
selon leur importance. Les effectifs des strates et leurs variances sont :
N i : 50 100 1 000 3 000
V i : 38,0 11,0 5,0 2,5.

Dterminez la meilleure faon de rpartir les 500 observations et estimez


la variance de P avec l'allocation optimale.
10. Dans la bibliothque d'une petite municipalit, les usagers sont fichs
individuellement, mais les fiches correspondant une mme famille sont
contiges et classes dans l'ordre suivant : mre, pre, autres adultes s'il
y a lieu, puis les enfants par ordre d'ge. On tire un chantillon de taille
5 du fichier suivant (qui doit se lire ligne par ligne). La signification des
symboles est la suivante :
F : adulte de sexe fminin
M : adulte de sexe masculin
f : enfant de sexe fminin
m : enfant de sexe masculin
F

Pour chacun des estimateurs suivants, dterminez la fonction de masse,


l'esprance et l'cart-type. Vrifiez que les estimateurs sont sans biais.
a)
b)
c)
d)

La proportion d'enfants dans l'chantillon.


La proportion de personnes de sexe fminin dans l'chantillon.
La proportion d'adultes de sexe fminin.
Comparez chacun des carts-types calculs ci-dessus avec l'carttype correspondant un chantillon alatoire simple de taille 5.

10 Techniques de sondages

347

11. Calculez l'cart-type des trois estimateurs traits l'exercice prcdent


en supposant que la mme population a t dispose de la faon
suivante :

12. D'une population de 30 personnes on prlve un chantillon de taille 6


pour estimer la proportion p de fumeurs. Soit p la proportion de
fumeurs dans l'chantillon. Supposons que 12 personnes dans la
population sont des fumeurs.
a) Prsentez sous forme de tableau la fonction de masse de

(suggestion : utilisez la loi hypergomtrique).


b) Vrifiez l'aide de ce tableau que p est un estimateur sans biais
de p .
c) Calculez V 2p en utilisant le mme tableau.
d) Dterminez la fonction de masse de V 2p

p 1  p n  1 1  n N

montrez que V 2p est un estimateur sans biais de V 2p .

et

11

Sries chronologiques

11. 1 Techniques de lissage


Moyenne mobile
Lissage exponentiel
11.2 Nombres indices
11.3 Dsaisonnalisation
11.4 Analyse de la tendance gnrale
Rgression linaire
Transformation logarithmique
11.5 Rsidus et bruit blanc
RSUM
EXERCICES

11 Sries chronologiques

349

Introduction On appelle srie chronologique (ou srie temporelle) une suite


d'observations x 1 , x 2 ,  , x T correspondant des mesures successives
effectues sur un mme phnomne. Le nombre T indique la longueur de la
srie et tient essentiellement le mme rle que la taille n d'un chantillon
ordinaire. La mesure prise au temps t est note x t .
Les tempratures enregistres chaque heure une certaine station
mtorologique constituent un bon exemple de srie chronologique. Ces
donnes ne peuvent tre traites comme un chantillon simple car elles ne
sont pas indpendantes : les observations successives sont fortement
corrles et l'ordre dans lequel elles se prsentent doit tre tenu en compte.
Le nombre d'automobiles vendues par un certain dtaillant, au cours de
chacune des 100 dernires semaines, est un autre exemple. Comment peuton utiliser ces donnes pour prdire convenablement combien d'automobiles
seront vendues durant les quelques prochaines semaines ? Le volume
gnral des ventes est-il en progression ? Y a-t-il un phnomne saisonnier
suffisamment important pour qu'on doive en tenir compte ?
Le monde socio-conomique regorge de telles sries : qu'on songe, par
exemple, aux variations du cot de la vie, des taux d'inflation ou de chmage
qui font constamment la manchette au moindre soubresaut...
Dans les trois premires sections de ce chapitre nous adoptons une
approche purement descriptive dans laquelle le hasard ne jouera pas grand
rle. Nous y verrons comment lisser le graphique d'une srie chronologique
pour le dbarrasser de fluctuations locales sans signification (qui peuvent
tre assimiles des variations accidentelles ou des erreurs de mesure),
pour en dgager une courbe plus douce qui dcrit beaucoup mieux l'allure
gnrale du phnomne. Nous verrons aussi comment transformer une srie
chronologique, comment la combiner avec une autre pour mieux faire
ressortir tel ou tel autre aspect de sa structure. Nous aborderons enfin
certains problmes de prdiction, d'extrapolation.
Dans les deux dernires sections, nous introduisons quelques modles plus
articuls o les lois du hasard sont mises profit pour aller un peu plus loin
qu'une simple description.

350

Introduction la statistique applique

11.1

TECHNIQUES DE LISSAGE
Lorsqu'une srie chronologique est illustre sous forme graphique, elle
prsente souvent un comportement gnral relativement doux sur lequel est
superpos un comportement local plutt cahoteux qu'il serait souhaitable
d'aplanir. On voudrait pouvoir promener sur le graphique un fer repasser
stochastique qui en effacerait toutes les asprits accidentelles et ne
laisserait subsister que les amples fluctuations gnrales qui, seules, sont
significatives. Un exemple servira illustrer cette situation.

EXEMPLE 1

Entre 7 h 00 et 9 h 00, 25 autobus sont arrivs successivement en bout de


ligne. Le tableau qui suit donne le nombre de passagers que transportait
chacun de ces autobus.

TABLEAU 11. 1

Heure d'arrive de 25 autobus et nombre X de passagers.


t

Heure d'arrive

Xt

Heure d'arrive

Xt

7 h 00

15

14

8 h 05

43

7 h 05

22

15

8 h 10

57

7 h 10

14

16

8 h 15

40

7 h 15

25

17

8 h 20

49

7 h 20

30

18

8 h 25

54

7 h 25

22

19

8 h 30

27

7 h 30

37

20

8 h 35

46

7 h 35

32

21

8 h 40

43

7 h 40

47

22

8 h 45

34

10

7 h 45

38

23

8 h 50

23

11

7 h 50

34

24

8 h 55

37

12

7 h 55

51

25

9 h 00

24

13

8 h 00

32

11 Sries chronologiques

351

Cette srie chronologique de longueur T = 25 est illustre par le graphique


dans la figure 11.1.
Malgr un comportement local en dents de scie , on peut dj observer
que, grosso modo, les donnes ont d'abord tendance crotre puis, aprs un
certain temps, elles se mettent dcrotre. C'est cette tendance douce que
nous souhaitons isoler, extraire des brusques irrgularits locales.
i
On pourrait, bien sr, faire passer l'oeil une courbe douce parmi les
points du graphique mais ce procd intuitif et artisanal est peu satisfaisant.
Mieux vaut calculer ces nouvelles valeurs par lesquelles passera la courbe
lisse, pure de ses dents de scie.

Moyenne mobile Une faon simple et naturelle de procder au lissage d'une


srie chronologique trop cahoteuse consiste remplacer chaque observation
x t de la srie par une nouvelle valeur, note x t , qui est la moyenne de
plusieurs observations voisines. Nous savons que la moyenne de plusieurs
observations est beaucoup plus stable qu'une observation individuelle. Cette
nouvelle srie x 1 , x 2 ,  , x T porte le nom de moyenne mobile.
FIGURE 11.1

Nombre de passagers dans 25 autobus successifs.


x
60
50
40
30
20
10
0

t
1

13

19

25

352

Introduction la statistique applique

Par exemple, on peut dfinir x t comme tant la moyenne des 3 observations


conscutives x t 1 , x t et x t 1 . Pour un lissage encore plus vigoureux, on
calculera la moyenne d'un nombre encore plus grand d'observations
conscutives. On aura alors x t 15 x t  2  x t 1  x t  x t 1  x t  2 ou encore
xt

1
7

t 3

 x t  2  x t 1  x t  x t 1  x t  2  x t 3

selon qu'on convient d'utiliser une

moyenne mobile portant sur 5 ou sur 7 observations conscutives.


En gnral, on convient donc d'un certain rayon r (par exemple, on peut
prendre r = 2 ou r = 3) puis on remplace chaque x t par la moyenne x t des
2r + 1 observations conscutives x t  r x t  r .On peut se reprsenter le rayon r
comme tant la demi-largeur d'une fentre imaginaire qui se promne tout
le long de la srie et qui, lorsqu'elle est centre en t, ne laisse voir que les
observations x t  r x t  r qui participeront au calcul de x t . Plus la fentre est
large, plus nombreuses seront les observations utilises dans le calcul de x t
et plus vigoureux sera le lissage des dents de scie. Il faut toutefois viter de
prendre une fentre trop large (un r trop grand) qui nous ferait tenir compte
d'observations trs loignes (dans le temps) de l'observation centrale x t et
pour lesquelles la courbe douce peut fort bien tre beaucoup plus haute ou
beaucoup plus basse que ce qu'elle vaut au centre de la fentre.
Deux objectifs sont en conflit : stabilit et sensibilit. Plus la fentre est
large, plus grand est le risque d'effacer, en mme temps que les accidents
locaux qu'on souhaite liminer, des variations relles et significatives de la
courbe douce qu'on cherche isoler.
Au tout dbut de la srie, de mme qu' sa toute fin, on ne dispose pas de
toutes les informations requises ; la fentre dborde en partie sur des
valeurs inexistantes ou non observes correspondant des valeurs de t
infrieures 1 ou suprieures T. On conviendra alors de dfinir x t comme
tant la moyenne d'un moins grand nombre d'observations, c'est--dire
uniquement de celles qui paraissent dans la fentre.
EXEMPLE 2

Applique aux 25 donnes du tableau 11.1, une moyenne mobile de rayon


r = 2 fournit la srie lisse suivante :

11 Sries chronologiques

353

15  22  14 3 17 , 0
15  22  14  25 4 19 , 0
15  22  14  25  30 5 21, 2
22  14  25  30  22 5  22 , 6

x1
x2
x3
x4

x 22
x 23
x 24
x 25

46  43  34  23  37 5 36 , 6
43  34  23  37  24 5 32 , 2
34  23  37  24 4 29 , 5
23  37  24 3 28, 0.

Sauf les deux premires et les deux dernires, chaque valeur x t de la srie
lisse est la moyenne de 2r + 1 = 5 termes conscutifs de la srie originale :
x t  2 , x t 1 , x t , x t 1 , x t  2 . Pour t = 1 ou 2, de mme que pour t = 24 ou 25, la
moyenne n'a port que sur les 3 ou 4 termes qui taient visibles dans la
fentre mobile.
La figure 11.2, prsente plus loin, illustre le lissage obtenu.

En gnral, il vaut mieux dfinir x t comme tant une moyenne pondre des
2r + 1 valeurs apparaissant dans la fentre, et qui accorde plus de poids aux
observations situes au centre qu' celles qui sont prs des bords. En
procdant ainsi, chaque nouvelle observation qui entre dans la fentre (ou
qui en sort) le fait d'une faon moins brutale et n'influence que
graduellement la valeur de la moyenne mobile.
En plus de convenir d'un rayon r, on choisira donc aussi des poids
c  r ,  , c 1 , c 0 , c 1 ,  , c r qui fourniront la pondration dsire. Par symtrie, on
conviendra de prendre c  r

c r , c  r 1

c r 1 ,  , c 1

c 1 . En choisissant ces c i

de telle sorte qu'ils dcroissent rgulirement de c 0 c r , on obtiendra la


moyenne pondre souhaite qui accorde plus de poids aux observations
centrales qu' celles situes en bordure de la fentre. Il ne reste plus qu'
calculer, pour chaque valeur de t,
xt

r
c i x t i
i r

r
c i
i r

354

Introduction la statistique applique

La formule qui prcde n'est videmment applicable que pour des valeurs de
t situes suffisamment loin du dbut ou de la fin de la srie. Pour les toutes
premires valeurs de t (pour t d r) de mme que pour les dernires (pour t >
T - r), cette formule rclame les valeurs d'observations inaccessibles qui
prcdent x 1 ou qui suivent x T . Ces observations n'tant pas disponibles, on
ne peut en tenir compte et, dans le calcul de x t , on cartera, tant au
numrateur qu'au dnominateur, les valeurs de i pour lesquelles l'indice t + i
est infrieur 1 ou suprieur T.

Si tous les poids c  r , c  r 1 ,  , c 1 , c 0 ,  , c r 1 , c r sont gaux, on obtient une


moyenne ordinaire. En prenant des c i qui croissent de c  r c 0 puis qui
dcroissent symtriquement de c 0 c r , on obtient un lissage plus doux. On
peut prendre, par exemple, des poids c i en progression triangulaire, avec
c r

cr

1, c  r 1

c 4

c4

1, c 3

2 ,  , c 1

c r 1
c3

2 , c 2

c2

c1
3, c 1

r, c0
c1

r  1. Avec r = 4, on aurait alors


4 et c 0

5.

Mieux encore, on peut choisir les c i en utilisant les coefficients du binme


de Newton dont la table parat la page 397. On prend alors

ci

2r

pour i allant de - r + r.
r i

Par exemple, si r = 2, les c i valent respectivement 1, 4, 6, 4 et 1.

EXEMPLE 3

Applique aux 25 donnes du tableau 11.1, une moyenne mobile de rayon


r = 2, avec poids binomiaux (1, 4, 6, 4 et 1) fournit la srie lisse suivante :

11 Sries chronologiques

15 u 6  22 u 4  14 u 1 6  4  1 17 , 5
15 u 4  22 u 6  14 u 4  25 u 1 4  6  4  1 18, 2
15 u 1  22 u 4  14 u 6  25 u 4  30 u 1 1  4  6  4  1
22 u 1  14 u 4  25 u 6  30 u 4  22 u 1 1  4  6  4  1

x1
x2
x3
x4

355

19 , 8
23,1


x 22
x 23
x 24
x 25

46 u 1  43 u 4  34 u 6  23 u 4  37 u 1 1  4  6  4  1
43 u 1  34 u 4  23 u 6  37 u 4  24 u 1 1  4  6  4  1
34 u 1  23 u 4  37 u 6  24 u 4 1  4  6  4 29 , 6
23 u 1  37 u 4  24 u 6 1  4  6 28, 6.

34 , 4
30 , 6

i
Poursuivis pour la srie entire, les calculs dvelopps dans les exemples 2
et 3 mnent aux valeurs lisses prsentes dans le tableau 11.2.
On constate (voir figures 11.2 et 11.3) que le second lissage, celui qui utilise
des poids binomiaux, est plus lisse, plus doux que le premier.

Lissage exponentiel Une autre technique de lissage est frquemment


employe lorsque les donnes sont observes une une et qu'on a besoin,
ds l'observation de x t , de pouvoir calculer la valeur x t de la srie lisse et
de fournir immdiatement une estimation x t 1 pour la prochaine valeur qui
n'a pas encore t observe.
On ne peut videmment pas utiliser les valeurs x t 1 , x t  2 ,  , qui ne sont pas
encore disponibles. Seules les valeurs de x t , x t 1 , x t  2 ,  , sont utilisables
dans l'expression de x t . En fait, nous dfinirons x t en fonction de x t (la
dernire valeur observe) et de x t 1 (la valeur lisse au temps prcdent).
Nous poserons
xt

Tx t  1  T x t 1

o le paramtre T , choisi entre 0 et 1, mesure l'importance de la


contribution de la dernire observation x t dans le calcul de la valeur lisse
x t . Si T est choisi prs de 1, x t sera pratiquement gal x t et le lissage

356

Introduction la statistique applique

TABLEAU 11.2

Moyenne mobile simple et moyenne mobile avec poids binomiaux


(toutes deux avec r = 2) lissant les donnes du tableau 11.1
xt

xt

xt

(poids gaux)

(poids binomiaux)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

15
22
14
25
30
22
37
32
47
38
34
51
32
43
57
40
49
54
27
46
43
34
23
37
24

17,0
19,0
21,2
22,6
25,6
29,2
33,6
35,2
37,6
40,4
40,4
39,6
43,4
44,6
44,2
48,6
45,4
43,2
43,8
40,8
34,6
36,6
32,2
29,5
28,0

17,5
18,2
19,8
23,1
26,2
28,6
32,2
36,8
39,6
39,7
39,9
40,7
41,2
44,1
47,2
47,6
47,1
44,6
40,9
40,3
39,3
34,4
30,6
29,6
28,6

sera minime. Au contraire, si T est choisi prs de 0, x t sera pratiquement


gal x t 1 et la dernire observation x t n'influencera que trs peu la valeur
du nouveau x t .
Encore une fois, il y a conflit entre les vux opposs de stabilit et de
sensibilit. Si on a l'impression que la courbe idale (celle qu'on cherche
dterminer en calculant les x t ) ne varie que trs lentement, on peut se
permettre un lissage vigoureux (avec T petit). Si, au contraire, cette courbe

11 Sries chronologiques

Moyenne mobile simple (avec r = 2) lissant la srie illustre la figure 11.1


x

FIGURE 11.2

357

60
50
40
30
20
10
0
1

13

19

25

Moyenne mobile avec poids binomiaux (r =2, poids 1, 4, 6, 4, 1) lissant la srie illustre la
figure 11.1
x

FIGURE 11.3

60
50
40
30
20
10
0
1

13

19

25

idale est susceptible de brusques soubresauts, mieux vaut augmenter la


sensibilit du lissage en prenant un T plus grand. La quantit 1 - T mesure
l'inertie de la suite des x t , leur rsistance aux changements apports par les
x t successifs.

358

Introduction la statistique applique

Remarquons que chaque nouvelle valeur lisse x t , qui a t obtenue en


fonction de x t et de x t 1 , peut aussi tre exprime en fonction des dernires
observations x t , x t 1 , x t  2 , etc. En effet, puisque x t 1 , est lui-mme de la
forme

Tx t 1  1  T x t  2

x t 2

peut, son tour, tre remplac par

Tx t  2  1  T x t 3 , etc., on obtient successivement


Tx t  1  T x t 1

xt

Tx t  1  T Tx t 1  1  T x t  2

Tx t  T 1  T x t 1  1  T x t  2
2

Tx t  T 1  T x t 1  1  T Tx t  2  1  T x t 3
2


Tx t  T 1  T x t 1  T 1  T x t  2  T 1  T x t 3  
2

Chaque nouvelle valeur lisse x t est donc une moyenne pondre de toutes
les

observations

prcdentes

( x t , x t 1 , x t  2 ,

etc.).

Les

poids

utiliss

dcroissent de faon exponentielle, d'o le nom de cette technique de


lissage : lissage exponentiel. Si T est prs de 1, le terme 1 - T sera petit et la
contribution des vieilles observations sera ngligeable.
En dbut de lissage, une difficult se prsente : quelle valeur doit-on donner
x 1 ? On ne peut utiliser la formule x 1 Tx 1  1  T x 0 puisqu'on ne dispose
d'aucune valeur pour x 0 . En pratique, nous ferons comme si les valeurs non
observes (ou imaginaires)
premire

observation

x 0 , x 1 , x  2 , etc. taient toutes gales la

x 1 . Cette

convention nous donne

raisonnable pour x 0 ; nous prendrons donc x 0


x1

une

valeur

x 1 , ce qui donne aussi

x 1 . Remarquons que le choix d'une valeur ou d'une autre pour x 1 a peu

de consquences : moins que T soit vraiment trs petit, la valeur initiale


adopte en dbut de lissage est bien vite efface, noye dans les observations
qui suivent et son effet dcrot exponentiellement au fur et mesure que
s'accumulent les observations nouvelles.
La suite des valeurs lisses successives nous permet enfin d'effectuer une
prdiction concernant la prochaine observation x t 1 ou, plus prcisment,
concernant la prochaine valeur lisse x t 1 . La faon la plus naturelle de

11 Sries chronologiques

359

procder est de supposer que, durant le prochain intervalle de temps (de t t


+ 1), la courbe douce continuera monter ou descendre de la mme faon
que ce qu'elle a fait durant le dernier intervalle de temps (de t - 1 t). On
posera donc
x t 1

x t  x t  x t 1

2 x t  x t 1 .
Remarque Cette formule, exprime en fonction de x t et de x t 1 peut aussi tre
exprime en fonction de x t et de x t . En effet, puisque x t
x t 1

 Tx t

1  T .

Tx t  1  T x t 1 , on a

Substituant cette expression dans la formule originale

on obtient, aprs quelques manipulations algbriques,


x t 1

x t  x t  x t T

1  T .

Cette nouvelle formulation de x t 1 permet de voir que la prvision x t 1 sera


suprieure (ou infrieure) la dernire valeur lisse ( x t ) en proportion de
l'cart x t  x t entre la dernire observation et la valeur lisse correspondante,
le facteur de proportionnalit tant T 1  T .
EXEMPLE 4

Durant ses 29 premires annes d'existence (de 1969 1997) l'quipe de


baseball Les Expos de Montral a obtenu les rsultats (proportions de
victoires) qui paraissent la troisime colonne du tableau 11.3. Les deux
autres colonnes du mme tableau donnent les valeurs obtenues en
appliquant cette srie un lissage exponentiel o le paramtre T est fix
1
1 .
2 ou
3
1
2

Avec T

, par exemple, on obtient

x1

x1

x2

Tx 2  1  T x 1

1
2

u 0 , 451  12 u 0 , 321 0 , 386

x3

Tx 3  1  T x 2

1
2

u 0 , 441  12 u 0 , 386

0 , 321

0 , 414

etc.
Le tableau 11.3 donne aussi, pour chacun de ces deux lissages, la
prdiction x 21 obtenue en appliquant la formule 2 x 20  x 19 . Les figures
11.4 et 11.5 illustrent ces rsultats d'une faon graphique.

360

Introduction la statistique applique

On observe que le second lissage est plus doux que le premier. Par contre, il
a plus d'inertie et prend plus de temps s'ajuster aux changements qui
surviennent dans la srie originale.
Remarque En 1998 les Expos ont obtenu une moyenne de 0,401 (65
victoires et 97 dfaites), ce qui est sensiblement infrieurs aux prdictions
fournies par ces deux lissages exponentiels.
TABLEAU 11.3

Proportions de victoires obtenues par les Expos de 1969 1988. Deux lissages exponentiels
et prdictions pour 1989.
Anne

xt

lissage
exponentiel
avec

1969
1
1970
2
1971
3
1972
4
1973
5
1974
6
1975
7
1976
8
1977
9
1978
10
1979
11
1980
12
1981
13
1982
14
1983
15
1984
16
1985
17
1986
18
1987
19
1988
20
1989
21
1990
22
1991
23
1992
24
1993
25
1994
26
1995
27
1996
28
1997
29
Prdictions pour 1998

0,321
0,451
0,441
0,449
0,488
0,491
0,463
0,340
0,463
0,469
0,594
0,556
0,556
0,531
0,506
0,484
0,522
0,484
0,562
0,500
0,500
0,525
0,441
0,537
0,580
0,649
0,458
0,543
0,481

0,321
0,386
0,414
0,431
0,460
0,475
0,469
0,405
0,434
0,451
0,523
0,539
0,548
0,539
0,523
0,503
0,513
0,498
0,530
0,515
0,508
0,516
0,479
0,508
0,544
0,592
0,525
0,534
0,507
0,480

1
2

lissage
exponentiel
avec

0,321
0,364
0,390
0,410
0,436
0,454
0,457
0,418
0,433
0,445
0,495
0,515
0,529
0,529
0,522
0,509
0,513
0,504
0.523
0,515
0,510
0,515
0,490
0,506
0,531
0,567
0,531
0,535
0,517
0,499

1
3

11 Sries chronologiques
FIGURE 11.4

Proportions de victoires obtenues par les Expos de 1969 1988. Lissage exponentiel avec

1
2

et prdiction pour 1989.

x
0,7

0,6

0,5

0,4

95

19

90
19

85
19

80
19

75

Proportions de victoires obtenues par les Expos de 1969 1988. Lissage exponentiel avec T

1
3

x
0,7

0,6

0,5

0,4

95
19

90
19

85
19

80
19

19

75

0,3
19
6
19 9
70

FIGURE 11.5

19

19
6
19 9
70

0,3

361

et prdiction pour 1989.

362

Introduction la statistique applique

11.2

NOMBRES INDICES
En 1950, la production canadienne de cuivre a t de 239 685 tonnes. En
1985, elle a t de 738 637 tonnes. La comparaison de ces deux grandeurs
est aise : les mines canadiennes ont produit 3,08 fois plus de cuivre en
1985 qu'en 1950. Les units n'ont pas chang : une tonne reste une tonne,
quel que soit le moment o la mesure est effectue.
En 1969, le salaire annuel moyen, au Canada, pour les hommes, tait de
4 746 $. En 1986, ce mme salaire moyen tait de 23 855 $. Peut-on dire
que le travailleur de 1986 tait 5,03 fois plus riche que le travailleur de 1969
? Ce serait vrai si le dollar de 1986 avait le mme pouvoir d'achat que celui
de 1969, mais tel n'est pas le cas. Pour comparer les valeurs relles de ces
deux revenus, il faut pouvoir les exprimer en units quivalentes, en dollars
de la mme anne.

TABLEAU 11.4

Indice des prix la consommation, Canada (1981 = 100)


Anne

Indice

Anne

Indice

Anne

Indice

Anne

Indice

1950

25,2

1963

32,6

1976

62,9

1989

150,9

1951

27,9

1964

33,2

1977

67,9

1990

158,2

1952

28,5

1965

34,0

1978

73,9

1991

167,0

1953

28,3

1966

35,2

1979

80,7

1992

169,6

1954

28,5

1967

36,5

1980

88,9

1993

172,6

1955

28,5

1968

38,0

1981

100,0

1994

173,0

1956

28,9

1969

39,7

1982

110,8

1995

176,7

1957

29,8

1970

41,0

1983

117,2

1996

179,6

1958

30,6

1971

42,2

1984

122,3

1997

182,5

1959

31,0

1972

44,2

1985

127,2

1960

31,4

1973

47,6

1986

132,4

1961

31,7

1974

52,8

1987

138,2

1962

32,0

1975

58,5

1988

143,8

SOURCE : Statistique Canada

Statistique Canada value et publie chaque anne un indice des prix la


consommation (aussi appel indice du cot de la vie) qui permet d'effectuer de
telles comparaisons. Sans entrer dans les dtails techniques concernant la

11 Sries chronologiques

363

faon prcise dont cet indice est calcul, disons simplement qu'on imagine
un panier de provision typique qui tient compte des principaux champs
de consommation (alimentation, habitation, vtements, etc.) D'une anne
l'autre, le montant qu'il faut dbourser pour acqurir ce panier de provisions
thorique peut tre mesur. Le tableau 11.4 donne les valeurs de cet indice
pour les annes 1950 1987. Par convention on a fix 100 la valeur de
l'indice pour l'anne 1981.
Les indices prsents dans le tableau 11.4 peuvent tre reprsents comme
tant le prix qu'il fallait payer, chaque anne, pour acqurir ce qui cotait
100 $ en 1981. On voit, par exemple, qu'en 1987 il fallait dbourser 138,2 $
alors qu'en 1950 on pouvait obtenir la mme chose pour seulement 25,2
$. Ce dernier nonc doit cependant tre reu avec circonspection : combien
cotait un magntoscope ou un ordinateur domestique en 1950 ? en 1850 ?
Le panier de provision typique qui sert calculer cet indice porte plutt sur
des biens intemporels , tels l'alimentation et l'habitation, mais mme pour
ces biens fondamentaux on ne peut tre tout fait l'abri d'un certain
dcalage technologique (combien cotaient les fraises, en 1900, au milieu de
l'hiver ?)
Il va de soi que le choix de 1981 comme anne de rfrence (pour laquelle
l'indice vaut 100) est purement arbitraire. Une autre anne de rfrence
ferait tout aussi bien l'affaire. Les donnes du tableau 11.4 peuvent tre
facilement reformules de telle sorte que l'anne de rfrence soit n'importe
quelle autre. Par exemple, si l'on veut que l'indice 100 corresponde l'anne
1985 (pour lequel le tableau 11.4 donne la valeur 127,2), il suffit de diviser
tous les indices du tableau 11.4 par 1,272. L'indice pour 1950, par exemple,
deviendra alors 25,2/1,272 = 19,8.
Nous pouvons maintenant revenir la question pose au dbut de cette
section : comment se comparent les revenus des travailleurs de 1986 ceux
de 1969 ? La comparaison pourra se faire en exprimant chacun des revenus
(4 746 $ en 1969 et 23 855 $ en 1986) en dollars d'une mme anne, par
exemple, en dollars de 1981.
Le tableau 11.4 nous indique que 39,7 $ de 1969 ont le mme pouvoir
d'achat que 100 $ de 1981. On trouve que 4 746 $ de 1969 ont le mme
pouvoir d'achat que 4 746 x 39100, 7 = 11 955 $ de 1981. De la mme faon,
23 855 $ de 1986 ont le mme pouvoir d'achat que 23 855 x
de 1981.

100
132 , 4

= 18 017 $

364

Introduction la statistique applique

tant maintenant tous deux exprims en units quivalentes (en dollars de


1981), les deux revenus peuvent tre compars d'une faon quitable. On
trouve que le travailleur de 1986 est

18 017
11 955

= 1,51 fois plus riche que le

travailleur de 1969. Ce rapport de 1,51 est beaucoup plus raliste que la


valeur 5,03 obtenue en calculant navement le quotient des deux revenus
sans tenir compte du fait que la valeur du dollar avait considrablement
chang de 1969 1986.
L'indice des prix la consommation tabli par Statistique Canada et
prsent dans le tableau 11.4 est un indice compos fond sur plusieurs
facteurs (alimentation, habitation, etc.) Pour certains de ces facteurs, les prix
peuvent varier plus rapidement que pour d'autres. Le tableau 11.5 prsente
les indices des prix la consommation qui s'appliquent spcifiquement
chacun des types de produits ou services.
EXEMPLE 5

En 1960 une famille dpensait 26 $ par semaine pour la nourriture et 29 $


par semaine pour le logement. Combien cotaient, en 1987, une quantit
comparable de nourriture et un logement analogue ?
Pour la nourriture, les indices sont 25,8 (pour 1960) et 132,4 (pour 1987).
Une dpense de 26 $ en 1960 correspond donc, en 1987, une dpense de
26 $ x 132,4/25,8 = 133 $.
Pour le logement, ce qui cotait 29 $ en 1960 (o l'indice est 32,2) cotait en
1987 (o l'indice est 138,3) un montant de 29 $ x 138,3/32,2 = 125 $. La
famille de 1960 dpensait plus pour le logement que pour la nourriture ;
celle de 1987, pour des biens analogues, dpense plus pour la nourriture
que pour le logement.
i
L'information contenue dans le tableau 11.4 peut tre prsente d'une autre
faon. En calculant le quotient des indices des prix la consommation pour
deux annes conscutives, on obtient une mesure de l'augmentation du cot
de la vie durant cette priode. En exprimant cette augmentation en
pourcentage, on obtient ce qu'on appelle le taux d'inflation. Par exemple,
l'indice gnral du cot de la vie tait de 117,2 en 1983 et 122,3 en 1984. Le
quotient 122,3/117,2 = 1,044 nous indique que le taux d'inflation a t de
4,4 % en 1984. Ce qui cotait un certain prix en 1983 cotait environ 4,4 %
de plus en 1984.
De la mme faon qu'on vient de dterminer le taux (gnral) d'inflation
partir de l'indice (gnral) des prix la consommation, on peut dterminer,
en remplaant les donnes du tableau 11.4 par celles du tableau 11.5, le
taux spcifique d'inflation qui s'applique tel ou tel autre secteur de
consommation. Par exemple, pour l'anne 1984 (o le taux gnral tait de

11 Sries chronologiques

365

4,4 %), on obtient que, pour l'alimentation seulement, le taux d'inflation a


t de (117,4/111,2) - 1 = 0,056 = 5,6 %. Pour les vtements, le taux
spcifique d'inflation, pour la mme anne, a t beaucoup plus faible, soit
(112,5/109,8) - 1 = 2,5 %.
TABLEAU 11.5

Indice des prix la consommation, selon la catgorie (1981 = 100)

Anne

Indice

Alimentation

Habitation

Vtements

Transports

gnral

Hygine

Tabac et

et Sant

Alcool

1950

25,2

21,6

25,3

35,9

24,3

20,8

32,8

1955

28,5

23,7

29,7

38,9

27,3

25,9

34,3

1960

31,4

25,8

32,2

40,0

32,3

31,6

37,0

1965

34,0

28,7

34,2

43,7

34,0

35,9

39,1

1970

41,0

34,1

42,3

51,5

40,4

44,3

47,0

1975

58,5

55,8

58,9

65,4

54,4

60,2

59,9

1976

62,9

57,3

65,4

69,0

60,3

65,3

64,2

1977

67,9

62,0

71,5

73,7

64,6

70,2

68,7

1978

73,9

71,6

76,9

76,5

68,3

75,2

74,3

1979

80,7

81,0

82,3

83,6

74,9

82,0

79,6

1980

88,9

89,8

89,0

93,4

84,5

90,2

88,6

1981

100,0

100,0

100,0

100,0

100,0

100,0

100,0

1982

110,8

107,2

112,5

105,6

114,1

110,6

115,5

1983

117,2

111,2

120,2

109,8

119,8

118,2

130,0

1984

122,3

117,4

124,7

112,5

124,8

122,8

140,6

1985

127,2

120,8

129,0

115,6

130,8

127,2

154,0

1986

132,4

126,8

132,9

118,8

135,0

132,6

172,3

1987

138,2

132,4

138,3

123,8

139,9

139,2

183,9

1988

143,8

135,9

144,3

130,3

142,5

145,3

197,6

1989

150,9

141,0

151,9

135,5

149,9

151,6

216,0

1990

158,2

146,8

158,8

139,3

158,3

159,0

234,9

1991

167,0

153,9

165,7

152,4

161,1

170,2

275,1

1992

169,6

153,2

168,0

153,8

164,4

174,0

291,4

1993

172,6

155,8

170,2

155,3

169,7

178,7

296,1

1994

173,0

156,5

170,9

156,6

177,2

180,3

247,7

1995

176,7

160,1

173,4

156,4

186,4

180,1

247,4

1996

179,6

162,3

174,8

155,9

193,7

181,1

252,4

1997

182,5

164,9

175,8

157,9

199,7

184,3

260,3

SOURCE : Statistique Canada

366

Introduction la statistique applique

TABLEAU 11.6

Taux gnral d'inflation au Canada, 1950-1987


Anne

Taux
(en %)

Anne

Taux
(en %)

Anne

Taux
(en%)

Anne

Taux
(en%)

1950

3,0

1962

1,2

1974

10,9

1986

4,1

1951

10,6

1963

1,7

1975

10,8

1987

4,4

1952

2,3

1964

1,8

1976

7,5

1988

4,1

1953

-0,8

1965

2,4

1977

8,0

1989

4,9

1954

0,6

1966

3,7

1978

8,9

1990

4,8

1955

0,0

1967

3,6

1979

9,2

1991

5,6

1956

1,5

1968

4,0

1980

10,2

1992

1,6

1957

3,1

1969

4,5

1981

12,5

1993

1,8

1958

2,5

1970

3,4

1982

10,8

1994

0,2

1959

1,1

1971

2,8

1983

5,8

1995

2,1

1960

1,3

1972

4,8

1984

4,4

1996

1,6

1961

1,0

1973

7,6

1985

4,0

1997

1,6

SOURCE Statistique Canada

Taux gnral d'inflation, au Canada, de 1950 1987


%
15
10
5
0

19
90

19
80

19
70

19
60

-5
19
50

FIGURE 11.6

11 Sries chronologiques

11.3

367

DSAISONNALISATION
Il arrive frquemment qu'une srie chronologique prsente des fluctuations
rgulires et prvisibles induites par un cycle naturel qui agit directement
sur le phnomne mesur. L'exemple le plus loquent est sans doute celui de
la temprature. Si l'on mesurait, chaque heure et durant plusieurs annes,
la temprature qu'il fait en un point donn, on observerait deux cycles : un
cycle annuel (il fait plus chaud l't que l'hiver) et un cycle journalier (il fait
plus chaud le jour que la nuit). Sur ces deux cycles rguliers se superposent
des variations plus capricieuses, moins systmatiques et qu'on ne peut
prvoir long terme. Une srie chronologique est dsaisonnalise quand on
a soustrait chaque terme de la srie la quantit correspondant ces effets
priodiques.

EXEMPLE 6

Supposons que, dans une certaine rgion, le taux de chmage augmente


habituellement de 3 % en janvier (par rapport la moyenne annuelle) et
diminue de 2 % en juillet. Peut-on alors raisonnablement considrer qu'un
taux de chmage de 8 %, observ en janvier, est moins grave et
correspond une meilleure performance socio-conomique qu'un taux de 4
% seulement mais qui serait observ en juillet ?
Quand ces mesures sont dsaisonnalises, on constate que le taux de 8 %
observ en janvier est ramen 5 % seulement quand on a corrig le facteur
saisonnier qui est responsable d'une survalue de 3 % par rapport la
moyenne annuelle. De la mme faon, le taux de 4 % mesur en juillet
correspond un taux dsaisonnalis de 6 % aprs la hausse de 2 % qui
corrige le facteur saisonnier. Mme si, dans l'absolu, le taux de chmage
tait plus fort en janvier qu'en juillet (8 % contre 4 %), on peut conclure que
les conditions gnrales d'emploi taient meilleures en janvier qu'en juillet. i
Pour dsaisonnaliser une srie chronologique, il faut connatre la longueur k
de la priode ainsi que les moyennes P 1 , P 2 ,  , P k correspondant chaque
unit de la priode. Si, par exemple, on effectue une mesure tous les mois
et qu'on considre un cycle annuel, on prendra k = 12 et les 12 moyennes
correspondront chacun des mois de l'anne. Si l'on effectue une mesure
toutes les heures, un cycle quotidien correspond k = 24.
Les moyennes thoriques P 1 , P 2 ,  , P k sont rarement connues avec
exactitude et sont habituellement remplaces par des moyennes

368

Introduction la statistique applique

exprimentales x 1 , x 2 ,  , x k qui peuvent avoir t dtermines par des


expriences prcdentes ou qui peuvent aussi tre directement calcules
partir des donnes x 1 , x 2 ,  , x T dont nous disposons.
La moyenne x 1 sera alors obtenue en ne considrant que les observations
x 1 , x k 1 , x 2 k 1 , x 3 k 1 ,  De mme, pour j allant de 1 k, x j est la moyenne de
toutes les observations dont la phase est j, c'est--dire, les observations
x j , x k  j , x 2 k  j , x 3 k  j , etc.
Quand les moyennes x j ont t calcules, on peut valuer la moyenne
gnrale x , qui est simplement la moyenne de ces k moyennes. Si la srie
contient un nombre exact de priodes (c'est--dire, si T est un multiple entier
de k), la moyenne x sera gale la moyenne ordinaire x des T observations.
Habituellement, T n'est pas un multiple exact de k et les moyennes x et x
seront lgrement diffrentes.
La srie x 1 , x 2 ,  , x T peut enfin tre dsaisonnalise et transforme en une
nouvelle srie

y 1 , y 2 , , y T

o les

yt

sont obtenues des x t

en leur

soustrayant les effets de phase x j  x .


yt

x  xt  x j

yt

xt  x j  x

o j est la phase correspondant t (c'est--dire t est de la forme nk + j o n


est un nombre entier).
EXEMPLE 7

Le tableau 11.7 donne les taux de chmage dans une certaine rgion, au
cours des 98 derniers mois.
Le taux moyen de chmage est x = 6,6. Remarquons que la moyenne
ordinaire des 98 observations est x = 6,57. La diffrence entre ces deux
moyennes est due au fait qu'on dispose de 9 observations pour les mois de
mai et de juin alors qu'on n'en a que 8 pour chacun des 10 autres mois.
Le taux moyen pour janvier (8,2) dpasse de 1,6 la moyenne annuelle qui est
de 6,6. Pour janvier, l'effet de phase est donc de 1,6. Poursuivant ces calculs
pour chacun des 12 mois de l'anne on obtient que les effets de phase, de
janvier dcembre, sont, respectivement,
1,6

1,8

1,3

0,1

-1,0

-1,3

-1,3

-1,3

-1,3

-0,4

0,3

1,5

11 Sries chronologiques

369

Remarquons au passage que la somme des effets de phase est


ncessairement zro puisque la somme des x j est prcisment gale k x .
Taux de chmage durant une priode de 98 mois

TABLEAU 11.7
Anne

Jan.

Fv.

Mars

Avr.

Mai

Juin

Juill.

Aot

Sept.

Oct.

Nov.

5,2

5,0

5,0

5,5

5,4

6,3

7,2

Dc.
8,8

8,5

8,7

7,9

6,8

6,2

5,9

6,4

6,3

6,5

7,6

7,9

9,4

9,7

9,6

8,4

7,2

6,4

6,1

6,6

6,6

6,2

7,2

7,5

8,5

8,8

8,7

8,2

6,7

5,5

5,2

4,9

4,8

4,9

6,8

6,8

7,9

7,8

7,7

6,9

5,7

5,2

4,4

4,3

4,2

4,4

5,1

6,8

7,0

7,0

7,0

7,0

5,7

4,6

4,6

3,9

4,0

4,1

4,7

5,6

7,0

7,4

8,3

8,3

7,9

6,4

6,0

6,0

5,4

5,3

6,0

6,5

8,0

8,1

8,1

7,9

7,1

6,0

5,2

5,0

5,4

5,3

6,2

6,9

8,4

8,5

8,9

8,3

6,5

5,2

4,9

Moyennes

8,2

8,4

7,9

6,7

5,6

5,3

5,3

5,3

5,3

6,2

6,9

8,1

Les donnes du tableau 11.7 peuvent tre enfin dsaisonnalises en


soustrayant chaque observation l'effet de phase qui correspond au mois
qui convient. On obtient le tableau 11.8.
Taux de chmage dsaisonnaliss issus du tableau 11.7

TABLEAU 11.8
Anne

Jan.

Fv.

Mars

Avr.

Mai

juin

Juill.

Aot

Sept.

Oct.

Nov.

Dc.

6,2

6,3

6,3

6,8

6,7

6,7

6,9

7,3

6,9

6,9

6,6

6,7

7,2

7,2

7,7

7,6

7,8

8,0

7,6

7,9

8,1

7,8

7,1

7,1

7,4

7,4

7,9

7,9

7,5

7,6

7,2

7,0

7,2

6,9

6,9

6,6

6,5

6,5

6,2

6,1

6,2

7,2

6,5

6,4

6,2

5,9

5,6

5,6

6,2

5,7

5,6

5,5

5,7

5,5

6,5

5,5

5,4

5,2

5,7

5,6

5,6

5,9

5,2

5,3

5,4

5,1

5,3

5,5

5,8

6,5

7,0

7,8

7,4

7,3

7,3

6,7

6,6

6,4

6,2

6,5

6,5

6,3

6,6

7,0

7,0

6,5

6,3

6,7

6,6

6,6

6,6

6,9

6,9

7,1

7,0

6,4

6,2

6,2

Remarquons que dans le tableau 11.8 o les donnes sont dsaisonnalises,


les moyennes, pour chacune des 12 colonnes, sont toutes gales entre elles
(et gales la moyenne gnrale x ).
Le tableau 11.8 reflte mieux que le tableau 11.7 les fluctuations
significatives du taux de chmage. L'effet saisonnier y a t corrig et les
comparaisons, d'une priode l'autre, sont plus quitables.

370

11.4

Introduction la statistique applique

ANALYSE DE LA TENDANCE GNRALE


Le moment est venu d'introduire le hasard dans nos modles, de considrer
des sries chronologiques formes de variables alatoires X 1 , X 2 ,  , X T
plutt que de nombres fixes x 1 , x 2 ,  , x T .
On observe frquemment que les donnes d'une srie chronologique ont
tendance se concentrer le long d'une courbe douce. Il est alors naturel
d'exprimer chacun des termes X t de la srie sous la forme
Xt

f t  Y t

o la fonction f (t) reprsente cette courbe douce (appele tendance gnrale)


et o les Y t sont des fluctuations alatoires (ou des erreurs de mesure) plus
ou moins grandes qui font osciller les X t de part et d'autre de la tendance
gnrale f (t). Ces Y t , sont des variables alatoires de moyenne nulle. De
plus, on les suppose gnralement indpendants et identiquement distribus.
C'est implicitement un tel modle qui tait sous-jacent lorsque, dans la
section 11.1, nous appliquions une moyenne mobile pour lisser une srie
chronologique et la dbarrasser des dents de scie provoques par les Y t . La
srie lisse fournissait alors une estimation raisonnable de la tendance f (t).
Quand on ne dispose d'aucune information pralable au sujet de la tendance f
(t), on ne peut gure faire mieux que l'approximer par les valeurs X t de la
srie lisse. Si, par contre, on sait ou on suppose que les X t ont tendance
crotre ou dcrotre de faon linaire, on peut faire beaucoup mieux : on peut
estimer directement les paramtres a et b de la fonction f (t) = a + bt et les
dents de scie seront alors compltement limines. Il suffit donc de dterminer
la droite de rgression qui passe le mieux parmi les points (1, X 1 ), (2, X 2 ), ...,
(T, X T ).

Rgression linaire Dans le chapitre 4, nous avons trait d'un problme


analogue. Les notations taient un peu diffrentes : nous disposions de n
points ( x 1 , y 1 ), ( x 2 , y 2 ),  , ( x n , y n ). Maintenant nous avons plutt T couples
(1, X 1 ), ..., (T, X T ). La substitution est aise : il suffit de rcrire les
formules du chapitre 4 en remplaant n par T, i par t, x i par t et y i par X t .

11 Sries chronologiques

371

On obtient les formules


b
a

tX t  t X t
t  t
2

X  b t T .

Remarquons que nous notons par a et b les paramtres de la droite de


rgression estime f t a  bt afin de bien les distinguer des paramtres
thoriques a et b de la droite idale f (t) = a + bt. Notons aussi que ces deux
formules peuvent tre simplifies en remplaant t par T (T + 1)/2 et t 2 par
T (T + 1) (2T + 1)/6. Aprs quelques manipulations algbriques lmentaires,
les deux formules deviennent
b

6 2 tX t  T  1 X t

T T 1
a

X  b T  1 2.

Pour dterminer les valeurs de et b , on n'a donc que deux sommes


calculer, soit X t et tX t .
De plus, si l'on veut estimer la hauteur f t 0

atteinte par la droite de rgression

(thorique) en un nouveau temps que nous notons t 0 , l'estimateur naturel


utiliser est f t 0

a  bt 0 . Ce f t 0

est simplement la hauteur atteinte, au

temps t 0 , par la droite de rgression exprimentale ajuste la srie.


EXEMPLE 8

Le tableau suivant indique quelle a t la production canadienne de bl (en


millions de tonnes) pour chacune des annes de 1971 1996, selon
Statistique Canada :
Anne

Production de
bl

Anne

Production de
bl

1971
1972
1973
1974
1975
1976
1977
1978
1979

1
2
3
4
5
6
7
8
9

14,4
14,5
16,2
13,3
17,1
23,6
19,9
21,1
17,2

1980
1981
1982
1983
1984
1985
1986
1987
1988

10
11
12
13
14
15
16
17
18

19,3
24,8
26,7
26,5
21,2
24,3
31,4
25,9
15,9

Anne

Production de
bl

1989
1990
1991
1992
1993
1994
1995
1996

19
20
21
22
23
24
25
26

24,8
32,1
31,9
29,9
27,2
22,9
25,0
29,8

372

Introduction la statistique applique

FIGURE 11.7

Production canadienne de bl (en millions de tonnes) de 1971 1996 et prdiction pour l'an 2010.
prdiction 37,7

50
40
30
20
10
0
1970

1975

1980

1985

1990

1995

2000

2005

2010

En supposant que ces productions suivent une progression linaire affecte


de fluctuations alatoires (principalement dues aux conditions climatiques et
aux alas du commerce agricole) qu'on considre indpendantes d'une anne
l'autre, estimer l'augmentation annuelle thorique (b) et prdire la
production pour l'an 2010.
On a T = 26 et un calcul rapide donne X t = 596,9 et tX t = 8 872,0.
On obtient donc
b

6 2 tX t  T  1 X t

T T 1
a

X  b T  1 2

596 , 9
26

6 2 u 8 872  27 u 596 , 9

9 766 , 2

26 676  1

17 550

 0 , 556 5 u 13 , 5

0 , 556 5

15 , 445.

Dans notre srie chronologique, l'anne 1971 correspondait au temps t = 1


et l'anne 1996 correspondait t = T = 26. L'anne 2010, pour laquelle on
veut obtenir une estimation de la production correspond donc au temps
t 0 = 2010 1970 = 40. L'estimation ponctuelle de f ( t 0 ) est a  bt 0
15 , 445  0 , 556 5 u 40

37 , 7 .

En rsum, la production canadienne de bl augmente d'environ 0,556 5


millions de tonnes par anne et devrait, en l'an 2010, tre de l'ordre de

11 Sries chronologiques

373

37,7 millions de tonnes. La figure 11.7 permet de visualiser le passage de la


droite de rgression parmi les 26 observations ainsi que son prolongement
jusqu' l'an 2010.

Transformation logarithmique Dans la nature, les progressions linaires sont


passablement rares. Beaucoup plus frquemment, on a affaire des
progressions pour lesquelles le taux d'accroissement est constant (ou peut
raisonnablement tre suppos constant sur un intervalle de temps plus ou
moins long). Si le taux d'accroissement est constant, la suite des
observations successives formera une progression exponentielle (on dit aussi
gomtrique). Ce sont donc les logarithmes des observations successives qui
formeront une progression linaire (ou arithmtique). On peut, au choix,
utiliser les logarithmes naturels (en base e) ou les logarithmes vulgaires (en
base 10).
Afin de pouvoir conserver les notations utilises dans le modle linaire qui
vient d'tre dvelopp, nous noterons maintenant par W1 , W 2 ,  , W T la srie
chronologique originale et par X 1 , X 2 ,  , X T la nouvelle srie obtenue en
posant X t = log W t , pour t = 1, 2, ..., T.
Fondamentalement, il n'y a rien de bien nouveau. Il faudra simplement
prendre soin de retraduire, en fin de compte, en termes de W e X (ou
W 10 X si le logarithme est en base 10) les rsultats obtenus concernant
X = log W.
EXEMPLE 9

Le tableau suivant indique les nombres de sites internet actifs dans le


monde, au milieu de chacune des annes 1991 1998.
Anne

1991

1992

1993
1994

Nombre de

Nombre de

Anne

535 000

1995

6 642 000

992 000

1996

12 881 000

1 776 000

1997

19 540 000

3 212 000

1998

36 739 000

sites internet

sites internet

Quel devrait tre le nombre de sites internet dans le monde en l'an 2005 ?
Visiblement, ces donnes ne sont pas en progression linaire. Une
progression exponentielle est beaucoup plus naturelle. Chacune de ces T = 8
donnes sera donc remplace par son logarithme (nous utiliserons les

374

Introduction la statistique applique

logarithmes naturels, mais les logarithmes en base 10 feraient tout autant


l'affaire). On obtient la nouvelle srie qui suit :
13,190 0 13,807 5 14,389 9 14,982 4 15,708 9 16,371 3 16,788 0 17,419 3
Un calcul rapide permet d'obtenir

Xt

122, 657 3 et

t Xt

577, 547 0

Les paramtres b et a de la droite de rgression sont donc


b

6 ( 2 u 577 , 547 0  9 u 122 , 657 3 )

0 , 609 27

8 u 63
a

122 , 657 3
8

L'an 2005 correspond t 0

0 , 609 27 u 9

12 , 590 45

15 , onobtient f ( t 0 )

a  b t 0

12 , 590 45  0 , 609 27

21, 729 50. Rappelons que cette valeur correspond au logarithme du nombre

de sites internet en l'an 2005. Le nombre de sites internet devrait tre voisin
de e 21, 729 50 2 , 735 milliards.
Les figures 11.8 et 11.9 illustrent graphiquement ces rsultats.
FIGURE 11.8

Droite de rgression ajuste au logarithme du nombre de sites internet et extrapolation jusqu'


l'an 2005.
prdiction 21,729 50

22
20
18
16
14
12
1990

1995

2000

2005

11 Sries chronologiques

P.N.B. canadien (en milliards de dollars) et extrapolation exponentielle jusqu' l'an 2000.
prdiction 2,735 milliards

2
Milliards

FIGURE 11.9

375

0
1990

1995

2000

2005

Il va de soi que la prdiction qui vient d"tre calcule pour l'an 2005 ne sera
valide que si, entre les annes 1998 et 2005, le nombre de sites internet
parvient conserver le mme taux d'accroissement que celui qui a t
observ durant les annes 1991 1998 (c'est--dire, pratiquement doubler
chaque anne). Cette supposition est hautement irraliste car elle mne,
moyen terme, des rsultats absurdes. Ds 2005, on obtient une prdiction
du nombre de sites internet correspondant prs de 40 % de la population
mondiale. i on voulait faire une prdiction pour l'an 2030, on obtiendrait
environ un million de site internet par habitant de la plante. Disons
simplement, pour conclure, que la nature a horreur des progressions
exponentielles . court terme, a peut aller, mais long terme, il faut tre
prudent et user de son jugement, ce qui dborde du champ des simples
techniques mathmatiques.

376

11.5

Introduction la statistique applique

RSIDUS ET BRUIT BLANC


Lorsqu'on ajuste un modle (rgression, dsaisonnalisation, etc.) une srie
chronologique X t , on cherche, idalement, dterminer une formule qui
permette d'exprimer le plus correctement possible X t en fonction de t.
Habituellement on ne peut pas obtenir un ajustement parfait ; il reste
toujours des diffrences, des carts entre les X et les X fournis par le
t

modle. Dans le cas d'une rgression, X t


dsaisonnalisation de priode k,

X t

f t

a  bt . Dans le cas d'une

est la moyenne de toutes les

observations qui ont la mme phase que X t , c'est--dire, dont les indices
diffrent de t par un multiple exact de la priode k.
Les carts D t

X t  X t portent le nom de rsidus. Ils correspondent la

partie des fluctuations de la srie originale qui a rsist au modle, que le


modle n'a pas russi expliquer.
Lorsqu'on analyse la structure d'une srie chronologique, on cherche y
ajuster un modle qui fournira des rsidus (de moyenne nulle) dont la
variance sera aussi petite que possible. Quand, aprs rgression, aprs
dsaisonnalisation, on obtient une suite de rsidus qui se comportent
comme des variables indpendantes et toutes de mme loi, on a extrait tout
le jus du citron, toute la structure de la srie. On bute alors sur le hasard
pur et il n'y a plus aucune information tirer de ces rsidus sinon en
estimer la variance, en dterminer la distribution commune. Une telle suite
de variables de moyenne nulle, indpendantes et de mme loi, porte le nom
de bruit blanc.
Tant qu'on n'est pas arriv des rsidus formant un bruit blanc, on n'a pas
encore extrait tout le jus du citron ; il y a encore de l'information tirer de
ces rsidus. En modlisant la faon dont ils sont lis entre eux, on peut
souvent rduire encore davantage le rle du hasard, obtenir les rsidus des
rsidus et pousser plus loin l'analyse jusqu' ce qu'on bute enfin sur un
bruit blanc et qu'il ne reste que l'corce du citron. Dans un bruit blanc, les
variables sont indpendantes et se comportent comme un chantillon
simple ; l'ordre dans lequel elles se prsentent n'a donc plus aucune
signification particulire et l'analyse de la srie chronologique est acheve.

11 Sries chronologiques

377

Quand une suite de rsidus D1 , D 2 ,  , D T ne forme pas un bruit blanc, c'est


habituellement la condition d'indpendance entre les rsidus successifs D t
et D t 1 qui n'est pas satisfaite. Une faon simple de dtecter et de visualiser
la dpendance qui peut exister entre les rsidus successifs s'obtient en
observant l'allure du nuage de points form par les T - 1 couples de rsidus
successifs ( D1 , D 2 ), ( D 2 , D 3 ), ( D 3 , D 4 ), ..., ( D T 1 , D T ).
EXEMPLE 10

Les 20 rsidus suivants forment-ils un bruit blanc ?


t

Dt

Dt

Dt

Dt

0,937

-0,432

11

-0,998

16

0,822

1,883

-0,637

12

-1,183

17

0,358

1,499

0,057

13

-0,507

18

0,227

-0,063

-1,050

14

-0,447

19

-0,623

0,134

10

-0,978

15

0,728

20

0,273

Solution : Les 19 couples de rsidus successifs (0,937 ; 1,883), (1,883 ; 1,499),


..., (-0,623 ; 0,273) fournissent le nuage de points illustr par la figure 11. 10.
FIGURE 11.10

Les 19 couples ( D t , D t 1 ) de rsidus conscutifs

D t+ 1

-1

-2

-2

-1

On remarque que ce nuage de points a une nette tendance oblique,


caractristique d'un coefficient de corrlation significativement positif. Ce

378

Introduction la statistique applique

coefficient de corrlation se calcule directement en utilisant les formules


dveloppes au chapitre 4 en prenant X i D i et Y i D i 1 pour i = 1, 2,
...., 19.
On obtient X i

0 , 273 ; X i2

13 , 973 ; Y i

0 , 937 ; Y i 2

8, 952 , qui donne r = 0,660. Avec n = 19, on trouve Z

13 ,170 et X i Y i
n  2r

1 r 2

3 , 62 ,

valeur nettement suprieure 2 et fortement indicatrice d'une dpendance


relle entre les rsidus successifs. La suite D1 , D 2 ,  , D T n'est donc pas un
i

bruit blanc.

Lorsque, aprs avoir ajust un modle une srie chronologique X t , on


obtient des rsidus D t qui ne sont pas un bruit blanc, il reste encore du jus
dans le citron , de la structure modliser. Les techniques qu'il convient
alors d'appliquer dbordent du cadre lmentaire dans lequel nous devons
nous restreindre. Sans entrer dans les dtails des processus auto-rgressifs,
signalons simplement l'existence de modles qui permettent d'exprimer
chaque rsidu comme combinaison linaire des rsidus voisins, plus un
terme rsiduel qui, si tout va bien, aura (enfin !) une structure de bruit
blanc.

RSUM
1. Une srie chronologique est une suite de mesures

x1 , x 2 , , x T

effectues sur un phnomne qui varie dans le temps.


2. Une moyenne mobile est une technique de lissage qui consiste
remplacer chaque observation x t par une moyenne pondre de
plusieurs observations voisines :
xt

r
c i x t i
i r

r
c i
i r

3. Le lissage exponentiel est une technique de lissage dans laquelle


chaque observation x t est remplace par x t Tx t  1  T x t 1 , o T est un
nombre fixe choisi entre 0 et 1.
Une prdiction pour x T 1 s'obtient alors en calculant x T 1

2 x T  x T 1 .

11 Sries chronologiques

379

4. Lorsque l'unit de mesure n'a pas une valeur constante, il faut en tenir
compte pour comparer convenablement des mesures effectues des
moments diffrents. On utilise alors une table qui indique les valeurs
successives de l'unit de mesure et qui, par commodit, accorde souvent
une valeur conventionnelle de 100 pour un certain instant de rfrence.
5. Une srie chronologique dans laquelle se manifestent des fluctuations
rgulires de priode k peut tre dsaisonnalise en soustrayant
chaque observation x t l'effet de phase x j  x correspondant l'indice t.
La

quantit

xj

est

la

moyenne

de

toutes

les

observations

x j , x j  k , x j  2 k , ... qui ont la mme phase que x t , c'est--dire, dont les

indices diffrent de t par un multiple exact de la priode k. La quantit x


est la moyenne des k moyennes x 1 , x 2 ,  , x k associes chacune des k
phases de la priode.
6. Les sries chronologiques se prsentent souvent sous la forme
Xt

f t  Y t

o f (t) est une tendance gnrale douce et o les Y t sont des


fluctuations alatoires indpendantes, identiquement distribues et de
moyenne thorique nulle.
Si la tendance est linaire (c'est--dire, f (t) = a + bt) les paramtres a et
b peuvent tre estims par
b

6 2 tX t  T  1 X t

T T 1
a
et f ( t 0 ) peut tre estim par f t 0

X  b T  1 2
a  bt 0 .

7. Si l'allure gnrale de la srie est exponentielle plutt que linaire, on


effectuera une rgression linaire passant parmi les logarithmes des
observations originales.
8. L'ajustement d'un modle une srie chronologique permet d'approximer
chaque X t par la valeur X t obtenue du modle. Les carts D t X t  X t
sont appels les rsidus et correspondent la partie des fluctuations de
la srie originale qui subsiste encore aprs l'ajustement du modle.

380

Introduction la statistique applique

9. Une suite de variables alatoires indpendantes, identiquement


distribues et de moyenne nulle porte le nom de bruit blanc. Quand une
suite de rsidus forme un bruit blanc, il n'y a plus rien en tirer : le
modle a extrait tout le jus du citron.
10. Une corrlation significativement non nulle entre les rsidus successifs
permet de conclure qu'on n'a pas encore atteint l'objectif d'un bruit blanc
et qu'il est possible d'aller plus loin dans l'analyse de la srie. D'autres
modles plus avancs prennent alors la relve...

EXERCICES
TECHNIQUES DE
LISSAGE

1. Le tableau suivant indique, pour chacune des annes allant de 1960


1987, le nombre d'immigrants reus par le Canada.
Nombre

Nombre

Nombre

Nombre

Anne

d'immigrants

Anne

d'immigrants

Anne

d'immigrants

Anne

d'immigrants

1960

104 111

1967

222 876

1974

218 465

1981

128 618

1961

71 689

1968

183 974

1975

187 881

1982

121 147

1962

74 586

1969

161 531

1976

149 429

1983

89 157

1963

93 151

1970

147 713

1977

114 914

1984

88 239

1964

112 606

1971

121 900

1978

86 313

1985

84 302

1965

146 758

1972

122 006

1979

112 096

1986

99 219

1966

194 743

1973

184 200

1980

143 117

1987

152 098

SOURCE : Emploi et Immigration Canada

a) Tracez le graphique de cette srie chronologique.


b) Lissez cette srie en y ajustant une moyenne mobile de rayon r = 2,
avec poids gaux.
c) Lissez la mme srie en y ajustant une moyenne mobile de rayon
r = 2, avec poids binomiaux.
d) Appliquez cette srie un lissage exponentiel avec T
prdiction obtient-on pour 1988 ?

1
3

Quelle

11 Sries chronologiques

381

2. Le tableau suivant indique les nombres de naissances qui ont eu lieu, au


Canada, durant chacune des annes 1925, 1930, 1935, ..., 1985.
Anne

Nombre de naissances

Anne

Nombre de naissances

1925

249 365

1960

478 551

1930

250 335

1965

418 595

1935

228 396

1970

371 988

1940

252 577

1975

359 323

1945

300 587

1980

370 709

1950

372 009

1985

375 727

1955

442 937

SOURCE : Statistique Canada

a) Tracez le graphique de cette srie chronologique.


b) Lissez cette srie en y ajustant une moyenne mobile de rayon r = 1,
avec poids binomiaux.
c) Appliquez cette srie un lissage exponentiel avec T

1
2

. Quelle

prdiction obtient-on pour l'an 1990 ?


3. Lancez un d 20 fois et engendrez une srie chronologique artificielle
X 1 , X 2 ,  , X 20 . Lissez cette srie en y ajustant une moyenne mobile
avec poids binomiaux o r vaut 1, 2, 3 et 5. Vrifiez que ces 4 lissages
sont de plus en plus stables.
4. Un acriculteur a gard registre de la quantit de sirop d'rable qu'il a
produit durant chacune des 12 dernires annes. Voici les rsultats,
exprims en litres.
6 815 8 320 6 310 6 740 5 200 4 400 6 350 5 340 3 660 4 570
4 735 3 420
Appliquez cette srie un lissage exponentiel avec T

1
2

. Quelle

prdiction obtient-on pour la production prochaine ?


NOMBRES
INDICES

5. Calculez de nouveau les indices des prix la consommation prsents


dans le tableau 11.4 de telle sorte que l'anne de rfrence (pour laquelle
l'indice est 100) soit 1985 plutt que 1981.
6. En utilisant les indices des prix la consommation prsents dans le
tableau 11.5, rsolvez les problmes suivants :

382

Introduction la statistique applique

a) Combien cotait, en 1960, un habit comparable celui qui cotait


250 $ en 1985 ?
b) Combien cotait, en 1985, une maison qui cotait 25 000 $ en
1950 ?
c) En 1960, une certaine famille consacrait 31 % de ses dpenses
l'alimentation, 36 % l'habitation, 10 % aux vtements, 11 % aux
transports, 3 % aux frais de sant, 6 % aux loisirs et 3 % au tabac et
l'alcool. Quel serait le partage des dpenses, selon chacune des 7
catgories, pour obtenir, en 1987, des produits quivalents dans des
proportions semblables ?
7. Le tableau suivant indique la valeur moyenne du dollar canadien,
exprime en dollars amricains, en livres britanniques, en francs
franais, en marks allemands et en yens japonais, pour chacune des
annes allant de 1965 1987.
Anne
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987

dollars U.S.
0,9276
0,9282
0,9270
0,9281
0,9287
0,9579
0,9903
1,0096
0,9999
1,0225
0,9830
1,0141
0,9403
0,8770
0,8536
0,8554
0,8340
0,8103
0,8114
0,7723
0,7325
0,7197
0,7541

livres
0,3318
0,3323
0,3372
0,3877
0,3885
0,3997
0,4051
0,4033
0,4076
0,4370
0,4426
0,5615
0,5385
0,4568
0,4023
0,3677
0,4117
0,4634
0,5352
0,5780
0,5649
0,4905
0,4603

francs
4,5454
4,6000
4,6000
4,5956
4,8123
5,2938
5,4555
5,0891
4,4307
4,9140
4,2070
4,8379
4,6189
3,9448
3,6311
3,6088
4,3346
5,3050
6,1576
6,7250
6,5232
4,9751
4,5290

marks
3,7051
3,7120
3,6955
3,7051
3,6417
3,4928
3,4483
3,2175
2,6441
2,6420
2,4131
2,5510
2,1805
1,7572
1,5640
1,5518
1,8804
1,9662
2,0687
2,1911
2,1381
1,5564
1,3543

yens
333,8898
336,1345
335,6831
334,5601
332,7787
342,9355
343,4066
305,8104
270,5628
298,1515
291,5452
300,5711
251,2563
182,4818
186,0465
192,9385
183,4862
201,3693
192,6782
183,2509
173,4004
120,5400
108,8376

SOURCE : Banque du Canada

a) Quelle a t, chaque anne, la valeur moyenne du dollar amricain,


exprime en dollars canadiens ?

11 Sries chronologiques

383

Remarque En toute rigueur, l'inverse d'une moyenne n'est pas


exactement gal la moyenne de l'inverse. Les rsultats seront donc
approximatifs.
b) Quelle a t, chaque anne, la valeur de la livre anglaise, exprime en
francs franais ?
c) Pour chacune des annes 1965, 1970, 1975, 1980 et 1985, quelle
tait la valeur du dollar amricain, exprime dans chacune des cinq
autres units montaires ?
d) Pour chacune des annes de 1966 1987, dterminez quelle
monnaie s'est le plus (le moins) apprcie depuis l'anne prcdente
par rapport au dollar canadien. Exprimez ce taux d'apprciation en
pourcentage.
e) En 1981, un spculateur franais a converti 10 000 francs en marks
allemands. En 1984 il a reconverti ses marks en francs. Combien de
francs a-t-il reus ? Quel a t le taux de rendement annuel de cet
investissement ?
8. Le tableau suivant indique la valeur du ptrole sur les marchs
mondiaux (en dollars US) pour chaque anne allant de 1970 1987. Par
convention, l'indice vaut 100 pour l'anne 1980.
Prix du ptrole
Anne

en dollars U.S.

Prix du ptrole
Anne

en dollars U.S.

1970

4,5

1979

60,2

1971

5,8

1980

100,0

1972

6,6

1981

113,4

1973

9,4

1982

116,8

1974

34,4

1983

102,2

1975

37,4

1984

99,3

1976

40,1

1985

99,3

1977

43,3

1986

45,0

1978

44,3

1987

50,0

SOURCE : Banque Mondiale

a) Utilisant les donnes fournies par le tableau du problme 7,


exprimez, pour chaque anne allant de 1970 1987, le prix du
ptrole en dollars canadiens (Affectez l'indice 100 l'anne 1980).

384

Introduction la statistique applique

b) Utilisant ensuite l'indice des prix la consommation au Canada (voir


tableau 11.4) exprimez le prix du ptrole pour chacune de ces annes
en dollars canadiens constants. (Affectez l'indice 100 l'anne 1987).
c) Quel a t, pour chacune des annes allant de 1971 1987, le taux
d'accroissement du prix de ptrole en monnaie amricaine ? en
monnaie canadienne ?
DSAISONNALISATION

9.

Le grant d'un march d'alimentation a tabli combien de clients se sont


prsents dans son tablissement durant chacun des 31 jours du mois
dernier. Il a obtenu les donnes du tableau en haut de la page suivante
o sont aussi indiqus les jours de la semaine.
a) En ne considrant que les jours o le commerce est ouvert,
dterminez les moyennes x j correspondant chacun de ces 6 jours.
b) Quelle est la moyenne gnrale x s'appliquant aux jours ouvrables ?
c) Quel est l'effet de phase correspondant chacun de ces 6 jours ?
d) Dsaisonnalisez (selon le jour de la semaine) les 27 donnes du
tableau.
Dimanche

Lundi

Mardi

Mercredi

Jeudi

Vendredi

Samedi

142

89

95

176

316

338

10

11

12

13

(ferm)

108

85

103

178

330

320

14

15

16

17

18

19

20

(ferm)

112

77

86

158

352

307

21

22

23

24

25

26

27

(ferm)

97

82

92

196

308

335

28

29

30

31

(ferm)

130

70

102

11 Sries chronologiques

385

10. Le tableau suivant indique quelles ont t, Montral, les tempratures


diurnes moyennes (en degrs Celsius) et les prcipitations mensuelles
moyennes (en millimtres d'eau) observes durant la priode de 30 ans
allant de 1951 1980.
Tempratures

Jan.

Fv.

Mars

Avr.

Mai

Juin

Juill.

Aot

Sept.

Oct.

Nov.

Dc.

-10

-9

-3

13

18

21

20

15

-7

72

65

74

74

66

82

90

92

88

76

81

87

(C)
Prcipitations
(mm)
SOURCE : Environnement Canada

a) Dterminez l'effet de phase correspondant chacun des 12 mois en


ce qui concerne la temprature ; les prcipitations.
b) Pour chacun des 12 mois, tablissez les prcipitations moyennes
quotidiennes en tenant compte du nombre diffrent de jours qu'il y a
d'un mois l'autre. Reprsentez graphiquement les rsultats.
ANALYSE DE
LA TENDANCE
GENRALE

11. Le tableau suivant indique, pour chacune des annes 1980 1987 quel
tait, au Canada, le prix moyen de l'huile chauffage, du gaz naturel et
de l'lectricit.
a) En supposant que la progression des prix de ces trois produits est
linaire, valuez les paramtres des droites de rgression et prdisez
les prix pour 1990, 1995, 2000.
Huile chauffage

Gaz naturel

( par litre)

( par m )

( par kWh)

1980

16,9

10,6

3,3

1981

24,4

13,2

3,7

1982

30,1

15,4

4,1

1983

33,3

18,0

4,2

1984

35,5

18,5

4,8

1985

38,3

19,4

5,0

1986

30,9

19,3

5,2

1987

29,1

18,6

5,4

Anne

lectricit

SOURCE : Mines et Ressources Canada

b) Faites de mme en exprimant les prix en monnaie de 1987. (Utilisez


le tableau 11.4 pour effectuer les conversions).

386

Introduction la statistique applique

12. Le tableau suivant indique quelle tait la population du Canada, de


l'Ontario, du Qubec ainsi que de cinq importants centres urbains lors
des recensements de 1951, 1961, 1971 et 1981. (Les populations sont
exprimes en milliers d'habitants).

Canada

1951

1961

1971

1981

14 009

18 238

21 568

24 343

Ontario

4 598

6 236

7 703

8 625

Qubec (prov.)

4 056

5 259

6 028

6 438

Montral

1 539

2 216

2 743

2 828

Toronto

1 262

1 919

2 628

2 999

Vancouver

586

827

1 082

1 268

Ottawa-Hull

312

457

603

718

Qubec (ville)

289

379

481

576

a) En supposant que les progressions sont linaires, prdisez quelles


seront ces huit populations en l'an 1991, en 2001. La supposition de
linarit est-elle raisonnable ?
b) Prdisez les populations pour l'an 1991 et l'an 2001 en supposant
que les progressions sont exponentielles. Cette supposition est-elle
raisonnable ?
13. Le tableau suivant indique, pour chacune des annes 1980 1987, le
montant de la dette fdrale canadienne (en millions de dollars) ainsi que
la dette per capita.
Anne

1980

Dette fdrale

Dette

(en 1 000 000 $)

per capita

72 159

2 999

Anne

1984

Dette fdrale

Dette

(en 1 000 000 $)

per capita

160 768

6 399

1981

85 681

3 520

1985

199 092

7 850

1982

100 553

4 082

1986

233 496

9 209

1983

128 369

5 158

1987

264 101

10 356

a) En supposant que les progressions sont exponentielles, effectuez une


prdiction pour la dette totale et pour la dette per capita en 1990,
1995 et 2000.

11 Sries chronologiques

387

b) Utilisant les donnes du tableau 11.4, exprimez ces deux sries en


dollars constants de 1987. Effectuez les mmes prdictions
exprimes en dollars de 1987.
RSIDUS ET
BRUIT BLANC

14. Le tableau 11.8 prsente les taux de chmage dsaisonnaliss


correspondant aux 98 donnes originales du tableau 11.7. Les 98 rsidus
obtenus en retranchant la moyenne gnrale x = 6,6 de ces donnes
dsaisonnalises forment-ils un bruit blanc ?
Remarque :

98

t 1 Dt

0 , 7 ;

98

t 1 D t2

54 , 49 ;

97

t 1 D t D t 1

48 , 22

15. Ajustez une tendance exponentielle aux valeurs successives de l'indice


des prix la consommation (voir tableau 11.4). Calculez la liste des 48
rsidus. Forment-ils un bruit blanc? Commentez.
DIVERS

16. Dterminez les valeurs des rsidus obtenus aprs dsaisonnalisation des
donnes du problme 9 portant sur le nombre de clients qui se sont
prsents chaque jour dans un certain tablissement commercial.
Reprsentez graphiquement ces rsidus. Semblent-ils tre un bruit
blanc ?
17. Le tableau de la page suivante indique (en dollars amricains de l'anne)
les valeurs relatives des prix internationaux de quelques produits
agricoles et miniers. La dernire colonne donne l'indice des prix la
consommation aux tats-Unis. Dans chaque colonne, l'indice vaut 100
pour l'anne de rfrence 1980.
a) Exprimez tous les prix en dollars constants de 1980.
b) En quelle anne chacun de ces produits tait-il le plus cher ? le
moins cher (en dollars constants) ?

388

Introduction la statistique applique

c) Pour chaque produit, dterminez en quelle anne s'est produite la


plus forte hausse de prix et la plus forte baisse de prix (en dollars
constants).
Anne

Sucre

Argent

Cuivre

1970

Caf
33,5

Th
49,0

25,0

8,6

64,4

dollar U.S.
47,12

1971

29,6

47,3

26,0

7,5

49,5

49,15

1972

33,4

47,3

28,4

8,2

49,0

50,77

1973

41,2

47,5

34,3

12,4

81,3

53,93

1974

45,1

62,6

98,2

22,9

94,1

59,85

1975

48,1

62,0

74,8

21,5

56,6

65,32

1976

94,2

69,0

44,3

21,2

64,2

69,08

1977

152,0

120,7

36,6

22,5

59,9

73,58

1978

102,8

98,3

46,5

26,2

62,5

79,17

1979

112,5

96,8

54,7

53,9

90,3

88,13

1980

100,0

100,0

100,0

100,0

100,0

100,00

1981

76,8

90,6

65,7

51,1

79,8

110,35

1982

83,4

86,7

66,3

38,6

67,8

117,15

1983

84,9

104,3

73,4

55,6

72,9

120,91

1984

93,7

155,2

72,4

39,6

63,0

126,07

1985

88,6

89,0

67,8

29,8

64,9

130,55

1986

113,0

86,6

69,8

26,6

62,7

133,06

1987

71,2

76,6

72,7

34,1

112,3

137,90

SOURCE : Banque Mondiale

18. Le tableau suivant indique combien de clients ont fait affaire avec une
certaine agence de voyages durant chacun des trimestres des cinq
dernires annes.
Anne

Jan.-Mars

Avril-Juin

Juill.-Sept.

Oct.-Dc.

1 248

2 172

634

1 038

1 273

1 304

1 029

1 866

1 081

1 614

852

1 578

1 483

2 233

1 234

1 874

2 023

2 607

1 120

1 981

11 Sries chronologiques

389

a) Ajustez une tendance exponentielle en effectuant une rgression


linaire parmi les logarithmes des 20 observations. Dterminez les 20
rsidus.
b) Dsaisonnalisez ces 20 rsidus en y ajustant une priode de
longueur 4. Dterminez les nouveaux rsidus. Forment-ils un bruit
blanc ?
c) tablissez des prdictions pour chacun des trimestres des annes 6
et 7.

Appendices
Liste des rfrences
La notation de sommation

du binme de Newton
n
x

TABLE

1 : Coefficients

TABLE

2 : Points critiques pour F2

TABLE

3 : Loi normale N(0,1)

TABLE

4 : Loi de Student tv

Rponses aux exercices

392

Introduction la statistique applique

Liste des rfrences


1. Carefoot, J.L. (1982). "Copy
Advertising Research 12, No. 1.

Testing

with

Scanners".

Journal of

2. Clark, Roger D. and Rice, Glenn A. (l982). "Family Constellations and


Eminence : the Birth Orders of Nobel Prize Winners". The Journal of
Psychology 110, 281-287.
3. Constas, Kimon J. (1981). "An Analysis of Industrial Closures : the
Puerto-Rican Experience". Proceedings of the Business and Economic
Statistics Section, American Statistical Association Meeting.
4. Hong, Sung-Mook (1983). "Gender, Religion and Sexual Permissiveness :
Some Recent Australian Data". The Journal of Psychology 115, 17-22.
5. Jegede, R. Olukayode (1982). "A Cross-Sectional Study of Self-Concept
Development in Nigerian Adolescents". The Journal of Psychology 110,
249-261.
6. Haberman, Shelby J. (1978). Analysis of Qualitative Data, Table 4.6
Academic Press, New York.
7. Jones, Lyle V., Burton, Nancy W. & Danvenport Jr, Ernest C. (1984).
"Monitoring the Mathematics Achievement of Black Students". Journal for
Research in Mathematics Education 15, 154-164.
8. Katz, B.M. (1978). "Tests for Equality of Correlated Proportions in a
Polytomous Response Design". Journal of Educational Statistics 3,
401-417.
9. Kaye, Janet, Kaye, Kendra and Madow, Leo. (1983). "Sleep Patterns in
Patients with Cancer and Patients with Cardiac Diseases". Journal of
Psychology 114, 107-113.
10. Lynn, J.R. (1981). "Newspaper Ad Impact in Metropolitan Markets".
Journal of Advertising Research 21, No. 6.
11. Peterson, N.S. (1976). "An Expected Utility Model for Optimal Selection".
Journal of Educational Statistics 4, 333-358.
12. Rubens,W.S. (1981). "Sex and Violence on TV". Journal of Advertising
Research 21, No. 6.

Appendices

393

13. Sadowski, Cyril L. & Wenzel, DeLoris M. (1982). "The Relationship of


Locus of Control Dimensions to Reported Hostility and Aggression". The
Journal of Psychology 112, 227-230.
14. Sakofske, D.H., Kelly, I.W., & McKerracher, D.W. (1982). "An Empirical
Study of Personality and Astrological Factors". The Journal of Psychology
110, 275-80.
15. Tsang, Sau-Lim. (1984). "The Mathematics Education of Asian Americans".
Journal for Research in Mathematics Education 15, No. 2, 115-122.

16. Vaillancourt, Franois (1979). The Role of Language in the Determination


of Labour Earnings of Quebec Males in 1970. Cahier No 7904,
Dpartement de science conomique et centre de recherches en
dveloppement conomique, Universit de Montral.
17. Vaillancourt, Franois et Lefebvre, Lise. (1979). Antcdents familiaux et
connaissance de l'anglais chez les francophones du Qubec. Cahier No
8119, Centre de recherches en dveloppement conomique, Universit de
Montral.
18. Wagner, Clifford H. (1982). "Simpson's Paradox in Real Life". The
American Statistician 36, 46-48.

394

Introduction la statistique applique

La notation de sommation
n

Le symbole

xi

signifie la somme des nombres x 1 , x 2 ,  , x n .

i 1

EXEMPLE 1

Soit x 1

2, x 2

3, x 3

1 . Alors :

5, x 4

xi

x1  x 2  x 3  x 4

2  3  5  1 11

i 1
3

xi

x1  x 2  x 3

2  3  5 10

x2  x3  x4

3  5 1 9

i 1
4

xi
i 2

i
Lorsqu'on manipule le symbole de sommation, il est utile de
retenir les quelques rgles suivantes :

EXEMPLE 2

a)

i 1 kx i

b)

i 1 k

nk , o k est une constante.

c)

i 1 x i

 yi

Soit x 1

k i 1 x i o k est une constante.

2, x 2

n
i 1

3, x 3

x i  i 1 y i
5, x 4

1 ; et y 1

a) Soit k = 3. Nous valuons

i 1 kx i

7, y 2

kx 1  kx 2  kx 3  kx 4

i 1

3 u 2  3 u 3  3 u 5  3 u 1 33
4

k xi

k x1  x 2  x 3  x 4

11 et y 4

5.

et k i 1 x i pour illustrer la

proprit (a) ci-dessus :

kx i

9, y 3

i 1

3 2  3  5  1 3 11 33

Appendices
n

i 1 k

b) L'expression

395

s'interprte comme la somme de n

nombres, tous gaux k. Si k = 3 et n = 4, on a :


4

3333

4 u 3 12

i 1

i 1 x i
4

c) Nous valuons

 yi

et

i 1

x i  i 1 y i pour illustrer la

proprit (c) ci-dessus :


4

x i

 yi

 y i  x 2  y 2  x 3  y 3  x 4  y 4

i 1

2  7  3  9  5  11  1  5
4

i 1

i 1

x i  y i x1  x 2  x 3  x 4  y 1  y 2
n

i 1 x i y i

et

 y3  y4

2  3  5  1  7  9  11  5
d) Les deux expressions

43

43
n
i 1

xi

n
i 1

yi

ne doivent

pas tre confondues.


Par exemple :
4

xi yi

xi yi  x2 y 2  x3 y3  x4 y 4

i 1

2 u 7  3 u 9  5 u 11  1 u 5 101
4
x i
i1

4
y i
i 1

2  3  5  1 7  9  11  5

e) Il ne faut pas non plus confondre


4

x i2

2  3  5 1

2  3  5  1 2

11

avec

4  9  25  1 39

i 1

4
x i
i1

i 1 x i2

11 u 32

121

352
n
i 1

xi

396

Introduction la statistique applique

f)

On peut galement vrifier que :


4

x i2 y i

389 ;

i 1

x i2

 yi

i 1

3 x i2  2 x