Vous êtes sur la page 1sur 384

Manuel et exercices corrigs

Introduction
la mthode
statistique
Bernard Goldfarb
Catherine Pardoux
6
e
dition
P001-002R-9782100549412.indd 1 24/11/10 11:59
Dunod, Paris, 2011
ISBN 978-2-10-055892-6
P001-002R-9782100549412.indd 2 24/11/10 11:59

TABLE DES MATIRES




III


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

T

able des matires

Avant-propos IX
1. Distributions statistiques un caractre 1

I. Dfinitions 1
A. Population, individu, chantillon 1
B. Variables 2
II. Reprsentations graphiques 3
A. Distributions statistiqueset reprsentations graphiques 4
B. Le diagramme branche et feuille 10
III. Les indicateurs statistiques 13
A. Conditions de Yule 13
B. Les indicateurs de tendance centrale et de position 14
C. Les indicateurs de dispersion 23
D. Les caractristiques de forme 26
E. Les caractristiques de dispersion relative 29
IV. La bote de distribution 33
A. Rsum dune distribution par des quantiles 33
B. Reprsentation dune bote de distribution 34
C. Interprtation dune bote de distribution 36
V. Bilan 37

Testez-vous

39

Exercices

41

2. Indices statistiques 47

I. Indices lmentaires 47
A. Dfinition 47
B. Proprits 48

P003-008R-9782100549412.fm Page III Jeudi, 18. novembre 2010 11:59 11

IV



INTRODUCTION LA MTHODE STATISTIQUE

II. Indices synthtiques 49
A. Indices synthtiques de Laspeyres et Paasche :
premires formules 50
B. Formules dveloppes 51
C. Comparaison des indices de Laspeyres et de Paasche 52
D. Indice de Fisher 54
E. Proprits des indices de Fisher, Laspeyres et Paasche 55
F. Utilisation de ces trois indices 56
III. Indices-chanes 56
A. Raccord dindices 56
B. Les indices-chanes 57
C. Indices publis par lINSEE 58
IV. Traitement statistique des indices 58
A. chelle logarithmique 59
B. Proprits dun graphique ordonne logarithmique 60
V. Bilan 61

Testez-vous

62

Exercices

63

3. Distributions statistiques deux caractres 67

I. Distributions statistiques deux variables 67
A. Distribution conjointe 67
B. Distributions marginales 69
C. Distributions conditionnelles 69
D. Dpendance et indpendance statistique 71
II. Deux variables quantitatives 72
A. Caractristiques dun couple
de deux variables quantitatives 73
B. Ajustement linaire dun nuage de points 74
C. Interprtation du coefficient de corrlation linaire 76
D. Comparaison des deux droites des moindres carrs 81
E. Le coefficient r et la qualit de lajustement linaire 82
III. Une variable qualitative et une variable quantitative 86
A. Mesure de la liaison par le rapport de corrlation 87
B. Comparaison du coefficient de corrlation linaire
et des rapports de corrlation 89

P003-008R-9782100549412.fm Page IV Jeudi, 18. novembre 2010 11:59 11

TABLE DES MATIRES


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

IV. Deux variables qualitatives 90
V. Bilan 92

Testez-vous

94

Exercices

97

4. Sries chronologiques et prvision 103

I. lments constitutifs dune srie chronologique 103
A. La tendance long terme 103
B. Le mouvement saisonnier 104
C. Les irrgularits 104
D. Les perturbations 104
II. Les modles de composition dune srie chronologique 105
III. Analyse de la tendance 108
A. Ajustement de la tendance par une fonction analytique 108
B. Dfinition dune moyenne mobile 109
C. Dtermination de la tendance par la mthode
des moyennes mobiles 110
D. Inconvnients de la mthode des moyennes mobiles 112
IV. Correction des variations saisonnires 113
A. Modle additif 113
B. Modle multiplicatif 114
C. Autres approches 115
V. Un exemple de dcomposition dune srie chronologique 115
A. Schma additif 116
B. Schma multiplicatif 118
VI. Les mthodes de lissage exponentiel 120
A. Le lissage exponentiel simple 120
B. Le lissage exponentiel double 125

Testez-vous

127

Exercices

128

5. Modle probabiliste et variable alatoire 131

I. lments de calcul des probabilits 133
A. Notion de probabilit 133
B. Probabilits conditionnelles 136

P003-008R-9782100549412.fm Page V Jeudi, 18. novembre 2010 11:59 11

VI



INTRODUCTION LA MTHODE STATISTIQUE

II. Variables alatoires une dimension 142
A. Dfinitions 142
B. Loi de probabilit dune variable alatoire 144
C. Loi dune fonction de variable alatoire 149
III. Couple de variables alatoires 151
A. Fonction de rpartition dun couple alatoire 151
B. Loi dun couple alatoire discret 151
C. Loi dun couple de variables alatoires continues 154
IV. Indicateurs des variables alatoires 155
A. Mode 156
B. Esprance mathmatique 156
C. Variance 160
D. Covariance de deux variables alatoires,
coefficient de corrlation linaire 162
E. Moment, fonction gnratrice des moments 163
F. Indicateurs de forme 164
G. Quantiles 165
V. Convergence des variables alatoires relles 166

Testez-vous

172

Exercices

176

6. Les principaux modles statistiques discrets 179

I. Les modles lmentaires 181
A. Le schma de Bernoulli 181
B. La loi uniforme discrte 183
II. Les schmas de Bernoulli itratifs 184
A. Le schma binomial 185
B. Le schma hypergomtrique 191
C. La loi gomtrique et la loi de Pascal 193
III. La loi de Poisson 198
A. Dfinitions et proprits 199
B. Abord statistique 203
C. Abord probabiliste 203

Exercices

207

P003-008R-9782100549412.fm Page VI Jeudi, 18. novembre 2010 11:59 11

TABLE DES MATIRES




VII


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

7. Les principaux modles statistiques continus 211

I. Modles continus simples 211
A. La loi uniforme continue 211
B. La loi exponentielle 214
II. La loi normale ou loi de Laplace-Gauss 219
A. La loi normale centre rduite 219
B. La loi normale


(

m,


) 220
C. Usage des tables 226
D. Abord statistique de la loi normale 233
E. Abord probabiliste de la loi normale 235
F. Correction de continuit 239
III. Les lois drives de la loi normale 240
A. La loi du khi-deux 240
B. La loi de Student

247

C. La loi de Fisher-Snedecor 252
IV. Quelques autres modles continus courants 256
A. La loi log-normale 256
B. La loi de Pareto 260
C. La loi de Weibull 265
D. La loi logistique 268
V. Bilan 271

Testez-vous

273

Exercices

276

Rponses aux questionnaires Testez-vous 283
Corrigs des exercices 289
Annexes 335

I. Formulaire lmentaire de combinatoire 335
A. Ensemble des parties dun ensemble 335
B. Arrangements avec rptition 335
C. Permutations 336
D. Arrangements sans rptition 336
E. Combinaisons sans rptition 337
F. Coefficients multinomiaux 339

P003-008R-9782100549412.fm Page VII Jeudi, 18. novembre 2010 11:59 11

VIII



INTRODUCTION LA MTHODE STATISTIQUE

II. Principaux modles de probabilits : mthodes de calculs 339
A. Loi binomiale 339
B. Loi de Poisson 340
C. Loi de Gauss centre rduite 340
D. Loi du khi-deux 341
E. Loi de Student 341
F. Loi de Fisher-Snedecor 342
III. Introduction la simulation des lois de probabilit 343
A. La place des mthodes de simulation 343
B. Les principes de la simulation sur tableur 343
C. Simulation de lois discrtes 344
D. Simulations de lois continues 344
E. Quelques exemples et applications 346
IV. Tables 351

Bibliographie 361
Lexique anglais/franais 363
Lexique franais/anglais 367
Index 371

P003-008R-9782100549412.fm Page VIII Jeudi, 18. novembre 2010 11:59 11

AVANT-PROPOS




IX


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

A

vant-propos

Tout le monde sait et dit que celui qui observe sans ide, observe en vain.

lments de philosophie

, Alain (1868 1951)

Le recueil, le traitement et lanalyse de linformation sont au cur de tous
les processus de gestion et de dcision. Les mthodes de description, de pr-
vision et de dcision se sont considrablement enrichies et dveloppes, ce
qui place la statistique applique

1

au carrefour de lobservation et de la mod-
lisation.
Lutilisation des mthodes statistiques sest gnralise avec le dveloppe-
ment et linterprtation de logiciels et progiciels (gnralistes ou spcialiss),
assurant la gestion des donnes, les calculs, les reprsentations graphiques
Plusieurs gnrations de logiciels statistiques

2

se sont succd en modi-
fiant considrablement, dabord, lanalyse des donnes statistiques et main-
tenant, lenseignement de la statistique. Sous peine dtre noy, non plus
dans les calculs mais dans les rsultats, lutilisateur doit disposer dides pr-
cises sur les outils, leurs fonctions et leurs champs dapplication.
Nous avons ainsi voulu guider les futurs consommateurs et utilisateurs
de donnes vers les descriptions statistiques majeures et les reprsentations
courantes des phnomnes rencontrs dans tous les domaines de lactivit
humaine.
La visualisation par tableaux et graphiques

3

est une clef indispensable
pour traiter et comprendre efficacement les multiples ensembles de donnes
statistiques ; lusage gnralis qui en est fait pour tous les publics et par de
nombreux mdias confirme son importance.
Dans cette sixime dition, nous avons maintenu toute notre attention sur
les visualisations, ainsi que sur la pratique et lutilisation du tableur Excel


largement rpandu.

1. laquelle les programmes, tant de lenseignement secondaire que de lenseignement sup-
rieur, accordent une place de plus en plus importante.
2. Sans compter les versions volues des langages de programmation scientifique qui mettent
lapplication de traitements trs sophistiqus la porte du plus grand nombre.
3. La reprsentation visuelle est remarquablement mise en valeur dans le trs bel ouvrage de
Edward R. Tufte (1991) :

The Visual Display of Quantitative Information

, Graphics Press,
Cheshire, Connecticut

P009-010R-9782100549412.fm Page IX Jeudi, 18. novembre 2010 12:00 12

X



INTRODUCTION LA MTHODE STATISTIQUE

La thorie reste volontairement limite pour donner toute son importance
lapproche interprtative des donnes. Le lecteur, selon ses connaissances
pralables et son intrt pour la formalisation, pourra en premire lecture pas-
ser outre la prsentation de certains supports thoriques. Ce livre nest quune
introduction la mthode statistique, et nous donnons quelques rfrences
douvrages pour largir ides et connaissances.
Dans cette sixime dition, nous avons remis jour, partir des recueils
les plus rcents, les donnes de nombreux exemples et des exercices (com-
plts et enrichis). Nous avons galement inclus une trs brve introduction
illustre la pratique et lusage de la simulation, outil de plus en plus incon-
tournable dans des secteurs tels que la logistique, la stratgie, ou encore
lanalyse financire
Issu de nombreuses expriences denseignement en formation initiale
comme en formation continue pour des tudiants en sciences conomiques,
en sciences de gestion et en informatique de gestion, ce livre tient compte de
leurs besoins et des dernires volutions. Nous pensons quil correspond bien
aux exigences actuelles. Nous remercions par avance les lectrices et les lec-
teurs qui voudront bien nous faire part de leurs remarques ou suggestions.
Bernard Goldfarb
Catherine Pardoux

P009-010R-9782100549412.fm Page X Jeudi, 18. novembre 2010 12:00 12

DISTRIBUTIONS STATISTIQUES UN CARACTRE


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

1. D

istributions
statistiques
un caractre

Le savant doit ordonner ; on fait la science avec des faits
comme une maison avec des pierres ;
mais une accumulation de faits nest pas plus une science
quun tas de pierres nest une maison.

La Science et lhypothse,

Henri Poincar (1854-1912)

a statistique descriptive est un ensemble de mthodes permettant
de dcrire, prsenter, rsumer des donnes souvent trs nom-
breuses. Ces mthodes peuvent tre numriques (tris, laboration
de tableaux, calcul de moyennes) et/ou mener des reprsentations
graphiques.

I. D

finitions

A. P

opulation, individu, chantillon

Une

population

est lensemble des lments auxquels se rapportent les

don-
nes

tudies. En statistique, le terme population sapplique des ensem-
bles de toute nature : tudiants dune acadmie, production dune usine,
poissons dune rivire, entreprises dun secteur donn
Des enqutes de lOffice statistique des communauts europennes don-
nent la dure hebdomadaire moyenne du travail des salaris temps com-
plet pour 15 pays membres. Les rsultats de ces enqutes ne donnent pas
dinformation atomise un niveau plus bas que le pays ; la population
de rfrence nest donc pas ici lensemble (plusieurs millions) de tous les
salaris des 15 pays. Ltude de ces 15 observations concerne un ensemble
L

P001-046-9782100549412.fm Page 1 Mercredi, 24. novembre 2010 9:46 09

2



INTRODUCTION LA MTHODE STATISTIQUE

de 15

units

(

statistiques

), les 15 pays slectionns qui constituent la

popu-
lation

de ltude.
Dans une population donne, chaque lment est appel individu



ou
unit statistique .
La collecte dinformations sur une population peut tre effectue sur la
totalit des individus ; on parle alors denqutes

exhaustives

. Lorsque la
taille de la population tudie est leve, de telles enqutes sont fort co-
teuses ou impossibles, et le cas chant, leurs rsultats souvent trs longs
rassembler peuvent tre dpasss avant mme la fin de lenqute. Cest
la raison pour laquelle on a souvent recours aux enqutes par

sondage

qui
portent sur une partie de la population appele

chantillon.

Les observa-
tions obtenues sur une population ou sur un chantillon constituent un
ensemble de donnes auxquelles sappliquent les mthodes de la statistique
descriptive dont le but est de dcrire le plus compltement et le plus sim-
plement lensemble des observations quelles soient relatives toute la
population ou seulement un sous-ensemble.

B. V

ariables

Chaque individu dune population peut tre dcrit selon une ou plusieurs

variables

qui peuvent tre des caractristiques qualitatives ou prendre des
valeurs numriques.
Une variable est dite

qualitative

si ses diffrentes ralisations (modalits)
ne sont pas numriques. Ainsi : le sexe, la situation matrimoniale, la catgorie
socioprofessionnelle sont des variables qualitatives. On peut toujours rendre
numrique une telle variable en associant un nombre chaque modalit ; on
dit alors que les modalits sont codes. Bien entendu, les valeurs numriques
nont dans ce cas aucune signification particulire, et effectuer des oprations
algbriques sur ces valeurs numriques na pas de sens.
Une variable est dite

quantitative

lorsquelle est intrinsquement numri-
que : effectuer des oprations algbriques (addition, multiplication) sur une
telle variable a alors un sens. Une variable quantitative peut tre une variable
statistique discrte ou continue.
Les

variables statistiques discrtes

sont des variables qui ne peuvent pren-
dre que des valeurs isoles, discrtes. Le nombre denfants dune famille, le
nombre de ptales dune fleur, le nombre de buts marqus lors dune rencon-
tre de football sont des variables quantitatives discrtes. Le plus frquem-
ment, les valeurs possibles sont des nombres entiers.
Les

variables statistiques continues

peuvent prendre toutes les valeurs
numriques possibles dun ensemble inclus dans


: le revenu, la taille, le
taux de natalit sont des variables continues.

P001-046-9782100549412.fm Page 2 Mercredi, 24. novembre 2010 9:46 09

DISTRIBUTIONS STATISTIQUES UN CARACTRE


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

La distinction entre variables quantitatives discrtes et continues peut
paratre factice, car toute mesure est discrte en raison dune prcision tou-
jours limite ; et inversement, lorsquune variable discrte peut prendre un
grand nombre de valeurs et que la taille de la population (ou de lchantillon)
tudie est leve, on regroupera des valeurs voisines et la variable sera, par
extension, traite comme une variable continue. En pratique, lorsque les
valeurs dune variable sont regroupes en

k

classes, la variable est traite
comme une variable quantitative continue, mais elle peut aussi tre envisage
comme une variable qualitative

k

modalits.
Les donnes dont on dispose sont les modalits ou valeurs prises par
plusieurs variables qualitatives ou quantitatives sur les individus dune
population ou dun chantillon ; pour une population dentreprises, on peut
disposer, par exemple, de donnes sur le chiffre daffaire, le bnfice net,
le nombre demploys, la masse salariale annuelle, le secteur dactivit
principale
On peut, dans un premier temps, dcrire chaque variable sparment, puis
ensuite, tudier les relations ou liaisons existantes entre elles. Ainsi, dans ce
livre, nous envisagerons dabord les populations statistiques dcrites selon
une seule variable, puis selon deux variables. Ltude des populations carac-
trises par plus de deux variables nest pas aborde dans cet ouvrage.

II. R

eprsentations graphiques

Deux mthodes de reprsentation des donnes vont tre exposes. On com-
mencera par celles adaptes aux donnes nombreuses et/ou anonymes, cest-
-dire pour lesquelles lidentit des individus na pas t releve ou ne pr-
sente pas dintrt tre conserve pour linterprtation. Ceci nest pas le cas
lorsque les individus sont peu nombreux (rgions, pays), o on dfinira un
nouveau mode de reprsentation graphique d J.W. Tukey ( II.B.). Ltude
dune population selon une variable sera restreinte au cas des variables quan-
titatives, car la description dune population selon une variable qualitative est
totalement rsume dans un tableau de pourcentages ou dans un diagramme
circulaire, appel aussi diagramme en camembert (

cf

. figure 1.1).

P001-046-9782100549412.fm Page 3 Mercredi, 24. novembre 2010 9:46 09

4



INTRODUCTION LA MTHODE STATISTIQUE

A. D

istributions statistiques
et reprsentations graphiques

Considrons une variable observe sur une population


de

n

individus. Si
la variable

X

prend

k

valeurs ou ensembles de valeurs (appels dans ce qui
suit, modalits), le premier traitement des donnes brutes consiste compter
le nombre

n

i

dindividus qui prsentent la

i

e

modalit (

i =

1, 2

, , k

).

1) Variables statistiques discrtes

Les rsultats concernant les observations de la variable

X

dont lensemble des
valeurs est {

x

i

, i =

1

, , k

}, sont prsents dans le tableau des effectifs (

x

i

, n

i

)
ou dans le tableau des frquences (

x

i

, f

i

) avec

f

i

= n

i

/n

(on utilise souvent le
pourcentage 100

f

i

). Il est prfrable de calculer les frquences partir des
effectifs cumuls ( II.A.3) afin que des erreurs successives darrondis ne
donnent pas une somme totale de frquences diffrente de 1.
Pomme de table
Prune
Pche et nectarine
Noix
Olives
Abricot
Autres fruits
Poire de table
Cerise

24 %
8,8 %
8 %
6 % 5 %
5 %


10 %
12 %
10 %
10 %
10 %

Pomme cidre
Figure 1.1 Surface du verger franais en 2005
Extrait de Agreste, GraphAgri 2006,
Ministre de lAgriculture et de la Pche.

P001-046-9782100549412.fm Page 4 Mercredi, 24. novembre 2010 12:55 12

DISTRIBUTIONS STATISTIQUES UN CARACTRE


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

On prsente logiquement les modalits numriques en ordre croissant. On
peut associer ces tableaux une reprsentation graphique appele
diagramme en btons .
Un

diagramme en btons

(

cf.

figure 1.2) est construit dans un systme
daxes rectangulaires ; les valeurs de la variable statistique

X

sont portes en
abscisse ; partir de chaque valeur

x

i

, on trace un segment de droite vertical
et dont la hauteur est proportionnelle leffectif correspondant. On peut rete-
nir indiffremment une chelle qui explicite les effectifs

n

i

, ou une chelle
qui explicite les frquences

f

i

. Pour les distributions du tableau 1.1, on pour-
rait reprsenter sur le mme graphique les diagrammes en btons de plusieurs
pays avec des couleurs diffrentes, chaque couleur correspondant un pays,
ce qui permettrait de comparer les distributions du nombre de personnes par
mnage.

Source

:



Tableaux de lconomie Franaise 1999-2000, INSEE.

Tableau des effectifs Tableau des frquences

Modalit Effectif Modalit Frquence

x

1

.
.
.

x

i

.
.
.

x

k

n

1

.
.
.

n

i

.
.
.

n

k

x

1

.
.
.

x

i

.
.
.

x

k

f

1

=

n

1

/

n

.
.
.

f

i

=

n

i

/

n

.
.
.

f

k

=

n

k

/

n
Tableau 1.1 Mnages suivant le nombre de personnes du mnage
dans quelques pays en 1995 (%)

Allemagne Espagne Finlande France Grce Irlande Italie Pays-Bas Portugal
Mnages de :
1 personne
2 personnes
3 personnes
4 personnes
5 personnes et plus
Ensemble (en milliers)
34,4
32,3
16,0
12,6
4,7
34 413
12,7
24,5
21,8
24,0
17,0
12 112
37,4
31,0
14,4
11,9
5,3
2 222
29,2
31,8
16,8
14,2
8,0
23 126
20,7
28,9
19,8
21,7
8,9
3 756
22,8
23,1
15,6
17,1
21,4
1 146
22,7
23,1
15,6
17,1
21,4
1 146
30,6
34,0
13,4
15,9
6,2
6 425
13,7
26,4
24,7
22,8
12,4
3 275
n
i
i 1 =
k

n =
f
i
i 1 =
k

1 =
P001-046-9782100549412.fm Page 5 Mercredi, 24. novembre 2010 9:46 09
6

INTRODUCTION LA MTHODE STATISTIQUE


2) Variables statistiques continues
Linfinit des valeurs observables ne rend pas possible la gnralisation du
diagramme en btons. Le domaine de variation dune variable statistique
continue X est partag en k parties. Lintervalle [ x
i1
, x
i
[ ferm gauche,
ouvert droite, est appel i
e
classe (i = 1,2, ,k) ; son amplitude est gale :
a
i
=

x
i
x
i1
Il arrive que lamplitude des classes extrmes soit indtermine : la pre-
mire classe tant dfinie par moins de , et la dernire par plus de
(cf. tableau 1.2).
Le choix des extrmits des classes se fait partir des donnes brutes ; le
nombre k de classes doit tre modr (usuellement entre 4 et 10). Le dcou-
page en classes est assez souvent choisi tel que lamplitude des classes soit
constante, ou tel que les effectifs des classes soient constants (par exemple,
10 % de la population dans chaque classe, cf. tableau 1.6).
Le classement dune srie statistique correspond une perte dinformation
par rapport aux donnes initiales puisque seuls les effectifs des classes sont
retenus. Le travail sur une telle srie impose alors lhypothse que les don-
nes sont rparties uniformment lintrieur de chacune des classes. On
parle aussi d quirpartition des individus ou encore d homognit dans
chacune des classes. Chaque partie de la classe correspond alors un effectif
proportionnel sa longueur. Lide est, bien sr, que chaque classe repr-
sente une entit qui doit se distinguer par rapport aux autres classes. Comme
prcdemment, les rsultats sont prsents dans un tableau deffectifs ou de
frquences. On associe un tel tableau un histogramme qui est une reprsen-
tation graphique trs rpandue. Lhistogramme est constitu de la juxtaposi-
tion de rectangles (pour respecter lhypothse dquirpartition) dont les
bases reprsentent les diffrentes classes et dont les surfaces sont proportion-
nelles aux effectifs des classes (cf. figure 1.3).
1 2 3 4 5 ou +
10 %
20 %
30 %
Nombre de
personnes
f
i
(%)
1 29,2
2 31,8
3 16,8
4 14,2
5 ou plus 8,0
100 %
Figure 1.2 Diagramme en btons Nombre de personnes par mnage en France en 1995
P001-046-9782100549412.fm Page 6 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
On verra par la suite quune difficult du travail avec des sries classes
est le choix des limites pour les classes extrmes, indispensable aussi pour le
trac de lhistogramme.
la i
e
classe, correspond un rectangle dont la base est lintervalle [ x
i 1
, x
i

[
et dont la surface est proportionnelle la frquence f
i

(ou leffectif n
i
). Si
les classes ont toutes la mme amplitude, les hauteurs des rectangles sont
proportionnelles aux frquences. Dans le cas o les classes sont damplitudes
ingales, la hauteur du rectangle correspondant la i
e
classe damplitude a
i
sera h
i
= f
i
/a
i.
La surface du rectangle reprsentant la i
e
classe sera ainsi gale
f
i
Pour une srie dobservations relatives une variable statistique X dis-
crte ou continue classe, la donne des modalits et de leurs frquences est
appele distribution statistique de la variable X.

Tableau 1.2 Chmeurs BIT selon le sexe et lanciennet de chmage en septembre 2006
Distribution en milliers Distribution en pourcentage
Anciennet dinscription Hommes Femmes Hommes Femmes
Moins dun mois 180,3 181,0 16,5 16,8
Dun moins de trois mois 203,9 204,9 18,6 19,0
De trois moins de six mois 169,3 163,1 15,5 15,1
De six mois moins dun an 202,1 191,1 18,5 17,7
Dun moins de deux ans 197,3 199,3 18,0 18,5
De deux moins de trois ans 74,5 75,4 6,8 7,0
Trois ans ou plus 67,1 62,9 6,1 5,8
Ensemble 1 094,5 1 077,7 100,1 100,1
Anciennet moyenne en jours 341,5 334,5
Source : Bulletin Mensuel des Statistiques du Travail, www.travail.gouv.fr, octobre 2006.
P001-046-9782100549412.fm Page 7 Mercredi, 24. novembre 2010 9:46 09
8

INTRODUCTION LA MTHODE STATISTIQUE


La classe Trois ans ou plus est suppose borne suprieurement par
5 ans (60 mois).
3) Frquences cumules et courbe cumulative
a) Tableau des frquences cumules
Les tableaux de frquences (ou deffectifs) qui viennent dtre dfinis peu-
vent tre modifis de facon prsenter un rsum des donnes sous une
forme diffrente.
On appelle effectif cumul de la i
e
classe, le nombre dindividus N
i

pour
lesquels la variable prend une valeur infrieure x
i
:
N
i
= pour i = 1, 2, , k
On dfinit de mme F
i
, la frquence cumule de la i
e
classe : F
i
= N
i
/n
1
fi
ai
3 6 12 24
Mois
60 36 0
Figure 1.3 Histogramme de la distribution des chmeurs Femmes selon lanciennet
(voir tableau 1.2)
n
j
j i

P001-046-9782100549412.fm Page 8 Mercredi, 24. novembre 2010 9:46 09


DISTRIBUTIONS STATISTIQUES UN CARACTRE


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Les tableaux deffectifs cumuls ou de frquences cumules se dduisent
des tableaux deffectifs ou de frquences (non cumuls) en substituant aux
effectifs ou frquences non cumuls les effectifs ou frquences cumuls. Les
deux types de tableaux sont donc quivalents (cf. figures 1.2 et 1.4).
b) Fonction cumulative et courbe cumulative
La courbe cumulative ou courbe des frquences cumules est la reprsentation
graphique des frquences cumules. Plus prcisment, la courbe cumulative
est la reprsentation graphique de la proportion F(t) des individus de la popu-
lation dont le caractre prend une valeur infrieure t. Cette fonction, appele
fonction cumulative ou fonction de rpartition, est :
1. dfinie pour tout t
2. croissante (mais non strictement croissante)
3. nulle pour t infrieur min x
i
1in
4. gale 1 pour t au moins gal max x
i
1in
Pour une variable statistique discrte, cette fonction est une fonction en
escalier, prsentant en chacune des valeurs possibles x
i
, un saut gal la fr-
quence correspondante f
i
(cf. figure 1.4).
Dans le cas dune variable statistique continue, la fonction cumulative
nest connue que pour les valeurs de X gales aux extrmits des classes.
Lhypothse dquirpartition ( II.A.2) implique que la fonction F est
linaire entre ces valeurs ( cf. figure 1.5). Cette fonction est donc continue et
linaire par morceaux. Ici encore, il est ncessaire de choisir des limites pour
les classes extrmes.
Ces frquences cumules sont des frquences cumules ascendantes, car
elles ont t obtenues en calculant les frquences F
i
dindividus pour lesquel-
les le caractre tudi X est au plus gal x
i
; on peut aussi dfinir les fr-
1 2 3 4 5 et +
100 %
t F(t) (%)
< 1 0
[1 ; 2[ 29,2
[2 ; 3[ 61,0
[3 ; 4[ 77,8
[4 ; 5[ 92,0
5 100
Figure 1.4 Graphe des frquences cumules de la distribution reprsente la figure 1.2
P001-046-9782100549412.fm Page 9 Mercredi, 24. novembre 2010 9:46 09
10

INTRODUCTION LA MTHODE STATISTIQUE


quences cumules descendantes, cest--dire les frquences pour lesquelles
le caractre tudi X est suprieur x
i
. Quand on ne spcifie pas le type de
frquences cumules, on sous-entend quil sagit des frquences cumules
ascendantes.
B. Le diagramme branche et feuille
Lorsque la taille de la population tudie nest pas trop leve (infrieure
la centaine), il est intressant dutiliser la reprsentation en diagramme
branche et feuille due J. W. Tukey
1
. Ce diagramme tient la fois du
tableau et de la reprsentation graphique et donne une vision densemble des
donnes sans perdre linformation numrique valeur par valeur.
1) Profondeur dune observation
Selon quon range les valeurs observes de la variable statistique X de la plus
faible la plus leve ou de la plus leve la plus faible, on associe cha-
que observation x
i
deux rangs, croissant et dcroissant. On dit alors que la
distribution est ordonne.
On appelle profondeur de x
i
le nombre gal au plus petit des deux rangs .
Les dures hebdomadaires du travail des salaris temps complet dans les
pays de lUnion europenne ( cf. tableau 1.3) peuvent tre ordonnes, et on
en dduit la profondeur de chaque valeur de chacune des sries.
1. J. W. Tukey, Exploratory Data Analysis (EDA), Addison-Wesley, 1977.
F
i
13 6 12 24 36 60
0
Mois
100
t F(t) (%)
0 0
1 16,8
3 35,8
6 50,9
12 68,7
24 87,2
36 94,2
60 100
Figure 1.5 Courbe cumulative de la distribution reprsente la figure 1.3
P001-046-9782100549412.fm Page 10 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE

11


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Source : Tableaux de lconomie Franaise, INSEE.
Le nombre de pays tant impair et gal 15, il y a deux valeurs de pro-
fondeur 1, 2, 3, 4, 5, 6, 7 et une seule valeur de profondeur 8 (cf. tableau 1.4).
Tableau 1.4 Pays ordonns selon la dure hebdomadaire du travail des salaris
temps complet en 2000
Tableau 1.3 Dure hebdomadaire du travail des salaris temps complet
dans lUnion europenne (heures)
1990 1995 2000
Allemagne
Autriche
Belgique
Danemark
Espagne
Finlande
France
Grce
Irlande
Italie
Luxembourg
Pays-Bas
Portugal
Royaume-Uni
Sude
39,9
40,1
38
39
40,7
38,4
39,6
40,2
40,4
38,6
39,9
39
41,9
43,7
40,7
39,7
39,3
38,4
39
40,7
38,6
39,9
40,3
40,2
38,4
39,5
39,5
41,2
43,9
40
40,1
40,1
38,5
39,3
40,6
39,3
38,9
40,9
39,9
38,6
39,8
39
40,3
43,6
40
Rang
croissant
Rang
dcroissant
Profondeur Dure (heures) Pays
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
1
2
3
4
5
6
7
8
7
6
5
4
3
2
1
38,5
38,6
38,9
39,0
39,3
39,3
39,8
39,9
40,0
40,1
40,1
40,3
40,6
40,9
43,6
Belgique
Italie
France
Pays-Bas
Danemark
Finlande
Luxembourg
Irlande
Sude
Allemagne
Autriche
Portugal
Espagne
Grce
Royaume-Uni
P001-046-9782100549412.fm Page 11 Mercredi, 24. novembre 2010 9:46 09
12

INTRODUCTION LA MTHODE STATISTIQUE


2) La reprsentation en diagramme branche et feuille
Son principe consiste distinguer deux parties pour tout nombre : les chiffres de
plus faible poids , la feuille, et les chiffres de plus haut poids , la branche.
La figure 1.6 reproduit les diagrammes Branche et feuille donns par
le logiciel SPSS pour les sries du tableau 1.3.
Par exemple, pour le diagramme de lanne 1995 de la figure 1.6, en se
rfrant aux valeurs ordonnes :
la valeur 38,4 est reprsente par la branche 38 et la feuille 4 (pour les
deux observations) ;
la valeur 38,6 est reprsente par la branche 38

et la feuille 6.
Ces trois observations conduisent lcriture : 3,00 38. 446
La valeur 43,9 est beaucoup plus leve que les autres ; elle est mention-
ne comme valeur extrme . On verra comment une valeur est ainsi clas-
se ( IV.B). Le nombre de feuilles de chaque branche donnant leffectif, un
histogramme classes gales damplitude 1 donne une reprsentation simi-
laire, mais lavantage du diagramme branche et feuille est de conserver ici
linformation donne par le premier chiffre dcimal, donc de garder linfor-
mation de la rpartition lintrieur des classes.
Les logiciels choisissent, selon la structure des donnes, des amplitudes
gales 1, 0,5 ou 0,25. La plage des valeurs tant plus restreinte en 2000 quen
1990 et 1995, le logiciel SPSS a choisi des amplitudes gales 1 pour les
annes 1990 et 1995, et des amplitudes gales 0,5 pour lanne 2000.
On peut complter ce type de diagramme pour garder lidentit des indivi-
dus en indiquant symtriquement lidentit de chaque feuille ( cf. figure 1.7).
On pourrait aussi reprsenter dos dos les distributions correspondant deux
annes diffrentes pour suivre lvolution de la dure hebdomadaire du travail.
1990
Frequency Stem & Leaf
1995
Frequency Stem & Leaf
2000
Frequency Stem & Leaf
3,00 38 . 046
5,00 39 . 00699
5,00 40 . 12477
1,00 41 . 9
1,00 Extrmes (>=43,7)
3,00 38 . 446
6,00 39 . 035579
4,00 40 . 0237
1,00 41 . 2
1,00 Extrmes (>=43,9)
0,00 38 .
3,00 38 . 569
3,00 39 . 033
2,00 39 . 89
4,00 40 . 0113
2,00 40 . 69
1,00 Extrmes (>=43,6)
Stem width : 1,0
Each leaf : 1 case(s)
Stem width : 1,0
Each leaf : 1 case(s)
Stem width : 1,0
Each leaf : 1 case(s)
Figure 1.6 Branche et feuille (logiciel SPSS) pour les sries du tableau 1.3
P001-046-9782100549412.fm Page 12 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE

13


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
III. Les indicateurs statistiques
Le tableau de distribution dune variable statistique prsente linformation
recueillie sur cette variable. Une reprsentation graphique en fournit un por-
trait pour apprhender plus facilement la globalit de linformation. On peut
dsirer aller plus loin en cherchant caractriser la reprsentation visuelle
par des lments synthtiques sur :
la valeur de la variable situe au centre de la distribution : la ten-
dance centrale et, plus gnralement, un indicateur de position non
ncessairement centrale, lie un rang donn ;
la variation des valeurs : la dispersion ;
la forme de la distribution ;
les aspects particuliers : valeurs extrmes, groupes de valeurs
Ces indicateurs tant exprims dans les units de la variable tudie, on
verra quil peut tre intressant pour comparer plusieurs distributions entre
elles de calculer des caractristiques de dispersion relative.
A. Conditions de Yule
Le statisticien britannique Yule
1
a nonc un certain nombre de proprits
souhaites pour les indicateurs des sries statistiques ; ceux-ci doivent tre
dune part, des rsums maniables et dautre part, les plus exhaustifs pos-
sibles relativement linformation contenue dans les donnes.
Frequency Stem & Leaf
3,00
6,00
4,00
1,00
1,00
Fin It Bel
Fr All P.Bas Lux Aut Dk
Esp Gr Irl Sud
Por
R-U
38 . 446
39 . 035579
40 . 0237
41. 2
Extremes (> = 43,9)
Stem width : 1,0
Each leaf : 1 case(s)
Figure 1.7 Diagramme Branche et feuille complt par lidentit des pays (1995)
1. G. Udny Yule et M. G. Kendall, An Introduction to the Theory of Statistics, Charles Griffin
& Co, 14
e
dition, 1950.
P001-046-9782100549412.fm Page 13 Mercredi, 24. novembre 2010 9:46 09
14

INTRODUCTION LA MTHODE STATISTIQUE


Dans son schma, une caractristique statistique doit tre une valeur-type :
1. dfinie de faon objective et donc indpendante de lobservateur ;
2. dpendante de toutes les observations ;
3. de signification concrte pour tre comprise par des non-spcialistes ;
4. simple calculer ;
5. peu sensible aux fluctuations dchantillonnage ;
6. se prtant aisment aux oprateurs mathmatiques classiques.
En ralit, on ne dispose pas de caractristiques rpondant simultanment
ces six conditions. Le choix dun indicateur sera lobjet dun compromis
guid par la spcificit de ltude en cours.
B. Les indicateurs de tendance centrale et de position
Selon lusage courant, toutes les mesures de tendance centrale mritent le
nom de moyenne . Lorsquon parle de moyenne, on pense la moyenne
arithmtique ; mais il existe dautres types de moyennes, chacune dentre
elles ayant la proprit de conserver une caractristique de lensemble quand
on remplace chaque lment de lensemble par cette valeur unique ; chaque
moyenne na donc dintrt que pour autant que cette proprit soit utile
1
.
Les moyennes sont des valeurs abstraites qui, sauf par hasard, ne cor-
respondent aucune ralisation concrte.
1) La moyenne arithmtique
On appelle moyenne arithmtique la somme de toutes les donnes statistiques
divise par le nombre de ces donnes. La moyenne arithmtique conserve la
somme totale des valeurs observes : si on modifie les valeurs de deux obser-
vations dune srie statistique tout en conservant leur somme, la moyenne de
la srie sera inchange.
Soit la srie statistique de donnes brutes : x
1
, , x
i
, , x
n
, sa moyenne
arithmtique a pour expression :
Bien entendu, si une valeur x
i
de X est observe n
i
fois, comme
x
i
+ x
i
+ + x
i
=

n
i
x
i
, la formule prcdente devient :

1. Ch. Antoine, Les moyennes au quotidien , dans Les Moyennes, Que Sais-je, PUF, n 3383,
1998, p. 107.
x
1
n
---
x
i
i 1 =
n

x
1
n
---
n
i
x
i
i 1 =
k

f
i
x
i
i 1 =
k

= =

n

i

fois

P001-046-9782100549412.fm Page 14 Mercredi, 24. novembre 2010 9:46 09

DISTRIBUTIONS STATISTIQUES UN CARACTRE




15


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

o

k

dsigne le nombre de valeurs

distinctes

de

X

et
Lorsquon a une variable statistique continue, on ne connat pas les valeurs
exactes prises par la variable, mais seulement le nombre dobservations
lintrieur de chaque classe. Pour calculer la moyenne arithmtique dune
telle variable, on ramne

chaque observation au centre de sa classe,

ceci en
raison de lhypothse dquirpartition lintrieur des classes, et cel revient
considrer la moyenne des individus de la

i

e

classe gale



(

x

i

1

+ x

i

)/2.
Dans le cas des classes extrmes non limites, le choix des limites de ces
classes influe videmment sur la valeur de la moyenne arithmtique. Ces
limites devront tre choisies en fonction des connaissances sur les donnes
et en noubliant pas lhypothse de base : lhomognit lintrieur des
classes. Pour une classe extrme dans laquelle on sait quil ny a pas quir-
partition, les observations tant vraisemblablement en majorit regroupes
sur une partie de la classe, il conviendra de choisir la borne extrme :
moins faible que la borne relle (suppose) sil sagit de la premire
classe ;
plus faible que la borne relle (suppose) sil sagit de la dernire classe.
Cest ce qui a t fait pour la srie prsente au tableau 1.2 et la figure 1.3,
lanciennet moyenne du chmage a t considre gale 48 mois pour ceux
dont lanciennet tait au moins gale 36 mois et la borne suprieure de la
dernire classe a t de ce fait fixe 60 mois (lhypothse dquirpartition
amne considrer que la moyenne des observations dune classe est gale au
centre de la classe).







Proprits
1.

La moyenne est une caractristique qui satisfait toutes les conditions
de Yule, sauf la conditions 5 : une observation extrme (exceptionnel-
lement leve ou faible) peut avoir une forte incidence sur sa valeur.

2.

La somme algbrique des carts des valeurs dune variable statisti-
que sa moyenne arithmtique est nulle :

3.

Lorsquon fait subir une variable statistique X une transformation
affine, cest--dire un changement dorigine et dunit {

Y = aX + x

0

}, sa
moyenne arithmtique subit la mme transformation :

4.

Soit une population


de taille

n

partage en deux sous-populations


1

de taille

n

1

et


2

de taille

n

2

.
Soit

X

, une variable statistique observe sur la population


, on peut
exprimer sa moyenne en fonction de ses moyennes sur


1

et sur
f
i
n
i
n
---- =
f
i
i 1 =
k

x
i
x ( )
0 =
y ax x
0
+ =
x x
1
x
2

P001-046-9782100549412.fm Page 15 Mercredi, 24. novembre 2010 9:46 09

16



INTRODUCTION LA MTHODE STATISTIQUE


Exemple

Lanciennet moyenne dinscription au chmage pour hommes et femmes
runis en septembre 2006 est gale (

cf.

tableau 1.2 pour les donnes) :




338 jours

2) Dautres moyennes

a) La moyenne gomtrique

Cest la moyenne applicable des mesures de grandeurs dont la croissance
est gomtrique ou exponentielle.
La

moyenne gomtrique conserve le produit des x

i



: si on modifie les
valeurs de deux observations tout en conservant leur produit, la moyenne
gomtrique sera inchange.
La moyenne gomtrique

G

de la srie de valeurs

x

1

, , x

i

, , x

n

sup-
poses toutes positives (strictement), est dfinie ainsi :
Lorsque la distribution de la variable statistique est donne par les

k

couples
(

x

i

,n

i

), les

x
i
tant tous positifs ; la moyenne gomtrique a pour expression :
Exemple
Supposons que pendant une dcennie, les salaires aient t multiplis
par 2 et que pendant la dcennie sui vante, ils aient t multiplis par 4 ;
le coefcient multiplicateur moyen par dcennie est gal :
La moyenne arithmtique (= 3) nest pas gale au coefcient demand.

2
en remarquant que la somme totale sobtient en additionnant
:
Ce rsultat se gnralise une partition en k sous-populations (k 2) :
nx
n
1
x
1
et n
2
x
2
x
1
n
--- n
1
x
1
n
2
x
2
+ ( ) =
x
1
n
---
n
i
x
i
i 1 =
k

=
x
1
2 172,2
------------------ 1 094,5 341 1 077,7 + 334 ( ) =
G
x
i
i 1 =
n

n
= ln G ( )
1
n
---
ln x
i
( )
i

1 =

n

=
G x
i
n
i
i 1 =
k

n
x
i
f
i

i

1

=

k

= = ln G ( )
f
i
ln x
i
( )
i

1 =

k

=
2 4 8 2,83 =

P001-046-9782100549412.fm Page 16 Mercredi, 24. novembre 2010 9:46 09

DISTRIBUTIONS STATISTIQUES UN CARACTRE




17


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

Prenons, par exemple, un salaire de 300


au dbut de la premire dcennie,
il sera de 300


4 = 2 400


au bout des vingt ans, ce qui qui vaut
300


(2,83)

2

, soit un coefcient multiplicateur moyen de 2,83 par dcennie.

b) La moyenne harmonique

La

moyenne harmonique

est linverse de la moyenne arithmtique des inverses
des valeurs. L

inverse de la moyenne harmonique conserve ainsi la somme des
inverses des x

i



: si on modifie les valeurs de deux observations tout en conser-
vant la somme de leurs inverses, la moyenne harmonique sera inchange.
ou
La moyenne harmonique peut tre utilise lorquil est possible dattribuer
un sens rel aux inverses des donnes en particulier pour les taux de change,
les taux dquipement, le pouvoir dachat, les vitesses. Elle est notamment
utilise dans les calculs d

indices

.


Exemple

On achte des dollars une premire fois pour 100


au cours de 1,23


le
dollar, une seconde fois pour 100


au cours de 0,97


le dollar.
Le cours mo yen du dollar pour lensemble de ces deux oprations est
gal :


La moyenne arithmtique (= 1,1) ne reprsente pas le cours mo yen du
dollar.

Comparaison des 3 moyennes tudies

On montre que si les

x

i

sont tous positifs :
min

x

i



max x
i

lin lin
Lgalit de deux de ces moyennes entre elles entrane leur galit dans
leur ensemble, et dans ce cas, toutes les valeurs x
i
sont gales.
3) Le mode
Pour obtenir une mesure de la tendance centrale non influence par les
valeurs extrmes de la distribution, on peut prendre la valeur ou la classe
de valeurs du caractre pour laquelle le diagramme en btons respective-
ment lhistogramme prsente son maximum : cest le mode respectivement
lintervalle modal de la distribution ; dans le cas o le diagramme en btons
ou lhistogramme prsente aussi un maximum local, il y a deux modes
respectivement deux classes modales.
H
n
1
x
i
----
i 1 =
n

------------ = H
1
f
i
x
i
----
i 1 =
k

------------ =
200
100
1,23
----------
100
0,97
---------- +
--------------------------- 1,085
x
P001-046-9782100549412.fm Page 17 Mercredi, 24. novembre 2010 9:46 09
18

INTRODUCTION LA MTHODE STATISTIQUE


Lorsque la variable statistique est discrte, le mode se dfinit donc laide
du tableau de distribution ou du diagramme en btons. Pour la distribution
prsente la figure 1.2, le mode est gal 2. Si la frquence maximum cor-
respond deux valeurs successives de la variable, il y a un intervalle modal.
Lorsquune distribution prsente plusieurs modes auxquels correspondent
(gnralement) des frquences diffrentes, cest souvent lindice du mlange
de deux ou plusieurs populations ayant chacune leur mode propre
(cf. figure 1.8). Un exemple peut en tre la distribution des pointures de
chaussures des hommes et femmes runies.
Lorsque la variable statistique est continue, la classe modale est la classe
dont la frquence par unit damplitude est la plus leve. Pour la distribution
prsente la figure 1.3, la classe modale est la classe [1, 3[. Mais cette
dtermination nest absolument pas prcise, car elle dpend du dcoupage en
classes retenu ; son intrt est limit par cette imprcision.
Dans le cas dune distribution discrte, le mode satisfait aux conditions 1,
3, 4 et 5 de Yule. Dans le cas de la distribution du nombre denfants par
famille, le mode est rellement une valeur typique et parat mieux correspon-
dre la ralit que la moyenne arithmtique qui est rarement un nombre
entier et qui est sensiblement influence par un nombre relativement petit de
familles trs nombreuses. linverse de la moyenne arithmtique, le mode
nglige dlibrement la prcision numrique au profit de la reprsentativit.
Dans un tel cas, il est souvent souhaitable de disposer de ces deux mesures
de la tendance centrale.
Le mode, historiquement lun des premiers paramtres de position utili-
ss, est un peu moins employ aujourdhui.
4) La mdiane et les quantiles
Bien quhomognes dans leur composition, de nombreuses distributions pr-
sentent de trs grands carts entre les valeurs extrmes de leurs lments.
De plus, elles ont souvent un manque de symtrie prononc, les lments
ayant tendance sagglomrer plus prs dun extrme que de lautre. Les
1
er
mode 2
e
mode
Figure 1.8 Exemple de distribution bimodale
dune variable discrte
P001-046-9782100549412.fm Page 18 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE

19


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
distributions de salaires ou de revenus en donnent des exemples typiques .
Il est vident que, dans de tels cas, nous avons besoin dune mesure de la
tendance centrale qui ne soit pas influence par un nombre relativement petit
de valeurs extrmes se situant en queue de la distribution.
a) La mdiane
La mdiane est la valeur de la variable statistique telle quil y ait autant
dobservations suprieures et dobservations infrieures cette valeur. Elle
partage la srie statistique en deux parties dgal effectif. Elle se dtermine
soit partir de la srie des valeurs ordonnes, soit partir de la fonction
cumulative ( II.A.3).
Pour les variables statistiques discrtes , la mdiane est dtermine
laide de la profondeur .
Dans le cas o la srie comporte un nombre impair n dobservations, la
mdiane est gale la valeur de profondeur maximum (n + 1)/2 : pour la srie
des 15 valeurs du tableau 4, la mdiane est gale la valeur de profondeur
8, soit 39,9 h.
Dans le cas o la srie comporte un nombre pair n dobservations, la
mdiane est la moyenne arithmtique des deux valeurs de profondeur n/2 et
est ainsi dfinie comme la valeur de profondeur ( n + 1)/2.
La mdiane est ainsi dans tous les cas la valeur de profondeur (n + 1)/2.
Lorsque les donnes dune variable statistique discrte sont classes, il
nexiste gnralement pas une valeur mdiane Me pour laquelle la fonction
cumulative vaut 50 %. Il faut dans ce cas utiliser dautres valeurs typiques
pour caractriser la tendance centrale de la srie : ceci est le cas pour la dis-
tribution du nombre de personnes par mnage dont la fonction cumulative est
reprsente la figure 1.4.
Pour les variables statistiques continues , la valeur mdiane Me est
telle que F(Me) = 50%. On commence par chercher la classe mdiane
laide des frquences cumules, la classe mdiane [x
i 1
, x
i
[ tant telle que
F
i 1
< 50% et F
i
> 50%. La valeur de la mdiane sobtient ensuite par inter-
polation linaire en raison de lhypothse dquirpartition lintrieur des
classes. Cette dtermination peut se faire par le calcul ou graphiquement
(cf. figure 1.9) :
Pour la distribution de lanciennet du chmage des femmes (tableau 1.2
et figure 1.5), la mdiane appartient la classe [3 ; 6[ :
Me x
i 1

x
i
x
i 1

-----------------------
0 5 , F
i 1

f
i
------------------------ = Me x =
i 1
x
i
x
i 1
( ) +
0,5 F

i

1


f
i
-----------------------
Me 3 3 +
50 35,8
15,1
---------------------- 5,8 mois =

P001-046-9782100549412.fm Page 19 Mercredi, 24. novembre 2010 9:46 09

20



INTRODUCTION LA MTHODE STATISTIQUE

La mdiane peut aussi tre dtermine partir de la courbe des frquences
cumules comme labscisse du point dordonne 50 %.
Une

seule

observation trs leve (ou trs faible) peut influencer fortement
la moyenne, alors que la mdiane peut supporter sans tre modifie quune
moiti des observations soit trs leve (ou trs faible) : on dit que la mdiane
est

rsistante.

La mdiane satisfait aux conditions 1, 3, 4 et 5 de Yule.
Dans le cas de distribution unimodale, la mdiane est frquemment com-
prise entre la moyenne arithmtique et le mode, et plus prs de la moyenne
que du mode. Si la distribution est symtrique, ces

trois caractristiques

de
tendance centrale sont

confondues

(

cf.

figure 1.10).
F
i-1
0,5
F
i
Me x
i
x
i-1

f
i
0,5- F
i-1
Figure 1.9 Dtermination graphique de la mdiane pour une variable continue
{ Mo = Me = x }
x
x
x Mo Me
Distribution tale
vers la droite
x
x Mo Me
Distribution tale
vers la gauche
Distribution
symtrique

Figure 1.10 Positions respectives du mode, de la mdiane et de la moyenne

P001-046-9782100549412.fm Page 20 Mercredi, 24. novembre 2010 9:46 09

DISTRIBUTIONS STATISTIQUES UN CARACTRE




21


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

b) Les quantiles

Les

quantiles

sont des

indicateurs de position

.
Le

quantile dordre


(0






1), not

x



,


est tel quune proportion


des individus ait une valeur du caractre

X

infrieure ou gale

x


Le quantile

x

0,5

est gal la mdiane.
On utilise couramment les quantiles dordre 1/4, 1/2 et 3/4. Ils sont ainsi
nots et

nomms :

Q

1

= premier quartile = x

0,25

Q

2

= deuxime quartile = mdiane = x

0,5

Q

3

= troisime quartile = x

0,75

Les quartiles se dterminent, comme la mdiane, laide de la profondeur
(variable discrte), ou laide des frquences cumules (variable continue).
Dans le cas dune variable statistique

discrte

, le premier quartile

Q

1

et le troi-
sime quartile

Q

3

sont des lments de

mme profondeur gale

(

m +

1)/2 o

m

dsigne la

partie entire de la profondeur de la mdiane. On peut aussi
considrer Q
1
comme la mdiane des m premires valeurs de la srie et Q
3
comme la mdiane des m dernires valeurs. Ainsi par exemple, pour une srie
de 39 observations, la mdiane a une profondeur gale 20, et les quartiles
Q
1
et Q
3
sont de profondeur 10,5 ; pour une srie de 50 observations, la
mdiane a une profondeur de 25,5 et la partie entire de cette profondeur
tant 25, les quartiles Q
1
et Q
3
sont de profondeur 13.
La pratique de la dtermination des quartiles ne respecte pas toujours la
dfinition prcdente due Tukey. Ainsi les calculatrices de poche (TI,
Casio,) dterminent le 1
er
quartile (resp. le 3
e
quartile) comme la mdiane
des valeurs de profondeur infrieure (resp. suprieure) la profondeur de la
mdiane. Le rsultat diffre de celui calcul avec la dfinition de Tukey dans
le cas dun nombre impair dobservations. Le logiciel SPSS dtermine deux
types de quartiles : Valeurs charnires selon la dfinition de Tukey, et
Moyenne pondre laide dune formule dinterpolation linaire
[Dodge, 1993]. La dtermination des premier et troisime quartiles nest pas
standardise.
Pour la distribution de la dure hebdomadaire du travail dans les 15 pays
de lUnion europenne en 2000 ( cf. tableau 1.4), les premier et troisime
quartiles sont les valeurs de profondeur 4,5 :
Q
1

= 39,15 h et Q
3

= 40,2 h
Dans le cas dune variable statistique continue, on a F(Q
1
) = 0,25 et
F(Q
3
) = 0,75 et on calcule les quartiles par interpolation linaire, en raison
de lhypothse dquirpartition. Pour la distribution de lanciennet du ch-
mage des femmes ( cf. figure 1.5) :
P001-046-9782100549412.fm Page 21 Mercredi, 24. novembre 2010 9:46 09
22

INTRODUCTION LA MTHODE STATISTIQUE


On peut dfinir partir des quartiles Q
1
et Q
3

le paramtre de tendance
centrale (Q
1
+ Q
3
)/2, gal la mdiane dans le cas dune distribution sym-
trique, ainsi que lintervalle interquartile [Q
1
, Q
3
] qui contient 50 % des obser-
vations.
Plus gnralement, deux quantiles dordres complmentaires x

et x
1-
dfinissent un intervalle dont le milieu peut tre considr comme un para-
mtre de tendance centrale.
De la mme faon, on dfinit les dciles D
1
,

D
2
, , D
9

qui sont les quan-
tiles x
i/10
(i = 1 9), les vingtiles, quantiles x
i/20
( i = 1 19), les centiles, etc.
Les classes dune variable statistique continue sont souvent dfinies
laide des dciles. Dans ce cas, on a 10 classes contenant chacune 10 % de
leffectif total ( cf. tableau 1.5 et figure 1.11).
Tableau 1.5 Distribution des salaires annuels nets de tous prlvements
pour les salaris temps complet du secteur priv et semi-public
Dciles
*
(en euros courants)
Ensemble Hommes Femmes
2000 2006 2000 2006 2000 2006
D
1
D
2
D
3
D
4
Mdiane
D
6
D
7
D
8
D
9
10 790
12 220
13 520
14 910
16 500
18 410
20 890
24 780
32 810
12 718
14 219
15 545
16 977
18 631
20 685
23 430
27 826
36 941
11 230
12 760
14 140
15 580
17 270
19 330
22 170
26 660
35 020
13 181
14 776
16 209
17 729
19 466
21 657
24 734
29 787
40 305
10 190
11 420
12 500
13 710
15 130
16 810
18 850
21 620
26 950
12 075
13 431
14 531
15 715
17 141
18 924
21 300
24 590
30 962
D
9
/D
1
3 2,9 3,2 3,1 2,6 2,6
Salaire moyen 20 400 23 292 21 890 24 912 17 510 20 232
*
En 2006, 10 % des salaris temps complet du secteur priv et semi-public gagnent un salaire annuel
net infrieur 12 718 euros, 20 % infrieur 14 219 euros
Source : INSEE.
Q
1
1 2 +
25 16,8
19
---------------------- = 1,9 mois
Q
3
12 12 +
75 68,7
18,5
---------------------- = 16,1 mois
P001-046-9782100549412.fm Page 22 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE

23


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
C. Les indicateurs de dispersion
1) Ltendue
Ltendue est la diffrence entre la plus grande et la plus petite des valeurs
observes :
tendue = max x
i
min x
i
lin lin
Cette mesure de la dispersion ne dpend que des valeurs extrmes souvent
exceptionnelles ; elle ne satisfait pas aux conditions 2 et 5 de Yule. Il faut
remarquer aussi que la forme de la distribution entre les valeurs extrmes
ninflue pas sur ltendue. Cependant, cette caractristique, tant facile cal-
culer et ayant une signification concrte facile comprendre, est frquem-
ment utilise en contrle industriel de fabrication.
2) Ltendue interquartile
De par la dfinition des quartiles, lintervalle interquartile [ Q
1
,
Q
3
] contient
50 % des observations. Sa longueur, note EIQ (tendue InterQuartile), est
un indicateur de dispersion :
EIQ = Q
3


Q
1
Le calcul de ltendue interquartile a lavantage par rapport celui de
ltendue dcarter les valeurs extrmes, souvent sans signification.
Plus gnralement, les longueurs des fourchettes dfinies par les dciles
extrmes, les centiles extrmes constituent des indicateurs de dispersion
contenant respectivement 80 % et 98 % des observations.
D
1
D
2
D
3
D
4
D
5
D
6
D
7
D
8
D
9
h
i
=
10
D
i
D
i 1
h
2
h
1
Figure 1.11 Histogramme de la distribution des salaires Ensemble en 2000
(voir tableau 1.5)
P001-046-9782100549412.fm Page 23 Mercredi, 24. novembre 2010 9:46 09
24

INTRODUCTION LA MTHODE STATISTIQUE


3) Lcart absolu moyen
On peut dfinir une caractristique de dispersion dune distribution statisti-
que en calculant les carts des observations une tendance centrale C. La
tendance centrale de la srie ( x
i
C) ne peut pas tre une mesure de disper-
sion puisque les carts positifs sont compensables par les carts ngatifs.
Par contre, la srie dfinit une variable statistique positive dont les
valeurs centrales constituent une mesure de dispersion.
Lcart absolu moyen la mdiane est la moyenne arithmtique des
valeurs absolues des carts la mdiane ; on dmontre que cest le plus petit
cart absolu moyen :
ou
Lcart absolu moyen la moyenne est la moyenne arithmtique des
valeurs absolues des carts la moyenne arithmtique :
ou
Dans le cas dune variable continue classe, on considre, comme pour le
calcul de la moyenne, que chaque individu a sa valeur gale au milieu de sa
classe daffectation.
4) Lcart-type
Lcart-type s
X
dune variable statistique X est la mesure de dispersion la plus
couramment utilise.
Algbriquement, il se dfinit comme la racine carre de la variance, et la variance
est la moyenne arithmtique des carrs des carts la moyenne arithmtique :
ou
Il est possible de dvelopper la formule de la variance pour obtenir une
expression mieux adapte au calcul (mais cette formule devient inusite de
par la diffusion des calculatrices munies des fonctions statistiques
1
) :
1. Les calculatrices munies des fonctions statistiques donnent les valeurs de la moyenne et de
lcart-type dune variable statistique dont on a saisi la distribution. Certaines calculatrices
(dont les calculatrices de marque CASIO

) proposent deux carts-types :


n
et
n-1
. La valeur
de
n
correspond celle de lcart-type s
X
dfini ici et utilis en statistique descriptive ; quant
celle de
n 1
, elle est utilise en infrence statistique et se dduit de
n
par la formule
suivante :
x
i
C
e
Me
1
n
---
x
i
Me
i 1 =
n

= e
Me
f
i
x
i
Me
i 1 =
k

=
e
x
1
n
---
x
i
x
i 1 =
n

= e
x
f
i
x
i
x
i 1 =
k

=
var X ( )
1
n
---
x
i
x ( )
2
i 1 =
n

= var X ( )
f
i
x
i
x ( )
2
i 1 =
k

= s
X
var X ( ) =

n 1
2
n
n 1
------------
n
2
=
P001-046-9782100549412.fm Page 24 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE

25


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
ou

Dans le cas dune variable statistique continue, on ramne la valeur de cha-
que individu au milieu de sa classe daffectation. L encore, le choix des bornes
des classes extrmes non limites doit tre fait avec prcaution.
Mais, alors que pour le calcul de la moyenne, lerreur lie ce choix tait
faible dans le cas de distributions approximativement symtriques autour de
la moyenne, il nen est pas de mme pour le calcul de la variance o les
erreurs sajoutent et ne peuvent pas se compenser.
Lcart-type est exprim dans la mme unit que les observations, alors
que la variance sexprime dans le carr de cette unit.
On dmontre que lcart-type, donnant plus de poids aux observations
extrmes que lcart absolu moyen la moyenne, lui est toujours suprieur :

Proprits
1. Lcart-type satisfait aux conditions 1, 2 et 6 de Yule ; lcart-type
est plus sensible aux fluctuations dchantillonnage et aux valeurs extr-
mes que la moyenne, en raison des lvations au carr.
2. On montre que la variance est le plus petit cart quadratique moyen,
cest--dire :
pour tout C
3. Lorsque deux variables X et Y sont en correspondance par le chan-
gement dorigine x
0
et le changement dchelle a, les cart-types se cor-
respondent par le seul changement dchelle a pris en valeur absolue :
4. Soit une population de taille n compose de deux sous-populations

1
de taille n
1
et
2
de taille n
2
.
Soit X, une variable statistique observe
sur la population , on peut exprimer sa variance var( X) en fonction de
, , , var(X
1
) et var( X
2
) :
var X ( )
1
n
---
x
i
x ( )
2
i 1 =
n

1
n
---
x
i
2
i 1 =
n

x ( )
2

= =
var X ( ) f
i
i 1
k

x
i
x ( )
2
f
i
x
i
2
x ( )
2

i 1 =
k

= =
s
X
e
x

var X ( )
1
n
---
x
i
C ( )
2
i 1 =
n

Y aX x
0
+ = s
Y
a s
X
=
x x
1
x
2
var X ( )
1
n
--- n
1
var X
1
( ) n
2
var X
2
( ) n
1
x
1
x ( )
2
n
2
x
2
x ( )
2
+ + +
( ,
, (
j \
=
P001-046-9782100549412.fm Page 25 Mercredi, 24. novembre 2010 9:46 09
26

INTRODUCTION LA MTHODE STATISTIQUE


Dautres mesures de la dispersion peuvent tre envisages. On peut cal-
culer un cart mdian, gal la mdiane de la srie des valeurs absolues des
carts une valeur centrale choisie. On peut aussi calculer la diffrence
moyenne gale la moyenne arithmtique des valeurs absolues des diffren-
ces entre les observations prises deux deux. Cest cet indicateur de disper-
sion qui est utilis pour le calcul de lindice de concentration de Gini ( III.E)
et qui, ne mesurant pas la dispersion par rapport la moyenne, est adapt aux
distributions non symtriques.
D. Les caractristiques de forme
La plupart des distributions statistiques sont unimodales. En complment de
ltude de la tendance centrale et de la dispersion, il est intressant de reprer
la forme (dj mise en vidence par une reprsentation graphique) par des
mesures de son asymtrie (en anglais, skewness) et de son aplatissement
(kurtosis).
La symtrie est un concept important pour plusieurs raisons. Tout
dabord, la dfinition de la tendance centrale est sans ambiguit pour une dis-
tribution symtrique puisque pour une telle distribution, la mdiane est gale
la moyenne et pour tout compris entre 0 et 0,5, et la
dispersion des observations est symtrique par rapport la moyenne. Dautre
part, de nombreuses mthodes statistiques reposent sur une hypothse de dis-
tribution(s) normale(s) ou sen approchant (chapitre 7). Le caractre de sym-
trie dune distribution apparat donc particulirement important.
Les mesures de la forme sont indpendantes des units de mesure de la
variable tudie.
Il faut bien remarquer que la variance de X sur est la somme pond-
re des variances de X sur
1
et
2
augmente de la somme pondre des
carrs des diffrences entre la moyenne de X sur et les moyennes sur

1
et
2
. Ce rsultat se gnralise une partition en k sous-populations
(k 2).
5. Les distributions statistiques symtriques telles quenviron :
2/3 de la distribution se situent moins dun cart-type de ;
95 % de la distribution se situent moins de deux carts-types de
sont dites normales (chapitre 7, II).
Le triplet ( ) est un rsum exhaustif des distributions de ce type.
Dans de nombreux cas, la normalit tant approximative, ( ) est alors
un rsum (quasi-exhaustif) qui prsente un intrt primordial.
x
x
n x s
X
, ,
n x s
X
, ,
x

x
1
+ ( )/2
P001-046-9782100549412.fm Page 26 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE

27


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
1) Dfinition des moments centrs
Le moment centr dordre r dune distribution est gal la moyenne arith-
mtique des puissances dordre r des carts :
ou

Remarque
Le moment centr
1
est nul, et le moment centr
2
nest autre que la
variance et ne peut tre nul, comme tous les moments centrs dordre
pair, que si toutes les observations ont la mme valeur.
2) Lasymtrie
Pour une distribution symtrique, la moyenne arithmtique est gale la
mdiane et pour compris entre 0 et 0,5. Dautre part, les
moments centrs dordre impair sont nuls pour une distribution symtrique,
ngatifs pour une distribution unimodale tale gauche, positifs pour une
distribution unimodale tale droite. Ces proprits sont utilises pour dia-
gnostiquer et mesurer lasymtrie.
a) Diagnostic et mesure de lasymtrie laide des quantiles
Dans un cas dasymtrie, la comparaison des quantits ,
milieux des intervalles [x

,

x
1-
], pour diffrentes valeurs de (0 0,5)
donne une indication rapide sur le type de lasymtrie. Certains logiciels don-
nent la reprsentation graphique de ces quantits en fonction des amplitudes
. Pour une distribution symtrique, on obtient une droite parallle
laxe des abscisses puisque les termes sont tous gaux la
mdiane (et la moyenne !).
Pour la distribution des salaris masculins en 2000 ( cf. tableau 1.5), la
comparaison des milieux des intervalles des dciles symtriques par rapport
la mdiane montre quil sagit dune distribution tale vers la droite :
D
5
= 17 270 < = 17 455 < = 18 155 < = 19 710 < = 23 125
Le quotient suivant dfinit un coefficient dasymtrie, appel coefficient
de Yule et Kendall :
x
i
x ( )

r
1
n
---
x
1
x ( )
r
i 1 =
n

=
r
f
i
x
i
x ( )
r
i 1 =
k

=
x

x
1
+ ( )/2
x

x
1
+ ( )/2
x
1
x

( )
x

x
1
+ ( )/2
D
6
D
4
+
2
-------------------
D
7
D
3
+
2
-------------------
D
8
D
2
+
2
-------------------
D
9
D
1
+
2
-------------------
Q
3
Q
2
( ) Q
2
Q
1
( )
Q
3
Q
2
( ) Q
2
Q
1
( ) +
-----------------------------------------------------
Q
3
Q
1
2Q
2
+
Q
3
Q
1

----------------------------------- =
P001-046-9782100549412.fm Page 27 Mercredi, 24. novembre 2010 9:46 09
28

INTRODUCTION LA MTHODE STATISTIQUE


Ce coefficient, compris entre 1 et + 1, est nul pour une distribution
symtrique, positif pour une distribution unimodale tale vers la droite et
ngatif dans le cas contraire, et il est, de plus invariant par changement dori-
gine et dchelle.
On obtient des variantes de ce coefficient en remplaant les quartiles par
les dciles. Pour les distributions des salaires prsentes dans le tableau 1.5,
on peut calculer le coefficient dasymtrie suivant :
qui vaut respectivement 0,49 et 0,41 pour les distributions des salaires mas-
culins et fminins en 2000 ; ces valeurs indiquent des distributions asymtri-
ques, tales vers la droite.
b) Le coefficient dasymtrie de Fisher
Le coefficient dasymtrie de Fisher , not
1
, est ainsi dfini :
pour
Comme tout coefficient dasymtrie, il est nul pour une distribution sym-
trique, ngatif pour une distribution unimodale tale vers la gauche, positif
pour une distribution unimodale tale vers la droite (figure 1.12).
Les coefficients calculs par les logiciels statistiques sont soit celui de
Fisher, soit des variantes de mme linterprtation. Par exemple, le logiciel
SPSS donne un coefficient dasymtrie lgrement modifi :
3) Laplatissement
Les coefficients daplatissement mesurent laplatissement dune distribution
ou limportance des queues dune distribution. Le coefficient daplatisse-
ment de Fisher, not
2
, est ainsi dfini :
pour
D
9
D
1
2D
5
+
D
9
D
1

-----------------------------------

2
3 2
---------- =
2
0

1
= 0
1
< 0
1
> 0
Figure 1.12 Signe du coefficient dasymtrie
n
n 1 ( ) n 2 ( )
--------------------------------------
1
pour n 3

2
2
----- 3 =
2
0

P001-046-9782100549412.fm Page 28 Mercredi, 24. novembre 2010 9:46 09

DISTRIBUTIONS STATISTIQUES UN CARACTRE




29


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

Ce coefficient est

nul

pour une

distribution normale

(chapitre 7), positif
ou ngatif selon que la distribution est plus ou moins aplatie que la distribu-
tion normale de mme moyenne et de mme cart-type.
Les coefficients calculs par les logiciels sont celui de Fisher ou des
variantes de mme interprtation.
Ces coefficients dasymtrie et daplatissement sont invariants par chan-
gement dorigine et dchelle, mais ils sont sensibles aux fluctuations
dchantillonnage puisquils font intervenir des moments dordre lev.

E. L

es caractristiques de dispersion relative

Ces caractristiques permettent de

comparer

les distributions statistiques de
plusieurs sous-ensembles dune mme population, ou de faire des comparai-
sons dans le temps ou dans lespace.

1) Le coefficient de variation et linterquartile relatif

Supposons que nous sachions que lcart-type de poids dune certaine popula-
tion est de 8 kg, limportance du degr de variabilit que cela suggre dpend
de la valeur du poids moyen : 10 kg, 50 kg ou plusieurs centaines de kg
Pour remdier cette difficult dinterprtation, il est naturel dexaminer
le rapport appel

coefficient de variation

et dfini en gnral pour des
variables

positives

.
Cest un nombre

sans dimension

, invariant si on effectue un changement
dunit de mesure.
Plus le coefficient de variation est lev, plus la dispersion autour de la
moyenne est leve.
Ce coefficient permet de comparer les dispersions de distributions qui ne
sont pas exprimes dans la mme unit (comme des distributions de salaires
de pays diffrents) ou de distributions dont les moyennes sont diffrentes
(comme des distributions de salaires pour diffrentes qualifications).
On peut construire dautres coefficients de ce type en utilisant les statis-
tiques dordre comme les quartiles et les dciles ; citons l

interquartile
relatif

: et l

interdcile relatif

:
Pour les distributions des salaires Hommes et Femmes en 2001 (

cf.

tableau 1.5), les interdciles relatifs valent respectivement 1,45 et 1,12.
s
X
x
Q
3
Q
1

Q
2
------------------
D
9
D
1

D
5
-------------------

P001-046-9782100549412.fm Page 29 Mercredi, 24. novembre 2010 9:46 09

30



INTRODUCTION LA MTHODE STATISTIQUE

2) Les caractristiques de concentration

La notion de

concentration

a t introduite propos des distributions de
salaires et de revenus. Cette notion est apparente celle de dispersion
puisquelle concerne lintensit du groupement des donnes.
Elle ne sapplique qu des variables

continues

valeurs

positives

, et pour
des ensembles statistiques dont chaque lment est affect dun caractre sus-
ceptible daddition :
un ensemble de mnages classs selon le revenu, lpargne, le
patrimoine ;
un ensemble dentreprises classes selon le chiffre daffaire, le nombre
de salaris, les montants des factures ;
un ensemble dexploitations agricoles classes selon la surface agricole
utilise.
Il est clair que la notion de concentration ne peut pas sappliquer, par
exemple, des ensembles dindividus classs selon lge, la taille ou le poids,
puisque la somme des ges, des tailles ou des poids dune population est sans
signification.
La concentration peut se caractriser, soit par un

procd graphique,

soit
par le

calcul

.

a) Construction de la courbe de concentration

Considrons la distribution des exploitations agricoles par classes de gran-
deurs des rgions Provence-Alpes-Cte dAzur (PACA) et Midi-Pyrnes en
2005 (

cf. tableau 1.6). Lintervalle de variation de la SAU (superficie agricole
utilise) est partag en k classes (ici, k = 9) dont les bornes suprieures sont
notes dans lordre : x
1
, , x
i
, , x
k
On calcule pour chaque classe ( i = 1 k) :
la proportion cumule p
i
des exploitations de SAU infrieure x
i
la proportion cumule q
i
de la SAU totale des exploitations de SAU inf-
rieure x
i
Sur un diagramme cartsien, on reprsente les k points de coordonnes
(p
i
, q
i
). Ces points sinscrivent dans un carr OABC dont la longueur des
cts est gale 1 (ou 100 si les proportions sont exprimes en pourcentage).
La courbe qui joint les points successifs est la courbe de concentration
ou courbe de Lorenz (cf. figure 1.13). La courbe, toujours en-dessous de la
bissectrice, permet de lire que les % des exploitations les moins bien
loties cultivent % de la SAU totale. Si toutes les exploitations ont une part
gale de SAU, la courbe se confond avec la bissectrice OB. La courbe sen
loigne lorsque lingalit saccrot.
P001-046-9782100549412.fm Page 30 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE

31


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Ceci suggre dutiliser laire, dite aire de concentration , comprise entre
la courbe et la bissectrice OB comme indicateur dingalit.
Tableau 1.6 Distribution des exploitations agricoles par classes de grandeurs
en rgions PACA et Midi-Pyrnes
Midi-Pyrnes PACA
Midi-
Pyrnes
PACA
f
i
Proportion
SAU
f
i
Proportion
SAU
p
i
q
i
p
i
q
i
Moins de 5 ha 15,5 0,8 44,9 2,6 15,5 0,8 44,9 2,6
5 moins de 10 ha 9,0 1,4 12,5 3,1 24,6 2,2 57,4 5,7
10 moins de 20 ha 13,2 4,2 14,8 7,6 37,7 6,4 72,2 13,2
20 moins de 35 ha 15,7 9,2 9,3 8,6 53,4 15,7 81,5 21,9
35 moins de 50 ha 12,2 11,1 5,1 7,4 65,6 26,8 86,6 29,3
50 moins de 100 ha 23,1 35,1 7,2 17,6 88,7 61,9 93,8 46,9
100 moins de 200 ha 9,6 27,5 3,7 18,1 98,2 89,4 97,5 65,0
200 moins de 300 ha 1,3 6,6 1,4 11,5 99,5 96,0 98,9 76,5
300 ha ou plus 0,5 4,0 1,1 23,5 100,5 100,5 100,5 100,5
100,5 100,5 100,5 100,5
Source : agreste.agriculture.gouv.fr
p
q
C
0
A
B
I
G
1
2
100
80
60
40
20

0
0
20 40 60 80 100
PACA
Midi-Pyrnes
Figure 1.13 Courbe de Lorenz
Figure 1.14 Courbes de concentration des SAU
dans les rgions PACA et Midi-Pyrnes
P001-046-9782100549412.fm Page 31 Mercredi, 24. novembre 2010 9:46 09
32

INTRODUCTION LA MTHODE STATISTIQUE


On peut comparer la concentration de deux ou plusieurs populations selon
un mme caractre en reprsentant sur un mme graphique leurs courbes de
Lorenz. Les terres agricoles sont plus concentres dans la rgion PACA que
dans la rgion Midi-Pyrnes puisque la courbe de Lorenz de la SAU de la
rgion Midi-Pyrnes est incluse dans celle de la rgion PACA (cf. figure 1.14).
On peut aussi comparer la concentration de deux caractres sur une mme
population : sur la figure 1.15, on constate que la concentration du patrimoine
financier des mnages est plus forte que celle des revenus.
Dans les cas o les courbes se coupent, on ne peut pas comparer les degrs
dingalit.
b) Dtermination de l indice de concentration ou indice de Gini
Lindice I
G
de Gini est gal au double de laire de concentration ( cf. figure
1.13). Cet indice, compris entre 0 et 1, a une valeur dautant plus leve que
la rpartition est plus ingalitaire, et peut tre valu selon la formule
1
:
les x
i
(i = 1, , n) dsignant ici les valeurs prises (supposes toutes distinctes)
par la variable sur chacun des n individus de la population tudie.
1. Le statisticien italien Corrado Gini a propos cette mesure de la concentration en 1912 et a
montr deux annes plus tard que son indice tait gal au double de laire comprise entre la
droite dquirpartition et la courbe propose par Max Otto Lorenz en 1905.
100
80
50
40
20 40 60 80 100
90
70
60
30
20
10
0
0 10 30 50 70 90
En %
Patrimoine financier
Revenu disponible
Lecture : plus la courbe sloigne de la diagonale, plus la distribution de la variable considre est concentre. La moiti des
mnages les moins riches possde 27 % de la masse des revenus disponibles tandis que la moiti des mnages les moins
bien dots possde environ 4 % de la masse totale de patrimoine financier. Les 10 % les mieux dots en patrimoine
financier en possdent environ 63 %.
Champ : mnages dont la personne de rfrence nest pas tudiante et dont le revenu dclar est positif ou nul.
Sources : enqute Revenus fiscaux 2003, Insee-DGI pour le revenu disponible et enqute Patrimoine 2004, Insee, montants
de patrimoine financier recals sur les donnes de la Comptabilit nationale.
Figure 1.15 Courbes de concentration
Source : INSEE, conomie et Statistique, n 414, 2008.
I
G
x
i
x
j

j i 1 + =
n

i 1 =
n

n n 1 ( ) x
-------------------------------------- =
P001-046-9782100549412.fm Page 32 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE

33


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Cet indice sapparente donc bien la notion de dispersion relative des
lments dune srie. Cest un nombre sans dimension. Cette caractristique
de dispersion ne fait pas appel au calcul dcarts la moyenne. Elle est ainsi
particulirement bien adapte ltude de distributions trs dissymtriques
pour lesquelles la notion dcart la moyenne est sans grande signification.
IV. La bote de distribution
La bote de distribution (box-plot en anglais, ou encore bote--pattes ,
bote moustaches , bote de dispersion en franais) est un outil pri-
vilgi de l analyse exploratoire des donnes . Elle fournit en un seul coup
doeil des informations sur sa tendance centrale, sa dispersion, son asymtrie,
limportance des valeurs extrmes. Elle est aussi particulirement intres-
sante pour la comparaison de distributions sur plusieurs de ces critres.
A. Rsum dune distribution par des quantiles
Les trois quartiles Q
1
, Q
2
et Q
3
et les deux valeurs extrmes fournissent pour
une distribution des informations sur sa tendance centrale par les quantits
Q
2
, e t
(
min x
i
+ max x
i
)
, sur sa dispersion par ltendue et
ltendue interquartile, et sur sa forme par la comparaison des trois indica-
teurs de tendance centrale.
En analyse exploratoire des donnes, ces cinq valeurs sont prsents avec
leur profondeur dans un tableau. Pour la distribution de la dure hebdoma-
daire du travail en 2000 ( cf. tableau 1.4) :
On peut complter ce tableau en indiquant ltendue interquartile, le
milieu de lintervalle interquartile, ltendue et le milieu de lintervalle dter-
min par les deux valeurs extrmes. On obtient ainsi un rsum des informa-
tions sur la dispersion et lasymtrie :
n = 15 Dure hebdomadaire
8 Me = 39,9 h
4,5 Q
1
= 39,15 Q
3
= 40,2
1 min x
i
= 38,5 max x
i
= 43,6
1
2
--- Q
1
Q
3
+ ( )
1
2
---
1in 1in
1in 1in
P001-046-9782100549412.fm Page 33 Mercredi, 24. novembre 2010 9:46 09
34

INTRODUCTION LA MTHODE STATISTIQUE


B. Reprsentation dune bote de distribution
Dans une bote de distribution , la bote reprsente lintervalle interquartile,
et lintrieur, la mdiane la spare en deux parties. Les lignes qui partent
du bord de la bote stendent jusquaux valeurs les plus extrmes qui ne sont
pas considres comme loignes. Le logiciel SPSS note valeur loigne
(o), les points situs plus de 1,5 fois ltendue interquartile par rapport aux
bords de la bote, et valeur extrme (), les points situs plus de 3 fois
ltendue interquartile ( cf. figure 1.17).
Ainsi, la taille de la bote reprsente ltendue interquartile, la position de
la mdiane est un bon indicateur de la symtrie de la distribution, la taille des
lignes de part et dautre de la bote traduit la dispersion, et les valeurs loi-
gnes ou extrmes sont immdiatement repres.
On reprsente une bote de distribution de la faon suivante (cf. figure 1.16) :
a) on trace un rectangle de largeur fixe priori et de longueur
EIQ = (Q
3


Q
1
), et on y situe la mdiane par un segment positionn la
valeur Q
2
, par rapport Q
3
et Q
1
; on a alors la bote,
b) on calcule ( Q
3
+ 1,5 EIQ) et ( Q
1
1,5 EIQ) et on cherche :
la dernire observation x
h
en de de la limite ( Q
3
+ 1,5 EIQ) soit
x
h
= max{x
i
x
i
Q
3
+ 1,5 EIQ}
la premire observation x
b
au del de la limite ( Q
1
1,5 EIQ) soit
x
b
= min {x
i
x
i
Q
1
1,5 EIQ}
c) on trace deux lignes allant des milieux des largeurs du rectangle aux
valeurs x
b
et x
h
Ainsi, pour la distribution reprsente la figure 1.16, la valeur
loigne associe au Royaume-Uni et mise en vidence sur le diagramme
Branche et feuille de la figure 1.6, est lextrieur de la bote de distribution.
n = 15 Dure
hebdomadaire
Dispersion Position
8 39,9 h
4,5 39,15 40,2 EIQ = 1,05
1 38,5 43,6 tendue = 5,1

min x
i
+ max x
i

= 41,05
1
2
--- Q
1
Q
3
+ ( ) 39,615 =
1
2
---
1in 1in
( )

P001-046-9782100549412.fm Page 34 Mercredi, 24. novembre 2010 9:46 09

DISTRIBUTIONS STATISTIQUES UN CARACTRE




35


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

Ce type de diagramme permet aussi de

comparer

facilement plusieurs dis-
tributions en terme de mdiane, quartiles et valeurs loignes ou extrmes.
On peut reprsenter en parallle les botes de distribution de la dure heb-
domadaire du travail des salaris temps complet de lUnion europenne en
1990,1995 et 2000, et comparer les trois distributions (

cf

. figure 1.17).
38 39 40 41 42 43
*
Maximum Minimum x
b
Q
1
Me Q
3
x
h
Q
1
1,5 EIQ Q
3
+ 1,5 EIQ
tendue
Figure 1.16 Construction de la bote de distribution de la dure du travail en 2000
(tableau 1.4)
45
44
43
42
41
40
39
38
37
N =
R-Uni
R-Uni
R-Uni
15
1990
15
1995
15
2000
*
*

Figure 1.17 Reprsentation SPSS des botes de distribution du tableau 1.3

P001-046-9782100549412.fm Page 35 Mercredi, 24. novembre 2010 9:46 09

36



INTRODUCTION LA MTHODE STATISTIQUE

La mdiane nvolue pas de faon monotone, la dispersion diminue, le
Royaume-Uni passe de valeur loigne en 1990 valeur extrme en
1995 et 2000.
Pour les distributions prsentes par leurs dciles (

cf

. tableau 1.5), on ne
connat pas les valeurs individuelles. Dans ce cas, on peut convenir de
considrer

valeurs loignes

les valeurs infrieures au premier dcile ou
suprieures au neuvime dcile.
La reprsentation des botes de distribution des distributions de salaires en
2000 permet de comparer les salaires selon le sexe (

cf

. figure 1.18). La repr-
sentation par des histogrammes (

cf

. figure 1.11) ne permettrait pas de com-
parer aussi aisment les distributions, les histogrammes ne pouvant pas tre
superposs si on veut conserver la lisibilit, mais seulement juxtaposs.

C. I

nterprtation dune bote de distribution

Une bote de distribution rend compte de la tendance centrale, de la disper-
sion, des valeurs loignes ou extrmes et de la forme de la distribution (

cf

.
figure 1.19), mme si dautre modes de reprsentation (histogramme, branche
et feuille) peuvent apporter un complment dinformation sur la forme.
10 000
20 000
30 000
40 000
Euros
Ensemble Hommes
Femmes
Figure 1.18 Reprsentation des botes de distribution des salaires en 2000

P001-046-9782100549412.fm Page 36 Mercredi, 24. novembre 2010 9:46 09

DISTRIBUTIONS STATISTIQUES UN CARACTRE




37


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

En statistique descriptive, on a vu limportance du

triplet

(

n

, , s

X

).
Pour la distribution de la dure hebdomadaire du travail du tableau 1.4, ce
triplet prend les valeurs (15 ; 39,93 ; 1,2) pour lanne 2000. La

bote de
distribution

(

cf

. figures 1.15 et 1.16) est un complment qui se rvle int-
ressant puisquelle permet de dtecter lasymtrie, les valeurs extrmes, et
de reprer la mdiane et lintervalle interquartile qui contient la moiti des
observations.
Dans le cas dune asymtrie, lcart-type qui mesure la dispersion

sym-
triquement

par rapport la moyenne nest pas la mesure de dispersion la
mieux adapte, et peut tre complt par ltendue interquartile. Dautre part,
si la bote de distribution indique des valeurs loignes ou extrmes, on sait
que la moyenne et lcart-type sont particulirement influencs par ces
valeurs.

V. B

ilan

Avant toute tude formelle, il est ncessaire de procder une valuation
descriptive des donnes. Cette approche descriptive prsente deux difficults,
lune lie aux calculs, lautre la diversit des indicateurs. Si les calculatrices
de poche ont permis depuis longtemps dj de rendre aiss les calculs de
moyenne et cart-type, il a fallu attendre la gnralisation des moyens de calcul
Maximum
Minimum
1. 2. 3. 4.
Figure 1.19 Quelques types de botes de distribution :
1. Distribution symtrique
2. Distribution peu disperse
3. Distribution tale vers les valeurs leves
4. Distribution tale vers les valeurs faibles
x

P001-046-9782100549412.fm Page 37 Mercredi, 24. novembre 2010 9:46 09

38



INTRODUCTION LA MTHODE STATISTIQUE

automatique (en particulier, des logiciels statistiques sur m icro-ordinateurs)
pour que tous les indicateurs bass sur la notion de profondeur, et en parti-
culier la mdiane, soient facilement accessibles. Cest aussi lenvironnement
rcent des micro-ordinateurs qui a permis de dvelopper les modes de reprsen-
tation graphique par lesquels on peut apprhender des indicateurs trs divers.
Lapproche descriptive des donnes trouve dans la reprsentation graphique un
enrichissement et une aide linterprtation. Simplicit et inter activit de cette
dmarche en font une premire tape maintenant indispensable toute tude
statistique.

P001-046-9782100549412.fm Page 38 Mercredi, 24. novembre 2010 9:46 09

DISTRIBUTIONS STATISTIQUES UN CARACTRE




39


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

Il y a

au moins

une rponse exacte par question.

1. Pour une srie dobservations dune variable statistique :

a) on peut calculer quatre quartiles
b) lintervalle interquartile contient 50 % des observations
c) le cinquime dcile est gal la mdiane
d) 50 % des observations sont suprieures au premier quartile

2. Pour une variable statistique de distribution symtrique :

a) la moyenne est gale la mdiane
b) 50 % des observations sont suprieures la moyenne
c) la bote de distribution contient toutes les observations
d) (

Q

3



Q

1

) = 2(

Me Q

1

)

3. Pour comparer des distributions de variables statistiques exprimes dans des
units diffrentes (par exemple des distributions de salaires exprims dans des
monnaies diffrentes), on peut utiliser les caractristiques suivantes :

a) la mdiane
b) ltendue interquartile
c) le coefficient de variation
d) le rapport

D

9

/

D

1

4. Pour une srie dobservations dune variable statistique :

a) la somme des carts la moyenne est nulle
b) lcart absolu moyen la moyenne est un indicateur de dispersion
c) la mdiane de la srie des carts absolus la moyenne est une mesure de lasymtrie
d) les trois quartiles sont des indicateurs de tendance centrale

5. Une tude des notes obtenues par deux classes dune cole un test commun
a fourni les rsultats suivants :

a) la note moyenne des deux classes runies est gale 11
b) lcart-type des notes des deux classes runies est gal 5
c) la mdiane des notes des deux classes runies est gale 12
d) lcart absolu moyen des notes la mdiane est infrieur ou gal 4 pour la classe 1
Classe Classe 1 Classe 2
Effectif
Moyenne
cart-type
Mdiane
20
12
4
12
30
10
6
12
Testez-vous (les rponses sont donnes page 283)

P001-046-9782100549412.fm Page 39 Mercredi, 24. novembre 2010 9:46 09

40



INTRODUCTION LA MTHODE STATISTIQUE

6. Si on veut minimiser linfluence des valeurs extrmes :

a) on prfre la mdiane la moyenne
b) on prfre lcart-type lcart absolu moyen la moyenne
c) on prfre ltendue ltendue interquartile
d) on prfre ltendue interdcile (

D

9



D

1

) ltendue

7. Soit une grandeur dont le taux de croissance au cours de 3 annes successives
a t de 0,5 % pour les 2 premires annes et de 2 % pour la dernire anne.
Le taux annuel moyen de croissance pendant ces 3 annes est gal :

a)
b)
c)
d) une moyenne harmonique

8. Pour la distribution dune variable statistique continue (ou suppose
continue) :
a) lhistogramme est la reprsentation graphique des frquences cumules
b) 15 % des observations sont comprises entre le troisime quartile et le neuvime
dcile
c) la mdiane peut se dterminer laide de la courbe cumulative
d) ltendue interdcile ( D
9


D
1
) contient 90 % des observations
9. Si les notes (comprises entre 4 et 16) obtenues une preuve de statistique
dans une classe de 30 lves sont toutes augmentes de 2 points :
a) la moyenne sera augmente de 2 points
b) lcart-type sera augment de 2 points
d) la mdiane sera augmente de 2 points
d) ltendue sera augmente de 2 points
0,005 ( )
2
0 02 , ( )
( ,
j \
1 3
1
3
--- 2 0,005 0,02 + ( )
1,005 ( )
2
1,02
( ,
j \
1 3
1
P001-046-9782100549412.fm Page 40 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE

41


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Exercice 1.1
Le tableau suivant donne la rpartition des familles selon le nombre denfants et leur
ge de 1968 1999 :
Sources : Recensements de la population, INSEE
1. Dfinir les populations tudies, lunit statistique, le caractre tudi et sa nature.
2. Examinez lvolution du nombre total de familles sans enfant, du nombre de
familles avec enfants, avec un enfant, avec deux enfants
3. On considre dans cette dernire question les familles avec enfant(s).
3.1. Aprs avoir calcul les frquences, tracez les diagrammes en btons de ces
distributions, et indiquez le mode.
3.2. Pour chacune des cinq annes, calculez le nombre moyen denfants par
famille et lcart-type (on considrera le nombre moyen denfants des familles
ayant cinq enfants ou plus gal 6). Commentez les rsultats.
Exercice 1.2
Le tableau suivant donne la distribution du niveau de lindice de la qualit de lair
ATMO en agglomration parisienne de 2000 2006 (en nombre de jours par an).
1. Dfinir les populations tudies, lunit statistique, le caractre tudi et sa nature.
2. Tracez le diagramme en btons de la distribution en 2006, et indiquez le mode.
3. Calculez les niveaux annuels moyens de 2000 2006.

Enfants de 0 18 ans (milliers)
1968 1975 1982 1990 1999
Ensemble 12 063 13 176 14 119 15 391 16 097
sans enfant 5 302 5 836 6 508 7 900 8 679
avec enfants 6 760 7 340 7 610 7 491 7 418
1 enfant
2 enfants
3 enfants
4 enfants
5 enfants
ou plus
2 723
2 052
1 063
481
441
3 110
2 374
1 088
427
342
3 303
2 734
1 081
310
183
3 281
2 756
1 063
259
132
3 317
2 772
1 008
230
91
Nombre total
denfants
14 569 14 826 14 294 13 748 13 308
Exercices (corrigs page 289)
P001-046-9782100549412.fm Page 41 Mercredi, 24. novembre 2010 9:46 09
42

INTRODUCTION LA MTHODE STATISTIQUE


Source : AIRPARIF.
Exercice 1.3
On a relev pendant 50 quinzaines successives les niveaux de ventes, exprims en
milliers dunits de produit, de deux prsentations notes G (Gel) et P (Poudre) dun
mme produit. Les rsultats sont les suivants :
1. Calculez les moyennes, carts-types et mdianes des niveaux de ventes pour cha-
cune des deux prsentations.
Quelle est la condition ncessaire sur la moyenne et la mdiane dune distribution
pour que celle-ci soit symtrique ?
2. Sur lensemble des points de vente pour toute la priode de ltude, on disposait
de 30 % du produit en gel, et de 70 % du produit en poudre.
Quel a t le niveau de ventes moyen pour lensemble des deux prsentations du
produit ?
3. Les niveaux de ventes tant maintenant exprims en centaines dunits de produit,
donnez les nouvelles valeurs des moyennes, carts-types et mdianes calcules
la 1
re
question.
Niveau Qualit 2000 2001 2002 2003 2004 2005 2006 Total
1
2
3
4
5
6
7
8
9
10
Trs bon
Trs bon
Bon
Bon
Moyen
Mdiocre
Mdiocre
Mauvais
Mauvais
Trs mauvais
0
8
206
99
36
13
2
2
0
0
0
15
190
97
33
13
14
3
0
0
0
9
183
111
45
8
7
2
0
0
0
15
138
109
47
30
16
10
0
0
0
23
186
96
39
19
2
1
0
0
0
23
188
99
34
11
6
4
0
0
0
25
177
106
26
16
11
4
0
0
0
118
1 268
717
260
110
58
26
0
0
Total 366 365 365 365 366 365 365 2 557
Prsentation G Prsentation P
Niveau de
vente
< 5 [5-10[ [10-12[ [12-20] Niveau de
vente
< 10 [10-12[ [12-16[ [16-20]
Nombre de
quinzaines
5 20 15 10 Nombre de
quinzaines
10 25 10 5
P001-046-9782100549412.fm Page 42 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE

43


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Exercice 1.4
Afin dtudier les disparits de salaires entre hommes et femmes, une enqute a t
ralise auprs du personnel ouvrier dun secteur industriel. Les rsultats concernant
les salaires annuels nets en euros sont rsums dans les deux tableaux suivants :
1. Dfinir la population tudie, lunit statistique, le caractre tudi et sa nature.
2. Proposez pour la distribution du salaire des hommes en prcisant les valeurs cor-
respondantes :
trois indicateurs de tendance centrale ;
deux indicateurs de dispersion ;
deux indicateurs de dispersion relative.
3. Sachant que le salaire annuel moyen des femmes enqutes est gal 12 000 ,
dterminez leffectif n
4
de la dernire classe de la distribution du salaire des fem-
mes, ainsi que leffectif total N.
4. Dterminez lcart-type et le coefficient de variation de la distribution des
femmes.
5. Dterminez le salaire annuel moyen de lensemble des ouvriers hommes et
femmes de lenqute.
Exercice 1.5
Dans un atelier, le cot horaire de la main doeuvre est de 8 (base 35 h par
semaine). Une heure supplmentaire revient 10 , et le service de paie indique que
le cot total des heures supplmentaires reprsente 30 % du cot total de la main
doeuvre.
Calculez le cot horaire moyen et indiquez le type de moyenne utilise.
Exercice 1.6
Une mme somme S a t confie deux banques B
1
et B
2
pour une dure de 10 ans.
Les rendements successifs des placements effectus par les deux banques ont t les
suivants :
Tableau 1. Hommes
Effectif
Salaire moyen
cart-type
1
er
dcile
1
er
quartile
Mdiane
3
e
quartile
9
e
dcile
180
15 400
3 620
10 950
12 750
14 800
17 660
20 220
Tableau 2. Femmes
Salaire annuel
(en milliers d)
Nombre douvrires
[10 ; 12[
[12 ; 14[
[14 ; 16[
[16 ; 20]
82
34
12
n
4
Total N
P001-046-9782100549412.fm Page 43 Mercredi, 24. novembre 2010 9:46 09
44

INTRODUCTION LA MTHODE STATISTIQUE


Banque B
1
: 12 % pendant 2 ans, puis 8 % pendant 4 ans, puis 6 % pendant 4 ans ;
Banque B
2
: 10 % pendant 3 ans, puis 8 % pendant 3 ans, puis 7 % pendant 4 ans.
Les intrts sont toujours capitaliss en fin danne.
1. Calculez le taux moyen de croissance du placement dans chaque banque.
2. quel taux la moins performante des deux banques aurait-elle d placer largent
pendant la troisime priode pour galer lautre ?
Exercice 1.7
Le tableau ci-aprs donne des caractristiques des 30 premiers groupes franais de
lindustrie et des services selon leur chiffre daffaires en 2001 (Source : Tableaux de
lconomie Franaise 2003-2004, INSEE) :
1. Dfinir la population tudie, lunit statistique et les caractres tudis.
2. Calculez la moyenne et lcart-type du chiffre daffaires et de leffectif.
3. tude du chiffre daffaires des 30 premiers groupes franais.
3.1. Dterminez les trois quartiles.
3.2. Reprsentez le diagramme branche et feuille de cette distribution.
3.3. Reprsentez la bote de distribution.
Socit
CAHT
(millions
d)
Effectif Socit
CAHT
(millions
d)
Effectif
TotalFinaElf 105 318 122 025 Aventis 22 941 91 729
Carrefour 69 486 382 821 Groupe Casino
(Rallye)
21 984 106 736
Vivendi Universal 57 360 321 000 Bouygues 20 473 126 560
PSA Peugeot
Citron
51 663 192 500 Airbus (EADS) 20 427 2 000
France Telecom 43 026 206 184 SNCF 20 129 220 747
Suez 42 359 188 050 Vonci 17 172 129 499
EDF 40 716 161 738 La poste 17 028 313 854
Les Mousquetaires 37 200 112 000 Publicis Groupe 16 667 20 592
Renault 36 351 140 417 Michelin 15 775 127 467
Saint-Gobain 30 390 173 329 Havas 14 950 20 373
Pinault-Printemps-
La Redoute
27 799 115 935 Usinor (Arcelor) 14 523 59 516
Groupe Auchan 26 200 136 000 Groupe Danone 14 470 100 560
Alcatel Alsthom 25 353 99 314 Gaz de France 14 357 36 451
Galec (Leclerc) 25 000 75 000 LOral (Gespartal) 13 740 49 150
Alstom 23 453 118 995 Lafarge 13 698 82 892
P001-046-9782100549412.fm Page 44 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE

45


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
4. Quel est lintrt de chacune de ces deux reprsentations graphiques comparative-
ment un histogramme ?
5. Reprendre la question 3 pour ltude de leffectif.
Exercice 1.8
Le tableau suivant donne le revenu annuel moyen des mnages, en euros, pour les
dix intervalles dfinis par les dciles, et la part de chaque intervalle dans le revenu
total.
Source : INSEE, Revenus fiscaux 1999, hors revenus du patrimoine.
1. Dfinir la population, lunit statistique, le caractre tudi et sa nature.
2. Calculez le revenu annuel moyen des mnages.
3. Est-il lgitime de faire lhypothse dquirpartition dans les classes dfinies par
les dciles ?
4. Proposez trois indicateurs de tendance centrale, un indicateur de dispersion et un
indicateur de dispersion relative. Donnez les valeurs de ces indicateurs.
5. Cette distribution de revenus est-elle symtrique ? (justifiez votre rponse)
6. Proposez un indicateur de disparit des revenus, et donnez sa valeur. Interprtez.
7. Quelle est la part de lensemble des revenus perus par les 4 diximes des mnages
aux revenus les plus faibles ?
8. Soit F
1
= 10 %, F
2
= 20 %, , F
10
= 100 %, et R
i
la part de lensemble des reve-
nus perus par lensemble des F
i
mnages aux revenus les plus faibles.
Valeur des dciles
(euros)
Intervalle
Revenu moyen
dans lintervalle
% de la masse totale
des revenus
dans lintervalle
D
1
= 7 304 < D
1
13 845 12
D
2
= 11 091 [D
1
; D
2
[ 19 318 13
D
3
= 14 099 [D
2
; D
3
[ 12 601 15
D
4
= 17 219 [D
3
; D
4
[ 15 640 16
D
5
= 20 631 [D
4
; D
5
[ 18 863 17
D
6
= 24 653 [D
5
; D
6
[ 22 579 19
D
7
= 29 361 [D
6
; D
7
[ 26 904 11
D
8
= 35 757 [D
7
; D
8
[ 32 324 13
D
9
= 46 642 [D
8
; D
9
[ 40 548 16
D
9
69 930 28
P001-046-9782100549412.fm Page 45 Mercredi, 24. novembre 2010 9:46 09
46

INTRODUCTION LA MTHODE STATISTIQUE


8.1. Tracez la courbe joignant, dans lordre, les points ( F
i
, R
i
). Comment sappelle
cette courbe ?
8.2. Rappelez linterprtation graphique de lindice de concentration de Gini ?
8.3. Quelles sont les valeurs minimum et maximum de cet indice ?
8.4. quelles situations correspondent-elles ?
Daprs examen de juin 2004, GEA 1
re
anne Paris-Dauphine.
Exercice 1.9
Le tableau suivant donne le nombre (en milliers) et la superficie agricole utilise
(SAU, en milliers dha) des exploitations agricoles en France mtropolitaine par clas-
ses de grandeur pour les annes 1979, 1988, 2000 et 2005.
Source : INSEE.
1. Dfinir la population, lunit statistique, le caractre tudi et sa nature.
2. Calculez, en pourcentage, les taux annuels moyens de variation du nombre des
exploitations agricoles de 1979 1988, de 1988 2000, de 2000 2005.
Exprimez le taux annuel moyen de variation de 1979 2005 en fonction de ces
3 taux, de quel type de moyenne sagit-il ?
Calculez sa valeur.
3. Pour les annes 1979, 1988, 2000 et 2005, calculez la SAU moyenne et la SAU
moyenne des exploitations de 50 ha ou plus.
4. Pour lanne 2005, reprsentez lhistogramme de la distribution des exploitations
agricoles, ainsi que la courbe de concentration de la SAU.
1979 1988 2000 2005
Nombre SAU Nombre SAU Nombre SAU Nombre SAU
Moins de 5 ha
5 moins de 20 ha
20 moins de 50 ha
50 moins de 100 ha
100 moins de
200 ha
200 ha ou plus
357
410
347
114
29
6
677
4 778
10 962
7 683
3 798
1 598
278
279
288
128
37
7
519
3 238
9 348
8 709
4 864
1 918
193
132
138
122
64
15
362
1 464
4 666
8 662
8 655
4 047
132
104
109
113
70
17
262
1 163
3 714
8 083
9 486
4 762
Ensemble 1 263 29 496 1 017 28 596 664 27 856 545 27 470
P001-046-9782100549412.fm Page 46 Mercredi, 24. novembre 2010 9:46 09

INDICES STATISTIQUES




47


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

2. I

ndices statistiques

our ltude des problmes conomiques et sociaux, on a souvent
besoin de dcrire les variations de grandeurs simples telles que
le prix du baril de ptrole, la production de bl, le taux de
fcondit Ces comparaisons dans le temps (ou dans lespace) se font
gnralement en effectuant le rapport des valeurs de la grandeur consi-
dre deux dates diffrentes (ou en deux lieux distincts) ; on parle
d

indice statistique lmentaire.

Mais, il est important dtre en mesure de suivre les volutions de gran-
deurs complexes telles que le niveau gnral des prix, la production
industrielle, les exportations Celles-ci peuvent tre rsumes par une
caractrisque de tendance centrale dindices lmentaires, ce qui amne
la construction d

indices synthtiques.

Toute caractristique de tendance centrale, notamment les diffrents types
de moyennes, prsentant la fois des avantages et des inconvnients, il
nest pas possible de proposer une mthode unique de construction des
indices synthtiques. Il existe diffrentes formules. On va exposer les plus
utilises.
De par limportance que revtent ces indicateurs dvolution dans les dis-
cussions conomiques et politiques, il est ncessaire de bien comprendre
leur laboration, danalyser leurs modes de construction et dtudier
leurs proprits.

I. I

ndices lmentaires

A. D

finition

On appelle indice lmentaire de la grandeur simple

x

la date (ou priode)

t

, dite

date courante

, par rapport la date 0, dite

date de rfrence

, le
rapport :
P
I
t 0
x ( )
x
t
x
0
---- =

P047-066-9782100549412.fm Page 47 Jeudi, 18. novembre 2010 12:03 12

48



INTRODUCTION LA MTHODE STATISTIQUE

On a lhabitude, pour viter de traiter des valeurs dindice avec trop de
chiffres aprs la virgule de multiplier le rsultat par 100 et de laisser un chif-
fre aprs la virgule. Une variation ngative est repre par une valeur inf-
rieure 100.


Exemple

La population de la France mtropolitaine est passe de 53 731 milliers
dhabitants au 1

er

janvier 1980 56 577 milliers dhabitants au
1

er

janvier

1990 et 58 749 milliers dhabitants au 1

er

janvier

2000
(

source : Tableaux de lconomie franaise 2003-2004

, INSEE) :


La population franaise a augment de 5,3 % de 1980 1990 et de
9,3 % de 1980 2000.

B. P

roprits

1) Circularit (ou transitivit ou transfrabilit)

Cette formule permet de changer de base en passant de la date de rf-
rence 0 la date de rfrence

t

:
Lutilisateur a en effet souvent besoin de mesurer lvolution dune gran-
deur entre deux dates diffrentes de la date de rfrence.
De cette proprit, rsulte la proprit denchanement :

2) Rversibilit

Cette proprit est intressante dans le cas de comparaison gographique,
car le choix du lieu de rfrence est arbitraire.
I
1990 1980
P ( ) 100
56 577
53 731
----------------


105 3

,

=
I
2000 1980
P ( ) 100
58 749
53 731
----------------


109 3

,

=
I
t 0
x ( ) I
t t
x ( ) I
t 0
x ( ) =
I
t t
x ( )
I
t 0
x ( )
I
t 0
x ( )
----------------- =
I
t 0
x ( ) I
t t 1
x ( ) I
1 0
x ( ) =
I
0 t
x ( )
1
I
t 0
x ( )
---------------- =

P047-066-9782100549412.fm Page 48 Jeudi, 18. novembre 2010 12:03 12

INDICES STATISTIQUES




49


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

3) Multiplication

Si une grandeur simple

z

est le produit de deux grandeurs

x

et

y

, lindice
lmentaire de la grandeur produit est gal au produit des indices des gran-
deurs facteurs :
quel que soit

t

:

z

t

= x

t

y
t
I
t/0
(z) = I
t/0
(x) I
t/0
(y)
Cas particulier fondamental :
Valeur = Prix Quantit ou encore : Dpense = Prix Volume
Cette galit entrane :
Indice lmentaire de valeur =
Indice lmentaire de prix Indice lmentaire de quantit
Ces proprits immdiates dun indice lmentaire ne sont gnralement
pas satisfaites par un indice synthtique.
II. Indices synthtiques
Les indices lmentaires retracent lvolution dune seule grandeur parfaite-
ment dfinie et homogne.
Mais, le plus souvent, lconomiste ou le dirigeant dentreprise, si ce nest
le citoyen dsire suivre les variations de grandeurs complexes telles que les
prix, la production industrielle
Ces grandeurs complexes sont composes dun nombre plus ou moins
important de grandeurs simples dont lvolution est dcrite par un indice l-
mentaire.
On appelle indice synthtique, un indice faisant intervenir dans son calcul
plusieurs grandeurs intressant un mme phnomne conomique. Ce type
dindice rsulte dun calcul de moyenne .
Il est impossible de proposer une mthode unique et incontestable permet-
tant de dcrire lvolution dune grandeur complexe.
Les indices synthtiques ont linconvnient de ne pas prsenter gnrale-
ment les proprits de circularit et rversibilit. Or, ces proprits seraient
trs utiles au calcul conomique ; les changements de base et les raccorde-
ments dindices ne peuvent tre effectus de faon rigoureuse que sur des
indices possdant la proprit de circularit.
P047-066-9782100549412.fm Page 49 Jeudi, 18. novembre 2010 12:03 12
50

INTRODUCTION LA MTHODE STATISTIQUE


A. Indices synthtiques de Laspeyres et Paasche :
premires formules
Soient deux dates 0 et t, la situation chaque date est caractrise par les quantits
disponibles de n biens physiques htrognes (i = 1, 2, , n) respectivement
non sommables, le prix de chaque unit tant respectivement
Seules les valeurs des divers biens sont sommables . On peut dfinir un
indice lmentaire de valeur qui retrace lvolution de la valeur sous
linfluence simultane des variations de prix et de quantit :
Pour sparer les deux influences et chiffrer les variations moyennes
des prix et celles des quantits, il est ncessaire de recourir des indices syn-
thtiques. Le problme est de dcomposer la variation entre la situation 0 et
la situation t en ce qui est d la variation des prix et en ce qui est d la
variation des quantits vendues.
Premire ide :
Quelle aurait t la recette (ou la dpense) si les prix tant rests ce quils taient
la date 0, les ventes (ou les achats) avaient t celles (ou ceux) de la date t ?
Cela revient mesurer seulement leffet de la variation des quantits :
On dfinit (p) tel que :

On peut aussi proposer l autre solution suivante :
q
0
i
q
t
i
p
0
i
p
t
i
V
t 0
v
t
v
0
----
p
t
i
q
t
i
i

p
0
i
q
0
i
i

------------------- = =
L
t 0
q ( )
p
0
i
q
t
i
i

p
0
i
q
0
i
i

------------------- =

t 0
V
t 0
L
t 0
q ( )
t 0
p ( ) =
t 0
p ( )
p
t
i
q
t
i
i

p
0
i
q
t
i
i

------------------ =
V
t 0
L
t 0
p ( )
t 0
q ( )
p
t
i
q
0
i
i

p
0
i
q
0
i
i

-------------------
p
t
i
q
t
i
i

p
t
i
q
0
i
i

------------------ = =
P047-066-9782100549412.fm Page 50 Jeudi, 18. novembre 2010 12:03 12
INDICES STATISTIQUES

51


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
L(p) et L(q) sont les indices de Laspeyres des prix et des quantits, (p)
et (q) sont les indices de Paasche des prix et des quantits
1
.
Essayons dexprimer littrairement la diffrence entre lindice de Laspey-
res et lindice de Paasche. Pour un indice des prix par exemple :
indice de Laspeyres : on fige le panier
2
dans sa composition de la
priode de base et on compare la valeur quil aurait la priode courante
avec sa valeur relle la priode de base ;
indice de Paasche : on fige le panier dans sa composition de la priode
courante, on calcule rtrospectivement ce quaurait t sa valeur la
priode de base et on la compare avec sa valeur actuelle.
B. Formules dveloppes
1) Indice de Laspeyres
La pondration sinterprte dans un indice des prix
de dtail, comme le coefficient budgtaire (structure de valeurs) du produit
i , cest--dire la part de dpense totale qui lui est consacre, la priode
de base. On constate que la somme de ces pondrations est gale 1. Lindice
de Laspeyres des prix apparat comme une moyenne arithmtique pondre
des indices lmentaires des prix des biens individuels.
On montre de mme :
1. tienne Laspeyres (conomiste et statisticien allemand dorigine franaise) et Hermann
Paasche (statisticien allemand) proposrent ces formules respectivement en 1864 et 1874.
2. Panier : expression INSEE, le panier par rapport celui de la mnagre a la particularit
de contenir aussi des services immatriels (tickets dautobus, mois de loyer, biens durables
comme appareils mnagers).
L
t 0
p ( )
q
0
i
p
t
i
i

q
0
i
p
0
i
i

-------------------
q
0
i
p
0
i
q
0
i
p
0
i
i

-------------------
.
p
t
i
p
0
i
-----
i

= =
k
0
i
q
0
i
p
0
i
q
0
i
p
0
i
i

-------------------
q
0
i
p
0
i
v
0
----------- = =
L
t 0
q ( )
p
0
i
q
t
i
I

p
0
i
q
0
i
I

-------------------
p
0
i
q
0
i
p
0
i
q
0
i
i

-------------------
.
q
t
i
q
0
i
-----
i

= =
P047-066-9782100549412.fm Page 51 Jeudi, 18. novembre 2010 12:03 12
52

INTRODUCTION LA MTHODE STATISTIQUE


Ces formules dveloppes apparemment plus compliques que les pre-
mires, sont plus pratiques appliquer ; cest sous cette dernire forme que
les instituts de statistique calculent les indices de Laspeyres, les plus fr-
quemment utiliss. Ils dterminent dabord les coefficients de pondration,
structure des valeurs de la priode de base, et les appliquent aux indices
lmentaires de prix ou de quantits relevs mois aprs mois.
2) Indice de Paasche

Lindice de Paasche des prix ou des quantits est la moyenne harmonique
des indices lmentaires (de prix et de quantits) pondre par les structures
de valeurs de la priode courante.
C. Comparaison des indices de Laspeyres et de Paasche
On sait que la moyenne harmonique est infrieure la moyenne arithmtique,
mais on ne peut comparer les indices de Laspeyres et de Paasche que si les
coefficients de pondration sont les mmes.
Lindice de Paasche est souvent plus petit que lindice de Laspeyres. En
effet, si les coefficients ne changeaient pas entre la date de base et la date
courante, lindice de Paasche, moyenne harmonique, serait infrieur celui
de Laspeyres qui est une moyenne arithmtique. Pour que lindice de Paasche
dpasse lindice de Laspeyres, il faut que les pondrations des indices
lmentaires tendent se modifier dans le sens dun accroissement pour ceux
qui sont levs, et dune diminution pour ceux qui sont faibles.
Conformment la loi conomique de loffre et de la demande, les consom-
mateurs ont tendance acheter moins lorsque les prix sont levs et acheter
davantage quand les prix baissent. Ce phnomne, appel parfois la demande
lastique, nest valable que dans le cas o les biens ne servent pas de faon
essentielle.
Dans le cas de lindice de Laspeyres, le numrateur (cf. premi-
res formules) est un peu plus fort quil ne devrait ltre, car, conformment
la loi de loffre et de la demande, les consommateurs ont tendance acheter

t 0
p ( )
q
t
i
p
t
i
i

q
t
i
p
0
i
i

------------------
q
t
i
p
t
i
i

q
t
i
p
t
i
.
p
0
i
p
t
i
-----
i

----------------------------- = =
1

t 0
p ( )
-------------------
q
t
i
p
t
i
q
t
i
p
t
i
i

-----------------
p
0
i
p
t
i
-----
i

=
q
0
i
p
t
i
i

P047-066-9782100549412.fm Page 52 Jeudi, 18. novembre 2010 12:03 12


INDICES STATISTIQUES

53


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
moins de biens de prix levs et davantage de biens bon march. Il en rsulte
que le cot total sera infrieur celui donn par . Ainsi, l indice de
Laspeyres a tendance survaluer une hausse.
Dans le cas de lindice de Paasche, les rles jous par les quantits consom-
mes pendant lanne de rfrence et les quantits consommes pendant
lanne considre sont diamtralement opposs de ceux jous par ces mmes
quantits dans le cas de lindice de Laspeyres. Lindice de Paasche a donc ten-
dance sous-valuer une hausse.
Exemple
Entre janvier 2006 et janvier 2010, lvolution des prix et du nombre
dexemplaires de journaux vendus en un mois par une socit de presse
ditant trois journaux mensuels A, B et C a t la suivante :
i) La variation des recettes de la socit de presse entre janvier 2006 et
janvier 2010 est de 10,9 %, en effet :
ii) Cette variation fait intervenir un effet-quantit et un effet-prix quon
peut valuer en calculant les indices des prix et des quantits de
Laspeyres et de Paasche :
L
2010/2006
(p) = 117,4
2010/2006
(p) = 116,6
L
2010/2006
(p) >
2010/2006
(p)
L
2010/2006
(q) = 95,1
2010/2006
(q) = 94,4
L
2010/2006
(q) >
2010/2006
(q)
iii) La variation de la valeur globale peut tre dcompose en ses deux
effets prix et quantit. En effet, partir de la formule :
V
2010/2006
= L
2010/2006
(p)
2010/2006
(q) = L
2010/2006
(q)
2010/2006
(p)
Janvier 2006 Janvier 2010
Prix (en euros) Quantit Prix (en euros) Quantit
Journal A 2,5 8 000 3 6 500
Journal B 4 4 000 4,5 5 000
Journal C 5 2 000 6 1 500
q
0
i
p
t
i
i

V
2010 2006
100
51 000
46 000
----------------

100 110,9



=

P047-066-9782100549412.fm Page 53 Jeudi, 18. novembre 2010 12:03 12

54



INTRODUCTION LA MTHODE STATISTIQUE

On peut tablir le schma de dcomposition donn la figure 2.1.
Prix constants
Effet volume Effet prix
4,9 % 16,6 %
Valeur (janvier 2006) Valeur (janvier 2010)
Effet valeur
10,9 %
Effet prix Effet volume
17,4 % 5,5 %
Quantits constantes

Figure 2.1 Schma de dcomposition de lvolution dun indice de valeur

D. I

ndice de Fisher

Cet indice a t construit la suite de la recherche dun indice

idal

.



Dfinition

Cette dfinition provient du dveloppement suivant :

V

t

/0


=

L

t

/0

(

p

)


t

/0

(

q

) =

L

t

/0

(

q

)


t

/0

(

p

)
Les indices de Laspeyres et de Paasche tant des nombres positifs, on
peut crire :
Moyenne gomtrique des indices de Laspeyres et de Paasche, la valeur
de lindice de Fisher est comprise entre les valeurs de ces deux indices.
Comme lindice de Laspeyres a tendance surestimer une hausse de
prix, tandis que lindice de Paasche a tendance la sous-estimer, on en
dduit que lindice de Fisher doit donner une meilleure estimation dune
hausse des prix.
q
2010
i
p
2006
i
43 750 =
i

q
2006
i
p
2006
i
46 000 =
i

q
2010
i
p
2010
i
51 000 =
i

q
2006
i
p
2010
i
54 000 =
i

F
t 0
p ( ) L
t 0
p ( )
t 0
p ( ) =
V
t 0
2
L
t 0
p ( )
t 0
p ( ) L
t 0
q ( )
t 0
q ( ) = V
t 0
F
t 0
p ( ) F
t 0
q ( ) =

P047-066-9782100549412.fm Page 54 Jeudi, 18. novembre 2010 12:03 12

INDICES STATISTIQUES




55


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

E. P

roprits des indices de Fisher, Laspeyres et Paasche

Les indices de Laspeyres et de Paasche ne sont pas rversibles, mais :
Lindice de Fisher est donc

rversible

, ce qui en fait un outil privilgi
dans les comparaisons gographiques.
Ces trois indices ne sont pas transitifs.


Agrgation

Les indices de Laspeyres et de Paasche ont des structures de moyenne. On
peut calculer la moyenne arithmtique dun ensemble partir des moyennes des
sous-ensembles qui le composent. Il en rsulte que lindice de Laspeyres (resp.
de Paasche) dun ensemble peut sobtenir partir des indices des groupes for-
mant cet ensemble en leur appliquant la formule de Laspeyres (resp. de Paasche).
Les 303 postes de dpenses, rpartis en 159 groupes, servant aux calculs
des indices actuels des prix la consommation, base 100 en 1998, font lobjet
de regroupements en 12 fonctions (ex : 01 produits alimentaires et boissons
non alcoolises) et 37 sous-fonctions (ex : 01.1 produits alimentaires)

1

. Cest
la formule de Laspeyres qui est utilise. On commence par calculer lindice
de Laspeyres de chacun des regroupements. On obtient ensuite lindice
densemble en appliquant nouveau la formule de Laspeyres ces sous-indi-
ces, avec des coefficients de pondration gaux aux parts de chacun des
regroupements dans la valeur de la consommation totale. Cette proprit per-
met de publier non seulement un indice global, mais aussi des sous-indices
correspondant aux groupes et sous-groupes.

1. Le nouvel indice des prix la consommation, anne de base 1998 ,

Bulletin Mensuel de
la Statistique,

n 2-1999, INSEE.
Qualit Laspeyres Paasche Fisher
Rversibilit non
mais :
non
mais :
oui
Transitivit non non non
Agrgation oui oui non
Emploi couramment utilis peu utilis quasiment
inusit

t 0
1
L
0 t
---------
t 0
L
0 t
1 = =
L
0 t
1

t 0
----------- =
0 t
1
L
t 0
---------- =

P047-066-9782100549412.fm Page 55 Jeudi, 18. novembre 2010 12:03 12

56



INTRODUCTION LA MTHODE STATISTIQUE

F. U

tilisation de ces trois indices

Lindice de Laspeyres est le plus commode utiliser ; la plupart des indices
courants tablis par les instituts du monde entier sont du type Laspeyres .
Lindice de Paasche, symtrique de celui de Laspeyres quant sa signifi-
cation, prsente des inconvnients pratiques cause de la mise jour perma-
nente de ses pondrations. Il nest, de ce fait, pas utilis dans le calcul direct
des indices courants. Son calcul est nanmoins intressant pour obtenir avec
lindice de Laspeyres une

fourchette

destimation.
Lindice de Fisher est quasiment inusit, car son calcul ne peut pas se faire
par

agrgation



progressive.

Lorsquon divise un indice de valeur par un indice de Laspeyres de prix
(resp. de quantits), on obtient un indice de Paasche de quantits (resp. de
prix). Si on

dflate

1

lindice rendant compte de lvolution de la masse sala-
riale (indice de valeur) par un indice de Laspeyres des prix (se rapportant
videmment aux mmes dates), on obtient un indice de pouvoir dachat de la
masse salariale qui est un indice de Paasche des quantits consommables.
On dispose assez souvent de sries de valeur totale : chiffre daffaire,
montant des investissements Pour obtenir les indices de volume correspon-
dants reprsentatifs de lvolution relle compte tenu des variations des prix,
il faut diviser les indices de valeur par les indices de prix correspondants.
Mais, on nobtient pas un indice de Paasche de volume puisque lindice des
prix utilis en France et dans la plupart des pays trangers nest pas un
indice de Laspeyres, mais un indice-chane de Laspeyres.

III. I

ndices-chanes

A. R

accord dindices

Les indices ont une dure de vie limite en raison de lvolution des structures
conomiques. Lorsquon veut dcrire lvolution dune grandeur complexe

1.

Dflater :

annuler la hausse due leffet de linflation.
La

dflation du revenu nominal



par lindice des prix la consommation

permet de raisonner
en revenus constants en vitant lillusion montaire, et de comparer les niveaux de vie des
priodes diffrentes sans tenir compte dune augmentation du revenu ne compensant que la
hausse des prix.

P047-066-9782100549412.fm Page 56 Jeudi, 18. novembre 2010 12:03 12

INDICES STATISTIQUES




57


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

sur une longue priode, on est amen se poser le problme du raccord de
deux sries dindices synthtiques conscutives.
Soit un indice

I

, base 100 la date 0, calcul jusqu la date

t

o il a t
remplac par un indice

I

*. La valeur de

I

une date

t

postrieure la date

t

svalue en multipliant lindice

I

*

t/t

par lindice

I

t

/0

:

I

t

/0


=

I

*

t/t



I

t

/0

Cette formule, obtenu par un raccord dindice, nest quune approximation, car :
les indices synthtiques ne possdent pas la proprit de circularit ;
il est frquent que les indices

I

et I* naient ni le mme champ, ni la
mme composition (changement du nombre darticles d lintroduction
de produits nouveaux).
B. Les indices-chanes
Pour valuer lvolution dune grandeur complexe sur une longue priode,
lemploi de la formule de Laspeyres prsente un inconvnient, car la pond-
ration vieillit. Les prfrences des consommateurs comme les procds
auxquels recourent les producteurs se modifient : les articles choisis pour
reprsenter lvolution de certaines catgories de biens cessent dtre bien
adapts cet objectif et les pondrations de la priode de base et de la priode
courante deviennent trop diffrentes pour que la comparaison reste valable.
On a donc propos de calculer des indices dont la base changerait cha-
que priode.
Mais, comment comparer alors la situation entre deux dates o ont t calcu-
ls deux ou plusieurs indices ayant des bases diffrentes ? On adopte une solution
parfaitement empirique : le raccordement entre ces indices intermdiaires.
Les indices-chanes rsultent de la gnralisation de lopration de rac-
cord de deux indices. Ce sont des indices dfinis partir du produit des indi-
ces ayant pour base lanne prcdente. Lindice-chane de Laspeyres est un
produit dindices de Laspeyres, mais nest pas un indice de Laspeyres :

On dfinit de mme lindice-chane de Paasche.
Lindice-chane permet, mieux que les indices de Laspeyres ou de Paas-
che, de suivre lvolution de la grandeur tudie entre deux dates successives.
Si chaque maillon est calcul selon la formule de Laspeyres :
alors que :
CL
t 0
L
i i 1
CL
t 0
L
t t 1
= CL
t 1 0
i

1

=

t

=
CL
t 0
CL
t 1 0
------------------- L
t t 1
=
L
t 0
L
t 1 0
-------------- L
t t 1


P047-066-9782100549412.fm Page 57 Jeudi, 18. novembre 2010 12:03 12

58



INTRODUCTION LA MTHODE STATISTIQUE

On est donc dans dexcellentes conditions pour comparer deux priodes
successives.
On a la mme proprit si chaque maillon est un indice de Paasche. Par contre :
toute erreur sur lun des lments de la chane se retrouve dans tous les
indices suivants ;
lindice obtenu na pas une signification bien prcise, le rsultat dpen-
dant des modifications des pondrations dune priode lautre.
Un indice-chane sera donc moins bien adapt quun indice de Laspeyres
ou de Paasche pour tudier les variations survenues depuis la priode de base.

C. I

ndices publis par lINSEE

Les principaux indices publis par lINSEE

1

sont les suivants :
indices des prix : prix la consommation, prix de gros ;
indices du commerce extrieur ;
indices de la production industrielle ;
indices boursiers
Les indices des prix la consommation des mnages (IPC) calculs par
lINSEE sont des indices-chanes de Laspeyres. LINSEE publie chaque
mois plusieurs indices des prix, base 1998. Lindice des mnages urbains
dont le chef est ouvrier ou employ (mtropole et DOM) sert, dans sa version
hors tabac , lindexation du SMIC. Les autres indices concernant
lensemble des mnages ont un usage

conomique

dans leur version y com-
pris tabac et un usage

indexation

dans leur version hors tabac .
Lindice des prix la consommation harmonis (IPCH) sert aux compa-
raisons internationales.
IV. T raitement statistique des indices
Pour reprsenter certains phnomnes, on peut tre amen graduer les axes
selon des chelles particulires. Le papier semi-logarithmique est particuli-
rement adapt certains types de sries chronologiques, et les sries cono-
miques sont souvent des sries dindices.

1. www.insee.fr/fr/themes

P047-066-9782100549412.fm Page 58 Jeudi, 18. novembre 2010 12:03 12

INDICES STATISTIQUES




59


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

A.

chelle logarithmique

Le papier semi-logarithmique comporte un axe des abscisses chelle arith-
mtique et un axe des ordonnes chelle logarithmique. Sur laxe des abs-
cisses, on peut choisir lorigine et une unit de longueur quelconque. Mais
pour laxe des ordonnes, on utilise une chelle logarithmique ; la place des
nombres est fixe par leur

logarithme dcimal

(

cf.

figure 2.2) :
Sur une chelle logarithmique, la distance sparant

deux multiples succes-
sifs de dix

est toujours la mme puisque :
log 10

k

log 10

k

1

= log 10 log 10

k

+ 1

log 10

k

= log 10
Lintervalle entre deux puissances successives de 10 sappelle un

module

et lintrieur dun module, la place des nombres est donc fixe par leur

logarithme dcimal

(

cf.

figures 2.2 et 2.4).

Nombre 1 2 3 4 5 6 7 8 9 10
log 0 0,301 0,477 0,602 0,699 0,778 0,845 0,903 0,954 1
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1
2
3
4
5
6
8
7
10
9
10
20
30
40
50
60
80
70
100
90
100
200
300
400
500
600
800
700
1000
900
chelle
arithmtique
chelle
logarithmique
x 10 x 100
Figure 2.2 Construction dune chelle logarithmique

P047-066-9782100549412.fm Page 59 Jeudi, 18. novembre 2010 12:03 12

60

INTRODUCTION LA MTHODE STATISTIQUE


Les papiers semi-logarithmiques ont habituellement 2, 3 ou 4 modules ;
un papier trois modules permet de reprsenter des sries temporelles x
t
dont
le rapport entre la plus grande et la plus petite valeur est au plus de 10
3
. Les
reprsentations graphiques des logiciels usuels (Excel

) offrent directe-
ment la possibilit dutiliser les chelles logarithmiques.
B. Proprits dun graphique ordonne logarithmique
Une grandeur dont le taux daccroissement (ou de diminution) est constant
sur des laps de temps gaux a son volution reprsente sur du papier
ordonne logarithmique par une suite de points aligns (cf. figure 2.3).
En effet, si une grandeur x a un taux de variation annuel i constant, la
valeur x
0
de x la date initiale prend, aprs t annes, la valeur x
t
telle que :
x
t
= x
0

(1 + i)
t
log x
t
= log x
0
+ t log(1 + i)
Une reprsentation avec une ordonne logarithmique permet :
la dtermination graphique du rapport entre deux valeurs de la variable
pour en dduire le taux de variation entre les deux dates considres ; une
diffrence de logarithme reprsentant un rapport, celui-ci est gal la dif-
frence des ordonnes entre les deux valeurs de la variable ;
la dtermination graphique du taux moyen de variation i, la pente de
la droite joignant les deux points extrmes ( cf. figure 2.4a) tant gale
(1 + i) ;
la comparaison graphique entre les taux de variation de deux grandeurs
reprsentes sur le mme graphique ordonne logarithmique ; deux droi-
tes parallles indiquent des taux de variation gaux ;
la reprsentation des sries aux variations importantes puiquavec qua-
tre modules, on peut reprsenter une srie variant de 1 10
4
.
0 1
10
1
2
3
4
5
6
7
8
x
t
= (1 + 0,5)
t
log x
t
1 2 3 4 5 t t 0 1 2 3 4 5 0
Ordonne logarithmique Ordonne arithmtique
Figure 2.3 Grandeur taux de croissance annuel constant
P047-066-9782100549412.fm Page 60 Jeudi, 18. novembre 2010 12:03 12
INDICES STATISTIQUES

61


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
V. Bilan
Un indice nest ni parfait, ni rigoureux, ni parfaitement reprsentatif ; en fait,
il existe autant dindices que le statisticien veut en construire, et chacun a la
signification qui rsulte de son calcul mme. Parmi tous ces indices, lco-
nomiste choisira celui qui lui parat le mieux correspondre lusage quil
veut en faire.
Pour construire un indice synthtique, on est amen faire quatre choix :
deux choix dordre conomique :
choix des grandeurs entrant dans la composition de lindice,
choix de la priode de rfrence ;
deux choix dordre statistique :
choix de la moyenne utiliser pour le calcul de lindice partir des
grandeurs composantes,
choix de la pondration appliquer aux valeurs des grandeurs afin de
tenir compte de leur importance relative.
P047-066-9782100549412.fm Page 61 Jeudi, 18. novembre 2010 12:03 12
62

INTRODUCTION LA MTHODE STATISTIQUE


Il y a au moins une rponse exacte par question.
1. Lindice de Laspeyres des prix est :
a) un indice des dpenses
b) une moyenne arithmtique dindices lmentaires
c) lindice des prix actuellement calcul par lINSEE
d) sexprime dans une unit montaire
2. Lindice de Paasche est :
a) nest pas un indice des prix
b) transitif
c) une moyenne harmonique dindices lmentaires
d) au plus gal lindice de Laspeyres
3. Un indice des dpenses est :
a) un indice de valeur
b) rversible
c) transitif
d) un indice de prix
4. Une grandeur mesure tous les ans :
a) est reprsente sur un papier semi-logarithmique par une suite de points aligns si
le taux annuel de variation est constant
b) a un taux annuel moyen de variation qui peut tre dtermin graphiquement
c) a un taux annuel moyen de variation gal la moyenne arithmtique des taux
annuels de variation
d) est reprsente sur un papier chelles arithmtiques par une suite de points ali-
gns si laccroissement annuel est constant
5. Les taux annuels moyens de croissance du PIB en volume en France ont t
les suivants de 1997 2002 (source : Tableaux de lconomie franaise ,
INSEE) :
a) le taux de croissance sur les cinq annes est la somme des cinq taux de croissance
b) le taux annuel moyen de croissance sur la priode 1997 2002 est gal la
moyenne arithmtique des taux annuels moyens de croissance
c) le taux annuel moyen de croissance sur la priode 1997 2002 se calcule laide
dune moyenne gomtrique
d) pour la priode 1999 2001, le taux de croissance du PIB en volume a t de 9 %
Anne 1997 1998 1999 2000 2001 2002
Taux annuel moyen de croissance (en %) 2,0 3,2 2,9 3,8 2,1 1,2
Testez-vous (les rponses sont donnes page 284)
P047-066-9782100549412.fm Page 62 Jeudi, 18. novembre 2010 12:03 12
INDICES STATISTIQUES

63


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

Exercice 2.1
Une entreprise utilise pour ses fabrications trois types de matires premires qui sont
notes respectivement A, B et C.
En 2000 et 2004, les prix observs et les quantits achetes par cette entreprise ont
t les suivants :
1. Calculez les indices lmentaires rendant compte de lvolution des prix de cha-
cune des matires premires entre 2000 et 2004.
2. Calculez la moyenne arithmtique des indices lmentaires prcdents pondre
par la part des dpenses engages par lentreprise pour chacune de ces matires
premires en 2000. De quel indice sagit-il ?
3. Effectuez le mme calcul pour rendre compte de lvolution des quantits entre
2000 et 2004.
4. Calculez lindice mesurant lvolution globale des dpenses de matires premires
entre 2000 et 2004.
5. Dterminez, en utilisant les rsultats des questions prcdentes, les taux de varia-
tion (exprims en pourcentage) des prix, des quantits et de la dpense totale.
Comment sexplique lvolution de la dpense totale ?
Exercice 2.2
Entre 1980 et 2000, les quantits de sel extraites dune mine ont t multiplies par
1,5 entre 1980 et 1985, sont passes de lindice 130 en 1985 lindice 168 en 1992
avant daugmenter de 6 % par an entre 1992 et 2000.
1. Quel est le taux annuel moyen de variation des quantits de sel extraites entre
1980 et 2000 ?
2. Au cours de la mme priode, le taux de variation annuel moyen du prix du sel a
t de 5 %. Quelle est la valeur de lindice du chiffre daffaire en 2000, base
1980 ?
Matires
premires
Prix par tonne
en euros 2000
Quantits achetes
en tonnes
en 2000
Prix par tonne
en euros 2004
Quantits achetes
en tonnes
en 2004
A
B
C
800
500
600
10
4
5
900
700
600
6
4
8
Exercices (corrigs page 297)
P047-066-9782100549412.fm Page 63 Jeudi, 18. novembre 2010 12:03 12
64

INTRODUCTION LA MTHODE STATISTIQUE


Exercice 2.3
Ce tableau donne les indices trimestriels des salaires horaires de base de lensemble
des ouvriers (secteurs non agricoles), base 100 au 4
e
trimestre 2008. La srie est rtro-
pole depuis le 4
e
trimestre 1998 (Source : INSEE) :
Sachant que cet indice vaut 71,9 au 31 dcembre 1998, calculez le taux trimestriel
moyen de croissance entre le 31 dcembre 1998 et le 30 septembre 2009, et le taux
annuel moyen de croissance entre le 31 dcembre 1998 et le 31 dcembre 2008.
Exercice 2.4
Le tableau suivant est un extrait du tableau Production et valeur ajoute de lagri-
culture :
Source : Tableaux de lconomie franaise, dition 2010.
1999 2000 2001 2002 2003
31 mars 72,3 76,1 79,4 82,5 84,8
30 juin 72,8 76,8 80 83 85,3
30 septembre 73,7 77,6 80,8 83,7 86,1
31 dcembre 74,4 78,1 81,3 84,1 86,4
2004 2005 2006 2007 2008 2009
31 mars 87,1 89,7 92,5 95,2 97,9 100,8
30 juin 87,6 90,2 93,1 95,8 99 101,2
30 septembre 88,6 91,4 94 96,6 99,7 101,7
31 dcembre 88,9 91,8 94,3 97 100
2008 2008/2007 en %
En Mds
deuros
Volume Prix Valeur
Produits vgtaux 38,2 3,6 ? 0,3
Crales 10,7 19,2 21,3 6,2
Olagineux, protagineux 2,4 4,8 ? 3,2
Betteraves industrielles 0,8 7,2 3,4 10,3
Autres plantes industrielles* 0,3 2,9 13,5 10,3
Fruits, lgumes, pommes de terre 7,4 3,1 6,3 3,0
Vins 9,4 ? 3,7 2,1
Fourrages, plantes, fleurs 7,4 1,2 9,7 8,4
* Tabac, lin textile, houblon, canne sucre, etc.
P047-066-9782100549412.fm Page 64 Jeudi, 18. novembre 2010 12:03 12
INDICES STATISTIQUES

65


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
1. Donnez lindice de valeur de la production des Produits vgtaux en 2008,
base 100 en 2007. Mme question pour Olagineux, protagineux et pour
Vins .
2. Calculez lvolution 2008/2007 (en pourcentage) des prix la production des
Produits vgtaux . Mme question pour Olagineux, protagineux .
3. Calculez lvolution 2008/2007 (en pourcentage) du volume de la production des
Vins .
4. Commentez les rsultats obtenus.
Exercice 2.5
Considrons la consommation mdicale totale en France (en milliards deuros cou-
rants) de 1970 2000 ( Source : Tableaux de l'conomie franaise , INSEE).
1. Calculez la variation relative (en %) de la consommation mdicale entre 1970
et 2000.
2. Calculez la srie des indices de la consommation mdicale base 1970.
3. Reprsentez la srie des indices sur un graphique ordonne logarithmique, et
calculez le taux annuel de croissance de cet indice pendant la priode 1970-1982.
4. Reprsentez la srie des indices sur un graphique ordonne arithmtique, et cal-
culez laugmentation annuelle moyenne entre 1982 et 2000.
5. tude de lvolution de lindice en volume :
sachant que lindice des prix I
82/70
est gal 318,7, calculez la variation de
lindice en volume entre 1970 et 1982, et en dduire le taux annuel moyen de
variation de cet indice entre 1970 et 1982 ;
Anne CM
(milliards
d'euros)
Anne CM
(milliards
d'euros)
Anne CM
(milliards
d'euros)
1970 6,494
1971 7,516 1981 35,399 1991 87,430
1972 8,568 1982 41,146 1992 93,482
1973 9,833 1983 46,848 1993 98,665
1974 11,586 1984 52,000 1994 101,866
1975 14,452 1985 57,046 1995 106,257
1976 16,815 1986 61,711 1996 109,245
1977 18,812 1987 64,776 1997 111,059
1978 22,547 1988 70,447 1998 112,731
1979 26,084 1989 76,377 1999 117,093
1980 30,215 1990 81,911 2000 123,545
P047-066-9782100549412.fm Page 65 Jeudi, 18. novembre 2010 12:03 12
66

INTRODUCTION LA MTHODE STATISTIQUE


sachant quon utilise le coefficient de raccordement
1
de 5,584 pour calculer un
prix en 2000 partir dun prix en 1970, calculez le taux annuel moyen de crois-
sance de lindice en volume entre 1982 et 2000.
6. Conclusion.
1. http://www.insee.fr/fr/indicateur/achatfranc.htm
P047-066-9782100549412.fm Page 66 Jeudi, 18. novembre 2010 12:03 12

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES




67


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

3.



D

istributions
statistiques
deux caractres

orsque les observations portent simultanment sur deux caract-
res, et lorsquelles sont trop nombreuses pour quon les cite une
une, on les prsente sous la forme dun

tableau double
entre

. On dfinit alors la distribution conjointe, les distributions margi-
nales et les distributions conditionnelles. Ltude de la distribution de
deux variables se pousuit par celle de leur

liaison

.
Ltude de la liaison entre les variables observes, appele commun-
ment ltude des corrlations, dpend de leur nature. On envisagera les
trois cas suivants :

deux variables quantitatives, une variable quantitative
et une variable qualitative, deux variables qualitatives

. Lorsque le
domaine de variation dune variable quantitative a t dcoup en clas-
ses et que les observations sont prsentes dans un tableau double
entre, alors cette variable peut tre traite comme une variable quali-
tative et dans ce cas, on a plusieurs mthodes pour ltude de la liaison.

I. D

istributions statistiques deux variables

A. D

istribution conjointe

Dsignons par

X

et

Y

les deux variables qui peuvent tre qualitatives ou quan-
titatives, et qui peuvent ne pas tre de mme nature. Les

k

modalits de

X

sont dsignes par

,

,

,

, ; les

l

modalits de

Y

sont dsignes par

,

,

,

, . La

i

e

modalit dune variable dsigne le centre de la

i

e

classe
dans le cas dune variable quantitative continue.
L
x
1
x
i
x
k
y
1
y
j
y
l

P067-102-9782100549412.fm Page 67 Mercredi, 24. novembre 2010 9:53 09

68



INTRODUCTION LA MTHODE STATISTIQUE

La rpartition des

n

observations, ou

distribution conjointe

, suivant les
modalits de

X

et

Y

se prsente sous forme dun tableau double entre,
appele

tableau de contingence

(

cf.

tableaux 3.1 et 3.2).
Leffectif

n

ij

dsigne le nombre de fois o la modalit

x

i


de la variable

X

et la modalit

y

j

de la variable

Y

ont t observes simultanment.
Leffectif

n

i



est le

nombre total dobservations de la modalit x

i

de X,
quelle que soit la modalit de Y

:
De mme, leffectif

n


j



est le

nombre total dobservations de la modalit y

j

de Y, quelle que soit la modalit de X

:

Tableau 3.1 Tableau de contingence : distribution conjointe de deux variables X et Y

Modalit de

Y

Modalit de

X

Total
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.

.
.
.

.
.
.
.
.
.

.
.
.

.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
Total

n
Tableau 3.2 Exemple de tableau de contingence : distribution des notes de 100 tudiants
une preuve dun concours selon leur filire dorigine

Classe de notes

Y

Filire dorigine

X

[0 ; 6[
3
[6 ; 10[
8
[10 ; 14[
12
[14 ; 20]
17
Total
Filire

A

Filire

B

Filire

C

Filire

D

26
12
1
10
6
9
4
8
4
3
5
3
1
1
6
1
37
25
16
22
Total 49 27 15 9 100
y
1
y
j
y
l
x
1
x
i
x
k
n
11
n
i1
n
k1
n
1j
n
ij
n
kj
n
1l
n
il
n
kl
n
1
n
i
n
k
n
1
n
j
n
l
n
i
n
ij
j 1 =
l

=
n

j
n
ij
i 1 =
k

=

P067-102-9782100549412.fm Page 68 Mercredi, 24. novembre 2010 9:53 09

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES




69


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

On a videmment :
La distribution conjointe peut aussi tre dfinie par les frquences :

B. Distributions marginales
Les k couples (x
i
, n
i
) forment la distribution marginale de la variable X.
Les l couples (y
j
, n
j
) forment la distribution marginale de la variable Y.
Les distributions marginales peuvent aussi tre donnes sous forme de fr-
quences :
et
Disposant dune distribution conjointe, on peut dduire les distributions
marginales qui permettent dtudier sparment chaque variable en reprsen-
tant graphiquement sa distribution et sil sagit dune variable quantitative, en
calculant ses caractristiques de tendance centrale, de dispersion, de forme
C. Distributions conditionnelles
La distribution de la variable Y, la variable X tant gale x
i
, est appele
distribution conditionnelle de Y pour :
Cette distribution des n
i
observations, satisfaisant la condition ,
est prsente sous la forme de frquences conditionnelles :
avec :
Y/X = x
i
y
1

y
j

y
l
Total
Effectif
n
i1

n
ij

n
il
n
i
Y/X = x
i
y
1

y
j

y
l
Total
Frquence
f
1/i

f
j/i

f
l/i
1
n
i

i 1 =
k

j
j 1 =
l

n = =
f
ij
n
ij
n
----- =
f
i

n
i

n
------ = f
j
n
j
n
------ =
X x
i
=
X x
i
=
f
j/i
n
ij
n
i

------ = f
j/i
j 1 =
l

1 =
P067-102-9782100549412.fm Page 69 Mercredi, 24. novembre 2010 9:53 09
70

INTRODUCTION LA MTHODE STATISTIQUE


La frquence
1
f
j/i
se lit f indice j si i , cest--dire frquence de y
j
si
. Il y a k distributions conditionnelles de Y pour (i = 1, , k).
Lorsque la variable Y est quantitative, on peut calculer pour chaque valeur
x
i

sa moyenne conditionnelle et son cart-type conditionnel s
i
:
et
Les k modalits de X induisant une partition des observations en k sous-
groupes, la moyenne peut sexprimer comme somme pondre des k
moyennes (chapitre 1) :
Symtriquement, on a l distributions conditionnelles de X et on dfinit les
frquences conditionnelles f indice i si j :
avec :
Lorsque la variable X est quantitative, on peut calculer pour chaque valeur
y
j
sa moyenne conditionnelle et son cart-type conditionnel s
j
:
et
et on a la relation suivante entre la moyenne et les l moyennes condition-
nelles :
Lorsquon dispose dobservations portant simultanment sur deux varia-
bles, il est frquent de les prsenter dans un tableau donnant lensemble des
distributions conditionnelles de Y, et on a alors un tableau dont toutes les
1. Les frquences f
j/i
sont aussi parfois notes
X/Y = y
j
x
1
x
i
x
k
Total
Frquence f
1/j
f
i/j
f
k/j
1
f
j
i
X x
i
= X x
i
=
y
i
y
i
f
j/i
y
j
j 1 =
l

= s
i
2
f
j/i
y
j
y
i
( )
2
(
j 1 =
l

=
y
y
i
y f
i

y
i
i 1 =
k

=
f
i/ j
n
ij
n
j
------ = f
i/ j
i 1 =
k

1 =
x
j
x
j
f
i/ j
x
i
i 1 =
k

= s
j
2
f
i/j
x
i
x
j
( )
2
i 1 =
k

=
x
x
j
x f
j
x
j
j 1 =
l

=
P067-102-9782100549412.fm Page 70 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

71


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
sommes en ligne sont gales 100 % ; ce tableau est appel tableau des pro-
fils en ligne (cf. tableau 3.3).
Bien videmment, on dfinit dune faon symtrique le tableau des profils
en colonne qui est le tableau des distributions conditionnelles de X avec des
sommes en colonne gales 1 ( cf. tableau 3.4).
D. Dpendance et indpendance statistique
Si tous les profils en colonne du tableau 3.4 sont identiques, cela signifie que
la distribution de la variable X ne dpend pas de la variable Y, on dit alors
que les variables X et Y sont statistiquement indpendantes dans lensemble
des n individus considrs, et dans ce cas toutes les distributions condition-
nelles de X sont identiques la distribution marginale de X.
Tableau 3.3 Tableau des profils en ligne correspondant au tableau de contingence 3.2
Classe de notes Y
Filire dorigine X
[0 ; 6[
3
[6 ; 10[
8
[10 ; 14[
12
[14 ; 20]
17 Total
Filire A
Filire B
Filire C
Filire D
70,3
48,0
6,3
45,5
16,2
36,0
25,0
36,4
10,8
12,0
31,2
13,6
2,7
4,0
37,5
4,5
100
100
100
100
Distribution marginale de Y 49,0 27,0 15,0 9,0 100
Tableau 3.4 Tableau des profils en colonne
Modalit de Y
Modalit de X
Distribution
marginale
de X
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Total 1 1 1 1
y
1
y
j
y
l
x
1
x
i
x
k
f
1/1
f
i/1
f
k/1

f
1/j
f
i/j
f
k/j

f
1/l
f
i/l
f
k/l
f
1
f
i
f
k
P067-102-9782100549412.fm Page 71 Mercredi, 24. novembre 2010 9:53 09
72

INTRODUCTION LA MTHODE STATISTIQUE


Par raison de symtrie, lindpendance statistique entre X et Y implique
aussi des profils en ligne identiques la distribution marginale de Y :
pour tout couple ( i , j).
Lorsque deux variables dpendent statistiquement lune de lautre, on
cherche valuer lintensit de leur liaison et dans le cas de deux variables
quantitatives, on examine si on peut les considrer lies par une relation
linaire.
II. Deux variables quantitatives
Si les observations de deux variables statistiques X et Y sont connues indivi-
duellement, on commence par les visualiser en les reprsentant sous la forme
dun nuage de points (cf. figure 3.1) : dans un repre cartsien, chaque obser-
vation (x
i
, y
i
) est figure par le point M
i
de coordonnes ( x
i
, y
i
), et la forme
du nuage donne une information sur le type dune ventuelle liaison.
Figure 3.1 Nuage de points
Supposons que lexamen du nuage de points conduise rechercher une
droite dajustement. Le calcul des coefficients de cette droite va tre expos
dans le cas o les observations sont connues individuellement. La gnra-
lisation des rsultats au cas dune distribution rsume dans un tableau de
contingence se fait sans difficult.
On peut crire en termes deffectifs ou de frquences ce que signifie
lindpendance statistique entre X et Y ; pour tout couple ( i, j) :
f
i/ j
f
i


f
ij
f
j
------- f
i

f
ij
f
i

f
j
n
ij

n
i

n
j
n
-------------- = = = =
f
j/i
f
j
=
y
y
i
x
i
x 0
M
i
P067-102-9782100549412.fm Page 72 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

73


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
A. Caractristiques dun couple
de deux variables quantitatives
1) Moyenne dune somme de deux variables statistiques
On montre sans difficult le rsultat suivant :

2) Covariance entre deux variables statistiques
Cas de donnes individuelles :
cov(X,Y)
Cas de donnes groupes dans un tableau de contingence (covariance
pondre) :
cov(X,Y) =
Les proprits 1 et 2 sont videntes. Montrons la proprit 3 dans le cas
de donnes individuelles, la dmonstration pour des donnes groupes dans
un tableau de contingence se faisant de la mme faon en utilisant les formu-
les pondres par les frquences :
Proprits de la covariance
1. cov(X,Y) = cov(Y, X)
2. cov(X, X) = var(X)
3. var(X + Y) = var(X) + var(Y) + 2 cov(X, Y)
4. a, b, c, x
0
, y
0
: cov(aX + x
0
, bY + y
0
) = ab cov(X,Y)
var(aX + bY + c) = a
2
var(X) + b
2
var(Y) + 2ab cov(X,Y)
5.
x y + x y + =
a, b, c ax by c + + a x by c + + =
1
n
---
x
i
x ( ) y
i
y ( )
i 1 =
n

1
n
---
x
i
y
i
x y
i 1 =
n

= =
f
ij
j 1 =
l

i 1 =
k

x
i
x ( ) y
j
y ( )
f
ij
j 1 =
l

i 1 =
k

x
i
y
i
x y
=

cov X Y , ( ) var X ( ) var Y ( )


var X Y + ( )
1
n
---
x
i
y
i
x y + + ( )
2
i 1 =
n

1
n
---
x
i
y
i
x y + + ( )
2
i 1 =
n

= =

1
n
---
x
i
x ( )
2
i 1 =
n

y
i
y ( )
2
i 1 =
n

2
x
i
x ( ) y
i
y ( )
i 1 =
n

+ +
( ,
, (
j \
=
var X ( ) var Y ( ) 2cov X Y , ( ) + + =
P067-102-9782100549412.fm Page 73 Mercredi, 24. novembre 2010 9:53 09
74

INTRODUCTION LA MTHODE STATISTIQUE


La proprit 4 se dmontre sans difficult si on se souvient que
. Quant la proprit 5, elle sera dmontre au II.C.1.
3) Coefficient de corrlation linaire
On appelle coefficient de corrlation linaire entre deux variables statistiques
X et Y, le rapport de leur covariance par le produit de leurs carts-types :
B. Ajustement linaire dun nuage de points
Les points (x
i
, y
i
) forment un nuage dont on cherche une approximation dans
un but de simplification. Mais qui dit simplification dit dformation : nous
voudrions quelle soit minimale ; encore faut-il prciser ce que lon entend
par l. Disons tout de suite que le choix du critre sera arbitraire mme si
lon tente de le justifier par des considrations plus ou moins intuitives .
On peut vouloir par exemple :
prserver au mieux les distances entre points ;
prserver au mieux les angles des droites joignant les points
Il nexiste pas de moyen de satisfaire toutes ces exigences la fois. Il
nous faut donc choisir.
Nous allons chercher la meilleure droite au sens des moindres carrs ,
cest--dire telle que : soit minimum ( cf. figure 3.2) :
Proprits du coefficient de corrlation linaire
On a pour tout a, b, x
0,
y
0
:
Ce coefficient, invariant par changement dorigine et dchelle , est un
nombre sans dimension qui, daprs la proprit 5 de la covariance, varie
entre 1 et + 1. On montrera que sil est gal 1, les n points
sont aligns.
ax x
0
+ ax x
0
+ =
r X Y , ( )
cov X Y , ( )
s
X
s
Y

------------------------ =
r aX x
0
, bY y
0
+ + ( )
cov aX x
0
, bY y
0
+ + ( )
s
aX x
0
+
s
bY y
0
+

--------------------------------------------------------
abcov X Y , ( )
ab s
X
s
Y

------------------------------- = =

"" r X Y , ( ) +
r X Y , ( )

=
si a et b de mme signe
si a et b de signe oppos
x
i
y
i
, ( )
M
i
H
i
2
i 1 =
n

P067-102-9782100549412.fm Page 74 Mercredi, 24. novembre 2010 9:53 09


DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

75


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Les distances sont comptes paralllement lun des axes des coordon-
nes ; nous avons choisi ici laxe des ordonnes ( cf. figure 3.2).
Il sagit de dterminer la droite dquation telle que :
soit minimum
Nos inconnues sont a et b.
Commenons par chercher le minimum de F(a, b) relativement b lorsque
a est fix. On peut crire F(a, b) comme un trinme du second degr en b :
Quand a est fix, le dernier membre constitue une fonction de b qui atteint
son minimum pour tel que , soit :

1
re
consquence : la droite des moindres carrs passe par le point de
coordonnes quon appelle parfois le centre de gravit ou point
moyen du nuage.
y
y
i
x
i
x
ax
i
+ b
y = ax + b
M
2
H
2
M
i
H
i
H
1
M
1
Figure 3.2 Interprtation gomtrique de la droite des moindres carrs
y ax b + =
F a b , ( )
y
i
ax
i
b + ( )
( ,
j \
2
i 1 =
n

=
F a b , ( )
y
i
ax
i
( ) b
( ,
j \
2
i 1 =
n

y
i
ax
i
( )
2
2b y
i
ax
i
( ) b
2
+
( ,
j \
i 1 =
n

= =
y
i
ax
i
( )
2
i 1 =
n

2b y
i
ax
i
( ) nb
2
+
i 1 =
n

=
b b

=
F
b
------- a b

, ( ) 0 =
F
b
------- a b

, ( ) 2
y
i
ax
i
( ) nb

i 1 =
n

( ,
, (
j \
0 = =
b

1
n
---
y
i
ax
i
( )
i 1 =
n

y ax = =
x y , ( )
P067-102-9782100549412.fm Page 75 Mercredi, 24. novembre 2010 9:53 09
76

INTRODUCTION LA MTHODE STATISTIQUE


Notre problme est maintenant de trouver le minimum de relati-
vement a :
ce qui peut encore scrire :
Le coefficient de tant positif ou nul, ce trinme du second degr en
a atteint son minimum relativement a pour avec :
Ainsi le couple avec ralise le minimum de la
fonction F
2
e
consquence : la droite des moindres carrs a pour quation
soit
On posera pour tout i variant de 1 n : , est la valeur
estime de Y par la droite des moindres carrs lorsque X = x
i
C. Interprtation du coefficient de corrlation linaire
1) Interprtation laide de la droite
Il est toujours possible de tracer la droite des moindres carrs prcdente
quelle que soit la forme du nuage. Lapproximation du nuage par cette droite
est-elle lgitime ? Quel sens, quelle signification donner cette droite ?
Cest l une autre question, et fort importante. On pourra dire quil
est dautant plus lgitime de remplacer le nuage par la droite trouve que
la dispersion du nuage de points par rapport la droite des moindres
carrs :
F a b

, ( )
F a b

, ( ) y
i
y ( ) a x
i
x ( )
( ,
j \
2
i 1 =
n

=
y
i
y ( )
2
i 1 =
n

2a y
i
y ( ) x
i
x ( ) a
2
x
i
x ( )
2
i 1 =
n

+
i 1 =
n

=
F a b

, ( ) n a
2
var X ( ) 2a cov X Y , ( ) var Y ( ) +
( ,
j \
=
a
2
a a

=
a

cov X Y , ( )
var X ( )
------------------------ =
a

, ( ) b

y a

x =
y a

x b + =
y y
cov X Y , ( )
var X ( )
------------------------ x x ( ) =
y

i
a

x
i
b

+ = y

i
P067-102-9782100549412.fm Page 76 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

77


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
sera plus faible
En remplaant a par son estimation , on obtient :
et comme :
on a :
ce qui implique :
et
La quantit , appele Somme des Carrs Rsiduelle (SC
rs
),
est dautant plus faible que r
2
est proche de 1.
Elle est nulle pour r = + 1 et dans ce cas, on a une liaison linaire entre X et
Y, car si { pour tout i}, alors les n points (x
i
, y
i
) sont aligns.
La quantit tant appele Somme des Carrs Totale (SC
tot
)
de Y, il sensuit :
la quantit est gale la proportion de variation de Y non expli-
que par la droite des moindres carrs (cf. figures 3.3 et 3.4) .
M
i
H
i
2
i 1 =
n

F a b

, ( )
y
i
y

i
( )
2
i 1 =
n

= =
a

F a b

, ( )
y
i
y

i
( )
2
i 1 =
n

= n
cov X Y , ( ) ( )
2
var X ( )
------------------------------- 2
cov X Y , ( ) ( )
2
var X ( )
------------------------------- var Y ( ) +
( ,
, (
j \
=
n var Y ( )
cov X Y , ( ) ( )
2
var X ( )
-------------------------------
( ,
, (
j \
=
r
2
cov X Y , ( ) ( )
2
var X ( ) var Y ( )
-------------------------------------- =
y
i
y

i
( )
2
i 1 =
n

n var Y ( ) 1 r
2
( )
y
i
y

i
( )
2
i 1 =
n

y
i
y ( )
2
1 r
2
( )
i 1 =
n

= =
1 r
2
0 r +1 cov X Y , ( ) var X ( ) var Y ( )
y
i
y

i
( )
2
i 1 =
n

i
y
i
=
y
i
y ( )
2
i 1 =
n

1 r
2

y
i
y

i
( )
2
i 1 =
n

y
i
y ( )
2
i 1 =
n

------------------------------
SC
rs
SC
tot
------------ = =
1 r
2

P067-102-9782100549412.fm Page 77 Mercredi, 24. novembre 2010 9:53 09
78

INTRODUCTION LA MTHODE STATISTIQUE


Figure 3.3
Figure 3.4
Notons que la somme des carts la droite est nulle :

ce qui implique aussi que les moyennes des et des y
i
sont gales :
et ceci est d au fait que la droite des moindres carrs passe par le point
moyen ) du nuage des n points.
La dcomposition de la variation totale de Y

permet une autre interprta-
tion de r
2
:
y
i
x
i
y
y
i
y ( )
2
i 1 =
n

SC
tot
=
y
i
x
i
y
i
y
i
y

i
( )
2
i 1 =
n

SC
rs
=
y a

x b

+ =
y
i
a

x
i
b

( )
i 1 =
n

0 =
y
i
y

i
( )
i 1 =
n

0 =
y

i
y y =
x y , (
y
i
y ( )
2
i 1 =
n

y
i
y

i
y

i
y + ( )
2
i 1 =
n

=

y
i
y

i
( )
2
i 1 =
n

i
y ( )
2
i 1 =
n

2
y
i
y

i
( ) y

i
y ( )
i 1 =
n

+ + =
P067-102-9782100549412.fm Page 78 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

79


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Montrons que le 3
e
terme du dernier membre est nul. On peut crire :
et
ce qui donne une nouvelle expression de ce 3
e
terme :

puisque
La quantit tant appele Somme des Carrs Explique (SC
expl
),
on obtient l quation de la dcomposition de la variation totale de Y :
et une autre interprtation de r
2
, complmentaire celle de :
le carr r
2
du coefficient de corrlation linaire est gal la proportion de
la variation de Y explique par la droite des moindres carrs
Conclusion sur linterprtation de la valeur du coefficient de corrlation
linaire :
les n points (x
i
, y
i
) sont aligns
pas de liaison linaire, mais possibilit dune liaison
dun autre type
y

i
y a

x
i
x ( ) = y
i
y

i
y
i
y y

i
y ( ) y
i
y a

x
i
x ( ) = =
y
i
y

i
( ) y

i
y ( )
i 1 =
n

a
y
i
y a

x
i
x ( )
( ,
j \
x
i
x ( )
i 1 =
n

=
a
y
i
y ( ) x
i
x ( ) a
x
i
x ( )
2
i 1 =
n

i 1 =
n

( ,
, (
j \
=
y
i
y

i
( ) y

i
y ( )
i 1 =
n

n a

cov X Y , ( ) a

var X ( )
( ,
j \
0 = =
a

cov X Y , ( )
var X ( )
------------------------ =
y

i
y ( )
2
i 1 =
n

y
i
y ( )
2
i 1 =
n

i
y ( )
2
i 1 =
n

y
i
y

i
( )
2
i 1 =
n

+ = SC
tot
SC
expl
SC
rs
+ =
1 r
2
( )
r
2
y

i
y ( )
2
i 1 =
n

y
i
y ( )
2
i 1 =
n

------------------------------
SC
expl
SC
tot
-------------- = =
r 1 = y
i
y

i
a

x
i
b

i + = =
r 1 =
r 0 =
P067-102-9782100549412.fm Page 79 Mercredi, 24. novembre 2010 9:53 09
80

INTRODUCTION LA MTHODE STATISTIQUE


Voici un exemple de deux variables X et Y non indpendantes avec
:
, , et et
Le coefficient de corrlation linaire entre deux variables quantitatives
indpendantes est nul, mais la rciproque nest pas vraie :
2) Droite des moindres carrs

Dans toute ltude prcdente, on a fait jouer des rles non symtriques X
et Y. On a procd comme si la variable X pouvait tre mesure, et quon
cherchait prvoir la variable Y.
Inversement, la droite des moindres carrs pour laquelle les distances sont
comptes paralllement laxe des abscisses ( cf. figure 3.5) a pour quation :

Mais, dans certains cas, comme celui o la variable X dsigne le temps,
seule la droite a un sens.
Le coefficient r tant symtrique par rapport X et Y, la Somme des
Carrs Rsiduelle associe la droite est gale :

X 2 1 0 1 2
Y 4 1 0 1 4
X et Y indpendantes r(X, Y) = 0
r X Y , ( ) 0 =
n 5 = x 0 = y 2 =
x
i
y
i
i 1 =
n

0 = r X Y , ( ) 0 = Y X
2
=

x x
cov X Y , ( )
var Y ( )
------------------------ y y ( ) = y y
var Y ( )
cov X Y , ( )
------------------------ x x ( ) =
M
i
G
i
2
i 1 =
n

x
i
x

i
( )
2
i 1 =
n

n var X ( ) 1 r
2
( ) = =
y
y
i
x
i
x x
i
M
i
G
i
Figure 3.5 Interprtation gomtrique de la droite des moindres carrs
P067-102-9782100549412.fm Page 80 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

81


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
D. Comparaison des deux droites des moindres carrs
Les deux droites et sont gnralement distinctes. Elles se coupent au
point moyen du nuage, et leurs coefficients directeurs sont de mme signe et
du signe de r :
et
De plus, la valeur absolue du coefficient de corrlation r tant comprise
entre 0 et 1, la valeur absolue de la pente de la droite est toujours inf-
rieure ou gale celle de la droite (cf. figure 3.6).
Ces deux droites seront confondues si et seulement si les variables X et Y
sont lies par une relation linaire :
r = 1/r r = 1
cov X Y , ( )
var X ( )
------------------------ r
var Y ( )
var X ( )
---------------- =
var Y ( )
cov X Y , ( )
------------------------
1
r
---
var Y ( )
var X ( )
---------------- =
G

'
G

'
G

'
y
y
x x
r = -1
y
y
x x
-1 < r < 0
y
y
x x
r = +1
G

'
y
y
x x
0 < r < +1
G

'
y
x
r = 0
y
x
Figure 3.6 Positions respectives des droites des moindres carrs selon les valeurs de r
P067-102-9782100549412.fm Page 81 Mercredi, 24. novembre 2010 9:53 09
82

INTRODUCTION LA MTHODE STATISTIQUE


E. Le coefficient r et la qualit de lajustement linaire
Comment juger la qualit de lajustement linaire ? Il est clair que si le coefficient
r est voisin de 0, il faut rejeter lajustement linaire, mais pour quelles valeurs de
r, le considre-t-on de bonne qualit ? Cest une question importante, et beaucoup
dexemples montrent quon ne peut pas tablir de rgles de dcision partir du
seul examen de la valeur de r. Moyennant certaines hypothses dont il ne faut
pas oublier dexaminer la validit, la formalisation du modle linaire (qui
dpasse le cadre de ce livre) rpond partiellement la question.
Un rsum numrique est insuffisant pour rendre compte de la pertinence
dune liaison linaire. Pour sen convaincre, on se reportera aux rsultats de
F. J. Anscombe (cf. figure 3.7) : pour quatre sries de 11 observations simul-
tanes de deux variables X et Y, on obtient la mme valeur du coefficient de
corrlation linaire { r = 0,82} et la mme droite des moindres carrs
{y = 3 + 0,5x}, mais lexamen graphique montre que lajustement linaire
nest adapt quau premier cas.
Lajustement linaire de la srie de la composition minrale en fluorures
et sodium (mg/l) de 21 eaux minrales gazeuses ( cf. tableau 3.5) ne peut que
renforcer lide de la ncessit dune tude graphique.
I II III IV
X Y X Y X Y X Y
10,0
8,0
13,0
9,0
11,0
14,0
6,0
4,0
12,0
7,0
5,0
8,04
6,95
7,58
8,81
8,33
9,96
7,24
4,26
10,84
4,82
5,68
10,0
8,0
13,0
9,0
11,0
14,0
6,0
4,0
12,0
7,0
5,0
9,14
8,14
8,74
8,77
9,26
8,10
6,13
3,10
9,13
7,26
4,74
10,0
8,0
13,0
9,0
11,0
14,0
6,0
4,0
12,0
7,0
5,0
7,46
6,77
12,74
7,11
7,81
8,84
6,08
5,39
8,15
6,42
5,73
8,0
8,0
8,0
8,0
8,0
8,0
8,0
8,0
19,0
8,0
8,0
6,58
5,76
7,71
8,84
8,47
7,04
5,25
12,50
5,56
7,91
6,89
10
5
10
5
10
5
10
5
10 20 10 20 10 20 10 20
I II III IV
Figure 3.7 Extrait de F. J. Anscombe : Graphs in Statistical Analysis ,
adapt avec la permission de The American Statistician, 27 (February 1973), 17-21,
American Statistician Association
P067-102-9782100549412.fm Page 82 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

83


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Le coefficient de corrlation linaire entre les deux composants minraux
est gal 0,90. Cette valeur assez proche de 1 peut conduire considrer que
la droite des moindres carrs ( cf. figure 3.8) permet dvaluer approximati-
vement la teneur Y en sodium en fonction de la teneur X en fluorures :
puisque et
Mais la reprsentation graphique du nuage des 21 points ( cf. figure 3.8)
montre deux points caractriss par une minralit particulirement leve :
Vichy-Clestins et Saint-Yorre .
La reprsentation des botes de distribution des deux variables Fluorures
et Sodium (cf. figure 3.9) confirme que ces deux eaux minrales ont respec-
tivement des valeurs loigne et extrme pour les deux composants
minraux (chapitre 1, IV).
Tableau 3.5 Donnes extraites du journal Que Choisir ?, n 422 bis, 2005
Eau minrale Fluorures Sodium
Arcens
Arvie
Badoit
Beckerich
Chteauneuf
Eau de Perrier
Faustine
La Salvetat
Perrier
Puits St-Georges
Pyrnes
Quzac
San Pellegrino
St-Diry
St-Jean
St-Pierre
St-Yorre
Vernet
Vernire
Vichy-Clestins
Wattwiller
1,3
0,9
1
0,6
3
0,05
2
0,25
0,05
0,5
0,05
2,1
0,6
0,3
1,1
1,7
9
1,3
0,05
5
1,6
439
650
150
34
651
11,5
230
7
11,5
434
31
255
35
385
228
383
1 708
120
154
1 172
3
Moyenne 1,55 338
cart-type 2,03 417
Y 185X 51 + r
s
Y
s
X
----- 185 y 185x 51
P067-102-9782100549412.fm Page 83 Mercredi, 24. novembre 2010 9:53 09
84

INTRODUCTION LA MTHODE STATISTIQUE


2 100
1 800
1 500
1 200
900
600
300
0
0 2 1 3 5 7 6 8 9 10 4
Fluorures
Sodium
Figure 3.8 Nuage des 21 eaux minrales gazeuses et droite des moindres carrs
10
8
6
4
2
0
Fluorures
St-Yorre
*
Vichy-Clestins
2 000
1 500
1 000
500
0
Sodium
St-Yorre
*
Vichy-Clestins
Figure 3.9 Botes de distribution des deux composants Fluorures et Sodium
P067-102-9782100549412.fm Page 84 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

85


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
En supprimant ces deux points et en ralisant lajustement sur les
19 autres points, on obtient :
et
Le coefficient r est pass de 0,9 0,5, et il faut aussi remarquer que les
coefficients de la droite des moindres carrs sont passs respectivement de
185 129 et de 51 96.87
Quel crdit apporter un ajustement pour lequel deux points ont une telle
influence ? On est donc oblig dabandonner lide dune relation linaire
entre les deux composants minraux.
Cet exemple nous montre que le calcul du coefficient de corrlation
linaire doit toujours tre complt par un examen graphique.
Lanalyse exploratoire des donnes propose dautres mthodes et dautres
coefficients pour lajustement linaire. Voici un exemple de coefficient pro-
pos pour la mesure de la qualit de lajustement et pouvant tre considr
comme un quivalent du carr du coefficient de corrlation linaire qui,
rappelons-le, peut tre ainsi dfini :
Le deuxime terme de cette galit peut tre interprt comme le rapport
de la variance des carts , puisque ceux-ci sont de moyenne nulle,
la variance des y
i
. Lanalyse exploratoire des donnes propose de mesurer
les dispersions de ces quantits par leur tendue interquartile , do le
coefficient :
Si les points du nuage sont aligns, ce coefficient est gal 1, et plus la
dispersion des carts la droite sera faible (cest le cas lorsque lajustement
linaire du nuage est adapt), plus il sera proche de 1. Pour lajustement des
donnes Eaux minrales gazeuses ralis par la mthode des moindres
carrs, ce coefficient est gal : 1 221/400 0,45
Au cas o lexamen graphique naurait pas t fait, cette valeur trs dif-
frente de 1 doit amener remettre en cause lajustement linaire.
Tous ces rsultats montrent quil ne faut jamais conclure sur la dpen-
dance entre deux variables quantitatives au seul examen de la valeur du coef-
ficient de corrlation linaire.
r 0,50 a

129 = b

96 =
r
2
1
y
i
y

i
( )
2
i 1 =
n

y
i
y ( )
2
i 1 =
n

------------------------------ =
y
i
y

i
( )
1
EIQ y
i
y

i
( )
EIQ y
i
( )
------------------------------
P067-102-9782100549412.fm Page 85 Mercredi, 24. novembre 2010 9:53 09
86

INTRODUCTION LA MTHODE STATISTIQUE


Dautre part, lorsquune liaison linaire entre deux variables a t mise en
vidence par ltude dune srie de n observations sur ce couple, il faut bien
se garder de conclure une relation de cause effet entre ces variables sans
en avoir examin attentivement la signification : une corrlation voisine de 1
entre la taille (en cm) et la note un contrle de mathmatiques pour un
groupe de 12 lves ne doit pas amener conclure que plus on est grand,
mieux on russit en mathmatiques !
Lexamen graphique, ainsi que celui de la signification des variables, sont
des complments indispensables linformation donne par la valeur du
coefficient de corrlation linaire.
Dans le cas dobservations non connues individuellement et dont la dis-
tribution est donne dans un tableau de contingence, le coefficient de corr-
lation linaire et les droites des moindres carrs sont calculs partir des
formules pondres. Cependant, si le groupement de donnes quantitatives
en classes a lavantage de permettre de prsenter la distribution sous une
forme synthtique et de pouvoir en dduire des profils en ligne ou en
colonne, il constitue une perte dinformation quil est prfrable dviter de
rpercuter sur les calculs du coefficient de corrlation linaire et des coeffi-
cients des droites des moindres carrs.
Nous avons expos la mthode des moindres carrs pour lajustement
dun nuage de points par une droite qui est la fonction analytique la plus sim-
ple, mais cette mthode peut se gnraliser un ajustement par dautres fonc-
tions analytiques. Les logiciels proposent des ajustements par un polynme
du second degr, une fonction exponentielle Cest lexamen graphique qui
donne une indication sur le type de fonction adopter. On peut aussi dans
certains cas transformer une des deux variables ou les deux variables avant
denvisager une relation linaire.
III. Une variable qualitative
et une variable quantitative
Soient n observations portant simultanment sur une variable qualitative X
k modalits {x
1
, , x
i
, , x
k
} et sur une variable quantitative Y l modalits
{y
1
, , y
j
, , y
l
}.
P067-102-9782100549412.fm Page 86 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

87


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
A. Mesure de la liaison par le rapport de corrlation
1) Dfinition du rapport de corrlation
Pour les n
i
(i = 1, , k) observations de chaque modalit x
i
de la variable X,
on calcule la moyenne conditionnelle et la somme des carrs des carts
la moyenne ( cf. tableau 3.6). On supposera tous les effectifs n
i
(ou les fr-
quences f
i
= n
i
/n) non nuls, cette hypothse impliquant la suppression des
modalits pour lesquelles on ne dispose pas dobservations.
La moyenne tant la moyenne de Y pour X = x
i
, on a
(I.C), et pour notre exemple,
On dfinit la Somme des Carrs Intraclasse , la Somme des Carrs Inter-
classe et la Somme des Carrs Totale :

On montre que : SC
tot
= SC
intra
+ SC
inter
Le rapport de corrlation de Y en x est ainsi dfini :
2) Interprtation du rapport de corrlation
Ce rapport est toujours positif et infrieur ou gal 1. Il est gal 0 si la
somme des carrs interclasse est nulle, cest--dire si les moyennes condition-
nelles sont toutes gales , mais cette condition nest pas suffisante
lindpendance des variables X et Y.
Tableau 3.6 Caractristiques de Y conditionnellement X
pour les donnes des tableaux 2 et 3
Modalit de X
n
i
Filire A
Filire B
Filire C
Filire D
37
25
16
22
5,16
6,44
12,31
6,68
496,91
368,25
293,44
340,78
y
i
y
i
n
ij
y
ij
y
i
( )
2
j 1 =
n

y
i
y
f
i
y
i
i 1 =
k

=
y 6,96 =
SC
intra
n
ij
j 1 =
l

i 1 =
k

x
ij
y
i
( )
2
= SC
inter
n
i
i 1 =
k

y
i
y ( )
2
=
SC
tot
n
ij
j 1 =
l

i 1 =
k

y
ij
y ( )
2
=

Y/ X
2

Y/ X
2
SC
inter
SC
tot
-------------- =
y
i
y
P067-102-9782100549412.fm Page 87 Mercredi, 24. novembre 2010 9:53 09
88

INTRODUCTION LA MTHODE STATISTIQUE


Si une variable quantitative Y est indpendante dune variable qualitative X,
alors leur rapport de corrlation est nul, mais la rciproque nest pas vraie :
Le rapport de corrlation est gal 1 si la somme des carrs intraclasse
est nulle, donc si chaque modalit x
i
de X, correspond une seule valeur de
Y gale
Dans ce cas, la variable Y est lie fonctionnellement la variable X.
Pour les donnes du tableau 3.6 :
SC
inter
= SC
tot
SC
intra
= 2 086 1 499,38 = 586,62
Lexamen du tableau 3.3 des profils en ligne montre la dpendance entre
la filire dorigine et la note, rsultat en accord avec la valeur 0,28
Considrons maintenant une variable qualitative X 3 modalits et une
variable quantitative Y (discrte ou continue) rapporte 2 valeurs ( cf.
tableau 3.7). Les observations portent sur n individus : n
11
+ n
22
+ n
31
= n :
Pour ces donnes :
{ X = x
i
Y = pour i = 1, 2, 3 }
et ce rsultat ne dpend pas des valeurs de y
1
, y
2
, n
11
, n
22
et n
31
. Quelles que
soient ces valeurs, la variable Y est lie fonctionnellement la variable X.
Supposons maintenant que X soit une variable quantitative rapporte
3 valeurs ainsi dfinies :
x
1
= 1 x
2
= 4 x
3
= 6
et que les effectifs soient les suivants ( cf. tableau 3.8) :
n
11
= 20 n
22
= 50 n
31
= 30
X et Y indpendantes

chaque x
i
, correspond une seule valeur de Y
Y lie fonctionnellement X
Tableau 3.7 Tableau de contingence avec calculs des moyennes conditionnelles de Y
Y
X
y
1
y
2
x
1
x
2
x
3
n
11
0
n
31
0
n
22
0
y
1
y
2
y
1

Y/X
2
0 =
y
i

Y/ X
2
1 =


Y/ X
2
0,28 =
y
i
y
i

Y/ X
2
1 =
P067-102-9782100549412.fm Page 88 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

89


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
La variable X tant quantitative, on peut aussi calculer le rapport de cor-
rlation de X en y. Les moyennes conditionnelles de X tant gales, la somme
des carrs interclasse est nulle et le rapport de corrlation est nul.
Il y a donc absence de corrlation entre la variable X et toute fonction de
Y. Cet exemple montre quon peut avoir la fois Y li fonctionnellement X
et absence de corrlation entre X et toute fonction de Y.
On remarquera que le rapport de corrlation de cet exemple est nul
quelles que soient les valeurs n
11
, n
22
, n
31
et x
1
, x
2
, x
3
telles que les moyennes
et soient gales, cest--dire si :
B. Comparaison du coefficient de corrlation linaire
et des rapports de corrlation
Si la variable X est une variable quantitative k modalits, on peut repr-
senter graphiquement les moyennes conditionnelles en fonction des moda-
lits de la variable X. On obtient k points quon peut joindre, dans lordre,
par des segments de droite. On appelle la ligne brise obtenue courbe de
rgression de Y en x (cf. figure 3.10).
Tableau 3.8 Valeurs particulires pour les effectifs du tableau 3.7
Y
X
y
1
y
2
1
4
6
20
0
30
0
50
0
y
1
y
2
y
1
4 4
y
i
x
j

Y/ X
2

Y/ X
2
x
1
x
2
n
11
x
1
n
31
x
3
+
n
11
n
31
+
------------------------------- x
2
=
y
i
x
1
y
1
x
i
x
k
y
i
y
k
Figure 3.10 Courbe de rgression de Y en x
P067-102-9782100549412.fm Page 89 Mercredi, 24. novembre 2010 9:53 09
90

INTRODUCTION LA MTHODE STATISTIQUE


Dans ce cas o X et Y sont toutes les deux des variables quantitatives, on
peut calculer le rapport de corrlation de X en y (gnralement non gal
) et tracer la courbe de rgression de X en y .
Disposant de n observations portant simultanment sur deux variables
quantitatives, on peut aussi calculer leur coefficient de corrlation linaire et
on montre quon a toujours la relation suivante entre les rapports de corrla-
tion et le coefficient de corrlation linaire :
Si lun des rapports de corrlation est nul, alors le coefficient de corrla-
tion linaire lest aussi. Le lecteur peut vrifier que cest le cas pour lexem-
ple du tableau 3.8, et il peut constater un nouvel exemple de deux variables
non indpendantes avec un coefficient de corrlation linaire nul.
Si , toutes les moyennes conditionnelles de Y sont gales et la
courbe de rgression de Y en x est une droite parallle laxe des
abscisses ; et rciproquement, si , les moyennes conditionnelles
de X sont gales et la courbe de rgression de X en y est une droite paral-
lle laxe des ordonnes.
Si , alors les moyennes conditionnelles sont lies aux moda-
lits x
i
par une relation linaire, et la courbe de rgression de Y en x est une
droite qui nest autre que la droite des moindres carrs de Y en x :
et symtriquement, si , alors la courbe de rgression de X en y
nest autre que la droite des moindres carrs de X en y.
IV. Deux variables qualitatives
Les donnes relatives aux observations portant simultanment sur deux
variables qualitatives X et Y sont gnralement prsentes dans un tableau de
contingence ( cf. tableau 3.1), ou dans un tableau de profils en ligne ou en
colonne (cf. tableaux 3.3 et 3.4).
condition de disposer des effectifs marginaux , on peut retrouver le
tableau de contingence partir dun tableau de profils en ligne ou en colonne.
La question qui se pose est celle de lexistence dune liaison entre les
deux caractres X et Y. On a vu que sils sont statistiquement indpendants
dans lensemble des n individus considrs ( I.D) :
pour tous les couples ( i , j) tels que i = 1, , k et j = 1,, l

X/Y
2

Y/ X
2
0 r
2
min
X/Y
2
;
Y/ X
2
( ) max
X/Y
2
;
Y/ X
2
( ) 1

Y/ X
2
0 =

X/Y
2
0 =
r
2

Y/ X
2
= y
i
r
2

Y/ X
2
= y
i
a bx
i
+ =
r
2

X/Y
2
=
f
ij
f
i

f
j
= n
ij

n
i

n
j

n
----------------- =
P067-102-9782100549412.fm Page 90 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

91


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Dans le cas o les observations ne portent pas sur la population totale,
mais sur une partie de la population appele chantillon, on ne peut pas con-
clure lindpendance de X et Y par le seul examen des relations dindpen-
dance, leur non-vrification sur un chantillon pouvant tre due au fait que
les observations ne sont pas exhaustives ; autrement dit, il faut tenir compte
des fluctuations dchantillonnage.
La comparaison des effectifs thoriques (ou attendus ) sous lhypo-
thse dindpendance et des effectifs observs n
ij
donne une
ide de la dpendance entre X et Y. Mais pour tre plus prcis, il convient de
calculer lcart entre ces effectifs thoriques et observs.
Pour des raisons thoriques, la mesure usuellement adopte est celle du

2
(khi-deux) qui peut tre considre comme un coefficient dassociation
entre deux variables :
avec :
Le
2
est nul lorsque les effectifs thoriques et observs concident, et
plus les effectifs thoriques et observs diffrent, plus sa valeur

est leve.
Une autre mesure de la dpendance est le coefficient dassociation
2
(phi-deux) de Pearson gal . Ce coefficient ne dpend donc pas de la
taille n de la population :
Les valeurs de ces mesures d association entre deux variables peuvent
permettre de comparer plusieurs groupes dobservations sur un mme couple
de variables.
Reprenons les donnes du tableau 3.8 en considrant maintenant les varia-
bles X et Y comme des variables qualitatives et calculons les effectifs thori-
ques (ceux-ci sont crits entre parenthses dans le tableau 3.9) :
n
ij
*
n
i

n
j

n
----------------- =
( ,
, (
j \

2
n
ij
n
ij
*

( )
2
n
ij
*
------------------------
i j ,

n
f
ij
f
ij
*

( )
2
f
ij
*
-------------------------
i j ,

= = f
ij
f
i

f
j

n
ij
*
n
----- = =

2
n
-----

2
f
ij
f
ij
*

( )
2
f
ij
*
-------------------------
i j ,

=
P067-102-9782100549412.fm Page 91 Mercredi, 24. novembre 2010 9:53 09
92

INTRODUCTION LA MTHODE STATISTIQUE


Les valeurs des mesures dassociation
2
et
2
sont les suivantes :
et
V. Bilan
La mesure de lassociation de deux variables dpend de leur nature. Lorsque
les observations de deux variables quantitatives sont suffisamment nombreu-
ses pour tre prsentes dans un tableau de contingence, on peut traiter lune
delles comme une variable qualitative ou mme les deux variables comme
des variables qualitatives. Leur association peut se mesurer par le coefficient
de corrlation linaire, les rapports de corrlation et le khi-deux.
Pour les donnes du tableau 3.8, les deux variables X et Y ne sont pas
indpendantes, mais :
elles sont linairement indpendantes puisque r = 0
il y a absence de corrlation entre X et toute fonction de Y puisque
la variable Y est lie fonctionnellement la variable X puisque
Lanalyse conjointe de deux variables est un problme trs dlicat ; il faut
bien examiner les donnes avant de conclure lindpendance, et en cas de
liaison, il convient de ne pas conclure htivement une relation de cause
effet sans stre pench sur sa signification concrte.
Tableau 3.9 Calcul des effectifs thoriques du tableau 3.8
Y
X
y
1
y
2
n
i
x
1
20
(10)
0
(10)
20
x
2
0
(25)
50
(25)
50
x
3
30
(15)
0
(15)
30
n
j
50 50 100

2
n
ij
n
ij
*

( )
2
n
ij
*
------------------------
i j ,

100 = =
2

2
n
-----
f
ij
f
ij
*

( )
2
f
ij
*
-------------------------
i j ,

1 = = =

X/Y
2
0 =

Y/ X
2
1 =
P067-102-9782100549412.fm Page 92 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

93


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
O
n

n

o
u
b
l
i
e
r
a

p
a
s

l
e
s

d
i
f
f

r
e
n
t
s

m
o
d
e
s

d

t
u
d
e
s

d
e

l
a

l
i
a
i
s
o
n

d
e

d
e
u
x

v
a
r
i
a
b
l
e
s

s
e
l
o
n

l
e
u
r

n
a
t
u
r
e
N
a
t
u
r
e

d
e
s

v
a
r
i
a
b
l
e
s

e
t

p
r

s
e
n
t
a
t
i
o
n

d
e
s

d
o
n
n

e
s

t
u
d
e

d
e

l
a

l
i
a
i
s
o
n

e
n
t
r
e

d
e
u
x

v
a
r
i
a
b
l
e
s

X

e
t

Y

X

e
t

Y

q
u
a
n
t
i
t
a
t
i
v
e
s

:

n

c
o
u
p
l
e
s

(
x
i

,

y
i
)
,

o
u

t
a
b
l
e
a
u

d
e

c
o
n
t
i
n
g
e
n
c
e

C
a
l
c
u
l

d
u

c
o
e
f
f
i
c
i
e
n
t

d
e

c
o
r
r

l
a
t
i
o
n

l
i
n

a
i
r
e

:

a
v
e
c

:


+

1

C
a
l
c
u
l

e
t

r
e
p
r

s
e
n
t
a
t
i
o
n

g
r
a
p
h
i
q
u
e

d
e
s

d
e
u
x

d
r
o
i
t
e
s

d
e
s

m
o
i
n
d
r
e
s

c
a
r
r

s

:




























E
l
l
e
s

s
e

c
o
u
p
e
n
t

a
u

p
o
i
n
t

m
o
y
e
n

Y

q
u
a
n
t
i
t
a
t
i
v
e

e
t

X

q
u
a
l
i
t
a
t
i
v
e


k

m
o
d
a
l
i
t

s
(
o
u

q
u
a
n
t
i
t
a
t
i
v
e

a
v
e
c

k

c
l
a
s
s
e
s

d
e

v
a
l
e
u
r
s
)
P
o
u
r

c
h
a
q
u
e

m
o
d
a
l
i
t


x
i

d
e

X
,

o
n

d
i
s
p
o
s
e

d
e

:
n
i


=

n
b
r
e

d
e

v
a
l
e
u
r
s

d
e

Y

a
s
s
o
c
i

e
s


{
X

=

x
i
}
m
o
y
e
n
n
e

c
o
n
d
i
t
i
o
n
n
e
l
l
e


p
o
u
r

{
X

=

x
i
}

C
a
l
c
u
l

d
u

r
a
p
p
o
r
t

d
e

c
o
r
r

l
a
t
i
o
n

d
e

Y

e
n

x

:

S
i

X

e
s
t

u
n
e

v
a
r
i
a
b
l
e

q
u
a
n
t
i
t
a
t
i
v
e

c
l
a
s
s

e
,

g
r
a
p
h
i
q
u
e

d
e

l
a

c
o
u
r
b
e

d
e

r

g
r
e
s
s
i
o
n

d
e

Y

e
n

x

q
u
i

j
o
i
n
t

l
e
s

p
o
i
n
t
s

(
x
i

,

)

X

e
t

Y

q
u
a
n
t
i
t
a
t
i
v
e
s

c
l
a
s
s

e
s

:

t
a
b
l
e
a
u

d
e

c
o
n
t
i
n
g
e
n
c
e

C
a
l
c
u
l

d
e
s

r
a
p
p
o
r
t
s

d
e

c
o
r
r

l
a
t
i
o
n

d
e

Y

e
n

x

e
t

d
e

X

e
n

y

:


e
t

G
r
a
p
h
i
q
u
e
s

d
e

l
a

c
o
u
r
b
e

d
e

r

g
r
e
s
s
i
o
n

d
e

Y

e
n

x

q
u
i

j
o
i
n
t

l
e
s

p
o
i
n
t
s

(
x
i
,

)
,

l
e
s

v
a
l
e
u
r
s

x
i

t
a
n
t

o
r
d
o
n
n

e
s
,

e
t

d
e

l
a

c
o
u
r
b
e

d
e

r

g
r
e
s
s
i
o
n

d
e

X

e
n

y

q
u
i

j
o
i
n
t

l
e
s

p
o
i
n
t
s

(

,

y
j
)
,

l
e
s

v
a
l
e
u
r
s

y
j

t
a
n
t

o
r
d
o
n
n

e
s
.

X

q
u
a
l
i
t
a
t
i
v
e
,

Y

q
u
a
l
i
t
a
t
i
v
e

:

t
a
b
l
e
a
u

d
e

c
o
n
t
i
n
g
e
n
c
e

C
a
l
c
u
l

d
u

k
h
i
-
d
e
u
x

:

r
c
o
v
X
Y
,
(
)
s
X
s
Y

-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
=
y
y

r
s
Y
s
X
-
-
-
-
-
x
x

(
)

=
y
y

1r -
--
s
Y
s
X
-
-
-
-
-
x
x

(
)

=
x
y
,
(
)
y
i

Y
/
X
2
n
i
i
1
=
k

y
i
y

(
)
2
S
C
t
o
t
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
S
C
i
n
t
e
r
S
C
t
o
t
-
-
-
-
-
-
-
-
-
-
-
-
-
-
--
=
=
y
i

Y
/
X
2

X
/
Y
2
y
i
x
j

2
n
i
j
n
i
j
*

(
)
2
n
i
j
*
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
--
i
j
,

n
f
i
j
f
i
j *

(
)
2
f
i
j *
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
--
i
j
,

=
=
P067-102-9782100549412.fm Page 93 Mercredi, 24. novembre 2010 9:53 09
94

INTRODUCTION LA MTHODE STATISTIQUE


Il y a au moins une rponse exacte par question.
1. Le coefficient de corrlation linaire entre deux variables statistiques :
a) ne peut tre calcul que si les deux variables sont quantitatives
b) est un nombre positif ou nul
c) est gal 0 si les variables sont indpendantes
d) est un nombre sans dimension
2. Deux variables statistiques X et Y sont lies par la relation X + Y = 2, alors :
a) la somme de leur moyenne est gale 2
b) les carts-types des deux variables sont gaux
c) les deux droites des moindres carrs sont confondues
d) les deux droites des moindres carrs ont une pente positive
3. On dispose de deux observations {(2, 3) et ( 3, 1)} sur un couple ( X, Y) de
variables quantitatives :
a) les deux droites des moindres carrs sont confondues
b) le coefficient de corrlation linaire entre X et Y est gal + 1
c) la pente de la droite des moindres carrs de Y en x est ngative
d) on peut calculer le rapport de corrlation de X en y
4. On dispose pour 10 annes du nombre X dabonns au tlphone et du nom-
bre Y de botes dantalgiques (mdicament contre la douleur) vendues dans
une ville moyenne ; le coefficient de corrlation linaire calcul partir de ces
10 couples dobservations est gal 0,996 :
a) les deux variables X et Y sont lies par une relation linaire
b) pour diminuer la consommation dantalgiques, il suffit de refuser des abonnements
tlphoniques
c) les deux droites des moindres carrs sont quasi-confondues
d) les droites des moindres carrs ont des pentes ngatives
5. Sur une population, on a observ une variable quantitative X et une variable
qualitative Y trois modalits. La distribution est la suivante :
Y
X
y
1
y
2
y
3
0 75 40 100 50
1 25 60 0 50
100 100 100 100
Testez-vous (les rponses sont donnes page 284)
P067-102-9782100549412.fm Page 94 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

95


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
a) ce tableau est un tableau de contingence
b) la variable X a une moyenne gale 0,5
c) on peut mesurer la liaison entre X et Y par un rapport de corrlation
d) si les profils en colonne taient tous identiques, alors X et Y seraient indpendantes
6. Le tableau suivant donne la distribution de deux variables statistiques X et Y :
a) la moyenne conditionnelle est gale 1/3
b) les moyennes conditionnelles de X sobtiennent partir du tableau des profils en
colonnes
c) la moyenne est gale la somme des moyennes conditionnelles
d) les moyennes conditionnelles de Y sobtiennent partir du tableau des profils en
lignes
7. Le tableau suivant donne la distribution conjointe de deux variables
quantitatives X et Y :
a) si a = 20 et b = 5, alors le coefficient de corrlation linaire r est nul
b) si a = 0 et b = 0, alors r = 1
c) si a = 0 et b = 10, alors r = 1
d) si a = 10 et b = 10, alors r = 0
8. Pour dfinir un tableau de contingence deffectif total n k lignes et
l colonnes :
a) il suffit de connatre les effectifs marginaux
b) il suffit de connatre k (l 1) lments du tableau
c) il suffit de connatre k (l 1) lments du tableau et les sommes en lignes
d) il suffit de connatre ( k 1) (l 1) lments du tableau et ses marges
Y
X
0 3 4
0 20 20 0
1 10 40 10
Y
X
0 1
1 a 10
1 10 b
x
1
x x
1
P067-102-9782100549412.fm Page 95 Mercredi, 24. novembre 2010 9:53 09
96

INTRODUCTION LA MTHODE STATISTIQUE


9. Parmi un groupe de 100 malades qui se plaignent de ne pas bien dormir, cer-
tains ont pris un somnifre sous forme de cachet, dautres ont pris un cachet
de sucre ; tous pensaient prendre un somnifre. Aprs la nuit, on leur a
demand si le cachet avait t efficace. Le tableau suivant donne la rparti-
tion des rponses (on suppose que tous les malades ont dit la vrit) :
a) ce tableau est un tableau de contingence
b) parmi les malades qui ont pris un somnifre, 26 % ont bien dormi
c) pour calculer le
2
, il faut calculer les effectifs marginaux
d) le
2

est gal 1,284
10. Ce tableau donne la rpartition des salaris et non-salaris par sexe pour les
actifs de 15 ans ou plus ayant un emploi et vivant en France mtropolitaine :
Source : INSEE, enqutes Emploi du 1
er
au 4
e
trimestre 2008.
a) les femmes plus souvent salaries que les hommes
b) la rpartition entre les statuts salaris et non-salaris est indpendante du sexe
c) pour lensemble des hommes et des femmes, il y a 20,7 % de non-salaris
d) pour lensemble des hommes et des femmes, il y a 89,5 % de salaris
Ont bien dormi Nont pas bien dormi
Somnifre 26 6
Sucre 48 20
Hommes Femmes
Non-salaris 13,4 7,3
Salaris 86,6 92,7
Intrimaires
Apprentis
Contrats dure dtermine
Contrats dure indtermine
2,8
1,7
6,0
76,1
1,4
0,9
10,8
79,6
100,0 100,0
Total des emplois (milliers) 13 670 12 243
P067-102-9782100549412.fm Page 96 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

97


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Exercice 3.1
Une tude mene par un groupe de compagnies dassurances auprs de 30 000 assu-
rs pour le risque vhicules moteur a permis de dterminer les proportions (en
pourcentage) dassurs correspondant la puissance fiscale , note X, du vhicule
assur et au kilomtrage parcouru au cours de la dernire anne, not Y. Les rsultats
sont reports dans le tableau suivant :
1. Prcisez la population tudie, les caractres tudis et leur nature.
2. Donnez la distribution du kilomtrage parcouru. Comment sappelle cette
distribution ? Calculez sa moyenne et son cart-type en supposant que tous les
assurs ont fait au moins 2 000 km et au plus 50 000 km. Dterminez la mdiane.
3. Donnez la distribution, en pourcentage, du kilomtrage parcouru par les posses-
seurs dune voiture dune puissance fiscale dau plus 6 CV. Quel est le type de
cette distribution ?
Calculez sa moyenne et son cart-type.
Exercice 3.2
Dans une entreprise, on tudie la rpartition de 100 salaries femmes ( cf. tableau 1)
et 140 salaris hommes ( cf. tableau 2) selon le salaire mensuel brut X exprim en
euros et lanciennet Y exprime en annes.
Y (milliers de km)
X (chevaux
fiscaux)
< 10 [10 ; 20[ [20 ; 30[ [30 ; 40[ 40
4
5 6
7 8
9 10
> 10
4,4
7,2
2,4
1,6
8,2
7,2
4,0
13,6
2,4
2,6
14,4
11,6
4,4
4,4
6,0
5,6
Tableau 1 Salaries femmes
Y
X
[0 ; 4[ [4 ; 8[ [8 ; 12[ [12 ; 20[ [20 ; 28]
[1 200 ; 1 800[ 12 10 10 8
[1 800 ; 2 200[ 8 14 5 4 4
[2 200 ; 3 000[ 6 5 6 3
[3 000 ; 4 200] 2 3
Exercices (corrigs page 300)
P067-102-9782100549412.fm Page 97 Mercredi, 24. novembre 2010 9:53 09
98

INTRODUCTION LA MTHODE STATISTIQUE


1. Dfinissez la population tudie, lunit statistique, les caractres tudis et leur
nature.
2. Quel pourcentage de femmes gagnent moins de 2 200 parmi les femmes qui ont
moins de 8 ans danciennet ?
3. Calculez la moyenne et lcart-type du salaire des femmes, ainsi que la moyenne
et lcart-type du salaire des hommes. En dduire le salaire moyen de lensemble
des 240 salaris.
4. Calculez la moyenne et lcart-type de lanciennet des femmes.
5. Reprsentez le graphe des frquences cumules de la distribution marginale de
lanciennet des femmes.
6. Calculez la distribution (en pourcentage) de lanciennet des femmes gagnant au
moins 1 800 .
7. On considre la distribution conjointe du salaire et de lanciennet des cent sala-
ris femmes. Sachant que le coefficient de corrlation entre X et Y est gal
0,45 pour cette distribution, donnez lquation de la droite des moindres carrs de
Y en X. Quel est le point dintersection de cette droite avec lautre droite des moin-
dres carrs de X en Y ?
Exercice 3.3
Le tableau suivant donne les pourcentages de variation par rapport la priode pr-
cdente du produit intrieur brut (prix constants) et de la consommation finale prive
(prix constants) en France ( source : http://stats.oecd.org/)
1. Calculez les sries des indices, base 1989, du PIB et de la Consommation prive.
Calculez le coefficient de corrlation linaire entre les indices du PIB et de
la consommation prive.
Tableau 2 Salaris hommes
Y
X
[0 ; 4[ [4 ; 8[ [8 ; 12[ [12 ; 20[ [20 ; 28]
[1 200 ; 1 800[ 10 6
[1 800 ; 2 200[ 4 9 18 8 8
[2 200 ; 3 000[ 4 8 16 12 4
[3 000 ; 4 200] 5 8 8 12
Anne 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
PIB 2,6 1,0 1,4 0,9 2,2 2,1 1,1 2,2 3,5 3,3
Consommation 2,5 0,6 1,0 0,4 1,4 1,7 1,6 0,4 3,9 3,5
Anne 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
PIB 3,9 1,9 1,0 1,1 2,5 1,9 2,2 2,3 0,4 2,2
Consommation 3,6 2,6 2,4 2,0 2,5 2,6 2,4 2,5 1,0 0,8
P067-102-9782100549412.fm Page 98 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

99


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
2. Peut-on considrer qu'il y a approximativement une liaison linaire entre les indi-
ces de volume du PIB et de la Consommation prive ? Calculez lquation de la
droite des moindres carrs expliquant lindice de la Consommation prive en fonc-
tion de lindice du PIB.
Reprsentez le nuage des 21 points avec la droite des moindres carrs.
Quelle est la part de variation de l'indice de la consommation prive explique par la
relation linaire ?
3. Calculez le coefficient de corrlation linaire entre les variations du PIB et de la
Consommation prive. Calculez lquation de la droite des moindres carrs expli-
quant la variation de la Consommation prive en fonction de la variation du PIB.
Reprsentez le nuage des 20 points avec la droite des moindres carrs.
4. Vous semble-t-il plus intressant d'analyser la liaison entre les variations du PIB
et celles de la Consommation prive qu'entre les indices du PIB et de la Consom-
mation prive ? Si oui, pourquoi ?
Exercice 3.4
Une entreprise a effectu un sondage auprs de sa clientle pour connatre son appr-
ciation sur le service livraison. Les rsultats ont t les suivants :
1. Calculez le pourcentage total de clients plutt satisfaits ou trs satisfaits.
2. Calculez le pourcentage de clients de plus de 2 ans danciennet parmi les clients
plutt satisfaits ou trs satisfaits.
3. Donnez le tableau des profils en ligne.
4. Donnez le tableau de contingence obtenu en regroupant :
dune part les clients pas du tout satisfaits et plutt pas satisfaits ;
et dautre part les clients plutt satisfaits et trs satisfaits.
5. Si les 2 caractres taient indpendants, combien aurait-on de clients de plus de
2 ans danciennet dans la catgorie plutt satisfait ou trs satisfait ?
Daprs examen de juin 2001, GEA 1
re
anne Paris IX-Dauphine.
Exercice 3.5
Lobservation des quantits offertes sur un march de raisin de table et des prix de
vente a donn les rsultats suivants :
Pas du
tout
satisfait
Plutt
pas
satisfait
Plutt
satisfait
Trs
satisfait
Clients de plus de 2 ans danciennet 10 50 245 195
Clients dau plus 2 ans danciennet 40 90 205 165
Quantit X la vente (tonnes) 100 120 84 78 87 80 110 95
Prix moyen Y par kg (euros) 1,60 1,40 1,95 2,10 1,75 2,25 1,50 1,80
P067-102-9782100549412.fm Page 99 Mercredi, 24. novembre 2010 9:53 09
100

INTRODUCTION LA MTHODE STATISTIQUE


1. Calculez le coefficient de corrlation linaire entre X et Y.
2. Dterminez lquation de la droite des moindres carrs de Y en X. Sans faire de
calcul, donnez le signe de la pente de la droite des moindres carrs de X en Y.
3. On admet que la valeur du prix moyen Y par kg en fonction de la quantit la
vente X est dtermine par lquation trouve la question 2.
La recette globale correspondant la vente de la totalit du raisin est-elle une fonc-
tion constamment croissante de x ?
Sinon, quelle est la valeur critique x
c
que les producteurs ont intrt ne pas
dpasser ?
Exercice 3.6
Le tableau suivant, extrait de la revue Synthses, Revenus et patrimoine des
mnages (INSEE, n 19, 1998), donne la rpartition (en %) des mnages selon leur
niveau de vie et leur type socio-conomique.
1. Prcisez la population tudie, lunit statistique, les caractres et leur nature.
2. Quels types de distributions avez-vous dans ce tableau ? crire les deux tableaux
de distributions conditionnelles.
3. Donnez la valeur mdiane du niveau de vie en F/uc/mois des mnages appartenant
aux Quartiers hupps .
4. Proposez un indicateur de disparit des niveaux de vie pour lensemble des mna-
ges. Donnez sa valeur.
5. Parmi les mnages ayant un niveau de vie suprieur au 3
e
quartile (mnages qui
se situent parmi les 25 % ayant le niveau de vie le plus lev, soit plus de
Niveau de vie
(en F/uc/mois)
Type socio-conomique
Infrieur
au 1
er
dcile
< 3 700
Du 1
er
dcile
au 3
e
quartile
[3 700 ; 9 933[
Du 3
e
quartile au
9
e
dcile
[9 933 ; 13 900[
Au moins gal
au 9
e
dcile
13 900
Ensemble
Communes agricoles 22
18
13
70
7
8
5
4
12
100
Communes et quartiers ouvriers 41
11
41
71
31
12
22
6
37
100
Communes et quartiers
des classes moyennes tertiaires
28
8
34
65
39
17
32
9
34
100
Communes et quartiers
techniques trs qualifis
3
5
5
51
11
25
13
19
7
100
Quartiers hupps 6
6
6
44
12
20
28
30
9
100
Ensemble 100
10
100
65
100
15
100
10
100
100
uc : unit de consommation.
Lecture : 30 % des habitants des quartiers hupps appartiennent au 10
e
dcile de niveau de vie (cest--dire parmi les
10 % des mnages les plus aiss). Et 28 % des mnages du 10
e
dcile habitent dans des quartiers hupps.
Champ : mnages hors tudiants.
Source : Enqute Logement 1996, INSEE.
P067-102-9782100549412.fm Page 100 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

101


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
9 933 F/uc/mois), quel pourcentage habite dans un quartier hupp ou dans un
quartier technique trs qualifi .
6. Calculez la distribution (en %) du niveau de vie en F/uc/mois des mnages appar-
tenant aux communes et quartiers techniques trs qualifis ou aux quartiers
hupps .
Exercice 3.7
Le tableau suivant donne la distribution de 200 tudiants selon leur note dexamen X
en conomie et leur note dexamen Y en Statistique.
1. Calculez les rapports de corrlation de Y en x, et de X en y.
2. Tracez la courbe de rgression de Y en x.
3. Peut-on calculer une autre mesure de la liaison des variables X et Y ?
Exercice 3.8
Reprenons les donnes relatives aux 21 eaux minrales gazeuses (cf. tableau 3.5). On
recode la variable X (fluorures) en trois classes et la variable Y (sodium) en quatre
classes, de la faon suivante :
1. crire un tableau qui a pour premire colonne les eaux minrales, pour deuxime
colonne la variable X
C
(variable X recode) gale au numro de classe dans le
recodage de X, et pour troisime colonne la variable Y
C

(variable Y recode) gale
au numro de classe dans le recodage de Y.
Y
X
[5 , 7[ [7 , 9[ [9 , 11[ [11 , 13[ [13 , 15[ [15 , 17[ [17 , 19]
[5 , 7[ 7 3 2
[7 , 9[ 2 12 12 2
[9 , 11[ 1 10 18 8 2
[11 , 13[ 7 15 21 10 1
[13 , 15[ 11 12 13 5
[15 , 17[ 1 3 10 7 1
[17 , 19] 1 1 2
C1
X
[0 ; 1[ C1
Y
[0 ; 100[
C2
X
[1 ; 2[ C2
Y
[100 ; 300[
C3
X
[2 ; 9] C3
Y
[300 ; 500[
C4
Y
[500 ; 2 000]
P067-102-9782100549412.fm Page 101 Mercredi, 24. novembre 2010 9:53 09
102

INTRODUCTION LA MTHODE STATISTIQUE


2. Construire le tableau de la distribution conjointe des variables X
C
et Y
C
(X
C
en
ligne et Y
C
en colonne). Donnez le tableau des profils en ligne associ.
3. Les variables X
C
et Y
C
sont-elles indpendantes ? (justifiez votre rponse)
4. Donnez le tableau de distribution de la variable X
C
sachant que Y est suprieur
300 mg/l. Comment sappelle cette distribution ?
Exercice 3.9
Soit les donnes trimestrielles suivantes relatives des souscriptions de contrats
dassurance vie de fin mars 2000 fin dcembre 2002 :
Tous les rsultats de cet exercice seront donns avec une prcision de deux dcimales.
1. Calculez le taux trimestriel moyen de croissance du nombre de contrats souscrits.
2. On ajuste cette srie par le modle linaire : Y = a t + b.
2.1. Calculez les coefficients de ce modle par la mthode des moindres carrs.
2.2. Quelle est la part de variation de Y non explique par le modle ?
3. On ajuste maintenant cette srie par le modle quadratique : Y = at
2
+ b.
3.1. Calculez les coefficients de ce modle par la mthode des moindres carrs.
3.2. Quelle est la part de variation de Y non explique par ce nouveau modle ?
4. Quel modle choisissez-vous ? (justifiez votre rponse)
Daprs examen de juin 2006, DUGEAD 1
re
anne Paris-Dauphine.
t
Y = Nombre
de contrats
souscrits
1
2
3
4
5
6
7
8
9
10
11
12
117
178
149
189
145
173
170
223
223
281
285
339
400
350
300
250
200
150
100
50
0
0 1 2 3 4 5 6 7 8 9 10 11 12
N
o
m
b
r
e

d
e

c
o
n
t
r
a
t
s
t
Reprsentation graphique
P067-102-9782100549412.fm Page 102 Mercredi, 24. novembre 2010 9:53 09

SRIES CHRONOLOGIQUES ET PRVISION




103


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

4. S

ries chronologiques
et prvision

ne srie chronologique ou chronique



est constitue par une
suite ordonne dobservations dune grandeur au cours du
temps. Ltude de ces sries intresse tous ceux qui dsirent
dcrire, expliquer, contrler, prvoir des phnomnes voluant au cours
du temps.

I.

lments constitutifs dune srie chronologique

Ltude dune srie chronologique {

x

t

,

t

= 1, ,

T

} consiste dissocier les
diffrents mouv ements qui la composent et les analyser . Cette dcom-
position est une construction de lesprit puisque les sries composantes sont
des concepts abstraits et ne peuv ent pas tre directement observes. Une
reprsentation graphique simpose en dbut danalyse de toute chronique an
de faire apparatre les lments fondamentaux.
Les intervalles entre deux observations successives sont supposs de
mme longueur. Dans la pratique, cette hypothse est rarement ralise.
Pour des sries mensuelles de productions, de ventes, le nombre de jours
ouvrables de chaque mois varie : le nombre de dimanches dans le mois, les
jours de certaines ftes mobiles ne sont pas les mmes chaque anne. Pour
que ces variations ne soient pas intgres dans la composante rsiduelle du
modle, on corrige les donnes en adoptant une correction proportionnelle
qui consiste pour des donnes mensuelles, par exemple, ramener chaque
mois un mme nombre thorique de jours.

A. L

a tendance long terme

La

tendance long terme

ou

trend,

note

f

t

, est le f acteur reprsentant
lvolution long terme de la grandeur, et traduit laspect gnral de la srie :
U

P103-130-9782100549412.fm Page 103 Mercredi, 24. novembre 2010 10:14 10

104



INTRODUCTION LA MTHODE STATISTIQUE

croissance de la consommation dlectricit, croissance du trac arien,
diminution de la population rurale, par exemple.
Pour de longues sries, un

mouvement cyclique

peut se superposer la
tendance. La composante cyclique lie la succession des phases du cycle
conomique (prosprit, dpression, reprise), a donn lieu jusquau milieu du

XX

e

sicle de multiples travaux, mais nest plus actuellement lobjet dun
intrt aussi marqu.

B. L

e mouvement saisonnier

Le

facteur saisonnier

, not

s

t

, se rpte intervalles de temps gaux avec une
forme peu prs constante. Il peut tre d au rythme des saisons ou des
facteurs humains. Sa priode est de 12 pour des sries mensuelles, de 4 pour
des sries trimestrielles
Si

p

dsigne la priode du mouvement saisonnier :

s

t

= s

t + p

=

s

t +


2

p

=
Le facteur saisonnier est donc totalement dtermin par

p

coefficients
saisonniers :

s

1

,

,

s

j

, ,

s

p

C. L

es irrgularits

Cette composante, appele aussi

mouvement rsiduel

et note

e

t

, regroupe
tout ce qui na pas t pris en compte par la tendance et le f acteur saisonnier.
Elle est la rsultante de uctuations irrgulires et imprvisibles dues des
facteurs perturbateurs non permanents ; ces uctuations sont supposes de

faible amplitude

et de

moyenne nulle

sur un petit nombre dobserv ations
conscutives.

D. L

es perturbations

Les

perturbations

sont des uctuations ponctuelles de forte amplitude. Elles
sont dues, par e xemple, une grv e, des conditions mtorologiques
exceptionnelles pour lagriculture, un krach nancier Il con vient de les

liminer

avant tout traitement de la srie

.

Les mthodes pour le f aire sont
simples ; pour

faire comme si

ces vnements na vaient pas eu lieu, les
instruments pri vilgis sont

linterpolation

et

la rgle de tr ois

. La
reprsentation de la srie chronologique des Voyageurs RATP de 1995
2002 (

cf.

gure 4.1) montre une baisse importante du nombre de v oyageurs
en dcembre 1995 due une longue grv e. Avant destimer les composantes
de cette chronique, il est ncessaire de corriger la v aleur 0,19 milliard de
voyageurs-km de ce mois de dcembre en la remplaant, par e xemple par la

P103-130-9782100549412.fm Page 104 Mercredi, 24. novembre 2010 10:14 10

SRIES CHRONOLOGIQUES ET PRVISION




105


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

moyenne des mois de dcembre 1994 et 1996 (resp. 1,06 et 0,95 milliards de
voyageurs-km), soit 1 milliard de voyageurs-km.
On traite gnralement des sries deux composantes : tendance et mou-
vement rsiduel, ou trois composantes : tendance, mouvement saisonnier
et mouvement rsiduel. Les observations dune chronique possdant une
composante saisonnire peuvent tre disposes dans un tableau selon les
deux dimensions du temps, annuelle et mensuelle (ou trimestrielle), comme
pour les tableaux 4.1, 4.2 et 4.4. Cette prsentation, introduite par C. Buys-
Ballot en 1847, est appele table de Buys-Ballot .

II. L

es modles de composition dune srie
chronologique

La dcomposition dune srie chronologique possdant un mouv ement
saisonnier peut seffectuer selon trois types de modles :
modle additif

x

t

=

f

t

+

s

t

+

e

t

t

= 1, ,

T

modle multiplicatif

x

t

=

f

t

(1+

s

t

) (1+

e

t

)

t

= 1, ,

T

modle mixte

x

t

=



f

t



(1+

s

t

) +

e

t

t

= 1, ,

T

On choisit un modle multiplicatif ou mixte si le mouvement saisonnier
prsente des amplitudes proportionnelles la tendance.
Notons quune transformation logarithmique du modle multiplicatif
ramne au modle additif :
puisque
Nous nenvisagerons de mthodes de dcomposition que pour les modles
additif et multiplicatif.
Pour le mouvement saisonnier de priode

p

, on fait lhypothse dune
compensation exacte sur une priode entre les variations saisonnires positi-
ves et les variations saisonnires ngatives, sinon, le partage entre le facteur
saisonnier et la tendance serait indtermin :
Quand on analyse une srie chronologique, le premier problme est le
suivant : la srie prsente-t-elle des variations saisonnires et si oui, quel est
le schma de composition le mieux adapt ?
x
t
( ) log f
t
1 s
t
+ ( ) 1 e
t
+ ( )
( ,
j \
log f
t
( ) log 1 s
t
+ ( ) log e
t
+ + =
1 e
t
+ ( ) log e
t

s
j
j=1
p

0 =
P103-130-9782100549412.fm Page 105 Mercredi, 24. novembre 2010 10:14 10
106

INTRODUCTION LA MTHODE STATISTIQUE


On commence par reprsenter la srie graphiquement. Si la srie prsente des
variations saisonnires, les points hauts (maxima) ainsi que les points bas
(minima), sont toujours distants du mme nombre de dates, ce nombre tant la
priode du mouvement saisonnier. La chronique reprsente la figure 4.1 a une
composante saisonnire de priode 12 (srie mensuelle), et la chronique reprsen-
te la figure 4.2 a une composante saisonnire de priode 4 (srie trimestrielle).
Source : www.insee.fr
Source : www.insee.fr
Tableau 4.1 Voyageurs RATP (milliards de voyageurs/km)
Anne
Mois
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
Moyenne
mensuelle
Janvier
Fvrier
Mars
Avril
Mai
Juin
Juillet
Aot
Septembre
Octobre
Novembre
Dcembre
1,04
0,93
1,06
0,89
0,98
1,01
0,79
0,65
0,87
0,98
0,83
0,19
0,91
0,95
0,94
0,93
0,92
0,94
0,85
0,62
0,92
1,07
0,96
0,95
0,98
0,89
1,02
0,96
0,94
0,97
0,86
0,65
0,93
1,08
0,99
1,00
1,01
0,91
1,07
0,98
0,94
1,01
0,88
0,67
1,00
1,10
1,04
1,08
1,05
0,98
1,13
1,01
0,99
0,99
0,90
0,71
1,02
1,14
1,05
1,07
1,09
0,99
1,17
1,00
1,12
1,03
0,99
0,76
1,04
1,20
1,14
1,14
1,14
1,00
1,19
1,02
1,10
1,12
0,99
0,79
1,05
1,21
1,14
1,09
1,18
1,09
1,23
1,11
1,12
1,16
1,08
0,80
1,12
1,28
1,16
1,18
1,22
1,06
1,24
1,08
1,01
1,04
1,01
0,76
1,14
1,27
1,16
1,23
1,21
1,12
1,31
1,15
1,18
1,26
1,07
0,84
1,2
1,31
1,24
1,28
1,08
0,99
1,14
1,01
1,03
1,05
0,94
0,73
1,03
1,16
1,07
1,02
Moyenne
annuelle
0,85 0,91 0,94 0,97 1,00 1,06 1,07 1,13 1,10 1,18 1,02
Tableau 4.2 Indices de valeur des produits alimentaires (base 2000)
Anne
Mois
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
Moyenne
mensuelle
Janvier
Fvrier
Mars
Avril
Mai
Juin
Juillet
Aot
Septembre
Octobre
Novembre
Dcembre
62,2
64,7
81,3
72,4
85,3
84,5
89,0
82,5
89,1
85,1
91,9
88,5
68,4
67,2
77,9
83,3
85,0
85,8
90,4
81,1
86,5
92,9
90,9
98,5
69,4
70,7
78,9
87,1
84,6
86,3
95,0
88,6
98,0
101,7
96,2
101,5
76,1
79,3
92,4
92,7
91,8
98,3
99,9
93,3
102,7
96,0
106,3
107,3
78,5
76,3
99,0
90,1
90,8
100,5
102,9
102,4
110,4
104,0
118,6
111,9
75,9
79,1
99,7
88,5
103,8
98,6
95,0
108,1
113,9
105,3
119,7
112,6
87,0
82,5
98,7
89,6
100,7
102,6
101,4
107,7
105,9
111,0
122,8
107,8
87,8
89,1
99,9
103,0
100,0
103,6
110,8
107,6
112,4
119,8
126,9
122,5
90,3
90,1
102,7
108,9
103,1
116,4
125,2
117,6
121,7
125,8
127,8
134,8
96,0
93,9
117,5
118,2
108,1
133,6
130,9
125,0
130,3
118,4
141,5
142,3
79,2
79,3
94,8
93,4
95,3
101,0
104,1
101,4
107,1
106,0
114,3
112,8
Moyenne
annuelle
81,4 84,0 88,2 94,7 98,8 100,0 101,5 107,0 113,7 121,3 99,0
P103-130-9782100549412.fm Page 106 Mercredi, 24. novembre 2010 10:14 10

SRIES CHRONOLOGIQUES ET PRVISION




107


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

Pour

choisir le modle de composition

, on peut relier par une courbe (ou
plutt par une ligne brise) les maxima distants dune priode

p

et faire de
mme avec les minima.
Si ces deux courbes sont peu prs parallles, alors le facteur saisonnier
a des amplitudes peu prs constantes, cest--dire quil affecte la ten-
dance indpendamment de son niveau, et le schma additif est adapt.
Figure 4.1 Reprsentation graphique de la chronique du tableau 4.1
Figure 4.2 Reprsentation graphique de la chronique du tableau 4.2

P103-130-9782100549412.fm Page 107 Mercredi, 24. novembre 2010 1:08 13

108



INTRODUCTION LA MTHODE STATISTIQUE

Cest le cas de la chronique des Voyageurs RATP de 1995 2004
(

cf

. figure 4.1).
Sinon, on reprsente la chronique sur un papier

ordonne logarithmique

(chapitre 2, IV.A). Si les deux courbes reliant les extrema sont peu prs
parallles, alors le facteur saisonnier a des amplitudes peu prs proportion-
nelles la tendance, cest--dire que les effets des variations saisonnires
sont

proportionnels

au niveau atteint par la tendance, et le schma multipli-
catif est adapt. Cest le cas de la chronique des Indices de valeur des
produits alimentaires



de 1995 2004 (

cf.

figures 4.2 et 4.3).
Le modle multiplicatif convient dans la plupart des cas puisque dune
part, leffet saisonnier est gnralement proportionnel la tendance, et que
dautre part, dans le cas dune chronique tendance faiblement croissante ou
faiblement dcroissante, les deux schmas sont quasiment quivalents. Cest la
raison pour laquelle on nvoque bien souvent que le modle multiplicatif.

III. A

nalyse de la tendance

A. A

justement de la tendance par une fonction analytique

Les logiciels spcialiss (SPSS), mais aussi les tableurs (Excel


),
proposent des fonctions analytiques pour ajuster la tendance, lajustement se
Figure 4.3 Reprsentation de la chronique du tableau 4.2
avec une ordonne logarithmique

P103-130-9782100549412.fm Page 108 Mercredi, 24. novembre 2010 1:09 13
SRIES CHRONOLOGIQUES ET PRVISION

109


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
faisant par la mthode des moindres carrs (mthode qui minimise les carts
quadratiques entre modle et observ ations). Citons quelques-uns de ces
modles :
modle linaire : y(t) = a + b t
modle quadratique : y(t) = a + b t + c t
2
modle exponentiel : y(t) = exp (a + b t), ce type de modle convient
des quantits voluant taux constant puisque y(t + 1) = exp(b) y(t)
( y (t + 1) = c y(t) o c est constant)
modle logarithmique : y(t) = a + b ln (t)
modle S (courbe sigmode ) : y(t) = exp(a + b/t), ce type dajuste-
ment convient la description du cycle de vie de certains produits.
Ces mthodes analytiques sont simples, mais reposent sur lhypothse
dune tendance voluant selon une fonction analytique dtermine, hypothse
quon ne peut pas frquemment faire, mme la suite dune transformation
de variable.
En labsence de rfrence un modle prcis pour la tendance, on prf-
rera utiliser une mthode non-paramtrique qui filtre la tendance en liminant
le facteur saisonnier tout en rduisant les irrgularits. Dans la suite, nous
appellerons filtre une sorte de bote noire rgularisant une chronique X en
la transformant en une chronique Y qui est une approximation de la compo-
sante tendancielle de la chronique X :
Nous tudierons deux des principaux filtres linaires qui sont la moyenne
mobile et le lissage exponentiel simple. Un filtre linaire est une application
linaire de lensemble des chroniques dans lui-mme transformant la chroni-
que X en une nouvelle chronique Y de la faon suivante :
avec et
Le choix du filtre linaire appropri certains objectifs se fait par linter-
mdiaire du choix de ses coefficients
k
B. Dfinition dune moyenne mobile
On appelle moyennes mobiles centres de longueur p (p < T) de la srie
{x
t
, t = 1, , T} les moyennes successives calcules en fonction de la parit
de p selon les formules qui suivent.
X Y
y
t

k
x
t k +
k K

= K
k
k K

1 =
filtre
P103-130-9782100549412.fm Page 109 Mercredi, 24. novembre 2010 10:14 10
110

INTRODUCTION LA MTHODE STATISTIQUE


Premier cas, p impair, p = 2m + l :
Il y a ( T p + 1) moyennes mobiles centres de longueur impaire p.
Deuxime cas, p pair, p = 2m :
La moyenne mobile centre M
2m
(t) apparat comme la moyenne pondre
de valeurs de la srie encadrant la date t avec les coefficients de pondration
gaux pour les deux valeurs extrmes x
t m
et x
t + m
et gaux pour
les (p 2) valeurs intermdiaires x
t m + 1
x
t + m 1
.
Elle comporte donc ( p + 1) termes :
Il y a ( T p) moyennes mobiles centres de longueur paire p.
Pour simplifier, la longueur p de la moyenne mobile tant fixe, on notera
dsormais y
t
la moyenne mobile centre de longueur p la date t.
C. Dtermination de la tendance par la mthode
des moyennes mobiles
Si une srie X est priodique de priode p, cest--dire si la srie rede vient
identique elle-mme tous les p termes, alors toute suite de mo yennes
mobiles de longueur (diffrente de p) a pour priode p.
Dmontrons cette proprit dans le cas o est impair ( = 2m + 1).
Soit y
t
la moyenne mobile centre de longueur la date t de la srie X,
montrons que la srie Y est de priode p :
La dmonstration de cette proprit est laisse au lecteur pour le cas o p
est pair, et celui-ci pourra montrer en sus que lorsque la priode de la srie
Valeurs x
t m
x
t m + 1
. x
t
. x
t + m 1
x
t + m
Pondrations
. .
M
p
t ( )
1
p
--- x
t+k
k m =
+m

=
M
p
t ( )
1
p
---
x
t m
2
----------
x
t k +
k m 1 + =
m 1

x
t m +
2
----------- + +
( ,
, (
j \
=
1
2p
------
1
p
---
1
2p
------
1
p
---
1
p
---
1
p
---
1
2p
------
p
p p
p
y
t p +
1
2m+1
--------------
x
t p k + +
k = m
+m


1
2m

+1
--------------

x

t k

+
k = m
+m


y

t

= = =

P103-130-9782100549412.fm Page 110 Mercredi, 24. novembre 2010 10:14 10

SRIES CHRONOLOGIQUES ET PRVISION




111


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

X

est gale la longueur de la moyenne mobile (

p

' =

p

), les moyennes mobi-
les forment alors une suite de termes constants gaux la moyenne des ter-
mes de la srie

X

sur une priode.
La moyenne mobile centre de longueur

p

rend

constantes

les sries
priodiques de priode

p

.


Deux chroniques ont la mme suite de moyennes mobiles centres de
longueur

p

si leur diffrence est une srie priodique de priode

p

dont la
somme des termes sur une priode est nulle.


Exemple

La chronique {

x

t

,



t

= 1, ,12} du tableau 4.3 est priodique de priode

p

= 4 ; les suites des moyennes mobiles de longueur 2, 3, 5 sont aussi
de priode 4, et la suite des moyennes mobiles de priode 4 est une suite
de termes constants gaux -1/4, moyenne des termes sur une priode.

Tableau 4.3 Calcul de moyennes mobiles

Soit

C

, la courbe joignant les points (

t , x

t

). Si la concavit de

C

est
tourne vers le haut, alors

y

t

est suprieur

x

t


pour tout

t

; dans le cas
contraire,

y

t

est infrieur

x

t

pour tout

t

. Si

C

est une droite,

y

t



est gal


x

t



pour tout

t

.
En conclusion, la moyenne mobile centre transforme une srie aligne
en elle-mme et plus gnralement, une srie monotone faible cour-
bure en une srie peu diffrente.
La moyenne mobile transforme des carts dus des irrgularits ind-
pendantes, de moyenne nulle sur un petit nombre de dates successives
(par hypothse) et de mme variance en carts de variance plus faible ;
on dit quelle a un effet de rabot , ou aussi quelle lisse la chro-
nique, en ce sens que la srie Y est moins disperse que la srie initiale
X. Mais les nouvelles irrgularits qui sont corrles entre elles, peuvent
faire apparatre des oscillations parasites qui ne figuraient pas dans la
srie initiale (effet de Slutsky-Yule).

P103-130-9782100549412.fm Page 111 Mercredi, 24. novembre 2010 10:14 10
112

INTRODUCTION LA MTHODE STATISTIQUE


Si la priode du mouvement saisonnier est gale p, alors la
moyenne mobile centre de longueur p est un filtre linaire qui limine
le mouvement saisonnier tout en rduisant lamplitude du mouvement
rsiduel. De plus, on montre que sa valeur y
t
la date t peut tre assi-
mile la tendance f
t
si celle-ci est faible courbure faible variation
dans le cas dun schma multiplicatif sur p dates conscutives.
D. Inconvnients de la mthode des moyennes mobiles
Un changement de niveau ou de pente de la tendance une date t entrane une
mauvaise approximation de cette composante pendant toute une priode
prcdant et sui vant cette date (gure 4.4). Cest la raison pour laquelle on
fait lhypothse dune tendance monotone faible courbure.
Si on dispose de T = np observations (n = nombre dannes et p = priode
du mouvement saisonnier) et si p est pair, on ne peut calculer que ( T p )
moyennes mobiles de longueur p. On ne disposera pas de valeurs pour la
tendance sur les p/2 dernires dates qui ne pourront pas tre prises en compte
pour une prvision.
Malgr ces inconvnients, on admettra que dans la plupart des cas, la
valeur f
t
de la tendance svalue par la moyenne mobile centre y
t
de lon-
gueur gale la priode du mouvement saisonnier.
Figure 4.4 Reprsentation dune chronique et de ses moyennes mobiles centres de longueur 4
P103-130-9782100549412.fm Page 112 Mercredi, 24. novembre 2010 10:14 10
SRIES CHRONOLOGIQUES ET PRVISION

113


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
IV. Correction des variations saisonnires
Si on tudie une chronique a vec variations saisonnires, lv aluation de la
tendance chaque date t par la mo yenne mobile centre de longueur
adquate, conduit pour chaque coefcient saisonnier plusieurs valeurs quil
faut rsumer. Pour bien comprendre toutes les oprations successi ves pour la
dtermination des coef cients saisonniers et de la srie corrige des
variations saisonnires, on se reportera lexemple trait au paragraphe 5.
A. Modle additif
Le modle est le suivant : x
t
= f
t
+ s
t
+ e
t
On approxime la tendance f
t
par la moyenne mobile centre y
t
.
Soient n le nombre dannes et p la priode du facteur saisonnier :
T = np observations np p = p (n 1) moyennes mobiles si
p est pair ( cf. tableau 4.5).
Les coefficients saisonniers tant priodiques de priode p, on dispose
pour chacun des p coefficients saisonniers de ( n 1) valeurs qui sont ( n 1)
diffrences {x
t
y
t
}. On rsume ces ( n 1) valeurs par leur moyenne arith-
mtique, ou leur mdiane, ou leur moyenne arithmtique aprs limination
de la valeur la plus faible et de la valeur la plus leve (le logiciel SPSS
utilise ce dernier rsum).
Si la somme des coefficients saisonniers nest pas nulle sur une priode,
on corrige les coefficients saisonniers obtenus de faon avoir une somme
nulle :
s
t
avec
On appelle srie corrige des variations saisonnires (srie CVS) la srie
des diffrences :
Pour toutes les dates pour lesquelles on dispose de la valeur de la
moyenne mobile, et donc dune valuation de la tendance, on peut calculer
lcart entre le modle et lobservation :
e
t
= x
t
y
t
= y
t
Si le modle est adapt, les valeurs absolues des carts ne doivent pas tre
leves, et leur somme voisine de zro.
s
t
*
s
t
s = s
1
p
---
s
t
t 1 =
p

=
x
t
*
x
t
s
t
*
=
s
t
*
x
t
*
P103-130-9782100549412.fm Page 113 Mercredi, 24. novembre 2010 10:14 10
114

INTRODUCTION LA MTHODE STATISTIQUE


B. Modle multiplicatif
Le modle est le suivant : x
t
= f
t
(l + s
t)
(l + e
t
)
Comme prcdemment, on approxime la tendance f
t
par la moyenne
mobile centre y
t
.
Les coefficients saisonniers tant priodiques de priode p, on dispose
pour chacun des p coefficients saisonniers de (n 1) valeurs qui sont ( n 1)
quotients {x
t
/ y
t
}. On rsume ces ( n 1) valeurs par leur moyenne arithm-
tique, ou leur mdiane, ou leur moyenne arithmtique aprs limination de la
valeur la plus faible et de la valeur la plus leve (le logiciel SPSS utilise ce
dernier rsum).
Si la somme des (1 + s
t
) nest pas gale p sur une priode, on fait une
correction proportionnelle :
1 + s
t
1 + = avec
On tablit ensuite la srie corrige des variations saisonnires :
Dans le cas du modle multiplicatif, les coefficients saisonniers sexpri-
ment en pourcentage de la tendance. Ils ont une interprtation plus concrte
que ceux du modle additif.
Le modle multiplicatif prdit ainsi des valeurs et il est alors
naturel, pour toutes les dates auxquelles on dispose de la valeur de la
moyenne mobile, et donc dune valuation de la tendance, de considrer les
rsidus et sous la forme :
Les carts entre le modle et les observations sont gaux :
Si le modle est adapt, les valeurs absolues des carts ne doivent pas tre
leves, et leur somme voisine de zro.
s
t
*
1 s
t
+
1 s +
------------- s
1
p
---
s
t
t 1 =
p

=
x
t
*
x
t
1 s
t
*
+
-------------- =
y
t
1 s
t
*
+ ( )
e
t
x
t
y
t
1 s
t
*
+
( ,
j \

---------------------------- 1
x
t
*
y
t
----- 1 = =
x
t
y
t
1 s
t
*
+ ( ) y
t
1 s
t
*
+ ( ) e
t
=
P103-130-9782100549412.fm Page 114 Mercredi, 24. novembre 2010 10:14 10
SRIES CHRONOLOGIQUES ET PRVISION

115


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
C. Autres approches
On peut chercher amliorer lv aluation de la tendance en repassant un
ltre mo yenne mobile sur la srie CVS. On choisit gnralement une
longueur assez faible pour cette nouvelle suite de moyennes mobiles : 5 ou 7
dans le cas dune srie de priode 12, et 3 dans le cas dune srie de priode
4. Avec cette nouvelle valuation de la tendance, on dtermine de nouv eaux
coefcients saisonniers et une nouv elle srie CVS. Cette mthode itrati ve
pourrait videmment tre poursui vie, mais le gain devient peu prs nul au-
del de deux tapes.
On peut aussi remplacer la moyenne mobile centre par la mdiane mobile
centre qui est un filtre non linaire : au lieu de synthtiser une suite de valeurs
de la srie par une moyenne pondre, on les rsume par leur mdiane (par-
ticulirement aise dterminer la main avec p = 3). Les mdianes mobiles,
dveloppes par Tukey, sont robustes puisqutant fondes sur lutilisation
de statistiques dordre, elles liminent les valeurs singulires (chapitre 1,
III.B.4). Elles constituent des lisseurs aux proprits complmentaires des
moyennes mobiles. Certaines mthodes de dsaisonnalisation reposent sur
une association de ces deux types de lisseurs.
Disposant des coefficients saisonniers, on peut ajuster la srie CVS par
une fonction, faire une prvision pour la tendance en extrapolant cette fonc-
tion dajustement ou en utilisant une mthode de lissage exponentiel sur la
srie CVS ( VI). Mais, il ne faut pas oublier que ce mode de prvision ne
peut tre envisag que sur du court terme puisquil suppose une volution
future non perturbe par des changements sur lenvironnement.
V. Un exemple de dcomposition dune srie
chronologique
Pour dterminer la tendance et les coef cients saisonniers dune chronique,
on peut actuellement utiliser un logiciel ou un tableur.
Nanmoins, une bonne comprhension des mthodes demande de les
avoir appliques. On va montrer les tapes successives du traitement de la
chronique des ventes trimestrielles en France dessences aviation
(cf. tableau 4.4).
P103-130-9782100549412.fm Page 115 Mercredi, 24. novembre 2010 10:14 10
116

INTRODUCTION LA MTHODE STATISTIQUE


Source : Comit Professionnel du Ptrole
Une saisonnalit de priode 4 (nombre de trimestres dans lanne) appa-
rat sur la reprsentation graphique ( cf. figure 4.5), ce qui explique que la
suite des moyennes mobiles de longueur 4 filtre la tendance.
Pour une dcomposition de cette chronique, nous allons envisager succes-
sivement le modle additif et le modle multiplicatif.
A. Schma additif
Pour obtenir la srie CVS et la srie des rsidus, les calculs ont t raliss
laide du tableur Excel

selon les tapes indiques (cf. tableau 4.5). Dans cet


exemple, la synthse des coef cients saisonniers a t ralise par la
moyenne.
Tableau 4.4 Ventes en France dessence aviation (en milliers de tonnes)
Trimestre
Anne
1
er
trimestre 2
e
trimestre 3
e
trimestre 4
e
trimestre
Moyenne
annuelle
2005
2006
2007
2008
3,6
3,6
3,7
3,6
7,0
6,7
6,4
5,7
7,6
7,4
7,1
7,1
3,7
3,9
4,1
3,7
5,5
5,4
5,3
5
Moyenne
trimestrielle
3,7 6,5 7,6 3,9 5,3
Figure 4.5 Chronique du tableau 4.4 et suite des moyennes mobiles de longueur 4
P103-130-9782100549412.fm Page 116 Mercredi, 24. novembre 2010 10:14 10
SRIES CHRONOLOGIQUES ET PRVISION

117


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
colonne C : moyennes mobiles de longueur 4 valuant la tendance
C4 =(B2/2 + SOMME(B3 : B5) + B6/2)/4, puis recopier vers le bas
colonne D : diffrence entre valeurs observes et tendance
D4 = B4 C4, puis recopier vers le bas
colonne E : E4 = (D4 + D8 + D12) / 3
E5 = (D5 + D9 + D13) / 3
E6 = (D6 + D10 + D14) / 3
E7 = (D7 + D11 + D15) / 3
premires valeurs des 4 coefficients saisonniers quon reporte sur
toute la colonne laide du collage spcial , option coller
valeurs , puis recopier vers le bas
colonne F : calcul des coefficients saisonniers normaliss : F2 = E2
puis recopier vers le bas
colonne G : calcul de la srie CVS
G2 = B2 F2, puis recopier vers le bas
colonne H : calcul de la srie des carts ( IV.A)
H4 = G4 C4, puis recopier vers le bas

Tableau 4.5 Dcomposition de la chronique du tableau 4.4 avec le schma additif
s
P103-130-9782100549412.fm Page 117 Mercredi, 24. novembre 2010 10:14 10
118

INTRODUCTION LA MTHODE STATISTIQUE


B. Schma multiplicatif
Comme pour le modle additif, les calculs ont t raliss laide du tableur
Excel

(cf. tableau 4.6). La synthse des coef cients saisonniers a aussi t


ralise par la moyenne. Les diffrences entre certains rsultats donns dans
le tableau 4.6 avec ceux obtenus par calcul direct, sont e xpliquer par le fait
que Excel

utilise pour les calculs un grand nombre de dcimales.


colonne C : moyennes mobiles de longueur 4 valuant la tendance
C4 = (B2/2 + SOMME(B3:B5) + B6/2)/4, puis recopier vers le bas
colonne D : quotient entre valeurs observes et tendance
D4 = B4 / C4, puis recopier vers le bas
colonne E : E4 = (D4 + D8 + D12) / 3
E5 = (D5 + D9 + D13) / 3
E6 = (D6 + D10 + D14) / 3
E7 = (D7 + D11 + D15) / 3
premires valeurs des 4 coefficients (1 + s
t
) quon reporte sur toute
la colonne laide du collage spcial , option coller valeurs

Tableau 4.6 Dcomposition de la chronique du tableau 4.4
selon le schma multiplicatif
P103-130-9782100549412.fm Page 118 Mercredi, 24. novembre 2010 10:14 10
SRIES CHRONOLOGIQUES ET PRVISION

119


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
colonne F : calcul des coefficients saisonniers normaliss : F2 = E2 ,
puis recopier vers le bas
colonne G : calcul de la srie CVS
G2 = B2 / F2, puis recopier vers le bas
colonne H : calcul de la srie (1 + e
t
)
H4 = G4 / C4, puis recopier vers le bas
colonne I : calcul de la srie e
t
I4 = H4 1, puis recopier vers le bas
colonne J : calcul de la srie des carts ( IV.B)
J4 = C4 F4 I4, puis recopier vers le bas
Les sries CVS induites par les deux modles de composition sont presque
confondues (cf. figure 4.6).
La reprsentation des sries des carts (colonne H du tableau 4.5 et
colonne J du tableau 4.6) permet de comparer les ajustements entre les deux
modles et les observations ( cf. figure 4.7). On constate que les deux sries
des carts sont presque confondues.
s
Figure 4.6 Sries CVS
P103-130-9782100549412.fm Page 119 Mercredi, 24. novembre 2010 10:14 10
120

INTRODUCTION LA MTHODE STATISTIQUE


VI. Les mthodes de lissage exponentiel
Les mthodes de lissage e xponentiel, dveloppes par R. G. Bro wn dans les
annes 60
1
, sont des mthodes de xtrapolation qui donnent un poids
prpondrant aux v aleurs rcentes. Elles se caractrisent, en outre, par la
simplicit des calculs et le petit nombre des donnes garder en mmoire.
A. Le lissage exponentiel simple
Cette mthode de prvision sapplique des chroniques sans variations
saisonnires et tendance localement constante . On suppose la grandeur
observe caractrise par des variations irrgulires autour de la moyenne :
x
t
= a + e
t
t =1, , T
Les sries conomiques prsentent souvent un niveau moyen qui volue
travers le temps. Pour la chronique reprsente la figure 4.4, il est clair
1. R. G. Brown, Smoothing, forecasting and prediction of discrete time series , Prentice Hall,
1962.


Modle additif
Modle multiplicatif
Figure 4.7 carts entre les modles et les observations
P103-130-9782100549412.fm Page 120 Mercredi, 24. novembre 2010 10:14 10
SRIES CHRONOLOGIQUES ET PRVISION

121


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
que le recours la moyenne arithmtique des observations conduirait sous-
valuer les valeurs futures. Il convient de donner aux observations les plus
rcentes un poids prpondrant.
La prvision faite par la mthode de lissage exponentiel simple la
date T pour lhorizon h, cest--dire pour la date T + h, est la suivante :
avec
Le paramtre est la constante de lissage. Si T est lev, la somme des
pondrations est peu diffrente de 1, en effet :
et la prvision apparat comme la moyenne pondre des valeurs
x
1
, , x
T
. Cette prvision ne dpendant pas de lhorizon h, nous la noterons
dsormais
Cette mthode de prvision repose sur lide que les observations influen-
cent dautant moins la prvision quelles sont loignes de la date T. En
outre, on suppose cette dcroissance exponentielle. Plus la constante de
lissage est proche de 0, plus linfluence des observations passes remontera
loin dans le temps et plus la prvision sera rigide , cest--dire peu sensi-
ble aux fluctuations conjoncturelles. Au contraire, plus la constante de
lissage est voisine de 1, plus la prvision sera souple , cest--dire prin-
cipalement influence par les observations rcentes.
1) Autres interprtations de la mthode
On voit aisment que :
(1)
La prvision apparat comme la moyenne pondre entre la prvision
faite la date T 1 et la dernire observation x
T
, le poids donn cette
observation tant dautant plus fort que est plus lev.
Dans le cas o est gal 1 : , ce qui signifie que la prvision
est gale la dernire valeur observe, on parle de prvision nave .
On peut encore crire :
(2)
La prvision apparat alors comme gale la prvision la date prc-
dente corrige dun terme proportionnel la dernire erreur de prvision.
Dans ces deux formules qui fournissent des mthodes lmentaires de
mise jour de la prvision, linformation apporte par le pass est rsume
dans
x
T
h ( )
x
T
h ( ) 1 ( )
i
i 0 =
T 1

x
T i
= 0 1 < <
1 ( )
i
i 0 =
T 1

1 1 ( )
T

----------------------------- 1 1 ( )
T
1 = =
x
T
h ( )
x
T
x
T
1 ( ) x
T 1
x
T
+ =
x
T 1
x
T
s
T
=
x
T
x
T 1
+ x
T
x
T 1
( ) =
x
T 1
P103-130-9782100549412.fm Page 121 Mercredi, 24. novembre 2010 10:14 10
122

INTRODUCTION LA MTHODE STATISTIQUE


On peut montrer que la valeur de a qui minimise la quantit :
(3)
est la suivante :
La prvision sinterprte alors comme la constante qui sajuste le mieux
la srie au voisinage de T, lexpression au voisinage traduisant le
fait que dans la minimisation, linfluence des observations dcrot lorsquon
sloigne de la date T.
Cette dernire interprtation montre clairement que le lissage exponentiel
simple ne sapplique que si la chronique peut tre approche par une droite hori-
zontale au voisinage de T, ce qui implique une tendance localement constante.
2) Proprits du lissage exponentiel simple
1. La chronique lisse a une variance infrieure celle
de la chronique initiale Comme tout filtre, le lissage expo-
nentiel simple ralise un crtage des irrgularits de la srie.
2. Le lissage exponentiel simple est un filtre linaire.
3. De mme que la moyenne mobile, le lissage exponentiel simple
sadapte avec retard un changement de niveau de la chronique (cf. figures 4.4
et 4.8). Cest de la valeur de la constante de lissage que dpendent la sta-
bilit et le taux de rponse de la srie lisse, ces deux caractristiques ayant
un aspect complmentaire.
3) Mise en uvre de la mthode
a) Initialisation
La mthode du LES utilise laide des formules (1) ou (2) ncessite
linitialisation de lalgorithme. On prend gnralement gal ou gal
(initialisation par df aut du logiciel SPSS), et il est clair que la v aleur
choisie pour aura dautant moins dinuence sur que T sera grand.
b) Choix de la constante de lissage
Ce choix peut se f aire selon des critres subjectifs de rigidit ou de
souplesse de la prvision. Mais une mthode plus objecti ve consiste
choisir minimisant :
1 ( )
i
i 0 =
T 1

x
T 1
a ( )
2

a
1 ( )
i
x
T i

i 0 =
T 1

1 1 ( )
T

------------------------------------------ x
T
=
x
t
t 1 = , T , ,
x
t
t 1 = , T , ,
x
1
x
1
x
1
x
x
1

P103-130-9782100549412.fm Page 122 Mercredi, 24. novembre 2010 10:14 10

SRIES CHRONOLOGIQUES ET PRVISION




123


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.


soit l

Erreur Quadratique Moyenne de prvision

:


soit l

Erreur Absolue Moyenne de prvision

:
Il ne faut pas manquer dexaminer aussi l

Erreur Moyenne de prvision

qui peut indiquer dans certains cas une sous-valuation ou une survaluation
systmatique de la prvision qui sobserve dailleurs lexamen des graphi-
ques des sries initiales et lisses :
La minimisation de ces critres peut tre faite sur toute la srie des
erreurs de prvision ou sur un pourcentage donn de ses derniers termes
(dans ce cas, on prend souvent le dernier tiers de la srie, tableau 4.7). Cer-
tains logiciels proposent actuellement les mthodes de lissage avec une
constante


dtermine par la minimisation dun critre. Le logiciel SPSS
calcule la constante optimale en minimisant lErreur Quadratique Moyenne
de prvision.
EQM
1
T 1
------------ x
t 1 +
x
t
( )
2
t 1 =
T 1

=
EAM
1
T 1
------------ x
t 1 +
x
t

t 1 =
T 1

=
EM
1
T 1
------------ x
t 1 +
x
t
( )
t 1 =
T 1

=

Figure 4.8 Chronique du tableau 4.6 et srie obtenue par LES avec = 0,4

P103-130-9782100549412.fm Page 123 Mercredi, 24. novembre 2010 10:14 10

124



INTRODUCTION LA MTHODE STATISTIQUE

Le tableau 4.8 donne, selon la constante de lissage


variant par pas de
0,1, les valeurs des critres

EM

,

EQM

et

EAM

pour le

LES

appliques la
srie de la figure 4.8, ces critres ayant t calculs sur le dernier tiers de la
srie, cest--dire avec les cinq dernires erreurs de prvision.
Le critre

EQM

est minimum pour

= 0,4, le critre EAM pour = 0,5
et la valeur absolue de lerreur moyenne est minimum pour = 0,5
Tableau 4.7 Prsentation des calculs du LES avec les critres calculs
sur le dernier tiers de la srie
= 0,4 = 0,5
t x
t
LES e
t
ABS (e
t
) (e
t
)
2
LES e
t
ABS (e
t
) (e
t
)
2

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
130
121
120
127
122
129
124
120
139
136
135
134
136
133
138
133
130,00
126,40
123,84
125,10
123,86
125,92
125,15
123,09
129,45
132,07
133,24
133,55
134,53
133,92
135,55
134,53
9,00
6,40
3,16
3,10
5,14
1,92
5,15
15,91
6,55
2,93
0,76
2,45
1,53
4,08
2,55
9,00
6,40
3,16
3,10
5,14
1,92
5,15
15,91
6,55
2,93
0,76
2,45
1,53
4,08
2,55
81,00
40,96
9,99
9,63
26,39
3,68
26,53
253,12
42,85
8,57
0,57
6,02
2,33
16,67
6,50
130,00
125,50
122,75
124,88
123,44
126,22
125,11
122,55
130,78
133,39
134,19
134,10
135,05
134,02
136,01
134,51
9,00
5,50
4,25
2,88
5,56
2,22
5,11
16,45
5,22
1,61
0,19
1,90
2,05
3,98
3,01
9,00
5,50
4,25
2,88
5,56
2,22
5,11
16,45
5,22
1,61
0,19
1,90
2,05
3,98
3,01
81,00
30,25
18,06
8,27
30,94
4,92
26,11
270,45
27,28
2,60
0,04
3,62
4,20
15,81
9,07
EM =
0,64
EAM =
2,27
EQM =
6,42
EM =
0,12
EAM =
2,23
EQM =
6,55
Tableau 4.8 Valeurs des critres calculs sur le dernier tiers de la srie du tableau 4.7
Valeur de EM EQM EAM
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
4,548
2,931
1,545
0,643
0,125
0,148
0,280
0,339
0,369
25,311
14,068
8,151
6,421
6,547
7,361
8,436
9,670
11,095
4,548
3,101
2,495
2,274
2,227
2,449
2,648
2,833
3,012
P103-130-9782100549412.fm Page 124 Mercredi, 24. novembre 2010 10:14 10
SRIES CHRONOLOGIQUES ET PRVISION

125


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
B. Le lissage exponentiel double
Le lissage e xponentiel double est une gnralisation du lissage e xponentiel
simple au cas dune chronique tendance localement linaire ; on suppose
que la srie peut tre ajuste par une droite au voisinage de T :
x
t
= a
1
(T) + a
2
(T) ( t T)
Les coefficients a
1
(T) et a
2
(T) sont choisis de faon minimiser la quan-
tit suivante qui est lanalogue de la quantit (3) minimise pour le lissage
exponentiel simple :
On obtient la solution suivante :
avec
ce qui conduit la prvision :
La quantit S
1
(T) rsultant du lissage exponentiel simple de la srie
{x
t
, t = 1, ,T} et la quantit S
2
(T) du lissage exponentiel simple de la
srie {S
1
(t), t = 1, ,T } do le nom de lissage exponentiel double, on
dispose pour leurs calculs des formules de mise jour du LES :
Linitialisation de ces formules de mise jour peut tre :
1 ( )
i
x
T i
a
1
T ( ) a
2
T ( ) + i ( )
( ,
j \

( ,
, (
, (
j \
2
i 0 =
T 1

a
1
T ( ) 2S
1
T ( ) S
2
T ( ) =
a
2
T ( )

1
------------ S
1
T ( ) S
2
T ( )
( ,
j \
=

S
1
T ( ) 1 ( )
i
i 0 =
T 1

x
T i
=
S
2
T ( ) 1 ( )
i
i 0 =
T 1

S
1
T i ( ) =

x
T
h ( ) a
1
T ( ) a
2
T ( ) + h =
S
1
T ( ) x
T
1 ( ) + S
1
T 1 ( ) =
S
2
T ( ) S
1
T ( ) 1 ( ) + S
2
T 1 ( ) =

S
1
1 ( ) x
1
=
S
2
2 ( ) S
1
2 ( ) =

P103-130-9782100549412.fm Page 125 Mercredi, 24. novembre 2010 10:14 10


126

INTRODUCTION LA MTHODE STATISTIQUE


En dveloppant les galits ci-dessus, on obtient les formules de mise
jour des coefficients et :
Linitialisation de ces formules peut tre :
Comme pour le lissage exponentiel simple, le choix de la constante de
lissage peut se faire par la minimisation dun critre choisi.
La mthode de Holt-Winters tend les mthodes de lissage exponentiel
aux sries saisonnires. Cest une mthode de prvision trs utilise.
a
1
T ( ) a
2
T ( )
a
1
T ( ) a
1
T 1 ( ) a
2
T 1 ( ) 1 1 ( )
2
( ) + + x
T
x
T 1
1 ( )
( ,
j \
=
x
T
1 ( )
2
x
T
x
T 1
1 ( )
( ,
j \
=
a
2
T ( ) a
2
T 1 ( )
2
+ x
T
x
T 1
1 ( )
( ,
j \
=
{
a
1
2 ( ) x
2
=
a
2
2 ( ) x
2
x
1
=

P103-130-9782100549412.fm Page 126 Mercredi, 24. novembre 2010 10:14 10


SRIES CHRONOLOGIQUES ET PRVISION

127


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Il y a au moins une rponse exacte par question.
1. Pour une chronique 12 termes :
a) on peut calculer 8 moyennes mobiles centres de longueur 4
b) on peut calculer une moyenne mobile centre de longueur 12
c) on peut calculer 10 mdianes mobiles centres de longueur 3
d) on peut calculer 2 moyennes mobiles centres de longueur 11
2. Identification du modle de dcomposition adapt :
a) si le facteur saisonnier est proportionnel la tendance, on choisit le modle additif
b) si les deux courbes joignant respectivement les maxima et les minima sont quasi-
parallles sur un graphique ordonne logarithmique, on choisit le modle multipli-
catif
c) si les maxima de la courbe reprsentative de la chronique sont distants de 5 dates,
on choisit le modle additif
d) on peut toujours ramener un modle multiplicatif un modle additif
3. Si une chronique X a une composante saisonnire de priode p, alors :
a) les moyennes mobiles centres de longueur 2 p liminent la saisonnalit
b) on peut approximer la tendance par la suite des moyennes mobiles centres de
longueur p
c) la somme de p termes successifs de X donne une approximation de la moyenne de
la tendance
d) on peut toujours calculer ( T p) moyennes mobiles centres de longueur p si elle
a T termes
4. Une prvision par lissage exponentiel simple :
a) tient dautant plus compte des valeurs rcentes de la srie que la constante est
faible
b) peut senvisager pour une chronique possdant une composante saisonnire
c) ne peut pas senvisager pour une chronique possdant une tendance la hausse
d) sadapte dautant plus rapidement un changement de niveau de la chronique que
est leve
Testez-vous (les rponses sont donnes page 286)
P103-130-9782100549412.fm Page 127 Mercredi, 24. novembre 2010 10:14 10
128

INTRODUCTION LA MTHODE STATISTIQUE


Exercice 4.1
On dispose aussi de la rpartition mensuelle du niveau de lindice de la qualit de
lair ATMO dans lagglomration parisienne selon trois classes de niveau pour les
six annes agrges.
Lgende : Niveau 1 4 : trs bon bon.
Lgende : Niveau 5 7 : moyen mdiocre.
Lgende : Niveau 8 10 : mauvais trs mauvais.
On sintresse la classe de niveau 5 7 .
1. Reprsentez graphiquement son volution au cours des 12 mois.
2. Calculez la suite des moyennes mobiles de longueur 3 et reprsentez-la sur le
mme graphique. Quelle proprit de la moyenne mobile venez-vous dillustrer ?
Exercice 4.2
1. Calculez les suites des moyennes mobiles de longueurs 2, 3, 4 et 5.
Quelles sont les proprits de la moyenne mobile qui sont illustres par cet
exemple ?
2. Soit la chronique z
t
= 10 2t + x
t
, calculez la suite des moyennes mobiles de
longueur 4 de la nouvelle srie z
t

Frquences mensuelles dapparition des indices de 1998 2003
Niveau 1 4 5 7 8 10 Nombre total de jours
Janvier
Fvrier
Mars
Avril
Mai
Juin
Juillet
Aot
Septembre
Octobre
Novembre
Dcembre
164
136
151
152
132
115
123
93
155
155
172
177
22
29
35
28
54
65
59
83
25
31
8
9
0
4
0
0
0
0
4
10
0
0
0
0
186
169
186
180
186
180
186
186
180
186
180
186
Nombre total de jours 1725 448 18 2191
t 1 2 3 4 5 6 7 8 9 10 11 12
x
t
3 1 5 1 3 15 1 3 15 1
Exercices (corrigs page 309)
P103-130-9782100549412.fm Page 128 Mercredi, 24. novembre 2010 10:14 10
SRIES CHRONOLOGIQUES ET PRVISION

129


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Exercice 4.3
Le tableau suivant donne la srie chronologique bimestrielle du transport des voya-
geurs sur le rseau Air France International (en milliards de passagers-km) de 2002
2005.
Source : www.insee.fr
1. On choisit de modliser cette chronique par un schma additif. Justifiez ce choix.
2. Dterminez la tendance de cette chronique par la suite des moyennes mobiles de
longueur adapte, et reprsentez-la sur le mme graphique que la srie initiale.
3. Calculez les coefficients saisonniers.
4. Calculez la srie corrige des variations saisonnires. Ajustez cette chronique par
une droite en utilisant la mthode des moindres carrs.
5. Au vu des rsultats, quelles prvisions pouvait-on faire fin 2005 pour janvier-
fvrier, mars-avril et mai-juin 2006 ?
6. Sachant quon a observ 17,2 milliards de passagers-km en janvier-fvrier 2006,
18,5 en mars-avril et 18,6 en mai-juin, calculez lerreur absolue moyenne de pr-
vision.
Exercice 4.4
1. Voici pour ses trois premiers mois douverture, le nombre de places x
t
vendues
par semaine par le cinma PARADISO (t dsignant le numro de la semaine varie
de 1 12) :
1. Reprsentez cette chronique graphiquement. A-t-elle une composante saisonnire ?
Si oui, de quelle priode ?
2. Calculez la suite des moyennes mobiles de longueur approprie pour valuer la
tendance de la srie chronologique. Reprsentez cette suite sur le graphique pr-
cdent.
3. On choisit un modle multiplicatif. valuez les coefficients saisonniers.
4. Calculez la srie corrige des variations saisonnires (srie CVS) et reprsentez-la
sur le graphique prcdent. Calculez la srie des rsidus.
5. Ajustez la srie CVS par une droite en utilisant la mthode des moindres carrs.
Reprsentez cette droite sur le graphique prcdent.
6. Donnez une prvision pour le nombre de places vendues pendant les deux pre-
mires semaines du quatrime mois.
Janv.-Fv Mars-Avril Mai-Juin Juil.-Aot Sept.-Oct. Nov.-Dc.
2002
2003
2004
2005
13,3
13,8
14,4
15,4
15,1
14,2
16,0
16, 8
14,8
14,1
16,2
17,4
16,3
17,0
18,5
19,9
14,8
15,2
16,2
17,9
14,2
14,8
15,3
17,4
t 1 2 3 4 5 6 7 8 9 10 11 12
x
t
3 428 3 295 3 376 3 195 3 573 3 334 3 434 3 300 3 703 3 411 3 545 3 327
P103-130-9782100549412.fm Page 129 Mercredi, 24. novembre 2010 10:14 10
130

INTRODUCTION LA MTHODE STATISTIQUE


Exercice 4.5
La demande dun certain article a t releve au cours de 15 mois conscutifs :
1. Appliquez un lissage exponentiel simple cette srie chronologique en
prenant = 0,6 jusquau 6
e
mois inclus et = 0,3 pour les mois suivants. Tracez
sur le mme graphique la chronique initiale et la srie lisse.
2. Justifiez le changement de valeur de la constante de lissage .
3. Calculez lerreur moyenne, lerreur absolue moyenne et lerreur quadratique
moyenne.
4. Donnez les prvisions de la demande pour les trois mois suivants.
Exercice 4.6
Le tableau ci-dessous donne les valeurs des indices trimestriels (base 2000) de la pro-
duction industrielle des boissons pour les annes 2002 2005 :
Source : www.insee.fr
1. Commentez lvolution de cette srie chronologique en utilisant sa reprsentation
graphique. Justifiez le recours un schma de composition additif.
2. Dterminez la tendance de cette chronique par la suite des moyennes mobiles de
longueur adapte, et reprsentez-la sur le mme graphique que la srie initiale.
3. Calculez les coefficients saisonniers et la srie corrige des variations saison-
nires.
4. Appliquez un lissage exponentiel simple la srie CVS avec = 0,3.
5. Quelles prvisions pouvait-on faire au dernier trimestre 2005 pour les deux pre-
miers trimestres 2006 ? Sachant que cet indice a pris les valeurs 100,8 et 110,8
pour les 1
er
et 2
e
trimestres 2006, calculez lerreur moyenne et lerreur absolue
moyenne de prvision.
Mois 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Demande 37 41 39 40 42 39 41 39 42 41 40 42 43 40 42
1
er
trimestre 2
e
trimestre 3
e
trimestre 4
e
trimestre
2002
2003
2004
2005
194,2
198,3
100,9
198,7
105,3
103,8
110,7
109,8
103,5
115,7
106,6
110,8
127,5
125,5
126,3
129,4
P103-130-9782100549412.fm Page 130 Mercredi, 24. novembre 2010 10:14 10

MODLE PROBABILISTE ET VARIABLE ALATOIRE




131


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

5. M

odle probabiliste
et variable alatoire

Il ne faut donc pas se demander si nous percevons vraiment un monde, il faut se dire au
contraire : le monde est cela que nous percevons.

Phnomnologie de la perception

, Maurice Merleau-Ponty (1908-1961)

a statistique descriptive permet de rsumer les mesures dune ou
plusieurs grandeurs obtenues sur les individus dun chantillon ou
dune population par un classement (tri simple dans le cas dune
seule variable, tri crois dans le cas de plusieurs variables). Une grandeur
est alors dcrite par sa distribution, qui est dtermine partir des obser-
vations, justifiant ainsi le nom de

distribution empirique

de la grandeur
(ou de la variable). Cest la reprsentation de base pour apprcier
une grandeur aprs quelle a t classe.
Lobservation de nombreuses distributions empiriques montre pour cer-
taines dentre elles des analogies de formes, et des caractristiques voi-
sines. Ceci conduit dfinir des

distributions thoriques

afin de disposer
dinstruments plus formels regroupant les proprits. Ces distributions
thoriques sont une abstraction destine non pas simplement prsen-
ter les donnes, mais les interprter ou les expliquer. Ce paralllisme
entre lobservation et la reprsentation thorique se retrouve galement
au niveau de lobservation individuelle quon replace dans un ensemble
potentiel dobservations supposes homognes. Les variations entre dif-
frentes observations sont considres comme des fluctuations non attri-
buables une cause identifie (contrlable ou non), et on dit alors
quelles sont le rsultat du

hasard

.
Il est ncessaire de disposer dun outil thorique permettant de consid-
rer globalement les diffrentes observations provenant dune mme
population en tenant compte dune part, de lhomognit lie leur
origine commune et dautre part, des fluctuations entre observations.
Cest le concept de

variable alatoire

qui remplit ce double rle. Son
intrt dpend des proprits gnrales quon pourra lui associer, et de
leur fiabilit.
Le

calcul des probabilits

(puis son

axiomatique

) est le support formel de
cette reprsentation. Il a t introduit initialement au

XVII

e

sicle pour
L

P131-178-9782100549412.fm Page 131 Mercredi, 24. novembre 2010 10:19 10

132



INTRODUCTION LA MTHODE STATISTIQUE

tudier les jeux de socit (ds, cartes, roulette), et son dveloppement
a permis une approche intgrant les lments fluctuants et non perma-
nents des phnomnes physiques, sociaux ou encore psychologiques. Les
probabilits se fondent sur la notion d

exprience alatoire

, cest--dire
dont les conditions dexcution bien que parfaitement dfinies, ne per-
mettent pas de sassurer priori de lissue de lexprience.
contrario les expriences, dites

dterministes

, celles dont le rsultat est
matris par les conditions initiales, ont un seul rsultat possible, en
ngligeant les ventuelles erreurs de mesure. Ces situations sopposent
celles o le hasard intervient dans le rsultat attendu et pour lesquelles
on parle d

incertitude

. Cest pour ce dernier contexte qua t fond le
calcul des probabilits. Sous le terme de hasard, on a longtemps rsum
les facteurs considrs comme mineurs

1

dans ltude dun phnomne.
On pourrait plutt dire actuellement quentre dterminisme et incerti-
tude repose toute la notion de ce qui chappe au contrle, ou encore de
linformation non disponible.
Le caractre alatoire dune grandeur peut tre partie intrinsque du
phnomne tudi. Cest le cas du rsultat dun jet de d, ou bien de la
quantit de fuel consomm annuellement en France. Dans dautres cas,
il nen est pas ainsi. Si on sintresse la distance moyenne parcourue sur
une autoroute par les automobilistes passant un poste de page
donn, un certain jour, on peut interroger tous les automobilistes se pr-
sentant au page et calculer la moyenne. On peut aussi chercher cette
information en interrogeant un chantillon dautomobilistes se prsen-
tant ce page. La valeur moyenne observe sur cet chantillon va
dpendre de lchantillon retenu qui nest pas lui-mme fix lavance
(il y a beaucoup dchantillons possibles), et peut tre considr comme
le rsultat dune exprience alatoire (le choix de lchantillon dauto-
mobilistes). Ainsi, alors quinitialement le problme se posait en termes
dterministes, la procdure surajoute de choix de lchantillon introduit
un lment alatoire. La grandeur tudie (moyenne) nest pas elle-
mme alatoire, mais les donnes recueillies sur lchantillon le sont
puisque le contenu de lchantillon nest pas dtermin par son mode de
tirage.
Lobjectif du calcul des probabilits est lanalyse et lexplication des ph-
nomnes non dterministes. Ses fondements thoriques, et en particulier
l

axiomatique de Kolmogorov

, lui donnent une valeur scientifique rela-
tivise toutefois par la signification de la notion de probabilit.

1. Historiquement, ces facteurs mineurs ont t dabord restreints la notion derreur.

P131-178-9782100549412.fm Page 132 Mercredi, 24. novembre 2010 10:19 10

MODLE PROBABILISTE ET VARIABLE ALATOIRE




133


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

I.

lments de calcul des probabilits

Le calcul des probabilits est bas, comme nous lavons dj vu, sur la notion
dexprience alatoire. On associe une telle exprience


lensemble de
tous les rsultats possibles, appel

ensemble



fondamental

, quon dsigne
communment par


. Chaque rsultat possible est une partie de


.
Lensemble fondamental associ une preuve non dterministe peut
contenir un nombre fini dlments (de la forme {


1

,


2

, ,


n

}) ou bien
tre de type infini dnombrable

1

ou enfin tre de type infini non dnombra-
ble. On assimile, comme dans la thorie classique des ensembles, un v-
nement, donc une partie de


, la proprit qui le caractrise au sein de
lensemble fondamental, cest--dire la ralisation de cette proprit. On
dsigne par


le rsultat qui sera observ lissue de lexprience alatoire,
et on crit



G

(avec

G





)) lorsque la situation dcrite par

G

est
le rsultat de la ralisation de lpreuve E. La non-ralisation de lvne-
ment

G

est note





(o



dsigne lensemble complmentaire

2

de

G

dans


)

.

La notation et le vocabulaire ensembliste sont tout fait adapts la des-
cription des situations alatoires, et lvnement dont on a la certitude de la
ralisation est dsign par


(vnement certain), tandis que lvnement
dont on sait quil ne se produira pas est dsign par


(vnement impossi-
ble). La runion ensembliste

G



H

correspond la ralisation dau moins
un des vnements

G

et

H

. Lintersection ensembliste

G



H

correspond
la ralisation des deux vnements

G

et

H

. Lincompatibilit de

G

et

H

se
traduit par

G




H

=


. Enfin, la diffrence ensembliste

G



H

correspond
la ralisation de

G

et la non-ralisation de

H

, ou encore lintersection

G



.
La reprsentation ensembliste justifie la caractrisation des issues dune
preuve alatoire au sein dune structure mathmatique sur laquelle on pourra
dfinir une probabilit. Cette structure est celle dune algbre de Boole (cas
fini), ou dune


-algbre (cas infini).

A. N

otion de probabilit

Soit


lensemble fondamental associ une preuve alatoire et


)
lensemble des parties de


.

1. Cest--dire pouvant tre mis en bijection avec tout ou partie de lensemble


des entiers naturels.
2. Le complmentaire de lensemble

G

est not indiffremment



ou

G

c

.
G G
G
H

P131-178-9782100549412.fm Page 133 Mercredi, 24. novembre 2010 10:19 10

134



INTRODUCTION LA MTHODE STATISTIQUE

On dit que


) est une

algbre de Boole

si les deux conditions
suivantes sont vrifies :
C1 : G
C2 : G et H G H
Cette structure dalgbre de Boole correspond la traduction ensembliste
de la logique des vnements dans le cas o lensemble fondamental est fini.
On dit que () est une -algbre de Boole (ou plus simplement
une -algbre) si les deux conditions suivantes sont vrifies :
C1 : G
C2 : G
i
pour i
La notion de -algbre tend la correspondance entre la logique vne-
mentielle et la thorie des ensembles au cas dpreuves alatoires dont
lensemble fondamental est infini.
On notera que si E est un vnement quelconque de , = {, , E, }
est une -algbre.
Lorsquon a dfini une -algbre dvnements de , on dit que le
couple (, ) est un espace probabilisable dans le sens o il ne reste plus
qu prciser la probabilit de chaque vnement de .
Les premires fondations de la notion de probabilit
1
visaient dfinir une
chelle ordonne des chances de russite certains jeux. Lapproche frquen-
tiste qui en a rsult est construite sur lobservation et le dnombrement de
situations dites lmentaires, cest--dire reprsentant toutes les issues diff-
rentes de lpreuve alatoire. Ce point de vue ne peut sappliquer qu des
cas o lensemble fondamental associ est fini.
On suppose tout dabord que les vnements lmentaires ont une chance
gale de ralisation, contexte dit d quiprobabilit, ce qui implique ladditi-
vit des chances. Pour cette hypothse et pour un ensemble fondamental de
type fini, on dfinit la probabilit dun vnement comme lanalogue dune
frquence relative afin davoir une chelle de valeurs comprise entre 0 et 1,
et de disposer dune mesure additive : pour des vnements lmentaires
quiprobables, la probabilit dun vnement quelconque est sa frquence
relative dapparition dans lensemble fondamental. Ce point est connu sous
le nom de rgle de Laplace.
1. Blaise Pascal et Pierre de Fermat correspondent en 1654, sur la rpartition quitable des
enjeux dans les jeux de hasard ; et Christian Huyghens, en 1657, formule et rsout le problme
dit de la ruine du joueur.
G
G
UG
i
i

E
P131-178-9782100549412.fm Page 134 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE

135


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Donnons-en un exemple dapplication, en calculant la probabilit de faire
apparatre les chiffres 4, 2 et 1 en lanant trois ds parfaitement quilibrs.
Chaque d possde 6 faces, ce qui implique que lensemble fondamental
possde 6
3
= 216 lments. Dans cet ensemble fondamental form des figu-
res 3 chiffres entre 1 et 6, celles qui permettent de reconstituer 421 sont
toutes les 3 ! = 6 permutations des trois chiffres 1, 2 et 4. La frquence rela-
tive de la figure 421 ou probabilit de lvnement obtention des chif-
fres 4, 2, 1 est gale 1/36
Ds lors que lensemble fondamental nest pas fini et/ou que lquiproba-
bilit nest pas assure sur les vnements lmentaires de , on ne peut plus
appliquer cette rgle du nombre de cas favorables sur nombre de cas possi-
bles. On doit gnraliser cette dmarche et dfinir abstraitement la probabilit
pour quelle concide avec la rgle de Laplace lorsque cette dernire sappli-
que. On utilise alors la reprsentation ensembliste des vnements pour dfi-
nir une probabilit sur un espace probabilisable ( , ).
On dit alors que le triplet (, , P) est un espace probabilis. Il est cons-
truit sur une preuve alatoire dont on se donne lensemble fondamental ,
tous les vnements simples ou complexes tant dcrits par , sur laquelle
on se donne lchelle des chances P.
1
De cette dfinition, ou axiomatique de Kolmogorov, on dduit les propri-
ts suivantes :
1. Si G , alors P( ) = 1 P(G)
En effet, on a : G et G = , ce qui donne :
P() = 1 = P (G ) = P(G) + P( )
2. La probabilit de lvnement impossible est nulle : P() = 0
Il suffit dappliquer la proprit prcdente en posant G =
Soit (, ) un espace probabilisable. Une probabilit
1
P sur cet espace
est une application de valeurs dans lintervalle [0;1] vrifiant :
i) P () = 1
ii) pour des vnements {G
i
, i } incompatibles (i j G
i
G
j
= ) :

=

1. On dit encore une mesure de probabilit pour bien faire rfrence aux qualits mtrologiques
de cette application. On dsignera indiffremment par la suite la probabilit par Pr ou par P.
P U
i
G
i
( ,
j \
P G
i
( )
i

G
G G
G G
P131-178-9782100549412.fm Page 135 Mercredi, 24. novembre 2010 10:19 10
136

INTRODUCTION LA MTHODE STATISTIQUE


3. Si G et H sont tels que G H, alors P(G) P(H)
Puisque H = G ( H) et que G ( H) = , on a :
P(H) = P(G) + P( H), et P( H) 0 implique P(H) P(G)
Il est important de noter que lingalit entre les probabilits est au sens large.
4. Si G et H sont deux lments quelconques de :
P(G H) = P(G) + P(H) P(G H)
En effet, on a : G H = G ( H) avec G ( H) =
donc P(G H) = P(G) + P( H)
De mme H = (G H) ( H) avec ( G H) ( H) =
donc P(H) = P(G H) + P( H)
En combinant les deux rsultats, on obtient :
P(G H) = P(G) + P(H) P(G H)
Ce dernier rsultat est connu sous le nom de thorme des probabilits
totales.
B. Probabilits conditionnelles
Nous avons voqu en introduction de ce chapitre le lien particulier entre
linformation disponible, le contrle des facteurs dterminants dun phnomne
et limportance de sa partie alatoire, donc de sa probabilit de ralisation.
Nous allons retrouver ceci au travers de la notion de probabilit conditionnelle.
Soit une preuve alatoire donne, munie de son ensemble fondamental ,
de la -algbre des vnements, et de la probabilit P associe chacun de ces
derniers, en dautres termes, nous supposons donn un espace probabilis
(, , P). La connaissance dune information complmentaire sur le droule-
ment de lpreuve quivaut la modification des probabilits dfinies sur les
lments de . En effet, cette information acquise nest autre quune condition
dsormais suppose ralise quel que soit le rsultat de lexprience alatoire.
Prenons-en un exemple. Nous avons vu que la probabilit de raliser la
figure 421 lors du jet de 3 ds tait de 1/36. Supposons maintenant que le
premier d soit lanc avant les deux autres, et quil fasse apparatre le chiffre
2. Lensemble fondamental associ au jet des 2 ds restant contient 36 vne-
ments lmentaires, mais parmi ceux-ci, seuls les couples (4 ;1) et (1 ; 4) permet-
tent de complter la configuration 421 . On en dduit donc que si on sait que
le premier d a affich la valeur 2, la probabilit de raliser un 421 est de 1/18.
On remarque dans cet exemple que lensemble fondamental a t modifi, et
donc aussi la -algbre des vnements, ainsi que la mesure de probabilit P.
G G
G G
G G
G
G G
G
P131-178-9782100549412.fm Page 136 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE

137


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Cette modification sappelle un conditionnement, car elle correspond la prise
en compte dune condition supplmentaire sur la ralisation de lpreuve ala-
toire (ici le fait que le premier d doit tre lanc sparment et quil affichera la
valeur 2). On est ainsi conduit dfinir les probabilits conditionnelles.
Cette dfinition est bien videmment drive de lapproche frquentiste des
probabilits puisquen raisonnant avec la rgle de Laplace, on pourrait dire que
les cas favorables sont ceux o les vnements A et C sont tous deux raliss,
alors que les cas possibles sont ceux pour lesquels de toutes faons lvnement
C est observ. Il faut noter quune probabilit conditionnelle na de sens que si
la condition est ralisable (de probabilit non nulle). La notion de probabilit
conditionnelle, ou encore de conditionnement des probabilits, revient modi-
fier lensemble fondamental puisque lvnement C se trouve tre rap-
port une probabilit gale un. Ainsi, sur la figure 5.1, par conditionnement
la probabilit de A devient ramene la seule part de A incluse dans C.
On peut vrifier que lapplication qui tout A associe est
bien une mesure de probabilit.
Dfinition 1
Soit (, , P) un espace probabilis et soit C un vnement par-
ticulier, appel condition, de probabilit non nulle. Pour tout vnement
A , on appelle probabilit conditionnelle de A sachant C , note
, la quantit :
=
Proprit
Si A
1
, A
2
, , A
n
sont n vnements quelconques dune -algbre
dun espace probabilis ( , , P), on peut crire :
P A C ( )
P A C ( )
P A C ( )
P C ( )
------------------------
A
C

A
C

Figure 5.1 Conditionnement dune probabilit


P A C ( )
P A
1
A
2
A
n
( )
P A
1
( ) P A
2
A
1
( ) P A
n
A
1
A
2
A
n 1
( )
=
P131-178-9782100549412.fm Page 137 Mercredi, 24. novembre 2010 10:19 10
138

INTRODUCTION LA MTHODE STATISTIQUE


En effet, si n = 2, cette proprit nest autre que la formule de dfinition des
probabilits conditionnelles. Supposons cette proprit vraie lordre n 1 :
et montrons quelle est encore vraie lordre n.
On peut crire
On pose : et on obtient :
soit :
P(A
n
A
1
A
2
A
n1
) P(A
1
) P(A
2
A
1
) P(A
n1
A
1
A
2
A
n2
)

Il sagit dune relation symtrique. On parle galement dvnements sto-
chastiquement indpendants. Dans la suite de ce livre, on crira toutefois
simplement vnements indpendants.
On voit alors que si A et B sont deux vnements indpendants, on a :
et chacune de ces galits montre que :
A et B indpendants
Dautre part, il est important de ne pas confondre les notions dindpen-
dance et dincompatibilit. Dans le premier cas, si les deux vnements A et
B sont de probabilit non nulles, alors la probabilit est aussi non
nulle. Dans le second cas, mme si A et B sont de probabilit non nulles,
lintersection est de probabilit nulle. Il sensuit que deux vne-
ments la fois indpendants et incompatibles sont tels quau moins lun
deux est un vnement impossible (cest--dire de probabilit nulle).
Notons encore que si A et B sont deux vnements indpendants, alors :
Dfinition 2
Deux vnements A et B dun espace probabilis ( , , P) sont dits
indpendants en probabilit si la ralisation de lun deux ne modifie pas
la probabilit de survenue de lautre.
P A
1
A
2
A
n 1
( )
P A
1
( ) P A
2
A
1
( ) P A
n 1
A
1
A
2
A
n 2
( )
=
A
1
A
2
A
n
A
1
A
2
A
n 1
( ) A
n
=
B A
1
A
2
A
n 1
=
P A
1
A
2
A
n
( ) P A
n
B ( ) P A
n
B ( ) = = P B ( )
P A
1
A
2
A
n
( ) =
P A B ( ) P A ( ) =
P B A ( ) P B ( ) =
P A B ( ) P A ( ) = P B ( )
P A B ( )
A B ( )
P A B ( ) P A B ( ) P A ( ) = =
P B A ( ) P B A ( ) P B ( ) = =
P131-178-9782100549412.fm Page 138 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE

139


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Cette notion dindpendance stend plus de deux vnements.
Des vnements mutuellement indpendants sont indpendants deux deux
(simple application particulire de la dfinition), mais des vnements A
1
, A
2
, ,
A
n
qui sont indpendants deux deux ne sont pas toujours mutuellement ind-
pendants.
Cette notion dindpendance sera tendue plus loin au cas des variables alatoi-
res, et peut aussi tre gnralise plusieurs preuves (ou expriences alatoires).
La mise en uvre des probabilits conditionnelles a conduit une rflexion
trs importante sur le concept de probabilit lui-mme, ce que nous verrons plus
loin. Cest certainement lapport de Thomas Bayes
1
qui en a reprsent le point
de dpart. Nous donnerons donc dabord le rsultat connu sous le nom de tho-
rme de Bayes, pour examiner ensuite le dbat sur la notion de probabilit.
En effet, on sait que :
et dautre part que
Dfinition 3
Soient n vnements dun espace probabilis ( , , P). On dit quils
sont mutuellement indpendants si quels que soient A
1
, A
2
, , A
k
choisis
parmi ces n vnements, on a :
1. Le rvrend Thomas Bayes (1701-1761) est lauteur de An Essay Towards Solving a Pro-
blem in the Doctrine of Chances qui ne fut publi quen 1763, aprs sa mort.
Thorme de Bayes
Soit (, , P) un espace probabilis, et soient A
1
, A
2
, , A
n
un ensem-
ble dvnements deux deux incompatibles vrifiant = (on dit
que les A
k
forment un systme complet dvnements). Pour tout vne-
ment B, on a alors : pour i = 1, 2, , n
P A
1
A
2
A
k
( ) P A
1
( ) P A
2
( ) P A
k
( ) =
n
UA
k
k = 1
P A
i
B ( )
P B A
i
( ) P A
i
( )
P B A
k
( ) P A
k
( )
k 1 =
n

------------------------------------------------- =
P A
i
B ( )
P A
i
B ( )
P B ( )
-------------------------
P B A
i
( ) P A
i
( )
P B ( )
-------------------------------------- = =
B B B
n
UA
k
k =1
( ,
, (
, (
j \


n

U
k =1
B A

k

( )

= = =

P131-178-9782100549412.fm Page 139 Mercredi, 24. novembre 2010 10:19 10

140



INTRODUCTION LA MTHODE STATISTIQUE

Les vnements tant incompatibles deux deux puisque les

A

k

le
sont, on en dduit que :

et la formule de Bayes est dmontre.
On dit frquemment que les vnements

A

i

, qui forment une partition de


, sont les causes. Une autre dnomination, trs courante, consiste nommer
probabilits

a priori

les valeurs

P

(

A

k

), et probabilits

a posteriori

les valeurs
. En effet, la formule de Bayes permet dobtenir une valeur rvise
des probabilits des vnements

A

i

une fois connue la ralisation de
lvnement

B

.
On notera que lapplication de la formule de Bayes demande lvaluation
des probabilits dites

a priori



P

(

A

k

) ainsi que des probabilits de
leffet

B

connaissant chacune des causes.


Exemple

Pour un systme de crdit la clientle on distingue trois types de
dossiers : les dossiers aboutissant en contentieux, les dossiers dif cults
temporaires ou lgres et les dossiers sans dif cults de paiement. On a
valu sur la base de xpriences antrieures les proportions respecti ves
des trois catgories 1/5, 3/10 et 1/2. Dautre part, on dispose pour
chaque dossier dun score dapprciation global du client rapport lune
des deux modalits sui vantes : lev ou bas. Enn, on sait que 90 % des
dossiers en contentieux correspondaient un score bas, que 60 % des
dossiers difcults lgres correspondaient un score bas, et que 85 %
des dossiers sans difcults correspondaient un score lev. Si on tire un
dossier au hasard pour lequel le score est bas, quelle est la probabilit
quil ait abouti en contentieux ? (resp. quil nait donn lieu aucune
difcult de paiement ? quil ait engendr des difcults lgres ?)
Les trois vnements

A

1

= aboutir en contentieux ,

A

2

= difcults
lgres et

A

3

= aucune difcult forment un systme complet. On
dispose des probabilits

a priori

:

P

(

A

1

) = 0,2

P

(

A

2

) = 0,3

P

(

A

3

) = 0,5
ainsi que des probabilits conditionnelles pour les vnements

B

= score bas et = score lev

do :
B A
k

P B ( ) P B A
k
( ) = P B A
k
( ) P A
k
( )
k

1

=

n


k

1

=

n

=
P A
k
B ( )
P B A
k
( )
B
P B A
1
( ) 0,9 = P B A
2
( ) 0,6 = P B A
3
( ) 0,15 =
P B ( ) P B A
1
( ) P B A
2
( ) P B A
3
( ) + + =
P B A
1
( ) P A
1
( ) P B A
2
( ) P A
2
( ) P B A
3
( ) P A
3
( ) + + =
0,435 =

P131-178-9782100549412.fm Page 140 Mercredi, 24. novembre 2010 10:19 10

MODLE PROBABILISTE ET VARIABLE ALATOIRE




141


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

On en dduit :
ainsi que : et
Ce calcul montre que linformation complmentaire

le dossier tudi
correspond un score bas

a permis une augmentation de la probabilit
associe au de venir

contentieux

(0,414 au lieu de 0,2) et de la
probabilit associe au de venir

difcults lgres

(0,414 au lieu de
0,3), et une forte diminution de la probabilit associe au de venir
aucune difcult (0,172 au lieu de 0,5).
On nomme aussi probabilits rvises, les probabilits

a posteriori

.
Le thorme de Bayes est lorigine de nombreux dveloppements for-
mant ce quon a appel la statistique baysienne. Les domaines dapplication
sont trs varis : gestion financire, prvisions, diagnostic,
Cependant, son utilisation est trs conteste, notamment en raison de la
ncessit dune valuation

a priori

, subjective, de probabilits. De plus les
causes

A

k

se trouvent affectes de probabilits, ce qui peut apparatre
paradoxal si on se rfre la notion dterministe de causalit. Pour ceux qui
contestent la statistique baysienne, un phnomne est, ou nest pas, cause
(ventuellement partielle) dun autre, et ne saurait donc tre muni dune pro-
babilit sur cette causalit

1

.
De nombreuses difficults persistent autour de la notion de probabilit, et
particulirement celle du choix des probabilits quon affecte aux vne-
ments rapports une preuve alatoire. Lanalyse combinatoire et lappro-
che frquentiste offrent une solution, dite objectiviste . Cependant, ce
point de vue se heurte :
quelques contradictions logiques : le lien entre la probabilit et la fr-
quence relative, qui permet dvaluer une probabilit, est relativiser par
la loi faible des grands nombres (

cf. infra

), donc par une probabilit ; on
dfinit concrtement une probabilit en se basant sur une autre probabilit
qui demande tre value, et ainsi de suite ;
quelques paradoxes : le paradoxe de Bertrand

2

montre 3 solutions dis-
tinctes, 1/4, 1/3 et 1/2 (toutes par lapproche frquentiste) au calcul de la
probabilit que la longueur dune corde dun cercle soit suprieure au ct
du triangle quilatral inscrit dans ce cercle ; le paradoxe de St Peters-

1. On ne vise pas, dans ce livre, prendre parti pour ou contre loptique baysienne, mais
donner au lecteur des lments simples sur les arguments en prsence. Le dbat nest pas
encore clos !
2. Prsent en dtail, par exemple, dans le livre de G. Saporta, pages 11,

op. cit

.
P A
1
B ( )
P A
i
B ( )
P B ( )
-------------------------
P B A
1
( ) P A
1
( )
P B ( )
----------------------------------------
0,9 0,5
0,435
------------------- 0,414 = = = =
P A
2
B ( ) 0,414 = P A
3
B ( ) 0,172 =
P A
k
B ( )
P131-178-9782100549412.fm Page 141 Mercredi, 24. novembre 2010 10:19 10
142

INTRODUCTION LA MTHODE STATISTIQUE


bourg
1
montre que la notion frquentiste de probabilit (donc
objective ) peut parfois demander des apprciations complmentaires
(utilit) trs subjectives ;
et quelques limites (comment valuer les probabilits pour une preuve
qui nest pas rptable ?).
Lanalyse baysienne cherche contourner ces obstacles, surtout ceux lis
lapproche frquentiste, mais au prix de valeurs subjectives pour certaines
probabilits, ainsi que de quelques difficults mathmatiques de mise en
uvre.
II. Variables alatoires une dimension
A. Dfinitions
tant donn un espace probabilis ( , , P), une variable alatoire (v.a. en
abrg) est une application X dfinie sur lensemble fondamental et
valeurs relles :
X :
X()
tout vnement lmentaire , lapplication X associe une valeur num-
rique X() ; cest pourquoi on prcise parfois en parlant de variable alatoire
relle
2
nomme aussi ala ou ala numrique .
On observe que la terminologie utilise peut paratre abusive, car X est
une application, donc une fonction de dans . Les variables alatoires
seront notes par des lettres majuscules telles que X, Y, Z, pour les distin-
guer des valeurs quelles sont susceptibles de prendre (ou ralisations), gn-
ralement notes en minuscules.
1. Jacques et Pierre jouent avec une pice. Pierre paie Jacques 1 si pile sort ds le premier
jet, 2 si pile sort seulement au 2
e
jet, 4 sil ne sort quau 3
e
jet et ainsi de suite en doublant
la somme paye par Pierre Jacques chaque jet supplmentaire o pile nest pas sorti. On
cherche savoir quelle somme Jacques devrait accepter de payer Pierre pour jouer ce jeu
si lon veut quil soit quilibr, cest--dire que leurs espoirs de gain soient gaux ; le paradoxe
de cette situation provient du fait quon peut montrer que le prix alors payer par Jacques
devrait tre infini. Ce paradoxe a longuement t tudi par Daniel et Nicolas Bernoulli, puis
par Buffon, Laplace, Poisson entre autres ; il a contribu dgager la notion dutilit.
2. Il faut distinguer une variable alatoire laquelle est associe une loi, appele aussi
distribution , de probabilit (thorique) dune variable statistique quantitative laquelle est
associe une distribution statistique (observe), chapitre 1, II.A.
P131-178-9782100549412.fm Page 142 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE

143


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Exemple
On jette deux ds non pips ; lensemble fondamental associ cette
exprience alatoire est form de 36 vnements lmentaires quipro-
bables :
= ({1,1} ; {1,2} ; {2,1} ; ; {6,6})
Si on sintresse la somme des points marqus par les deux ds, on
dnira sur cet espace probabilis une v .a. X gale cette somme ;
lensemble de ses valeurs possibles est :
{2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
Pour obtenir la probabilit dune v aleur quelconque de X, il suf t de
dnombrer les vnements lmentaires de qui ralisent cette valeur;
ainsi :
On dit que la variable alatoire X est :
discrte finie si lensemble X() est fini, discrte infinie si lensemble
X() est infini dnombrable,
continue si lensemble X() est un intervalle de non rduit un point
(ou une runion dintervalles de ).
On retrouve une classification analogue celle rencontre pour les varia-
bles statistiques (chapitre 1), la notion de probabilit remplaant la notion de
frquence ; la loi des grands nombres ( V) permet dtablir un lien entre ces
deux notions.

Remarque
Pour une variable alatoire continue X, il faut complter la dfinition
en ajoutant que limage rciproque de tout intervalle ] , x] doit
appartenir la -algbre :
X
1
(],x]) =
La probabilit tant dfinie sur la famille des parties de formant
une -algbre, cette condition permet de dterminer la probabilit de
tout intervalle de .
Notons que cette condition est gnrale puisquelle est ralise pour
les variables alatoires discrtes ; pour ces variables alatoires, limage
rciproque de tout intervalle de est une partie de laquelle est
associe une probabilit.
P X 4 = ( ) P 1,3 2,2 3,1 ( ) =
P 1,3 ( ) P 2,2 ( ) P 3,1 ( ) + + 3/36 1/12 = = =
x X ( ) ( ) x ( )
P131-178-9782100549412.fm Page 143 Mercredi, 24. novembre 2010 10:19 10
144

INTRODUCTION LA MTHODE STATISTIQUE


B. Loi de probabilit dune variable alatoire
1) Fonction de rpartition dune variable alatoire
La fonction de rpartition F
X
(ou F) dune variable alatoire X valeurs dans
lintervalle [0, 1] est dfinie par :
Compte tenu de la proprit ii) dune probabilit ( I.A), on peut crire
pour tout a, b , a < b :
F(b) = F(a) + P(a < X b) P(a < X b) = F(b) F(a)
la probabilit pour que X appartienne un intervalle de pouvant se
calculer partir de sa fonction de rpartition F
X
, cette fonction caractrise la
loi de X.
2) Loi de probabilit dune variable alatoire discrte
La fonction de rpartition dune telle v.a. est une fonction constante par inter-
valle (ou en escalier ) continue droite, les points de discontinuit corres-
pondant des valeurs possibles de X (cf. figure 5.2) ; sa courbe reprsentative
sappelle la courbe de rpartition ou courbe cumulative ; on peut remarquer
que cette fonction prsente une identit formelle avec la fonction de rparti-
tion dune variable statistique discrte.
Considrons le cas dune v.a. X discrte finie ; ses diffrentes valeurs possi-
bles, en nombre fini, sont supposes distinctes et ranges dans lordre croissant :
Connaissant la fonction de rpartition de X, on peut calculer la probabilit
p
i
de ralisation de toute valeur :
Une telle distribution de probabilit peut se reprsenter par un diagramme
en btons ( cf. figure 5.3).
Proprits caractristiques dune fonction de rpartition
dune variable alatoire
F est une fonction de rpartition si :
1. F est croissante (au sens large)
2. et
3. F est continue droite
F
X
x ( ) P X x ( ) =
F x ( )
x
lim 0

= F x ( )
x +
lim 1 =

X ( ) x
1
, , x
i
, x
k
, =
x
i
1 i k ( )
p
i
P X x
i
= ( )
F x
1
( ) pour i 1 =
F x
i
( ) F x
i 1
( ) pour i 2 k , , =

= =

P131-178-9782100549412.fm Page 144 Mercredi, 24. novembre 2010 10:19 10

MODLE PROBABILISTE ET VARIABLE ALATOIRE




145


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.


Exemple 1

Loi de probabilit de la v.a. discrte nie

X

gale la somme des points
marqus lors du lancer de deux ds non pips :
Inversement, on calcule aisment la fonction de rpartition partir de la
connaissance des

k

couples (

x

i

,

p

i

) :
Lorsque la v .a. est

discrte innie

, lensemble

X

(


) est inni
dnombrable, et on peut, comme dans le cas ni, calculer les
probabilits de chaque v aleur possible partir de la fonction de
rpartition ; en sens inverse, on peut dduire la fonction de rpartition de
la connaissance des valeurs possibles et des probabilits associes.


Exemple 2

Loi de probabilit de la v .a. discrte innie

X

gale au nombre de jets
ncessaires dune pice de monnaie non pipe pour obtenir la f ace
pile :
On verra au chapitre 6 ( II.C) que

X

suit une loi gomtrique de
paramtre 0,5



Valeur de

X
x

1


x

i


x

k

Probabilit

p

1


p

i


p

k

Valeur de

X

2 3 4 5 6 7 8 9 10 11 12
Probabilit
Valeur de

X

1 2 3

i

Probabilit
p
i
i 1 =
k

1 =
1
36
------
1
18
------
1
12
------
1
9
---
5
36
------
1
6
---
5
36
------
1
9
---
1
12
------
1
18
------
1
36
------
F x ( )
0
p
j
j 1 =
i

=
si x x
1
<
si x
i
x x
i 1 +
< pour 1 i k 1 ( )
si x x
k

1
2
i
----
i 1 =

1 =
1
2
---
1
2
2
-----
1
2
3
-----
1
2
i
----
P131-178-9782100549412.fm Page 145 Mercredi, 24. novembre 2010 10:19 10
146

INTRODUCTION LA MTHODE STATISTIQUE


3) Loi de probabilit dune variable alatoire continue
Une variable alatoire X absolument continue est une variable alatoire dont
la fonction de rpartition F
X
possde en sus des trois proprits dj non-
ces, les deux proprits suivantes :
1
4. F
X
est une fonction continue sur tout
5. F
X
est drivable presque partout
1
1. Cest--dire que la fonction Fx peut ne pas tre drivable sur un ensemble dnombrable de
points de
1/36
3/36
6/36
10/36
15/36
21/36
26/36
30/36
33/36
35/36
1
0 1 2 3 4 5 6 7 8 9 10 11 12
x
F(x)
Figure 5.2 Fonction de rpartition (exemple 1)
0
1/12
1/6
1 2 3 4 5 6 7 8 9 10 11 12 x
P
Figure 5.3 Diagramme en btons (exemple 1)
P131-178-9782100549412.fm Page 146 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE

147


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Toute fonction vrifiant ces cinq proprits peut tre considre comme
la fonction de rpartition dune variable alatoire absolument continue.
La drive de F
X
, note f
X
, est appele densit de probabilit de la varia-
ble alatoire X.
Une fonction f, dfinie sur tout , peut tre considre comme la densit
de probabilit dune variable alatoire absolument continue si elle possde
les trois proprits suivantes :
1
La fonction de densit est une reprsentation trs utile de la loi de proba-
bilit dune variable alatoire continue. On peut dfinir la loi de probabilit
dune variable alatoire continue, soit par sa fonction de rpartition, soit par
sa fonction de densit, et on a la relation fondamentale suivante :

La probabilit relative un intervalle se calcule laide de la fonction de
rpartition ou de la fonction de densit ( cf. figure 5.4) :
1.
2. f continue presque partout
1
3.
1. Cest--dire que la fonction f peut ne pas tre continue sur un ensemble dnombrable de
points de ; on dit encore que f est continue par morceaux ; mentionnons que les points de
non-drivabilit de F correspondent aux points de discontinuit de f
f x ( ) 0 x
f x ( ) x d

+

1 =
x F x ( ) f t ( ) t d

=
P a X b < ( ) F b ( ) F a ( ) f x ( ) x d
a
b

= =
f(x)
a b x
Figure 5.4 Reprsentation de la probabilit dun intervalle
P131-178-9782100549412.fm Page 147 Mercredi, 24. novembre 2010 10:19 10
148

INTRODUCTION LA MTHODE STATISTIQUE


Probabilit attache un point x
Soient deux nombres rels a et b positifs :
la fonction F tant continue :
do :
la probabilit quune v.a. continue X prenne une valeur donne x est
nulle, on dit que la loi de X est diffuse (ou continue).
Par consquent, pour une variable alatoire continue :
Exemple
Soit la fonction f dnie par :
Montrons que cette fonction peut tre considre comme la fonction de
densit dune v.a. continue :
1. f(x) 0 x
2. f continue sauf en x = 0 et x = 1
3.
F(x) = P(X x) = P(X < x) a, b , a < b :
P(a < X < b) = P(a X b) = P(a < X b)
= P(a X < b) = F(b) F(a) =
0 P X x = ( ) P x a X x b + < ( ) F x b + ( ) F x a ( ) =
F x b + ( ) F x ( )
( ,
j \
= F x ( ) F x a ( )
( ,
j \
+
F x b + ( ) F x ( )
( ,
j \
0 si b 0
F x ( ) F x a ( )
( ,
j \
0 si a 0
P X x = ( ) 0 =

f x ( ) x d
a
b

f x ( )
0 pour x 0
1
2

x

---------- pour 0 x < 1
0 pour x 1 >


=
f x ( ) x d

+

1
2
--- x
1 2
x d
0
1

x
1 2
0
1
1 = = =

P131-178-9782100549412.fm Page 148 Mercredi, 24. novembre 2010 10:19 10

MODLE PROBABILISTE ET VARIABLE ALATOIRE




149


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

Calculons sa fonction de rpartition :
pour

x


0

F

(

x

)
pour 0 <

x



1

F

(

x

)
pour

x

>1

F

(

x

)
On vrie aisment que cette fonction

F

possde les proprits de la
fonction de rpartition dune v.a. continue

1

.
On peut calculer la probabilit de tout interv alle ou runion dintervalles,
par exemple :

P

(0,16 <

X

< 0,25) =

F

(0,25)

F

(0,16) = 0,5 0,4 = 0,1

C. L

oi dune fonction de variable alatoire

Si


est une fonction dfinie sur




valeurs dans , lapplication

X,
note Y = (X) est une variable alatoire dont on peut dterminer la fonc-
tion de rpartition et donc la loi de probabilit partir de celle de X.
1) Changement de variable Y = aX + b
Les paramtres a (a 0) et b sont des nombres rels. Connaissant la fonction
de rpartition de X, on peut calculer la fonction de rpartition F
Y
de la v.a. Y :
pour a > 0 :
1. On peut remarquer que les deux points de discontinuit de la fonction de densit { x = 0} et
{x = 1} correspondent aux deux points de non-drivabilit de la fonction de rpartition.
0

x

dt 0 = =
0

0

dt
1
2 t
---------
0
1

dt + =
t
0
x
x = =
0

0

= dt
1
2 t
---------
0
1

dt + 0
0
x

dt + 1 =
F
Y
y ( ) P Y y ( ) P aX b y + ( ) P = = = X
y b
a
-----------
( ,
j \
F
X
y b
a
-----------
( ,
j \
=
P131-178-9782100549412.fm Page 149 Mercredi, 24. novembre 2010 10:19 10
150

INTRODUCTION LA MTHODE STATISTIQUE


pour a < 0 :

Lorsque la variable alatoire X est continue, on obtient la fonction de den-
sit f
Y
par drivation de la fonction F
Y
2) Autres types de fonctions
bijective (donc monotone)
croissante :
dcroissante :
Si X est une v.a. continue et si la fonction est drivable, on obtient la
fonction de densit f
Y
par drivation de la fonction F
Y
Exemple
Soit une v.a. continue X, on peut calculer les fonctions de rpartition et
de densit de Y = exp(X), la fonction exponentielle tant croissante :

quelconque
Le principe consiste toujours identifier la fonction de rpartition F
Y
en
recherchant lantcdent pour X de lvnement {Y y = (x)}.
Par exemple, pour Y = X
2
:
F
Y
(y) =
F
Y
y ( ) P Y y ( ) P X
y b
a
-----------
( ,
j \
= =
1 F
X

y b
a
-----------
( ,
j \
si X est une v.a. continue
1

P


X
y a


a

-----------

<
( ,
j \
si X est une v.a. discrte


=
F
Y
y ( ) P Y y ( ) P X
1
y ( ) ( ) F
X

1
y ( ) ( ) = = =
F
Y
y ( ) P Y y ( ) P X
1
y ( ) ( ) = =
1 F
X

1
y ( ) ( ) si X est une v.a. continue
1

P


y

( ) < ( ) si X est une v.a. discrte


=
F
Y
y ( )
0
F
X
lny ( )

=
pour y 0
pour y 0 >
f
Y
y ( )
0
1
y
--- f
X
lny ( )

pour y 0
pour y 0 >
0 si y 0 <
P y


X

+ y

( )

F

X

y

( )

F

X

y


( ) si y 0 =


P131-178-9782100549412.fm Page 150 Mercredi, 24. novembre 2010 10:19 10

MODLE PROBABILISTE ET VARIABLE ALATOIRE




151


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

III. C

ouple de variables alatoires

A. F

onction de rpartition dun couple alatoire

Soient deux variables alatoires

X

et

Y

dfinies sur le mme espace probabi-
lis (


,

P

) ; on appelle

fonction de rpartition du couple alatoire (X,Y)

,
la fonction

F

dfinie sur


2

par :


(

x

,

y

)


2



Caractrisation dune fonction de rpartition dun couple alatoire (X,Y

)

B. L

oi dun couple alatoire discret

Les variables alatoires discrtes finies

X

et

Y

sont dfinies sur le mme
espace probabilis ( ,,P). Leurs valeurs, supposes distinctes, sont ran-
ges dans lordre croissant :
X() = {x
1
, , x
i
, , x
k
} et Y() = {y
1
, , y
j
, , y
l
}
La loi du couple alatoire ( X,Y) est dfinie par les probabilits p
ij
asso-
cies tout couple de valeurs possibles ( x
i
, y
j
) (cf. tableau 5.1) :
1. F croissante par rapport chacune des variables x et y
2. lim F(x , y) = 1 et lim F(x , y) = 0
3. Continuit droite : lim F(x , y) = F(x
0
, y
0
)
F x y , ( ) P X x ( ) Y y ( )
( ,
j \
=
x
y
x +
y +
x x
0
+

y y
0
+

p
ij
P X x
i
= Y y
j
= , ( ) = p
ij
1 =
i

1

=

k

j

1

=

l


P131-178-9782100549412.fm Page 151 Mercredi, 24. novembre 2010 10:19 10

152



INTRODUCTION LA MTHODE STATISTIQUE

On notera lanalogie du tableau 5.1 avec le tableau dune distribution con-
jointe en statistique descriptive (chapitre 3, I.A).
On a :
Les couples (

x

i

,

p

i




) constituent la

loi marginale de X

et les couples
(

y

j

,

p


j

) constituent la

loi marginale de Y.

Si la probabilit que

X

prenne la valeur

x

i

nest pas nulle (

p

i


0), on peut
calculer la

probabilit conditionnelle



p

j

/

i

de

Y

=

y

j

sachant que

X

=

x

i

:
Les couples (

y

j

,

p

j/i

) constituent la

loi conditionnelle

de

Y

lie par

X

=

x

i

On note cette v.a. { =

x

i

}, et on prsente sa distribution comme celle de
toute v.a. une dimension :
Il y a

k

lois conditionnelles de

Y

sachant que X prend une valeur donne.
De mme, si la probabilit p
j
nest pas nulle :
Tableau 5.1 Distribution de probabilit dun couple alatoire (X,Y)
Valeur de Y
Valeur de X
y
1

y
j

y
l
Loi marginale
de X
x
1
.
.
.
x
i
.
.
.
x
k
p
11
.
.
.
p
i1
.
.
.
p
k1

.
.
.

.
.
.

p
1j
.
.
.
p
ij
.
.
.
p
kj

.
.
.

.
.
.

p
1l
.
.
.
p
il
.
.
.
p
kl
p
1
.
.
.
p
i
.
.
.
p
k
Loi marginale
de Y
p
1

p
j

p
1
1
Valeur de Y y
1
. y
j
. y
l
P(Y = ) p
1/i
. p
j/i
. p
l/i
p
i
p
ij
j 1 =
l

P X x
i
= ( ) = =
p
j
p
ij
i 1 =
k

P X x
i
= ( ) = =
p
j i
P Y y
j
X x
i
= = ( )
p
ij
p
i
------ = =
Y X
p
j/i
1 =
j 1 =
l

y
j
X x
i
=
p
i j
P X x
i
Y y
j
= = ( )
p
ij
p
j
------ = =
P131-178-9782100549412.fm Page 152 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE

153


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Les couples (x
i
, p
i/j
) constituent la loi conditionnelle de X lie par Y = y
j
:
{ = y
j
}
Il y a l lois conditionnelles de X sachant que Y prend une valeur donne.
Les deux formules prcdentes entranent
1
:
Indpendance
Les variables alatoires X et Y sont indpendantes si pour tout couple
(x
i
, y
j
), on a la relation :
P((X = x
i
) (Y = y
j
)) =
En cas dindpendance, les lois conditionnelles sont gales la loi mar-
ginale correspondante :
et
ce qui signifie que la connaissance de la valeur prise par X napporte aucune
information sur la valeur de Y, et inversement.
La loi de probabilit dun couple alatoire (X,Y) permet de calculer les lois
marginales des deux variables X et Y. En revanche, la connaissance de ces
lois ne permet pas de dterminer la loi conjointe, sauf si les variables X et Y
sont indpendantes.
Mentionnons lanalogie existant entre les notions de lois de probabilit
marginales et conditionnelles dfinies pour un couple alatoire et celles de
distributions marginales et conditionnelles rencontres en statistique descrip-
tive (chapitre 3).
Toutes les notions dveloppes pour les couples de variables alatoires dis-
crtes finies peuvent tre gnralises des variables alatoires discrtes infinies.
La loi de probabilit dun couple alatoire discret peut aussi tre dfinie
par sa fonction de rpartition.
Pour {x
i
x < x
i+1
} et {y
j
y < y
j+1
}:
1. Les probabilits conditionnelles p
j/i
et p
i/j
sont aussi parfois notes et
X et Y indpendantes pour tout couple (i , j)
Y X
p
j
i
p
i
j
p
ij
p
i
p
j i
p
j
p
i j
= =
P X x
i
= ( ) P Y y
i
= ( )
p
ij
p
i
p

j
=
p
j i
p
ij
p
i
------ p

j
= = p
i j
p
ij
p

j
------- p
i
= =
F x y , ( ) P X x ( ) Y y ( ) ( )
n 1 =
j

p
mn
m 1 =
i

= =

P131-178-9782100549412.fm Page 153 Mercredi, 24. novembre 2010 10:19 10

154



INTRODUCTION LA MTHODE STATISTIQUE

C. L

oi dun couple de variables alatoires continues

La fonction de rpartition dun couple (

X

,

Y

) de variables alatoires continues pos-
sde en sus des trois proprits dj nonces, les deux proprits suivantes :
Toute fonction vrifiant les cinq proprits peut tre considre comme la
fonction de rpartition dun couple de variables alatoires continues.
La

densit



f

du couple (

X

,

Y

) est donne par : (

x

, y)
La loi de probabilit dun couple de variables alatoires continues peut
tre dfinie, soit par la fonction de rpartition, soit par la fonction de densit,
et on a la relation fondamentale suivante :
(x , y)
2

La probabilit relative un sous-ensemble de du type [ a ; b] [c ; d]
est gale :
Plus gnralement, la probabilit que
le couple alatoire ( X,Y) appartienne
un domaine
2
est gale :
Les densits marginales g de X et h de Y sont respectivement :
et
Exemple
Un couple (X, Y) de variables alatoires continues suit une loi uniforme
sur si sa densit de probabilit est la suivante :

4. F

est une fonction continue sur
2
5. F

est drivable presque partout
f x y , ( )

2
F
xy
------------ =
F x y , ( )

f u v , ( ) u d v d

2
P X Y , ( ) a b ; [ ] c d ; [ ]
( ,
j \

c

d

f u v , ( ) u d v d
a
b

=
P X Y , ( )



f x y , ( ) x d v d

=
g x ( ) f x y , ( ) y d

= h y ( ) f x y , ( ) x d

=
0 ; 1 [ ] 0 ; 1 [ ]
F x y , ( )
0
1

=
pour tout
pour tout
x y , ( ) 0 ; 1 [ ] 0 ; 1 [ ]
x y , ( ) 0 ; 1 [ ] 0 ; 1 [ ]
P131-178-9782100549412.fm Page 154 Mercredi, 24. novembre 2010 10:19 10

MODLE PROBABILISTE ET VARIABLE ALATOIRE




155


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

Connaissant la fonction de densit, on peut calculer la probabilit de
tout sous-ensemble de



:
Considrons le domaine


de ainsi dni :


= {(

x

,

y

)



2


x

> 0,

y

> 0 et

x + y

< 1},
alors

P

{

X

,

Y





} =
Le lecteur peut vrier que les
lois marginales de

X

et

Y

sont des
lois uniformes continues sur
[0 ; 1] (chapitre 7, I.A).

Indpendanc

e
Plus gnralement, un

n

-uplet de variables alatoires (

X

1

,

X

2

, ,

X

n

) de
densit de probabilit

f

est un

n

-uplet de variables alatoires indpendantes si
et seulement si la densit

f

du

n

-uplet est le produit des

n

densits marginales

f

i



:

IV. I

ndicateurs des variables alatoires

Une diffrence entre la statistique descriptive et la thorie des probabilits
rside dans le fait que la premire discipline vise reprsenter les donnes
de faon les rendre plus lisibles , tandis que la seconde a pour objectif
de fournir des modles adapts au traitement mathmatique, donc abstraits,
qui se veulent des images, la fois idales et approches de ces donnes.
Lutilisation simultane de ces deux dmarches doit permettre de faire
apparatre les lois susceptibles de rgir les phnomnes dont proviennent les
donnes, puis de les exprimer de manire plus prcise et maniable grce au
formalisme mathmatique qui en dgage les proprits essentielles.
Les variables alatoires

X

et

Y

sont indpendantes si et seulement si


(

x , y

)






:

f

(

x

, y) = g(x) h(y)

2
P X 0,3 < ( ) 0,1 Y 0,8 < ( )
( ,
j \

0,1
0,8


0
0,3

1 x d y d 0,21 = =

2

0
1


0
1 u

1 u d v 0,5 = d
x

1
1
0

2
f x
1
x
2
, x
n
, , ( ) f
1
x
1
( ) f
2
x
2
( ) f
n
x
n
( ) =
P131-178-9782100549412.fm Page 155 Mercredi, 24. novembre 2010 10:19 10

156



INTRODUCTION LA MTHODE STATISTIQUE

Il est naturel, comme on la fait en statistique descriptive, de dfinir et dtu-
dier des indicateurs (ou caractristiques) des variables alatoires. La motivation
est la mme : la loi de probabilit constitue une grande quantit dinformations,
et est souvent trop riche pour tre apprhende dans sa globabilit. Il est donc
utile den rsumer certains aspects (les mmes que ceux envisags en statisti-
que descriptive) par des valeurs numriques convenablement choisies.
Des indicateurs relatifs aux trois aspects principaux des lois de probabilit
sont dfinis, savoir :
la tendance centrale ;
la dispersion ;
la forme (asymtrie et aplatissement).
Les outils mathmatiques qui interviennent dans la dfinition de ces indi-
cateurs varient dun type de loi lautre. Les lois discrtes finies utilisent les
mmes outils que ceux ncessaires la dfinition des indicateurs des varia-
bles statistiques. Pour les lois discrtes infinies, quelques connaissances sur
les sries numriques (et parfois sur les sries entires) sont utiles. Pour les
lois absolument continues, des notions sur lintgration sont utilises. Cepen-
dant, la signification de ces indicateurs ne dpend pas du type de loi de pro-
babilit considre, ni des techniques mathmatiques utilises.

A. M

ode

Le

mode

dune variable alatoire est la valeur pour laquelle le diagramme en
btons ou la courbe de densit prsente son maximum. On appelle

mode rela-
tif

une valeur correspondant un maximum local du diagramme en btons
ou de la courbe de densit, mais en gnral, le mode est unique. Le mode est
un indicateur de tendance centrale.

B. E

sprance mathmatique

Lesprance mathmatique dune variable alatoire

X

est aussi appele
moyenne ou valeur moyenne de

X

. Elle est gnralement note

m

.

1) Cas discret

Soit

X

une variable alatoire discrte finie :

Valeur de

X
x

1

.....

x

i

.....

x

k

Probabilit

p

1

.....

p

i

.....

p

k

P131-178-9782100549412.fm Page 156 Mercredi, 24. novembre 2010 10:19 10

MODLE PROBABILISTE ET VARIABLE ALATOIRE




157


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

On appelle

esprance mathmatique

ou

moyenne



E

(

X

) de

X

:
titre dillustration, le lecteur peut vrifier que la v.a. de lexemple 1 du
II.B a une moyenne gale 7. On peut remarquer la similitude des dfini-
tions de lesprance mathmatique et de la moyenne arithmtique dune
variable statistique discrte. On a remplac dans la formulation de cette der-
nire les frquences par les probabilits.
Lesprance mathmatique est un nombre rel, mais souvent, pour une
variable alatoire discrte, sa valeur ne correspond pas une des valeurs pos-
sibles de cette variable alatoire.


Exemple

Une loterie comporte 1 000 billets et un seul lot de 10 000

. Si tous les
billets ont t v endus et si le tirage se f ait au hasard , lesprance
mathmatique de la valeur V dun billet sera :
Mais, en f ait, aucun billet ne rapporte 10 : chacun rapporte 0 ou
10 000 . Cependant, si on achte un billet chaque tirage de cette
loterie (en supposant quelle ait lieu rgulirement dans les mmes
conditions), la moyenne des gains sera voisine de 10 au bout dun
grand nombre de tirages ; ce rsultat qui f ait limportance du concept
desprance mathmatique se rfre la loi des grands nombres ( V).
La moyenne dune variable alatoire X a ainsi la signification dun indi-
cateur de tendance centrale de X.
Dans le cas dune variable alatoire X discrte infinie :
sous rserve que la srie de terme gnral x
i
p
i
soit absolument convergente
1
,
sinon, et mme si elle est simplement convergente, on dira que la v.a. X na
pas desprance mathmatique.
1. La srie est absolument convergente si la srie est
convergente.
E X ( ) x
i
p
i
i 1 =
k

=
E V ( ) 10 000
1
1 000
------------- 0
999
1 000
-------------


10


= =
E X ( ) x
i
p
i
i 1 =

=
x
i
p
i
i 1 =
+

x
i
p
i
i 1 =
+

x
i
p
i
i 1 =
+

=

P131-178-9782100549412.fm Page 157 Mercredi, 24. novembre 2010 10:19 10

158



INTRODUCTION LA MTHODE STATISTIQUE

Lesprance mathmatique de la v.a. discrte conditionnelle { =

x

i

},
dfinie au III.B. est appele

esprance conditionnelle

de

Y

sachant que

X

=

x

i

. Elle a pour expression :
De mme :

2) Cas continu

La variable alatoire

X

tant continue de densit

f

, on appelle esprance
mathmatique

E

(

X

) de

X

:
Cette dfinition suppose lintgrale du second membre

absolument con-
vergente

1

, sinon et mme si elle est simplement convergente, on dira que
la v.a.

X

na pas desprance mathmatique.


Remarque

Lesprance mathmatique dune variable

certaine



X

, cest--dire une
v.a. ne prenant quune seule valeur, note

b

, avec la probabilit 1, est
gale cette valeur : E(b) = b. Notons quune telle variable ne mrite
pas exactement le nom de variable alatoire puisquelle peut tre iden-
tifie la constante b.
On appelle variable alatoire centre une variable alatoire dont
lesprance mathmatique est nulle.
3) Proprits de lesprance mathmatique
1. Si a et b sont deux nombres rels : E(aX + b) = a E(X) + b
si une v.a. X possde une esprance mathmatique m, alors la variable
alatoire Y = X m est la variable alatoire centre associe X.
1. Lintgrale est absolument convergente si lintgrale est
convergente.
Y X
E Y X x
i
= y
j
p
j/i
j 1 =
l

=
E X Y y
i
= x
i
p
i/ j
i 1 =
k

=
E X ( ) x f x ( ) x d

+

=
x f x ( ) x d

+

x f x ( ) x d

+

P131-178-9782100549412.fm Page 158 Mercredi, 24. novembre 2010 10:19 10


MODLE PROBABILISTE ET VARIABLE ALATOIRE

159


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
2. Soit une fonction dfinie sur valeurs dans , alors si X est une v.a.,
(X) est une v.a. ( II.C) dont on peut calculer lesprance sans avoir dter-
miner sa loi.
Cas discret
en supposant toujours que la srie du second mem-
bre est absolument convergente. En particulier :
Cas continu
en supposant toujours lintgrale du second
membre absolument convergente. En particulier :
3. Lesprance dune somme de variables alatoires est gale la somme des
esprances :
E(X + Y) = E(X) + E(Y)
1
re
consquence :
E(X Y) = E(X) + E( Y) = E(X) E(Y)
2
de
consquence :
Soient n variables alatoires X
1
, X
2
,, X
n
ayant la mme esprance math-
matique m. Lesprance de leur somme est gale :
si on dsigne par leur moyenne : , on obtient :
4. Esprance dun produit de variables alatoires
Cas discret
Soit (X, Y) un couple de v.a. discrtes, on a, si la srie du second membre
est absolument convergente :
E X ( ) ( ) x
i
( ) p
i
i

=
E X
2
( ) x
2
p
i
i

=
E X ( ) ( ) x ( ) f x ( ) x d
R

=
E X
2
( ) x
2
f x ( ) x d
R

=
E X
i
i 1 =
n

( ,
, (
j \
E X
i
( )
i 1 =
n

n m = =
X X
1
n
--- X
i
i 1 =
n

= E X ( ) m =
E X Y ( ) x
i
y
i
p
ij
i j ,

=
P131-178-9782100549412.fm Page 159 Mercredi, 24. novembre 2010 10:19 10
160

INTRODUCTION LA MTHODE STATISTIQUE


Cas continu
Soit (X, Y) un couple de v.a. continues, on a, si lintgrale du second mem-
bre est absolument convergente :
Si X et Y sont indpendantes, de la proprit { ou
f(x,y) = g(x) h(y)}, on dduit E(X Y) = E(X) E(Y), mais la rciproque nest
pas vraie :
C. Variance
La variance dune variable alatoire X est lesprance mathmatique du carr
de la v.a. centre associe X (si elle existe) :
La variance est un nombre positif ou nul ; sa racine carre, note , est
appele cart-type
1
:
Lcart-type dune v.a. X, exprim dans les mmes units que la variable
X, a la signification dun indicateur de dispersion autour de la moyenne
m de X. Illustrons cette ide par un exemple. Soient les variables alatoires
X et Y :
Ces deux variables alatoires ont mme esprance. Cette grandeur typi-
que ne permet pas de les distinguer. Cet exemple montre bien que lcart-
type dune variable alatoire est un indicateur de dispersion autour de sa
moyenne.
1. Les calculs de la moyenne et de lcart-type des v.a. discrtes finies peuvent se faire avec
des calculatrices possdant les fonctions statistiques, les frquences tant remplaces par les
probabilits.
Valeur de X 2 4 8 E(X) = 4 Valeur de Y 6 2 30 E(Y) = 4
Probabilit

X
=
Probabilit

Y
=
E X Y ( ) xy f x y , ( ) x d y d
R
2

=
p
ij
p
i
p

j
=
X et Y indpendantes E(X Y) = E(X) E(Y)

var X ( ) E X m ( )
2
=
var X ( ) =
1
2
---
1
4
---
1
4
--- 6
1
3
---
1
2
---
1
6
--- 148
P131-178-9782100549412.fm Page 160 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE

161


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Proprits de la variance
1. var(X) est la valeur minimale de , car on montre que :
De cette formule, on dduit :
{var(X) = 0 X est une variable certaine}
la relation usuelle :
2. laide de cette dernire expression de la variance, on montre sans
difficult :
a et b ,
3. La variance dune somme de deux variables alatoires indpendantes
X et Y est gale la somme des variances :
var(X + Y) = var(X) + var(Y)
en effet :
pour deux variables indpendantes, le dernier terme est nul
var(X + Y) = var(X) + var(Y)
1
re
consquence
X et Y indpendantes var(X Y) = var(X) + var( Y) = var(X) + var(Y)
2
de
consquence
Soient n variables alatoires X
1
, X
2
, ,X
n
mutuellement indpendantes
et de mme variance
2
, la variance de leur somme est gale n
2
:
Si on dsigne par leur moyenne : , on obtient :
E X b ( )
2
( ,
j \
E X b ( )
2
( ,
j \
var X ( ) E X ( ) b
( ,
j \
2
+ =
var X ( ) E X
2
( ) E X ( )
( ,
j \
2
=
var aX b + ( ) a
2
var X ( ) =
aX b +
a
X
=
var X Y + ( ) E X Y E X Y + ( ) + ( )
2
( ) =
E X E X ( ) (Y E Y ( ) + ( )
2
=
E X E X ( ) ( )
2
( ) E Y E Y ( ) ( )
2
( ) + =
2E X E X ( ) ( ) Y E Y ( ) ( ) ( ) +
var

X

( )

var Y

( )

2E X E X

( )


( )

Y E Y

( )


( )

+ + =
var X
i
i 1 =
n

( ,
, (
j \

i

1

=

n

var X
i
( ) n
2
= =
X X
1
n
--- X
i
i 1 =
n

=
var X ( )

2
n
----- =

P131-178-9782100549412.fm Page 161 Mercredi, 24. novembre 2010 10:19 10

162



INTRODUCTION LA MTHODE STATISTIQUE

Une variable alatoire

rduite

est une variable alatoire dont lcart-type
est gal 1. Si

X

a une moyenne

m

et un cart-type


, on peut lui associer
une variable alatoire

Y



centre rduite

:

D. C

ovariance de deux variables alatoires,
coefficient de corrlation linaire

On appelle

covariance

dun couple de variables alatoires

X

et

Y

la quantit :
var(

X

+

Y

) = var(

X

) + var(

Y

) + 2cov(

X

,

Y

)
On dduit de la proprit 4 de lesprance mathmatique :
Des proprits de la covariance, on dduit que le coefficient de corrlation
linaire est

invariant



par changement dorigine et dchelle

et quil est com-
pris entre 1 et + 1. On peut montrer quil est gal

+

1 si et seulement si

X

et

Y

sont lies par une relation linaire. Dautre part, si

X

et

Y

sont indpen-
dantes, leur coefficient de corrlation linaire est nul, mais la rciproque nest
pas vraie. On retrouve lanalogie de ce coefficient


avec le coefficient de
corrlation linaire

r

dfini entre deux variables statistiques au chapitre 3, II.A.

X

et

Y

indpendantes cov(

X

,

Y

) = 0
Proprits de la covariance
1.

cov(X,Y) = cov(Y, X)
2. cov(X, X) = var(X)
3. a, b, c et d :
4. , cette ingalit est une consquence
de lingalit de Schwarz.
On appelle coefficient de corrlation linaire entre X et Y le rapport :
Y
X m

-------------- =
cov X Y , ( ) E X E X ( ) ( ) Y E Y ( ) ( ) E XY ( ) E X ( ) E Y ( ) = =

cov aX b cY , d + + ( ) ac cov X Y , ( ) =
var aX bY c + + ( ) a
2
var X ( ) b
2
var Y ( ) 2ab cov X Y , ( ) + + =
cov X Y , ( ) var X ( ) var Y ( )

cov X Y , ( )

------------------------ =
P131-178-9782100549412.fm Page 162 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE

163


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
E. Moment, fonction gnratrice des moments
1) Moment
On appelle moment m
k
dordre k (k entier positif) dune variable alatoire X
lesprance mathmatique de X
k
si elle existe :
Lesprance mathmatique nest autre que le moment dordre 1.
On appelle moment centr
k
dordre k (k entier positif) dune variable
alatoire X lesprance mathmatique de ( X E(X))
k
, si elle existe :
La variance nest autre que le moment centr dordre 2 ; le moment centr
dordre 1 est toujours nul.
2) Moment factoriel
On appelle moment factoriel
[k]

dordre k (k entier positif) dune variable
alatoire X lesprance mathmatique de si elle
existe :
Le moment factoriel dordre k est une combinaison linaire des moments
non centrs m
1
, m
2
, , m
k
Relations entre moments et moments factoriels jusqu lordre 4 :
3) Fonction gnratrice des moments
La fonction gnratrice des moments va tre prsente en se restreignant
une variable alatoire discrte valeurs possibles entires non ngatives.
Cette fonction caractrise la loi dune variable alatoire, et elle permet de
plus dobtenir les moments factoriels par drivation.
m
k
E X
k
( ) =

k
E X E X ( )
( ,
j \
k
=
X X 1 ( )..... X k 1 + ( )

k [ ]
E X X 1 ( )..... X k 1 + ( )
( ,
j \
=

1 [ ]
m
1
=

2 [ ]
m
2
m
1
=

3 [ ]
m
3
3m
2
2m
1
+ =

4 [ ]
m
4
6m
3
11m
2
+ 6m
1
=

m
1

1 [ ]
=
m
2

2 [ ]

1 [ ]
+ =
m
3

3 [ ]
3
2 [ ]

1 [ ]
+ + =
m
4

4 [ ]
6
3 [ ]
7
2 [ ]
11
1 [ ]
+ + =


P131-178-9782100549412.fm Page 163 Mercredi, 24. novembre 2010 10:19 10

164



INTRODUCTION LA MTHODE STATISTIQUE

On appelle

fonction gnratrice



g

X

des moments dune variable alatoire

X

discrte, valeurs possibles

entires non ngatives

, lesprance mathma-
tique de

u

X

,

u

tant compris entre 0 et +1 :
pour
Cette proprit de la fonction gnratrice est utilise pour le calcul des
moments factoriels qui permettent de calculer les moments non centrs, puis
centrs.

F. I

ndicateurs de forme

Ces indicateurs donnent des informations sur la forme de la loi de

X

, et en
particulier, ils la comparent la loi normale (chapitre 7, II.B). Ils sont direc-
tement inspirs des coefficients dasymtrie (en anglais

skewness

) et dapla-
tissement (

kurtosis

) dfinis en statistique descriptive.
Fisher a dfini les coefficients dasymtrie et daplatissement dune varia-
ble alatoire

X

, dont les premiers moments existent, par :


coefficient dasymtrie



coefficient daplatissement

3
Les moments centrs dordre impair tant nuls pour une distribution
symtrique,


1

est nul si la distribution de

X

est symtrique par rapport la

Proprits de la fonction gnratrice des moments
1.

Pour , la fonction

g

X

est continue, car la srie qui la dfinit
est uniformment convergente en

u

:

2.



g

X

(0) = 0 et

g

X

(1) = 1

3.

Si le moment factoriel dordre

k

de

X

existe, on montre que pour

u

compris entre 0 et 1:

en notant la drive dordre

k

de la fonction
g
X
u ( ) E u
X
( ) u
i
p
i
i 0 =
+

= = 0 u 1
0 u 1
g
X
u ( ) u
i
p
i
i 0 =
+

p
i
i 0 =
+

1 = =
g
X
k ( )
u ( ) i i 1 ( )..... i k 1 + ( )u
i k
[ ] p
i
i k =
+

= g
X
k ( )
1 ( )
k [ ]
=
g
X
k ( )
g
X

2
3/2
-------- =

2
2
----- =
P131-178-9782100549412.fm Page 164 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE

165


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
moyenne m, mais la rciproque nest pas vraie :
1
peut tre nul sans que la
loi de X soit symtrique. Si la distribution de X est unimodale tale vers la
droite,
1
est positif. Dans le cas contraire,
1
est ngatif.
Le coefficient daplatissement
2
est nul pour une variable distribue selon
une loi normale, mais l encore, la rciproque nest pas vraie. Selon que la
loi de X est plus ou moins aplatie que la loi normale,
2
sera positif ou ngatif.
Plus que laplatissement, ce coefficient mesure limportance des queues
dune distribution.
Ces coefficients
1
et
2
sont invariants par changement dorigine et
dchelle.
G. Quantiles
Comme pour les variables statistiques, on dfinit pour les variables alatoires
les quantiles, encore appels fractiles, qui sont indicateurs de position partir
desquels on peut dfinir des indicateurs de tendance centrale et de dispersion.
On appelle quantile dordre (0 1) dune variable alatoire X de fonc-
tion de rpartition F toute valeur x

telle que : F(x

) = ( P(X x

) = )
Notons que si F est continue et strictement croissante, le quantile x

, pour
donn, existe et est unique. Si F nest pas continue et strictement crois-
sante, il peut ne pas exister ou il peut y avoir plusieurs solutions possibles.
La mdiane Me dune v.a. X est le quantile dordre 1/2 : Me = x
0,5
Le premier quartile , not Q
1
, est le quantile dordre 1/4. Le troisime
quartile, not Q
3
, est le quantile dordre 3/4. La mdiane est le second quar-
tile. On dfinit aussi les dciles : le i
me
dcile D
i
est le quantile dordre i /10
(1 i 9).
Comme en statistique descriptive, on peut dfinir plusieurs indicateurs
partir des quantiles :
des indicateurs de tendance centrale comme par exemple, la mdiane
Me ou encore le milieu de lintervalle interquartile :
des indicateurs de dispersion comme, par exemple, ltendue interquar-
tile (Q
3
Q
1
) ou lesprance mathmatique des carts absolus la mdiane :
des indicateurs de forme comme, par exemple :
1
2
--- Q
1
Q
3
+ ( )
E X Me min
b
E X b = ( )
Q
3
Q
1
2Q
2
+
Q
3
Q
1

-----------------------------------
P131-178-9782100549412.fm Page 165 Mercredi, 24. novembre 2010 10:19 10
166

INTRODUCTION LA MTHODE STATISTIQUE


Ce coefficient, compris entre 1 et + 1, est nul pour une distribution
symtrique, positif pour une distribution unimodale tale vers la droite, et
ngatif dans le cas contraire.
V. Convergence des variables alatoires relles
Les variables alatoires relles sont des applications de lensemble fonda-
mental dans . Dans certains cas, il est utile (voire ncessaire) de consi-
drer des suites de v.a. correspondant des suites dpreuves alatoires (ou
comme on le verra aux chapitres suivants, des suites de modles). Pour ces
suites, on va dfinir plusieurs notions de convergence, visant toutes dfinir
un comportement (ou une distribution) limite. Chacune correspond des con-
ditions diffrentes, mais bien entendu, plus ces conditions seront gnrales,
moins les proprits qui sen dduisent seront puissantes. Nous partirons du
mode de convergence le plus gnral, donc le plus faible.
Cette notion de convergence est particulirement simple en pratique. En
effet, pour des variables alatoires { X
n
} et X discrtes, elle revient :
et dans tous les autres cas, elle met en uvre les critres classiques de con-
vergence des fonctions.
Pour le cas des variables alatoires discrtes, cette notion de convergence
est utilise par exemple pour lapproximation dune loi binomiale par une loi
de Poisson ( laide de la formule de Stirling), ce que nous voyons au chapi-
tre 6, III.E. On notera cependant quil est possible par la convergence en
loi, qui ne fait intervenir que les fonctions de rpartition, de rechercher (et/
ou de poser) la convergence de v.a. discrtes vers une v.a. continue.
Dautre part, si on suppose la convergence en loi des v.a. { X
n
} vers X, on
peut approcher F
n
par F, et si leurs densits existent on peut approximer f
n
par f, ce qui est pratiqu dans les chapitres suivants.
Soit (X
n
) une suite de v.a. relles, de fonctions de rpartition F
n
. On
dit quelle converge en loi vers la v.a. X de fonction de rpartition F si
on a :
en tout point x , sauf aux points de disconti-
nuit de F
On crit alors , et on parle aussi de convergence faible.
F
n
x ( )
n
lim F x ( ) =
X
n
X
L

P X
n
x = ( )
n
lim P X x = ( ) =
P131-178-9782100549412.fm Page 166 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE

167


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Plus restrictive que la convergence en loi, la convergence en probabilit
est dfinie ainsi :
Dans le cas de la convergence en probabilit vers une v.a. certaine, on
peut se ramener des conditions portant sur les deux premiers moments des
v.a. X
n
. Pour passer au cas gnral de la convergence de X
n
vers X, on con-
sidre alors la convergence vers 0 de la suite { X
n
X}.
Pour le montrer, nous allons dabord tablir un rsultat intermdiaire.
Ingalit de Bienaym-Tchbychev
Soit Z une v.a. de moyenne et dcart-type , on a alors pour tout nom-
bre rel k :
Supposant la variable Z continue, soit lensemble des valeurs z de Z
tels que , on peut crire, en partant de la dfinition de la
variance de Z :
et lingalit sen dduit. La dmonstration pour une v.a. discrte, identique
dans son principe, est laisse au lecteur.
Appliquons maintenant ce rsultat dans le contexte de la convergence en
probabilit dune suite de v.a. Z
n
vers 0. En posant alors k = , lingalit
de Bienaym-Tchebychev scrit :
On voit par consquent que si la suite des moyennes E(Z
n
) converge vers
0, et si la suite des variances var( Z
n
) converge aussi vers 0, alors on a :
ce qui montre que la suite de v.a. { Z
n
} converge en probabilit vers la v.a.
certaine 0.
Une suite X
n
de v.a. relles converge en probabilit vers la v.a. X, si on a :
pour tout > 0
On crit alors ou galement plim X
n
= X
P X
n
X > ( )
n
lim 0 =
X
n
X
P

P Z k > ( )
1
k
2
----
Z k >

2
var Z ( ) z ( )
2
f z ( ) dz z ( )
2
f z ( ) dz

>
R

= =

2
k
2

2
f z ( ) dz

k
2

2
f z ( ) dz

k
2

2
P Z k > ( ) = =
P Z
n
E Z
n
( ) >
( ,
j \
var Z
n
( )

2
------------------
P Z
n
> ( )
n
lim 0 =
P131-178-9782100549412.fm Page 167 Mercredi, 24. novembre 2010 10:19 10
168

INTRODUCTION LA MTHODE STATISTIQUE


Il suffit alors de prendre {Z
n
= X
n
a} pour voir que si la suite des moyen-
nes E(X
n
) converge vers a et la suite des variances var( X
n
) converge vers 0,
alors la suite des v.a. { X
n
} converge en probabilit vers a.
Une suite de v.a. dont la suite des moyennes converge vers une limite a
et dont la suite des variances converge vers 0, converge en probabilit vers a.
On notera cependant que ce dernier rsultat nest pas quivalent la dfi-
nition, et que lon peut parler de convergence en probabilit sans supposer
lexistence des moments dordre 1 et 2.
On peut montrer que la convergence en probabilit implique la conver-
gence en loi, mais que la rciproque nest pas exacte.
Le troisime mode de convergence que nous prsenterons, la convergence
en moyenne quadratique, est trs utilis dans les problmes destimation sta-
tistique.
Il sagit en fait dun cas particulier de la convergence dite en moyenne
dordre p, et dfinie pour des v.a. X
n
telles que existe, par :
Dans la convergence en moyenne dordre p de la suite X
n
vers X, on notera
lhypothse dexistence de :
On montre que si la suite X
n
converge en moyenne quadratique vers X, et
que si la suite Y
n
converge en moyenne quadratique vers Y, alors la suite X
n
Y
n
converge en moyenne dordre 1 vers XY, cest--dire que la suite des
moyennes E(X
n
Y
n
) converge vers E(XY). Ce rsultat est videmment parti-
culirement intressant dans ltude des liaisons entre variables alatoires.
Plus gnralement, on montre que si g(x, y) est une fonction continue en x
et en y, et si X
n
(resp Y
n
) converge en probabilit vers X (resp. vers Y), alors
g(X
n
, Y
n
) converge en probabilit vers g(X, Y).
Il sagit dun mode de convergence fort qui implique la convergence en
probabilit.
Dautre part, il est important de noter que la convergence en moyenne
dordre p implique la convergence en moyenne dordre q pour tout q < p. On
Soit X
n
une suite de v.a. relles de moyennes et de variances finies. On
dit que la suite X
n
converge en moyenne quadratique vers X si
E X
n
X ( )
2
( ,
j \
n
lim 0 =
E X
n
X
p
( ,
j \
E X
n
X
p
( ,
j \
n
lim 0 =
E X
n
X
p
( ,
j \
P131-178-9782100549412.fm Page 168 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE

169


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
notera aussi que la convergence en probabilit nimplique pas la convergence
en moyenne dordre 1, cest--dire la convergence des moyennes.
Lensemble de ces trois modes de convergence est donc hirarchiquement
ordonn.
Mais il existe dautres modes de convergence, quil est plus difficile de
placer dans une telle squence hirarchique.
Ainsi, la convergence presque sre est dfinie comme suit.
La suite de v.a. relles X
n
converge presque srement vers la v.a. relle
X si on a :
Ce mode de convergence implique aussi la convergence en probabilit,
donc galement la convergence en loi. Il nest pas li la convergence en
moyenne dordre p, mais les deux modes de convergence peuvent cependant
exister simultanment pour une suite de v.a. relles X
n.
Le diagramme de la figure 5.9 montre les relations que lon peut tablir
entre les diffrents modes de convergence.
Dautres modes de convergence (dont ltude est en dehors du cadre de
cet ouvrage) sont utiliss pour obtenir certaines proprits en thorie des pro-
babilits, parmi lesquelles on citera :
la convergence complte ;
la convergence uniforme presque sre.
P X
n
X ( )
n
lim 0 =
( ,
j \
1 =
Convergence
en moyenne dordre p
Convergence
en moyenne dordre q < p
Convergence
en probabilit
Convergence en loi
Convergence
presque sre
Figure 5.9 Hirarchie des diffrents modes de convergence
P131-178-9782100549412.fm Page 169 Mercredi, 24. novembre 2010 10:19 10
170

INTRODUCTION LA MTHODE STATISTIQUE


Lapplication majeure des convergences de v.a., et particulirement de la
convergence en probabilit est la loi faible des grands nombres :
Soit alors une preuve alatoire lissue de laquelle un rsultat R peut se pro-
duire avec la probabilit p. On rpte cette preuve indpendamment n fois, et
lon dsigne par F
n
la variable alatoire gale la proportion dpreuves ayant
donn le rsultat R. Ces variables sont appeles frquences empiriques.
On applique directement la loi des grands nombres pour montrer la con-
vergence en probabilit des frquences empiriques vers la probabilit p. Cest
le thorme de De Moivre-Laplace.
partir de ce rsultat, toute lapproche frquentiste des probabilits ( supra,
I) sest dveloppe sur lvaluation de la probabilit dun vnement par la
limite de la frquence relative dapparition de cet vnement lorsquon rpte
indfiniment lpreuve alatoire lors de laquelle il peut se raliser.
On peut aussi dmontrer un rsultat plus gnral.
Loi forte des grands nombres
Lune des applications de ce rsultat est la gnralisation du thorme
central-limite sous la condition de Lindeberg (chapitre 7, II.E).
Au total, ce sont donc toutes les bases des applications du calcul des pro-
babilits en statistique classique qui reposent sur ces deux rsultats, loi faible
et loi forte des grands nombres, donc sur les diffrentes notions de conver-
gence des suites de variables alatoires.
Soient X
i
(i = 1, 2,, n) n v.a. relles indpendantes desprances m
i
et dcarts-types
i
toutes finies, telles que :
et
alors on a :
Soient X
i
(i = 1, 2, , n) n variables alatoires relles indpendantes
desprances m
i
et dcarts-types
i
tous finis, telles que :
et
alors on a :

1
n
--- m
i
i 1 =
n

n
lim m =
1
n

2
-----
i
2

i

1

=

n


n


lim 0 =
1
n
--- X
i
m
P

i 1 =
n


1
n
--- m
i
i 1 =
n

n
lim m =


i

2

i
2
------
i

1

=

n


n


lim <
1
n
--- X
i
m
p. s

i 1 =
n


P131-178-9782100549412.fm Page 170 Mercredi, 24. novembre 2010 10:19 10

MODLE PROBABILISTE ET VARIABLE ALATOIRE




171


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
O
n

n

o
u
b
l
i
e
r
a

p
a
s

:

C
a
s

d
i
s
c
r
e
t
C
a
s

c
o
n
t
i
n
u

L
o
i

o
u

d
i
s
t
r
i
b
u
t
i
o
n

d
e

p
r
o
b
a
b
i
l
i
t

u
n
e

v
a
r
i
a
b
l
e

a
l

a
t
o
i
r
e

r

e
l
l
e

L
e
s

n
e
m
e
n
t
s

m
e
n
t
a
i
r
e
s

s
o
n
t

:
{

X

=

x

i

}
,


x

i




,


i



I

,


I


a
v
e
c

:


P

(

X

=

x

i

)

=


p

i



>

0





e
t


L
a

l
o
i

d
e

p
r
o
b
a
b
i
l
i
t


e
s
t

d

f
i
n
i
e

p
a
r

l
e
s

c
o
u
p
l
e
s

:
{

x

i


,


p

i

}
,


i


a

,


b


,


a


<

b

:

P

(

X



[

a


;


b

]
)



a
v
e
c


P
(
X


)

=

X

p
r
e
n
d

s
e
s

v
a
l
e
u
r
s

d
a
n
s

u
n

i
n
t
e
r
v
a
l
l
e

(
o
u

u
n
e

r

u
n
i
o
n

d

i
n
t
e
r
v
a
l
l
e
s
)

d
e

,

o
u

d
a
n
s


t
o
u
t

e
n
t
i
e
r
D
e
n
s
i
t


d
e

p
r
o
b
a
b
i
l
i
t


f
X

:
P
(
X

=

x
)

=

0

a
,

b

,

a

<

b

:
P
(
X


[
a

;

b
]
)
=

P
(
X


[
a

;

b
[
)

=

P
(
X


]
a

;

b
]
)

=

P
(
X


]
a

;

b
[
)
=

E
s
p

r
a
n
c
e

m
a
t
h

m
a
t
i
q
u
e









s
i












s
i



M
o
m
e
n
t

d

o
r
d
r
e

k

:
m
k

=

E
(
X
k
)









s
i












s
i



p
i
i
I

1
=
p
i
i
I
*

=
I
*
i
I
x
i
[
a

;

b
]

(
)
=
]
a

b
]
;
P
X
b

(
)
P
X
a

(
)

F
X
b
(
)
F
X
a
(
)

=
1
.

f
x
(
)
0

2
.

f


p
r
e
s
q
u
e

c
o
n
t
i
n
u
e

p
a
r
t
o
u
t
3
.

f
x

(
)

x
d


1

=


F
X
b
(
)
F
X
a
(
)

f
x
(
)
x
d
a b

=
E
X
(
)
x
i
p
i
i
I

=
x
i
p
i
+

<
i
I

E
X
(
)
x
f
x
(
)
x
d

=
x
f
x
(
)
x
d
+

<

m
k
x
i k
p
i
i
I

=
x
i
k
p
i
i
I

<
m
k
x
k
f
x
(
)
x
d

=
x
k
f
x
(
)
x
d
+

<


P131-178-9782100549412.fm Page 171 Mercredi, 24. novembre 2010 10:19 10

172



INTRODUCTION LA MTHODE STATISTIQUE

Il y a

au moins

une rponse exacte par question.

1. Dans lensemble des classes Terminales dun lyce, 14 % des lves tu-
dient le russe, 68 % ntudient ni le russe ni lespagnol, 2 % tudient ces deux
langues :

a) 20 % des lves tudient au moins lespagnol
b) 16 % des lves tudient seulement le russe
c) 18 % des lves tudient seulement lespagnol
d) 32 % des lves tudient le russe ou lespagnol

2. Soient deux vnements

A

et

B

dun mme espace de probabilit tels que :

A



B

=


a)

P

(

A





B

) = 0
b)

A

et

B

sont deux vnements incompatibles
c)

A

et

B

sont deux vnements indpendants
d)

A

et

B

sont la fois incompatibles et indpendants

3. Soient deux vnements

A

et

B

dun mme espace de probabilit tels que :

P

(A) = 0,3 P(B) = 0,2 et P(A B) = 0,09
a) P( ) = 1,50 et P( ) = 0,60
b) P( ) = 0,30 et P( ) = 0,45
c) P( ) = 0,45 et P( ) = 0,30
d) P( ) = 0,27 et P( ) = 0,18
4. Soient deux vnements indpendants A et B dun mme espace de probabilit
tels que : P(A) = 0,3 et P(B) = 0,2
a) P(A B) = 0,5
b) P(A B) = 0,06
c) P(A B) = 0,06
d) P(A B) = 0,44
5. Trois chasseurs visent simultanment un mme livre et tirent en mme
temps. Soient p
1,
p
2,
p
3
les probabilits respectives de toucher le livre pour cha-
que chasseur, alors la probabilit que le livre soit touch par au moins un des
chasseurs :
a) peut tre infrieure p
1
b) est gale ( p
1
+ p
2
+ p
3
)
c) est gale (1 (1 p
1
)(1 p
2
)(1 p
3
))
d) est comprise entre ( p
1
p
2
p
3
) et (p
1
+ p
2
+ p
3
)
Testez-vous (les rponses sont donnes page 286)
A B B A
A B B A
A B B A
A B B A
P131-178-9782100549412.fm Page 172 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE

173


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
6. Soient deux vnements A et B dun mme espace de probabilit tels que :
P(A) = 0,6 P(B) = 0,5 et P(A B) = 0,1
a) les vnements A et B sont indpendants
b) les vnements A et B sont incompatibles
c) lvnement A B est certain
d) P( ) = 0,2
7. Si X est une variable alatoire continue, on a, quelque soient les nombres rels a
et b :
a) P(X = a) = 0
b) P(a < X < b) = P(a < X b)
c) P(a < X < b) P(a X < b)
d) P(X > a) = 1 P(X < a)
8. Une fonction de rpartition :
a) est une fonction strictement croissante
b) est dfinie sur tout
c) prend ses valeurs dans lintervalle [0 ; 1]
d) est toujours continue et drivable
9. La loi de probabilit dune variable alatoire :
a) est entirement dfinie par la fonction de rpartition
b) est entirement dfinie par la fonction de densit
c) est entirement dfinie par lesprance mathmatique et la variance
d) est associe un espace probabilis
10. Lesprance mathmatique dune variable alatoire relle :
a) est toujours gale lune des valeurs possibles de la variable alatoire
b) est un nombre rel
c) est gale la mdiane si la distribution de probabilit est symtrique
d) existe toujours si la variable alatoire est discrte
11. Soient X une variable alatoire, a et b deux nombres rels :
a) E(aX + b) = aE(X) + b
b) var( X + b) = var(X) + b
c) P(X > E(X)) = 0,5
d) Y = aX + b F
Y
(y) =
A B
F
X
y b
a
-----------
( ,
j \
P131-178-9782100549412.fm Page 173 Mercredi, 24. novembre 2010 10:19 10
174

INTRODUCTION LA MTHODE STATISTIQUE


12. La loi jointe des deux variables alatoires X et Y est donne dans le tableau
suivant :
a) X et Y sont indpendantes
b) P(Y = = 1) = 1/4
c) (X,Y) = +1
d) E(Y) = 1
13. Soient deux variables alatoires X et Y lies par la relation X 2Y = 1 :
a) E(X) = 2E(Y) + 1
b) var(X) = 2var(Y)
c) (X,Y) = + 1
d) X et Y sont indpendantes
14. Soient deux variables alatoires X et Y telles que var(X) = 144, var(Y) = 81 et
var(X + Y) = 25
a) cov(X,Y) = -100
b) (X,Y) = 0
c) var(X Y) = 425
d) X et Y sont lies par une relation linaire
15. Soit un couple de v.a. (X,Y) pour lequel on dispose des lois conditionnelles de
X pour chaque valeur possible de Y et de la loi marginale en Y :
et de la loi marginale de Y :
a) disposant de cette information, on peut calculer la loi du couple
b) la distribution de la v.a. { = 3} est symtrique
c) la v.a. { = 2} est certaine
d) P(X = 1) = 0,7
Y
X
0 1 2
1 0,10 0,20 0,10
2 0,15 0,30 0,15
Y
X
1 2 3
1 0,2 0 0,5
2 0,8 1 0,5
Valeur de Y
1 2 3
Probabilit
0,5 0,3 0,2
2 X
X Y
X Y
P131-178-9782100549412.fm Page 174 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE

175


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
16. La loi jointe des deux variables alatoires X et Y est donne dans le tableau
suivant :
a) le coefficient dasymtrie de la v.a. X est nul
b) var(X) = 0,25
c) E( = 0) = 1
d) X et Y sont indpendantes
17. La loi jointe dun couple ( X, Y) de variables alatoires discrtes finies :
a) est entirement spcifie par le tableau donnant les x
i
, y
j
et p
ij
b) est entirement spcifie par les k lois conditionnelles { = x
i
}
c) est entirement spcifie par les l lois conditionnelles { = y
j
}
d) est entirement spcifie par les esprances, variances de X et Y et leur covariance
Y
X
0 1 2
0 0,15 0,20 0,15
1 0,10 0,25 0,15
Y X
Y X
X Y
P131-178-9782100549412.fm Page 175 Mercredi, 24. novembre 2010 10:19 10
176

INTRODUCTION LA MTHODE STATISTIQUE


Exercice 5.1
Dans un club sportif, il y a 75 adultes (dont 45 femmes) et 45 enfants (dont 25 filles).
On interroge au hasard un adhrent du club. Quelle est la probabilit que cet adhrent :
soit un adulte ;
soit de sexe masculin ;
soit une femme adulte ;
soit un adulte ou soit de sexe fminin.
Exercice 5.2
Aprs une enqute auprs dune population, on sait que 40 % des individus ne sont
jamais alls en Espagne et que 55 % des individus nont jamais pris lavion, mais que
25 % ont t en Espagne et ont dj pris lavion.
Quelle est la probabilit quun individu tir au hasard dans cette population ne soit
pas all en Espagne et nait jamais pris lavion ?
Exercice 5.3
Une enqute exhaustive sur un campus universitaire montre que sur les 32 564 tu-
diants, 23 522 lisent la revue Notre campus publie par lUniversit, 18 859 lisent la
revue La Vie tudiante publie par le BDE, et 11 422 tudiants lisent Notre campus
et La Vie tudiante.
1. On interroge au hasard un tudiant du campus. Calculez la probabilit que cet
tudiant :
ne lise ni Notre campus, ni La Vie tudiante ;
lise Notre campus et ne lise pas La Vie tudiante.
2. On interroge au hasard deux tudiants du campus et on admet que leurs rponses
sont indpendantes. Calculez la probabilit
que les deux tudiants ne lisent aucune des deux revues ;
quun tudiant lise les deux revues et que le second nen lise aucune.
Exercice 5.4
On lance n fois une pice de monnaie, on suppose que la probabilit dobtenir pile
est gale la probabilit dobtenir face. Soient A et B les vnements suivants :
A = obtenir au plus une fois pile
B = obtenir au moins une fois pile et au moins une fois face
1. Calculez P(A), P(B) et P(AB) pour n = 2 ; A et B sont-ils indpendants pour
n = 2 ?
2. Mme question pour n = 3.
Exercice 5.5
Calculez la probabilit quil y ait 3 filles et 2 garons dans une famille de 5 enfants :
1. Si on suppose la probabilit de naissance dune fille gale la probabilit de nais-
sance dun garon
2. Si on suppose la probabilit de naissance dune fille gale 0,48
Exercices (corrigs page 315)
P131-178-9782100549412.fm Page 176 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE

177


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Exercice 5.6
La demande journalire X dun bien fabriqu par une entreprise est une v.a. qui suit
la loi suivante : P(X = 0) = 1/6 P(X = 1) = 1/6 P(X = 2) = 1/2 P(X = 3) = 1/6.
On suppose que le profit, fonction de la demande et du cot, vrifie la relation :
(X) = p.X C, p tant le prix unitaire du bien fix 600 , C tant le cot suppos
indpendant de la demande et gal 800 .
1. Calculez lesprance et lcart-type du profit. Quelle est la signification de lesp-
rance du profit ?
2. Dterminez la fonction de rpartition du profit et tracez son graphe.
Exercice 5.7
Une compagnie dassurances admet pour lanne venir et pour un certain type de
contrat, que 60 % des assurs nauront pas de sinistre. Par ailleurs on suppose que le
cot moyen de rglement des accidents est de 500 avec une probabilit de 0,25, de
1 500 avec une probabilit de 0,1, de 2 500 avec une probabilit de 0,05. Un
assur dclare au plus un sinistre de ce type dans lanne.
1. Pour esprer un bnfice moyen de 50 par assur, quel doit tre le montant de
la cotisation ?
2. Quelle est la probabilit pour que le cot de rglement total de deux assurs pris
au hasard nexcde pas le montant encaiss de leurs cotisations (au tarif dtermin
au 1) ?
Exercice 5.8
Dans une banque, un systme de guichet automatique a t mis en place et permet de
faire des oprations bancaires courantes : extrait de compte, remise de chque, retrait.
Le nombre de clients utilisant le guichet automatique dans un intervalle de temps de
5 minutes est une v.a. X telle que :
P(X = 0) = 0,3, P(X = 1) = 0,3 et P(X = 2) = 0,4
1. Calculez E(X) et var(X).
2. On suppose que les nombres de clients utilisant le guichet automatique sur deux
priodes de 5 minutes ne se chevauchant pas sont indpendants. Soit Y la v.a.
gale au nombre de clients utilisateurs sur une priode dune heure. La v.a. Y peut
scrire :
o X
i
dsigne le nombre de clients utilisateurs au cours de i
e
intervalle de 5 minutes
lorsquon dcoupe lheure en 12 intervalles de 5 minutes ; chaque X
i
suit la mme loi
que X.
Quelles sont les valeurs possibles de Y ?
Calculez E(Y), var(Y) et P(Y = 0).
3. Chaque client ne peut effectuer plus de 2 oprations au guichet automatique. La
banque a constat que chaque client effectue :
3 fois sur 10 : 2 oprations
6 fois sur 10 : 1 opration
1 fois sur 10 : 0 opration (compte non approvisionn, par exemple)
Soit Z, le nombre doprations effectues dans un intervalle de temps de
5 minutes.
Y X
i
i 1 =
12

=
P131-178-9782100549412.fm Page 177 Mercredi, 24. novembre 2010 10:19 10
178

INTRODUCTION LA MTHODE STATISTIQUE


3.1. Donnez dans un tableau double entre lensemble des probabilits condition-
nelles de Z sachant X.
3.2. Quelle est la loi de Z ? Calculez E(Z) et var(Z).
Exercice 5.9
Une usine de pellicules de photo dispose de trois machines A, B et C qui fabriquent
respectivement 20 %, 50 % et 30 % de la production totale. Les proportions de pelli-
cules dfectueuses fabriques par les machines A, B ou C sont respectivement gales
6 %, 5 % et 3 %.
On tire au hasard une pellicule dans la production, calculez :
la probabilit que cette pellicule soit dfectueuse ;
la probabilit quelle provienne de la machine A sachant quelle est dfectueuse ;
la probabilit quelle provienne de la machine A sachant quelle est non dfec-
tueuse.
Exercice 5.10
Un couple ( X, Y) de variables alatoires suit la loi jointe donne dans le tableau
suivant :
u, a et b tant des valeurs relles.
1. Pouvez-vous dterminer a et b de telle sorte que les variables alatoires X et Y
soient indpendantes en probabilit ?
2. Dans ces conditions, dterminez la loi marginale de X, et les lois conditionnelles
de X pour les diffrentes valeurs de Y.
3. Si a = 1/5, existe-t-il une valeur de u telle que le coefficient de corrlation
linaire (X, Y) soit nul ? Les variables alatoires X et Y sont-elles alors indpen-
dantes en probabilit ?
Exercice 5.11
Soient deux variables alatoires X et Y : X prend les valeurs 0 et 1 avec les pro-
babilits 1/2 et 1/2, Y prend les valeurs 0 et 2 avec les probabilits 1/3 et 2/3. On
note : P(X = 0 et Y = 0) = p.
1. Calculez, en fonction de p, les probabilits suivantes :
P(X = 0 et Y = 2) P(X = 1 et Y = 0) et P(X = 1 et Y = 2)
Entre quelles limites peut varier p ?
2. Calculez, en fonction de p, le coefficient de corrlation linaire (X, Y).
Y
X
u 0 1
0 1/4 a 1/8
1 1/5 b 1/10
P131-178-9782100549412.fm Page 178 Mercredi, 24. novembre 2010 10:19 10

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS




179


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

6. L

es principaux
modles statistiques
discrets

Notion de modle

Par modle on entend une reprsentation simplifie dun processus,
dun systme.

Dans les domaines des sciences conomiques et de gestion, on cherche
disposer de modles pour analyser, prvoir et dcider. La nature mme
des facteurs intervenant en gestion et en conomie explique le caractre
alatoire, cest--dire non dterministe, donc non contrlable totale-
ment du modle quon cherche dfinir pour reprsenter le systme
tudi.
Dans la plupart des cas, on dispose dun ensemble fragmentaire de don-
nes partir desquelles on cherche une reprsentation globale. Cest l
une des dmarches classiques en statistique, dduire des informations
fournies par un chantillon une ou plusieurs caractristiques concernant
la population do lon extrait lchantillon ; il sagit l de l

infrence sta-
tistique

.
La construction dun modle est destine donc analyser, prvoir ou
dcider partir dun support rigoureux et fiable ; sa recherche est ainsi
un travail formel. Pour laborder il est ncessaire de dfinir avec prcau-
tion tous les lments dont on dispose :
la

population

pour laquelle le modle est destin ;
l

individu

, ou unit lmentaire de la population ;
le

caractre

tudi sur chacun des individus, et qui dfinit le phno-
mne tudi ;
la nature de ce caractre (qualitatif, quantitatif, discret ou continu).
partir de l, on peut associer par une dmarche analogue celle vue
en statistique descriptive une variable alatoire chaque individu de
la population. Cest cette variable alatoire et sa distribution de proba-
bilit qui vont constituer les lments du modle ; on dit que cette varia-
ble alatoire est la variable gnrique de la population (on dit aussi

P179-210-9782100549412.fm Page 179 Jeudi, 18. novembre 2010 12:09 12

180



INTRODUCTION LA MTHODE STATISTIQUE

variable parente) puisque tout individu tant quon ne connat pas ses
caractristiques individuelles peut tre reprsent par une variable
alatoire de mme loi quelle. Il sera alors possible dtudier un ensem-
ble dindividus extrait de la population gnrale comme un ensemble de
variables alatoires ayant toutes comme loi, la loi de la variable

gnri-
que

de la population. Lorsque ces variables sont indpendantes entre
elles, on dit quelles forment un chantillon de la variable

parente

; cette
condition dindpendance est quivalente un tirage avec remise des
individus formant lchantillon au sein de la population.

Modles empiriques (ou exprimentaux)

Ce sont des modles qui sont construits sur lobservation dune srie sta-
tistique. Leur validit dpend tout particulirement de la taille de la
srie statistique des observations. On recherche ici les caractristiques
essentielles de la srie observe (moyenne, mdiane, mode, quartiles,
symtrie ou non). Parmi les reprsentations en lois de probabilit con-
nues, on en cherche une qui soit cohrente avec les donnes observes,
du point de vue de ces caractristiques. On procde par analogie.

Modles thoriques (ou analytiques)

On tudie le phnomne en essayant de le dcomposer en composantes
lmentaires directement reprsentes et de faon naturelle par une loi
de probabilit (telle que la loi de Bernoulli ou la loi uniforme).
Le schma binomial comme le schma hypergomtrique (

infra

II.B et
II.C), ou encore la loi gomtrique ( II.D) sont des exemples de cette
approche.

Classification des modles

On doit distinguer les

modles discrets

pour lesquels les diverses occu-
rences sont ponctuelles et parfaitement bien isoles (spares) les unes
des autres, des

modles continus

pour lesquels les occurences sont beau-
coup trop nombreuses pour pouvoir tre isoles ponctuellement et ne
peuvent tre tudies que par classes de valeurs. lintrieur des mod-
les discrets, on distingue encore les modles discrets finis (cest--dire
dont le domaine des valeurs est de cardinal fini) des modles discrets
infinis dnombrables.
Il existe dautres classifications mais qui concernent des modles qui ne
sont pas abords dans ce cours du fait de leur plus grande complexit et
de leur utilisation moins frquente.
De trs nombreux modles (discrets ou continus) ont t construits pour
correspondre des situations pratiques dtermines. Nous prsentons
dans ce chapitre et dans le suivant ceux qui sont le plus frquemment
utiliss, mais bien entendu il ne faudra pas croire que tout phnomne
puisse tre rapport aux quelques modles dcrits ici.

P179-210-9782100549412.fm Page 180 Jeudi, 18. novembre 2010 12:09 12

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS




181


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

I. L

es modles lmentaires

A. L

e schma de Bernoulli

Toute preuve alatoire nayant que deux rsultats possibles peut tre consi-
dre comme une situation dalternative : si lun des deux rsultats ne se ra-
lise pas, cest que lautre le sera obligatoirement. En dautres termes, dans
une telle situation, les deux rsultats possibles sont complmentaires lun de
lautre, la somme de leurs probabilits tant gale 1.
Il sagit l dune situation extrmement frquente puisque ds quon cherche
mettre en vidence la prsence dun caractre particulier pour les individus
dune population, tout individu de cette population peut tre dcrit selon une
telle alternative : ou bien il prsente ce caractre ou bien il ne le prsente pas.
Ainsi par exemple lorsquon cherche valuer limpact dune campagne
publicitaire sur les achats dun nouveau produit, on peut associer chaque
individu sond (parmi ceux ayant acquis ce produit aprs la campagne publi-
citaire) trois variables alatoires :
la premire met en vidence si lindividu possdait dj auparavant ce produit ;
la seconde met en vidence si lindividu a t touch par la campagne
publicitaire ;
la troisime dcrit si lacquisition du produit a t induite par la campa-
gne publicitaire.
Il sagit l dune possibilit de formalisation (et bien entendu ce nest pas
la seule !), mais chacune de ces trois variables correspond bien une situa-
tion dalternative. Ltude des effets ventuels de cette campagne publicitaire
met en uvre les outils appropris de lanalyse statistique.
Dans ces situations de dualit, lune des deux issues est celle que privil-
gie ltude, elle correspond la positivit dun index, la prsence du carac-
tre pour chaque individu de la population faisant lobjet de ltude, par
opposition son absence. Les alas quon peut dfinir dans ces cas tant des
alas qualitatifs, il faut trouver le codage le plus appropri. Cest cet aspect
de prsence/absence qui limpose, et on code par 0 et 1 les deux issues pos-
sibles,

celle quon cherche mettre en vidence tant code

1.
On dfinit ainsi une variable alatoire qui ne peut prendre que
deux valeurs, savoir 0 et 1. Elle porte alors le nom de

variable alatoire de
Bernoulli

1

, et possde alors une loi de probabilit trs simple pour laquelle

p

1. Jacques Bernoulli (1654-1705), scientifique suisse a beaucoup contribu au dveloppement
du calcul des probabilits (loi des grands nombres) et aux statistiques.

P179-210-9782100549412.fm Page 181 Jeudi, 18. novembre 2010 12:09 12

182



INTRODUCTION LA MTHODE STATISTIQUE

reprsente la probabilit de lissue quon veut mettre en vidence (notation
conventionnelle). On note souvent

q

= 1

p

la probabilit de lautre terme
de lalternative. Le terme de variable alatoire de Bernoulli est synonyme de
celui de

variable alatoire



indicatrice

(indiquant la ralisation ventuelle de
lvnement de probabilit

p

). Il faut bien se souvenir quune variable de
Bernoulli est dfinie par les 2 valeurs 0 et 1 (et celles-l seulement ; toute
autre paire de valeurs ne permet plus lappellation de variable de Bernoulli ;
ceci se justifie comme on le verra dans la suite pour la construction des
modles binomial, hypergomtrique et de Pascal). Le tableau de la loi de
probabilit dune telle variable est parfaitement connu ds que

p

lest.

La loi
de Bernoulli dpend du seul paramtre p

.
Le diagramme en btons et le graphe de la fonction de rpartition dune
variable de Bernoulli (

cf.

figure 6.1) sont particulirement simples.
Lesprance dune variable de Bernoulli de paramtre

p

est gale

p

. En
effet :

E

(

X

) = 0 (1

p

) + 1

p

=

p

Le moment dordre 2 est gal aussi

p

, puisque :

E

(

X

2

) = 0

2

(1

p

) + 1

2



p

=

p

Par consquent, la variance est gale

pq

:
var(

X

) =

E

(

X

2

) (

E

(

X

))

2

=

p



p

2

=

p

(1

p

) =

pq

On remarquera au passage que la fonction

x

(1

x

) dont la drive est gale
(1 2

x

) a un maximum pour

x

= 1/2, maximum gal 1/4. Par consquent,

Valeur de

X

0 1
Probabilit

q

= 1

p p
1p
p
1p
1 1
0 1 0 1
Diagramme en btons Fonction de rpartition
Figure 6.1 Loi de Bernoulli

P179-210-9782100549412.fm Page 182 Jeudi, 18. novembre 2010 12:09 12

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS




183


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

la variance dune variable de Bernoulli est au plus gale 1/4, et lcart-type
est au plus gal 1/2.

En conclusion, on retiendra que toute situation alatoire dalternative
peut tre reprsente par une variable de Bernoulli dont le paramtre

p

,
gal la probabilit de lissue quon cherche mettre en vidence, est
gal lesprance, la variance tant gale

p

(1

p

)

.

B. L

a loi uniforme discrte

Un exemple particulier de loi de Bernoulli est celui pour lequel

p

=

q

= 1/2.
Dans ce cas, les deux termes de lalternative pouvant se prsenter lissue
de lpreuve alatoire sont quiprobables.

Cette situation dquiprobabilit
correspond souvent des situations dans lesquelles on ne dispose daucune
information permettant de mieux apprhender lvnement auquel on sint-
resse

.
La loi uniforme discrte en est la gnralisation. On suppose cette fois que
lexprience alatoire possde

k

issues distinctes, possdant chacune la mme
chance dtre ralise. On dfinit alors dans ce contexte une variable alatoire

X

pouvant prendre toutes les valeurs entires comprises entre 1 et

k

, chacune
de ces valeurs tant associe lune des

k

issues de lpreuve alatoire. On
peut donc crire dune part :
et dautre part,

P

(

X

=

i

) tant constante, on peut la dsigner par

p

.
On en dduit :
et la probabilit commune

p

est gale 1/ k
La loi de probabilit de cette variable alatoire est rsume dans le tableau
suivant :
On dduit les caractristiques essentielles :
Valeur de X 1 2 k
Probabilit 1/ k 1/ k 1/ k
P X i = ( )
i 1 =
k

P
k
U
i =1
X i

=

( )
( ,
, (
, (
j \

1

= =
1 P X i = ( )
i 1 =
k

p k =
i 1 =
k

p = =
E X ( ) i
1
k
---
i 1 =
k

1
k
--- i
i 1 =
k

1
k
---
k k 1 + ( )
2
--------------------
k 1 +
2
------------ = = = =

P179-210-9782100549412.fm Page 183 Jeudi, 18. novembre 2010 12:09 12

184



INTRODUCTION LA MTHODE STATISTIQUE

autrement dit, lesprance de cette variable alatoire se situe lexact milieu
des valeurs possibles. Ce rsultat est tout fait naturel compte tenu de lqui-
probabilit.
Dautre part :
do lexpression de la variance :
En ce qui concerne ces rsultats, on notera quils sont obtenus pour une
loi uniforme discrte dont les valeurs sont les entiers compris entre 1 et

k

(au
sens large). Par consquent, ils peuvent sappliquer toute situation alatoire


k

issues quiprobables ds que celles-ci peuvent tre codes par les nom-
bres 1, 2, ,k. Si on doit adopter un autre codage, les valeurs de lesprance
et de la variance (comme de tout autre moment) seront modifies puisquelles
dpendent des valeurs possibles de la variable alatoire.
On peut encore donner la fonction gnratrice des moments de cette varia-
ble alatoire uniforme discrte. On a :
ce qui permet dobtenir les moments successifs, mais aussi de retrouver les
rsultats prcdents. On constate aussi par ailleurs que les moments factoriels
dordre strictement suprieur

k

sont nuls :

[

n

]

(

X

) ds que

n

>

k

On ajoutera simplement pour terminer que le diagramme en btons de
cette loi est form de btons de mme hauteur, et que le graphe de la fonction
cumulative est form de marches descalier galement espaces (lespace
entre deux dentre elles tant de 1/

k

) et de mme largeur (lunit).

II. L

es schmas de Bernoulli itratifs

Le schma de Bernoulli est le plus simple des modles probabilistes, cependant
il est fondamental. Ceci est d au fait que le plus grand nombre de situations
alatoires peuvent se dcomposer en successions dpreuves lmentaires de
Bernoulli. On nenvisagera ici que la situation o le rsultat du phnomne
complexe initial est gal la somme des rsultats des preuves lmentaires
de Bernoulli.
E X
2
( ) i
2
1
k
---
i 1 =
k

1
k
--- i
2
i 1 =
k

1
k
---
k k 1 + ( ) 2k 1 + ( )
6
----------------------------------------
k 1 + ( ) 2k 1 + ( )
6
------------------------------------- = = = =
var X ( ) E X
2
( ) E X ( ) [ ]
2

k 1 + ( ) 2k 1 + ( )
6
-------------------------------------
k 1 + ( )
2
4
-------------------
k
2
1
12
------------- = = =
g
X
u ( ) E u
X
( ) u
i
i 1 =
k

1
k
--- = =
P179-210-9782100549412.fm Page 184 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

185


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Dans ce cadre, on tudiera une succession dpreuves de Bernoulli :
en nombre fix, et avec indpendance schma binomial,
en nombre fix et sans indpendance schma hypergomtrique,
en nombre alatoire, jusqu ce que lon ait obtenu pour la 1
re
fois
lissue recherche de lalternative ainsi rpte schma gomtrique,
en nombre alatoire, jusqu ce que lon ait obtenu pour la k
me
fois
lissue recherche de lalternative ainsi rpte schma de Pascal.
Les deux premiers cas sont de nature totalement diffrente des deux der-
niers, car le nombre des itrations du modle lmentaire de Bernoulli est,
pour les premiers, connu au dpart, alors quil est la quantit alatoire pour
les derniers.
A. Le schma binomial
Soit par exemple, une population dans laquelle une proportion p dindividus
prsente un caractre donn. On se pose la question de savoir si un chan-
tillon
1
de n individus choisis au hasard dans la population a de grandes chan-
ces de contenir k individus ayant le caractre.
Chaque individu de la population (et donc de lchantillon) est prsent
dans ce problme par une alternative : il possde le caractre tudi ou non.
Il est parfaitement justifi de lui associer une variable de Bernoulli prenant
la valeur 1 sil a le caractre tudi, et la valeur 0 sinon. Cette variable ainsi
dfinie pour chaque individu est la variable gnrique de la population (ou
encore la variable parente). Si on la note X, on a P(X = 1) = p, et donc aussi
P(X = 0) = 1 p = q. Les n individus (1, 2, n) de lchantillon seront ainsi
reprsents par n variables de Bernoulli X
1
, X
2
, , X
n
ayant toutes la mme
loi de probabilit, celle de X, une loi de Bernoulli de paramtre p. On peut
supposer toutes ces variables indpendantes pour la simplicit du problme,
ce qui correspond par exemple un tirage des n individus avec remise, ou
bien un taux de sondage n / N infrieur 10 %, N tant la taille de la popu-
lation (ce point important sera revu au II.C avec la loi hypergomtrique).
Dfinition
Une variable alatoire est dite suivre une loi binomiale de paramtres
n et p, note (n ; p), si elle peut tre considre comme la somme de n
variables alatoires de Bernoulli, indpendantes et de mme paramtre p.
1. Ce terme dchantillon se rfre la fois au sens usuel, et galement une collection de
variables alatoire indpendantes et de mme distribution.
P179-210-9782100549412.fm Page 185 Jeudi, 18. novembre 2010 12:09 12
186

INTRODUCTION LA MTHODE STATISTIQUE


Considrons la variable alatoire Y, somme des n v.a. X
i
:
Y = X
1

+ X
2
+ + X
n
Les ralisations de cette variable alatoire tant des sommes de 0 et de 1,
sont des nombres entiers compris entre 0 et n.
La ralisation de la v.a Y associe un chantillon donn reprsente le
nombre dindividus qui possdent le caractre tudi dans lchantillon .
Cest ce type de construction par itration dun processus de Bernoulli, le
nombre ditrations tant fix et les preuves tant indpendantes, quon
appelle schma binomial.
La loi de probabilit de la variable somme Y est dfinie par :
les valeurs susceptibles dtre prises, ici les valeurs entires comprises
entre 0 et n
les probabilits correspondant ces valeurs :
En effet, chaque groupe de k individus associs la valeur 1 (possdant
le caractre tudi), correspond un groupe form de ( n k) individus associs
la valeur 0. La probabilit de ralisation dune telle situation ( k fois prsence
du caractre et (n k) fois son absence) sobtient en multipliant les probabilits
associes aux ralisations des variables de Bernoulli correspondant chaque
individu (ces variables tant indpendantes, les vnements le sont aussi) :
k fois (n k) fois
Il y a exactement faons disoler k individus parmi les
n de lchantillon (les k premiers, les ( k 1) premiers et le dernier, , les
k derniers), donc dobtenir une somme gale k, chacun de ces
assemblages tant incompatible avec lun quelconque des autres
puisquau moins une paire dindividus passe dun tat lautre. La probabi-
lit que la somme Y prenne la valeur k, sans tenir compte du rang des X
i
prenant la valeur 1 condition quil y en ait k et k seulement, est ainsi laddi-
tion de fois la probabilit
Le tableau suivant prsente la loi de probabilit binomiale (n ; p) :
Valeur de Y 0 1 2 k n
Probabilit p
n
P Y k = ( )
n
k
( ,
j \
p
k
1 p ( )
n k
=
p p p 1 p ( ) 1 p ( ) 1 p ( ) p
k
1 p ( )
n k
=

n
k
( ,
j \
n!
k! n k ( )!
------------------------ =
n
k
( ,
j \
p
k
1 p ( )
n k
1 p ( )
n
np 1 p ( )
n 1
n
2
( ,
j \
p
2
1 p ( )
n 2
n
k
( ,
j \
p
k
1 p ( )
n k
P179-210-9782100549412.fm Page 186 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

187


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Les caractristiques dune loi binomiale (n ; p) sont trs faciles calcu-
ler si on utilise la dcomposition en somme de variables de Bernoulli ind-
pendantes. En effet :
et par consquent :
Pour le calcul de la variance, la proprit dadditivit, toujours vraie pour
lesprance, suppose que les variables de Bernoulli X
i
sont indpendantes, et
cette hypothse est fondamentale pour la validit du rsultat :
On obtient le rsultat :
On pourra comparer ce dernier rsultat avec celui du II.B obtenu pour
une loi hypergomtrique, cas dune somme de variables alatoires de Ber-
noulli non indpendantes.
La proprit suivante est intressante en pratique.
En effet, Y tant la somme de n
1

variables de Bernoulli indpendantes de
mme paramtre p, et Z tant la somme de n
2

variables de Bernoulli indpen-
dantes de mme paramtre p, la v.a. Y + Z est la somme de (n
1
+ n
2
) variables
alatoires de Bernoulli indpendantes de mme paramtre p, et suit une loi
binomiale (n
1
+ n
2

;
p).
Une seconde proprit trs utilise est la suivante.
Proprit 1
Si Y et Z sont deux variables alatoires indpendantes, respectivement
distribues selon des lois binomiales (n
1
; p) et (n
2
; p), leur somme
Y + Z suit une loi binomiale (n
1
+ n
2
; p)
Proprit 2
Si Y suit une loi (n ; p), alors n Y suit une loi (n ; 1 p)
E Y ( ) E X
1
X
2
X
n
+ + + ( ) =
E X
1
( ) E X
2
( ) E X
n
( ) + + + =
n E X ( ) =
E Y ( ) np =
var Y ( ) var X
1
X
2
X
n
+ + + ( ) =
var X
1
( ) var X
2
( ) var X
n
( ) + + + =
n var X ( ) np 1 p ( ) = =
var Y ( ) npq =
P179-210-9782100549412.fm Page 187 Jeudi, 18. novembre 2010 12:09 12
188

INTRODUCTION LA MTHODE STATISTIQUE


En effet, nous avons vu que Y reprsente le nombre de fois, sur n indivi-
dus, o on a observ lun des termes de lalternative, celui de probabilit p.
Il sensuit que ( n Y) est le nombre des autres rsultats, ceux correspondant
une probabilit lmentaire (1 p). Or, il serait tout fait possible de reco-
der les deux termes de lalternative, en dfinissant une nouvelle variable de
Bernoulli prenant la valeur 1 avec la probabilit (1 p) et la valeur 0 avec la
probabilit p. La somme de ces n nouvelles variables alatoires reprsente de
nombre dpreuves (parmi les n ralises) qui donnent le rsultat de proba-
bilit (1 p), cest--dire la variable alatoire ( n Y) que nous tudions.
Cest une somme de variables alatoires de Bernoulli, indpendantes et de
mme paramtre (1 p). Do le rsultat annonc.
La construction du schma binomial par les variables de Bernoulli justifie
dautre part la notation (1 ; p) adopte parfois pour dsigner un ala de
Bernoulli de paramtre p.
Une variante de la loi binomiale est la loi dite binomiale en proportion .
On a vu quune loi binomiale caractrise le nombre de rsultats cods 1 dans
une succession dpreuves de Bernoulli (dont le nombre est fix lavance)
indpendantes. Dans un certain nombre de circonstances, on sintresse plu-
tt la proportion des rsultats cods 1. Or si Y est le nombre des rsultats
cods 1 dans une suite de n preuves de Bernoulli indpendantes, Y/n est la
frquence relative ou proportion.
Lorsque Y prend une valeur quelconque k comprise entre 0 et n, Y/n prend
la valeur k/n et rciproquement. Les deux vnements quivalents { Y = k} et
{Y/n = k/n} ont ainsi la mme probabilit. La loi de Y/n est dfinie par ses
valeurs et les probabilits correspondantes :
Le tableau de cette loi de probabilit se dduit de celui dune loi binomiale
en divisant simplement chaque valeur possible par n.
Le diagramme en btons et la fonction de rpartition dune loi (n ; p)
dpendent des 2 paramtres n et p. Le cas particulier o p = 0,5 correspond
lquiprobabilit des deux termes de lalternative de base (prsence/
absence) et se traduit graphiquement par une symtrie du diagramme en
btons (cf. figure 6.2).
Valeur de Y/n 0 1/n 2/n k/n 1
Probabilit

p
n
1 p ( )
n
np 1 p ( )
n 1
n
2
( ,
j \
p
2
1 p ( )
n 2
n
k
( ,
j \
p
k
1 p ( )
n k
P179-210-9782100549412.fm Page 188 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

189


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Les calculs relatifs aux distributions binomiales peuvent se faire laide
de tables statistiques ( cf. annexe IV). Ces tables donnent pour quelques
valeurs de n et de p, les probabilits cumules de telles rpartitions. Le nom-
bre des valeurs de n et de p envisages est forcment trs limit. Grce la
proprit 2, on peut dduire les probabilits dune loi (n ; 1 p) de celles
dune loi (n ; p). Au lieu de recourir des interpolations linaires (parfois
causes dimportantes erreurs dapproximation), on utilisera plutt la formule
de rcurrence suivante (rappele lannexe II), entre les probabilits de deux
valeurs successives k et (k + 1) dune distribution binomiale (n ; p) :
Cette formule permet de calculer successivement les probabilits indivi-
duelles, en partant de P(X = 0) = (1 p)
n
Exemple
Aprs une lection deux candidats A et B, cest A qui lemporte avec
un score de 52 %. On suppose que le nombre dlecteurs qui se sont
exprims est lev.
On cherche dterminer la probabilit quun sondage prlectoral
portant sur 50 lecteurs ait donn une majorit de suffrages pour B
(cest--dire un rsultat loppos de la ralit des intentions de vote de
la population).
0 1 2 3 4 5 6 0 1 2 3 4 5 6
1 1
Diagramme
en btons
Fonction
de rpartition
Figure 6.2 Loi binomiale (6 ; 0,5)
P X k 1 + = ( )
P X k = ( )
--------------------------------
n
k 1 +
( ,
j \
p
k 1 +
1 p ( )
n k 1
n
k
( ,
j \
p
k
1 p ( )
n k
------------------------------------------------------------
n!
k 1 + ( )! n k 1 ( )!
----------------------------------------------- p
n!
k! n k ( )!
------------------------ 1 p ( )
--------------------------------------------------- = =

n k ( ) p
k 1 + ( ) 1 p ( )
---------------------------------- =
P179-210-9782100549412.fm Page 189 Jeudi, 18. novembre 2010 12:09 12
190

INTRODUCTION LA MTHODE STATISTIQUE


Ce problme doit tre modlis en dfinissant la population, celle des
lecteurs, puis lindividu, un lecteur et le caractre tudi, le bnfi-
ciaire du vote : soit A, soit B (B quivalant non A ).
Le caractre est un caractre qualitatif deux modalits, et chaque
lecteur est associe une variable de Bernoulli qui prend la valeur 1 sil
vote pour A et la valeur 0 sinon. La variable gnrique de la population
est une variable de Bernoulli de paramtre 0,52 puisque chaque lecteur
tir au hasard vote pour A avec une probabilit gale la proportion de
votants en faveur de A (cf. lanalogie entre probabilit et frquence rela-
tive vue au chapitre 5).
Les 50 lecteurs interrogs avant le scrutin forment un ensemble de
50 variables de Bernoulli de mme paramtre, savoir 0,52. De plus ces
variables sont indpendantes si le tirage est effectu avec remise ou si le
taux de sondage est infrieur 10 % (ce qui est suppos ici compte tenu
de la taille de lchantillon).
La somme de ces 50 variables Y = X
1
+ X
2
+ + X
50
contient autant de
1 que dlecteurs favorables A, et reprsente le nombre dlecteurs,
parmi les 50 sonds, favorables A. Cette somme de variables de Ber-
noulli suit une loi binomiale (50 ; 0,52).
La probabilit que cet chantillon donne une majorit pour B est gale
la probabilit que le nombre dlecteurs favorables A soit strictement
infrieur 25.
Puisque Y reprsente le nombre dlecteurs favorables A, la variable
alatoire (50 Y) reprsente le nombre dlecteurs favorables B. Par un
raisonnement identique celui fait pour Y, la variable alatoire (50 Y) suit
une loi binomiale (50 ; 0,48). Lorsque B a la majorit, on a {50 Y > 25}
et la probabilit cherche vaut :
P(Y < 25) = P(50 Y > 25) = 1 P(50 Y 25)
Le calcul (programme ou table) donne P(50 Y 25) = 0,6648 pour la
loi (50 ; 0,48), et il y a donc prs de 33,5 % de chances quun chan-
tillon de 50 personnes donne un rsultat contraire la ralit ! Ceci est
d la conjonction de deux lments :
le rsultat final est assez serr car les deux termes de lalternative
sont trs peu spars en probabilit (0,52 contre 0,48) ce qui signifie que
si lchantillon tait lexact reflet de la population, on aurait 26 contre
24, soit 2 voix de diffrence seulement ;
on ninterroge que 50 personnes, et cela est bien peu, compte tenu des
scores rels, pour discriminer les 2 candidats de manire fiable (donc
crdible).
On notera enfin sur cet exemple que si le nombre de votants favorable
A suit une loi binomiale (50 ; 0,52), la proportion de votants favora-
bles A suit une loi binomiale en proportion.
P179-210-9782100549412.fm Page 190 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

191


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
B. Le schma hypergomtrique
Dans le schma binomial, on rpte une preuve de Bernoulli n fois, mais de
telle faon que les preuves soient indpendantes.
Cette condition peut paratre peu raliste. En pratique lorsquon tire un
chantillon de taille n dans une population de taille N(n < N), le bon sens veut
quon ne prenne pas 2 fois le mme individu, ce qui quivaut tirer lchan-
tillon sans remise (on parle encore de tirage exhaustif). Les variables ala-
toires de Bernoulli associes aux diffrents lments de lchantillon, et
indicatrices de la prsence ou de labsence dun caractre donn, sont, du fait
du tirage sans remise, mutuellement dpendantes.
La variable alatoire Y gale au nombre dindividus de lchantillon pos-
sdant le caractre considr est dans ce cas somme de n v.a. de Bernoulli
dpendantes, et de mme paramtre.
Notons p, la proportion dindividus dans la population (dont on dsigne
la taille par N) possdant le caractre tudi, et tudions la loi de cette varia-
ble alatoire Y dabord en ce qui concerne les valeurs possibles, puis pour ce
qui est des probabilits associes.
Le nombre dindividus de la population possdant le caractre tudi est
gal Np, et le nombre de ceux qui ne le possde pas est gal Nq. Le nombre
maximum dindividus de lchantillon possdant le caractre tudi ne peut
tre suprieur ni la taille de lchantillon, ni Np. Par consquent, la valeur
maximum de Y est gale min( n, Np). Le nombre minimum dindividus de
lchantillon possdant le caractre tudi est, bien entendu, au moins gal 0,
mais aussi au moins gal ( n Nq). En effet, si le nombre dindividus ne
possdant pas le caractre tudi, soit Nq, est plus petit que la taille n de
lchantillon, on aura au moins (n Nq) individus qui possderont le caractre
tudi dans lchantillon. Il sensuit que le nombre minimum dindividus de
lchantillon possdant le caractre tudi est gal max(0, n Nq).
La variable alatoire Y peut prendre toutes les valeurs entires comprises
entre :
max(0, n Nq) et min(n, Np)
Pour le calcul de P(Y = k), k tant lune des valeurs possibles entre
max (0, n Nq) et min(n, Np), on peut utiliser la mthode combinatoire clas-
sique et calculer le rapport du nombre des occurences favorables au nombre
des occurences possibles.
Les occurences possibles sont reprsentes par le nombre dchantillons
de taille n quon peut extraire sans remise dune population de taille N, cest-
-dire .
N
n
( ,
j \
P179-210-9782100549412.fm Page 191 Jeudi, 18. novembre 2010 12:09 12
192

INTRODUCTION LA MTHODE STATISTIQUE


Les occurrences favorables sont reprsentes par les chantillons de taille
n pour lesquels k individus possdent le caractre tudi et ( n k) individus
ne le possdent pas.
Ces cas favorables sont ceux o lon a tir k units parmi les Np ayant le
caractre tudi, en nombre , et ( n k) units parmi les Nq ne le pos-
sdant pas, en nombre . On a donc :
pour max(0, n Nq) k min (n, Np)
On dit que la variable alatoire Y suit une loi hypergomtrique de para-
mtres N, n et p, ce quon note (N ; n ; p).
Lesprance dune telle variable alatoire est E(Y) = np puisque Y est la
somme de n variables de Bernoulli de paramtre p. La variance est gale :
mais, le calcul est plus dlicat en raison de la non indpendance des varia-
bles de Bernoulli. Le terme correctif est appel facteur
dexhaustivit. On remarque tout de suite que si le taux de sondage n/N est
trs petit, ce facteur dexhaustivit est trs proche de 1, et donc que lexpres-
sion de la variance dune loi hypergomtrique est trs voisine de celle dune
loi binomiale.
Cest la raison pour laquelle en pratique, malgr des tirages dchantillons
le plus souvent exhaustifs, on se rfre la loi binomiale, les probabilits
calcules laide de la loi binomiale donnant une bonne approximation des
probabilits de la loi hypergomtrique ds que le taux de sondage est assez
petit (cest--dire infrieur 10 %).
Plus gnralement on peut montrer que la loi (N ; n ; p) peut tre
approxime par une loi (n ; p) ds que le taux de sondage n/N est inf-
rieur 10 %. Cette conclusion justifie lutilisation des calculs sous lhypo-
thse dindpendance ds que le taux de sondage est assez petit, mme si
le tirage est exhaustif.
En conclusion, la loi hypergomtrique (N ; n ; p) est la distribution
dune somme de n variables alatoires de Bernoulli non indpendantes.
Une variable alatoire hypergomtrique reprsente, dans un contexte de
tirage exhaustif cest--dire de variables dpendantes le nombre de ra-
lisations parmi n preuves de Bernoulli de lun des termes dune alterna-
tive. Elle prend des valeurs comprises entre max(0, n Nq) et min(n, Np).
Np
k
( ,
j \
Nq
n k
( ,
j \
P Y k = ( )
Np
k
( ,
j \
Nq
n k
( ,
j \
N
n
( ,
j \
------------------------------ =
var Y ( ) np 1 p ( )
N n
N 1
------------- =
N n
N 1
------------- 1
n 1
N 1
------------- =
P179-210-9782100549412.fm Page 192 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

193


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
C. La loi gomtrique et la loi de Pascal
On se place dans une optique totalement diffrente, les conditions de base
restant inchanges, cest--dire quil y a toujours une succession dpreuves
de Bernoulli de mme paramtre p, mais dont on ne connat pas le nombre
de rptitions : on ne sarrte que lorsque le rsultat auquel on sintresse est
obtenu pour la l
re
fois (cas de la loi gomtrique) ou pour la K
e
fois (loi de
Pascal).
chaque preuve lmentaire, est associe une variable de Bernoulli X
i
qui prend la valeur 1 si le rsultat auquel on sintresse sest ralis, et la
valeur 0 sinon. On pose :
P(X
i

= 1) = p et P(X
i
= 0) = 1 p = q
On suppose que les preuves sont rptes indpendamment les unes des
autres. On dsigne par Y le nombre total dpreuves ralises jusqu
lobtention du premier rsultat lmentaire de probabilit p. Il est clair
que Y peut prendre toute valeur entire au moins gale 1 (cest--dire stric-
tement positive), et que ces valeurs peuvent tre aussi grandes que lon veut.
Nous rencontrons ici pour la premire fois une variable alatoire dont le nom-
bre de valeurs possibles est infini.
Cette dfinition doit tre bien comprise, car dans certains cas on sint-
resse au nombre Z dpreuves prcdant la premire ralisation du rsultat de
probabilit p, et on a bien sr : Z = Y 1
Pour ce qui concerne la variable alatoire Y, si le rsultat cod 1 se produit
pour la 1
re
fois la k
e
preuve, cela signifie que les (k 1) premires preuves
ont produit le rsultat complmentaire cod 0 de probabilit q. En raison de
lindpendance des preuves on a :
(k 1) fois
Cette variable alatoire a la mme esprance np que la variable binomiale
qui serait obtenue dans un contexte dindpendance, mais sa variance est
plus petite, diminue dans un rapport
appel facteur dexhaustivit. Dans le cas dune trs grande population ou
plus gnralement dun taux de sondage faible (infrieur 0,1), on peut
supposer les tirages indpendants et remplacer la loi hypergomtrique
(N ; n ; p) par la loi binomiale (n ; p)
N n
N 1
-------------
P Y k = ( ) q q q p q
k 1
p = =
}
P179-210-9782100549412.fm Page 193 Jeudi, 18. novembre 2010 12:09 12
194

INTRODUCTION LA MTHODE STATISTIQUE


On en dduit la fonction de rpartition :
On calcule aussi :
E(Y) =
La srie de terme gnral q
k
tant absolument convergente, la srie des
drives est gale la drive de la srie :
On calcule de mme le moment dordre 2 :
Le second terme de lexpression obtenue nest autre que E(Y). Pour le pre-
mier terme, on remarque que :
car encore une fois la double drivation sous le signe somme est licite en
raison de la convergence absolue de la srie.
On obtient :
P Y n ( ) q
k 1
p
k 1 =
n

p q
k
k 0 =
n 1

p
1 q
n

1 q
-------------- 1 q
n
= = = =
k q
k 1
p
k 1 =

p = k q
k 1

k 1 =

p
d
dq
------ q
k
( )
k 1 =

=
E Y ( ) p
d
dq
------ q
k
( )
k 1 =

p
d
dq
------
q
k
k 1 =

( ,
, (
j \
= =
p
d
dq
------
q
1 q
------------
( ,
j \
p
1
1 q ( )
2
-------------------
1
p
--- = = =
E Y
2
( )
k
2
q
k 1
p
k 1 =

p . k
2
q
k

1

k

1

=

= =


p
k k

1


( )

k

+

( ,
j \

q

k

1


k

1

=


p
k k

1


( )

q

k

2


q

k

1

=


p kq

k

1


k

1

=


= =
p
k k 1 ( )q
k 2
q
k 1 =

p q
k k 1 ( )q
k 2
k 1 =


=
p q
k k 1 ( )q
k 2
k 2 =


p q
d
2
dq
2
-------- q
k
( )
k 2 =


= =
p
k k 1 ( )q
k 2
q
k 1 =

p q
d
2
dq
2
--------
q
k
k 2 =

( ,
, (
j \
=
p q
d
2
dq
2
--------
q
2
1 q
------------
( ,
j \
p q
2
1 q ( )
3
-------------------
2q
p
2
------ = = =
P179-210-9782100549412.fm Page 194 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

195


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
et par consquent :
On dduit la variance dune variable alatoire de loi gomtrique :
Dans ltude de la modlisation des situations concrtes de ce type, on
doit faire trs attention de prciser si on sintresse au nombre total Y
dpreuves alternatives ralises jusqu lobtention du premier rsultat l-
mentaire de probabilit p (cas tudi), ou si on sintresse au nombre Z
dpreuves lmentaires de probabilit (1 p) ralises jusqu lobtention
du premier rsultat de probabilit p.
Comme nous lavons dj mentionn Z = Y 1. Les valeurs possibles de
Z sont toutes les valeurs entires positives ou nulle, alors que les valeurs pos-
sibles de Y sont toutes les valeurs entires strictement positives. La relation
entre Y et Z implique quon peut calculer les probabilits associes Z par-
tir de celles de Y :
Lesprance mathmatique de Z est gale celle de Y diminue dune
unit :
alors que les variances de Y et Z sont gales :
La loi de Pascal est la gnralisation de la loi gomtrique lorsquon
recherche lobtention pour la K
e
fois du rsultat considr. Une variable ala-
toire de Pascal Y dpend de deux paramtres p et K et peut prendre toutes
valeurs entires au moins gales K.
En rsum
La loi gomtrique de paramtre p caractrise le nombre dpreuves de
Bernoulli indpendantes quil faut raliser pour obtenir pour la 1
re
fois le
rsultat (de lpreuve de Bernoulli) auquel on sintresse (cod 1). Lesp-
rance est gale et la variance
E Y
2
( )
2q
p
2
------
1
p
--- +
2q p +
p
2
----------------
q p q + +
p
2
----------------------
q 1 +
p
2
------------ = = = =
var Y ( )
q 1 +
p
2
------------
1
p
2
-----
q
p
2
----- = =
P Z k = ( ) P Y k 1 + = ( ) q
k
p = =
P Z n ( ) P Y n 1 + ( ) 1 q
n 1 +
= =
E Z ( ) E Y 1 ( ) E Y ( ) 1
1
p
--- 1
1 p
p
------------
q
p
--- = = = = =
var Z ( ) var Y 1 ( ) var Y ( )
q
p
2
----- = = =
1
p
---
1 p
p
2
------------
P179-210-9782100549412.fm Page 195 Jeudi, 18. novembre 2010 12:09 12
196

INTRODUCTION LA MTHODE STATISTIQUE


Pour calculer P(Y = j) pour j K, on remarque que si le j
e
essai a donn le
rsultat de probabilit p, cest quau cours des (j 1) essais prcdents, on aura
obtenu (K 1) fois ce rsultat et ( j K) fois le rsultat contraire. On applique
la combinatoire du schma binomial, et la probabilit dobserver ( j K) fois le
rsultat de probabilit { q = 1 p} et ( K 1) fois le rsultat de probabilit p
au cours de ( j 1) essais est donne par :
Pour obtenir lvnement {Y = j}, il faut et il suffit que dans les ( j 1) pre-
miers essais, on ait obtenu (K 1) fois le rsultat de probabilit p et (j K) fois
le rsultat contraire, et que le j
e
essai donne le rsultat de probabilit p. En
raison de lindpendance des preuves :
pour
On peut montrer que moyenne et variance de la loi de Pascal de
paramtres p et K sont donns par :
et
On doit bien porter attention au fait que la ressemblance avec les probabi-
lits dune loi binomiale nest quapparente. En effet, non seulement la somme
des exposants des termes p et (1 p) nest pas gale au nombre ( j 1), mais
ces probabilits sont dfinies pour toutes les valeurs de j au moins gales K,
et donc pour un ensemble de valeurs non born. Pour une loi de Pascal, gn-
ralisant la loi gomtrique, cest le nombre total dpreuves, et non pas le nom-
bre dpreuves conduisant au rsultat de probabilit p qui est alatoire .
Ces deux lois prsentent une diffrence trs importante avec la loi
binomiale : le nombre de rptitions de lpreuve lmentaire de Bernoulli
nest pas connu, et cest lui qui reprsente lalatoire du problme. En parti-
culier, une variable gomtrique peut prendre toute valeur entire positive,
sans limite suprieure.
Lexemple suivant montre lapplication de ces modles et linterprtation
de leurs caractristiques.
Exemple
Supposons quon observe en moyenne 5 % de pices dfectueuses en
sortie dune chane de production lorsquelle est optimise. Si on souhaite
connatre la probabilit quun chantillon de 20 pices issu de cette chane
ne contienne aucune pice dfectueuse, on associe chaque pice un
caractre deux modalits, et cette modlisation de base amne dfinir
des variables de Bernoulli.
Le paramtre de ces variables de Bernoulli tant gal 0,05 puisque si
5 % des pices en moyennes sont dfectueuses, cela revient dire que la
j 1
K 1
( ,
j \
p
K 1
1 p ( )
j K
P Y j = ( )
j 1
K 1
( ,
j \
p
K
1 p ( )
j K
= j K
E Y ( )
K
p
---- = var Y ( )
K 1 p ( )
p
2
-------------------------- =
P179-210-9782100549412.fm Page 196 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

197


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
probabilit quune pice prise au hasard soit dfectueuse est gale 0,05
(chapitre 5). On peut supposer les tirages indpendants en raison de la
grande taille de la population (ici la production).
Le schma binomial est ici adapt puisquon recherche la probabilit
dun nombre donn de dfectueux sur un chantillon de taille fixe.
Pour cette loi (20 ; 0,05), on a P(X = 0) = (0,95)
20
= 0,3585
Si dautre part, on cherche calculer la probabilit que le premier dfec-
tueux ne soit pas lune des 20 premires pices, on gardera la modlisa-
tion des units statistiques par les alas de Bernoulli de paramtre 0,05
toujours supposs indpendants pour les mmes raisons. Mais le nom-
bre de pices tudies ntant plus donn, ce nombre devient lala dont
on a besoin de dterminer la loi de probabilit.
Soit Y le nombre de pices observes jusqu lobtention de la premire
pice dfectueuse. La variable alatoire Y est une variable alatoire dis-
tribue selon une loi gomtrique de paramtre 0,05 ; par consquent :

Lesprance mathmatique de cette variable alatoire Y tant gale 20,
on doit tirer en moyenne 20 pices pour en observer une dfectueuse,
cest--dire quavant de tirer une pice dfectueuse, on tire, en
moyenne, 19 pices qui ne le sont pas.
La relation entre tous ces rsultats est laisse au lecteur.
Si on stait intress au nombre de pices examiner pour en tirer deux
dfectueuses, on aurait une loi de Pascal desprance mathmatique
gale 40. Ici encore, on laisse au lecteur le soin de comparer les deux
derniers rsultats.
Ces deux lois, loi gomtrique et loi de Pascal, interviennent particulirement
en contrle de qualit, mais aussi dans la surveillance des vnements dont une
certaine frquence de survenue est interprte en terme de signal dalarme.
Les formules de la loi gomtrique sont suffisamment simples pour que les cal-
culs ne posent aucune difficult avec une petite calculatrice, et pour la loi de Pas-
cal, on peut recourir quelques pas de programme comme pour la loi binomiale.

Remarque
Les lois binomiale, hypergomtrique, gomtrique et de Pascal sont
donc toutes construites sur la base de la rptition dpreuves deux
P Y 21 ( )
0,95
k 1
0,05
k 21

0,05
0,95
k 1
k 21

0,05
0,95
j
j 20

= = =

P Y 21 ( ) 0,05 0,95
20
0,95
j
j 0

=
0,05 0,95
20 1
1 0,95
------------------- 0,95
20
0,3585 = = =
P179-210-9782100549412.fm Page 197 Jeudi, 18. novembre 2010 12:09 12
198

INTRODUCTION LA MTHODE STATISTIQUE


issues (ou preuves de Bernoulli). lexception de la loi hypergom-
trique, elles se placent toutes dans un contexte dpreuves indpendan-
tes dont la caractristique p (probabilit de lissue de lalternative
quon cherche observer) est constante au cours du temps.
Ceci correspond une notion trs dveloppe dans la modlisation des
phnomnes dpendant du temps, savoir la stationnarit. Cette pro-
prit nest pas systmatiquement rencontre, et il faut apporter la plus
grande attention lanalyse de cette hypothse dans toutes les situa-
tions quon cherche reprsenter.
Beaucoup de cas ne correspondent pas en effet une succession station-
naire dpreuves de Bernoulli indpendantes. Nous avons vu que lind-
pendance stricto sensu pouvait quelquefois servir de reprsentation
approche des tirages exhaustifs (pour un taux de sondage suffisam-
ment faible), mais on devra soigneusement analyser le contexte pour
reconnatre sil est celui dune parfaite stationnarit (cest--dire de
constance dans le temps du paramtre p des preuves de Bernoulli suc-
cessives), sil est celui dune stationnarit approximative, ou si cette con-
dition ne peut tre suppose (auquel cas les outils mettre en uvre sont
plus complexes et dbordent du propos de cet ouvrage).
Le tableau suivant rsume de faon synthtique les principaux modles cons-
truits partir de litration du schma de Bernoulli.
III. La loi de Poisson
Cette loi peut tre envisage dans un contexte empirique (statistique), ou
danalyse (probabiliste).
Loi
Nombre
ditrations
Valeur
minimale
Valeur
maximale
Type
de tirage
Esprance Variance
Bernoulli fix 0 1 sans p p(1 p)
Binomiale fix 0 n indpendant np np(1 p)
Hypergomtrique fix max(0, n Nq) min(n, Np) exhaustif np
Gomtrique alatoire 1 sans indpendant
Pascal alatoire K sans indpendant
np 1 p ( )
N n
N 1
-------------
1
p
---
1 p
p
2
------------
K
p
----
K 1 p ( )
p
2
----------------------
P179-210-9782100549412.fm Page 198 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

199


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
A. Dfinitions et proprits
1
On remarque tout de suite quune telle variable alatoire prsente une diff-
rence essentielle avec les variables de Bernoulli ou binomiales, car elle est
discrte, mais non finie (cest--dire ici que les valeurs possibles ne sont pas
limites suprieurement). Nous avons dj rencontr cette situation avec la
loi gomtrique et la loi de Pascal.
Il sagit bien dune distribution de probabilit car, il est facile de le constater que :
toutes les probabilits sont positives ;
la somme des probabilits est gale 1, compte tenu de lexpression de
la srie exponentielle :
Le calcul de la moyenne est assez simple :
car le premier terme de la somme est nul. Par consquent,
Dfinition
Une variable alatoire X ayant pour valeur possible tout nombre entier
positif ou nul, et telle que :
pour tout k 0 entier, est dite distribue selon une loi de Poisson
1
de para-
mtre m, m tant un nombre rel strictement positif.
1. Simon-Denis Poisson (1781-1840), mathmaticien, probabiliste et physicien franais, qui
on doit dimportant dveloppements sur la loi des grands nombres, sur les suites dpreuves
de Bernouilli, sur la loi de Poisson, mais aussi sur les applications des probabilits dans les
domaines du droit.
P X k = ( ) e
m
m
k
k!
------ =
P X k = ( )
k 0

e
m
m
k
k!
------
k 0

e
m
m
k
k!
------ e
m
. e
m
=
k 0

e
0
1 = = = =
E X ( ) k P X k = ( )
k 0

k e
m
m
k
k!
------
k 0

= =
e
m
k
m
k
k!
------
k 0

e
m
k
m
k
k!
------
k 1

= =
E X ( ) e
m
m m
k 1

k 1 ( )!
--------------------
k 1

m e
m
m
k 1
k 1 ( )!
------------------
k 1

= =
P179-210-9782100549412.fm Page 199 Jeudi, 18. novembre 2010 12:09 12
200

INTRODUCTION LA MTHODE STATISTIQUE


Le changement de variable j = k 1 donne :
Ce rsultat justifie la notation m adopte pour le paramtre de la loi de
Poisson puisque ce paramtre nest autre que la valeur moyenne.
En ce qui concerne le moment dordre 2, le calcul du mme type donne :
car le l
er
terme de la srie tant nul, on peut commencer cette somme pour
k = 1
On obtient ensuite :
Le deuxime terme de la dernire parenthse nest autre que E(X) soit
m. Pour le calcul du premier terme, on remarque que le terme initial pour
k = 1 est nul. On dbute la somme k = 2, et on simplifie par k(k1) :
soit :
En faisant le changement de variable { j = k 2} dans la dernire somme,
on retrouve encore le dveloppement de la srie exponentielle, do :
Et on dduit la variance :
E X ( ) m e
m
m
j
j!
------
j 0

m e
m
e
m
m = = =
E X
2
( ) k
2
P X k = ( )
k 0

k
2
e
m
m
k
k!
------
k 0

= =
e
m
k
2
m
k
k!
------
k 0

e
m
k
2
m
k
k!
------
k 1

= =
E X
2
( ) e
m
k
2
m
k
k!
------
k 1

e
m
k k 1 ( ) k + ( )
k 1

m
k
k!
------ = =
e
m
k k 1 ( )
k 1

m
k
k!
------ k
m
k
k!
------
k 1

+
( ,
j \
=
E X
2
( ) e
m
. k k 1 ( )
m
k
k!
------ m +
k 1

e
m
k k 1 ( )
m
k
k!
------ m +
k 2

= =
e
m
m
2
m
k 2

k 2 ( )!
----------------------- m +
k 2

=
E X
2
( ) m
2
e
m
m
k 2
k 2 ( )!
------------------ m +
k 2

=
E X
2
( ) m
2
e
m
e
m
m + m
2
m + = =
var X ( ) E X
2
( ) E X ( )
( ,
j \
2
m
2
m m
2
+ m = = =
P179-210-9782100549412.fm Page 200 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

201


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Ce rsultat a un intrt considrable, comme on le verra plus loin :
On peut aussi calculer la fonction gnratrice :
ce qui permet dobtenir le moment factoriel dordre r(r
*
) :
[r]
(X) = m
r
La proprit suivante est trs utile dans la construction des modles rgis
par des lois de Poisson.
En effet, la variable Y peut prendre toutes les valeurs entires, positives ou
nulle. Calculons la probabilit quelle prenne lune quelconque de ces valeurs.
donc :
soit :
Pour une distribution de Poisson, moyenne et variance sont gales (et
gales la valeur du paramtre).
Proprit 1
Si X
1
et X
2
sont deux variables alatoires indpendantes qui suivent des
lois de Poisson respectivement de paramtres m
1

et m
2
, alors Y = X
1

+ X
2
suit une loi de Poisson de paramtre m
1
+ m
2
g
X
u ( ) E u
X
( ) u
k
e
m
m
k
k!
------
k 0

e
m
um ( )
k
k!
--------------
k 0

e
m
e
um
e
m 1 u ( )
= = = = =
P Y k = ( ) P
i k =
U
i 0 =
X
1
i = X
2
k i = ( )
( ,
, (
j \
=
P X
1
i = X
2
k i = ( )
i 0 =
i k =

=
P X
1
i = ( ) P X
2
k i = ( )
i 0 =
i k =

=
P Y k = ( ) P X
1
i = ( ) P X
2
k i = ( )
i 0 =
i k =

e
m
1

m
1
i
i!
------ e
m
2

m
2
k i
k i ( )!
-----------------
i 0 =
i k =

= =
P Y k = ( ) e
m
1
m
2
+ ( )

m
1
i
m
2
k i

i! k i ( )!
----------------------
i 0 =
i k =

e
m
1
m
2
+ ( )
k!
--------------------
k!
i! k i ( )!
----------------------m
1
i
m
2
k i

i 0 =
i k =

= =
P179-210-9782100549412.fm Page 201 Jeudi, 18. novembre 2010 12:09 12
202

INTRODUCTION LA MTHODE STATISTIQUE


et on reconnat dans la dernire somme le dveloppement du binme de
Newton appliqu la somme . Ce qui permet dcrire :
ce rsultat prouvant le rsultat annonc.

Remarque
Ce rsultat peut stendre une somme finie de variables alatoires
indpendantes distribues toutes selon des lois de Poisson.
Il existe une forme rciproque de cette proprit.
On ne dmontrera pas cette proprit trs utile. Il faut remarquer ici quon
na pas le moyen direct de dcomposer (pour cette proprit 2) le paramtre
de (X + Y) en deux paramtres, lun pour X et lautre pour Y.
Une proprit, elle aussi caractristique de la loi de Poisson, est celle qui
suit, obtenue aisment en crivant le rapport des probabilits et en simplifiant :
Cette proprit implique la croissance des probabilits ponctuelles
P(X = k) tant que k m, et la dcroissance (rapide puisquinversement pro-
portionnelle k) ds que k > m.
Dautre part si m est un entier, le rapport est gal 1. Ceci
signifie quil existe deux valeurs, m et m 1, qui ont mme probabilit. Cette
probabilit commune est la plus leve daprs ce quon vient de voir. Par
consquent, la loi de Poisson possde deux valeurs modales lorsque son
paramtre est un nombre entier .
Proprit 2
Si les variables alatoires indpendantes X et Y sont telles que la
somme (X + Y) est distribue selon une loi de Poisson, alors les variables
X et Y sont elles-mmes distribues selon des lois de Poisson.
Proprit 3
Si X suit une loi de Poisson de paramtre m, on a :
m
1
m
2
+ ( )
k
P Y k = ( ) e
m
1
m
2
+ ( )
m
1
m
2
+ ( )
k
k!
-------------------------- =
P X k = ( )
P X k 1 = ( )
--------------------------------
m
k
---- =
P X m = ( )
P X m 1 = ( )
---------------------------------
P179-210-9782100549412.fm Page 202 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

203


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
B. Abord statistique
Daprs les proprits qui viennent dtre montres, on remarque quil est
justifi denvisager une loi de Poisson comme un modle reprsentatif de
donnes statistiques discrtes pour lesquelles la variable ne prend que
des valeurs entires, positives ou nulle, et pour lesquelles :
la moyenne et la variance sont sensiblement gales ;
les rapports de 2 frquences conscutives sont inversement
proportionnels k
Il est frquent que cette dernire condition ne soit vrifie que pour les
faibles valeurs de k. Dans la pratique, on accorde moins dimportance aux
entorses cette proprit pour les queues de distribution.
Enfin, on prendra garde de bien noter quil ne sagit l que dune indication. Il
est indispensable de justifier le choix dun modle par un jugement dadquation.
C. Abord probabiliste
Il sagit maintenant de poser la loi de Poisson comme modle dune preuve
alatoire avec laide dune analyse raisonne de cette preuve. Un rsultat est
ncessaire cette dmarche.
Ceci implique que la loi de Poisson peut tre considre comme lapproxi-
mation dune loi binomiale qui reprsente la somme dun grand nombre
(n > 50) dalas de Bernoulli de faible paramtre ( p < 0,1).
On remarque ce sujet que si une variable alatoire est distribue selon
une loi binomiale (n ; p) pour laquelle n > 50 et p < 0,1, on aura q 1 et
par consquent np npq. Si on approxime cette loi binomiale par une loi de
Poisson (np), on imagine que les deux lois doivent tre assez proches pour
que les esprances mathmatiques, dune part, et les variances, dautre part,
soient voisines, sinon mme gales. Or, les esprances sont gales toutes
Proprit 4
Les probabilits dune loi binomiale (n ; p) peuvent tre approximes
par les probabilits dune loi de Poisson de paramtre np si les conditions
suivantes sont ralises :
n > 50 et p < 0,1
f
k
f
k 1
-----------
P179-210-9782100549412.fm Page 203 Jeudi, 18. novembre 2010 12:09 12
204

INTRODUCTION LA MTHODE STATISTIQUE


deux np, mais les variances respectivement gales npq pour la loi bino-
miale et np pour la loi de Poisson sont proches puisque q 1. La valeur de
lapproximation apparat bien lie la faible valeur de p
Bien videmment, par symtrie, et en particulier en tenant compte de la
proprit 2 vue au II.A, pour une variable X suivant une loi (n ; p) o
n > 50 et p > 0,9, cette approximation sera applique la variable ( n X) qui
suit une loi (n ; 1 p)
Lorsquun vnement a une faible probabilit ( p < 0,1) dapparition lors
dune preuve lmentaire, et si on rpte cette preuve un grand nombre de
fois (n > 50), le nombre total de ralisations de lvnement considr suit
peu prs une loi de Poisson de paramtre np. Les graphiques de la figure 6.3a
et 6.3b montrent la comparaison entre les diagrammes en btons de plusieurs
lois binomiales et des lois de Poisson qui sont proposes comme approxima-
tion. On retrouve en examinant ces graphiques que plus p est petit, meilleure
est la qualit de lapproximation.
Pour cette raison, la loi de Poisson a t appele la loi des petites proba-
bilits, ou loi des faibles occurences, ou loi des phnomnes rares .
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0,18
(60 ; 0,1)
(6)
(60 ; 0,15)
(9)
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0,18
(100 ; 0,4)
(40)
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,10
(100 ; 0,25)
(25)
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,10
Figure 6.3a Approximations de mauvaise qualit par la loi de Poisson
P179-210-9782100549412.fm Page 204 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

205


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Voici quelques exemples o cette loi est voque :
nombre de pices dfectueuses dans un chantillon de grande taille prlev
dans une production o la proportion des pices dfectueuses est faible ;
nombre de naissances de quadrupls, de quintupls, par an dans un pays
fix ;
nombre dappels intercontinentaux sur une ligne pendant une priode
donne.
Les formules des probabilits de lois binomiale et de Poisson montrent
bien lintrt de la seconde. Mme avec une bonne calculatrice, il nest pas
ais (et parfois pas possible directement) de calculer les probabilits dune
loi binomiale. Mais cependant, on ne recourra lapproximation par la loi de
Poisson que lorsquon ne peut aisment obtenir le rsultat exact, cest--dire
quon ne cherchera pas approximer la loi binomiale tant que le calcul est
simple.
(60 ; 0,01)
(0,6)
0,0
0,1
0,2
0,3
0,4
0,5
0,6
(60 ; 0,05)
(3)
0,00
0,05
0,10
0,15
0,20
0,25
(100 ; 0,1)
(10)
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
(100 ; 0,05)
(5)
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0,18
0,20
Figure 6.3b Approximations correctes par la loi de Poisson
P179-210-9782100549412.fm Page 205 Jeudi, 18. novembre 2010 12:09 12
206

INTRODUCTION LA MTHODE STATISTIQUE


Les tables de la loi de Poisson ( cf. annexe IV) donnent les valeurs de la
fonction de rpartition pour les valeurs du paramtre :
entre 0 et 1 par pas de 0,1
entre 1 et 10 par pas de 0,5
entre 10 et 25 par pas de 1
Comme pour la loi binomiale, lusage des tables est limit certaines
valeurs du paramtre. On peut utiliser quelques pas de programme pour tous
les calculs (annexe II).
Toutefois, lorsque m dpasse 25, on utilise lapproximation par la loi de
Gauss et la correction de continuit (chapitre 7).
La loi de Poisson de paramtre m est une loi caractrise par lgalit
de sa moyenne et de sa variance, et dont les probabilits p
k
croissent tant
que k < m, puis dcroissent. Elle peut tre envisage comme une approxi-
mation de la loi binomiale, donc comme la loi approche de la somme
dun grand nombre (n > 50) dalas de Bernoulli indpendants reprsen-
tant une alternative dont lune des issues est de probabilit trs faible
(p < 0,1). Elle est ainsi directement postule comme modle reprsen-
tatif du nombre doccurences au cours du temps pour un vnement
particulirement peu probable, mais dont la probabilit de survenue est
stable.
On ajoutera encore quil sagit dun modle particulirement utilis en
pratique dans la gestion des files dattente notamment, et qui est lorigine
de dveloppements trs importants dans lanalyse des sries dvnements
(processus poissoniens).
On noubliera pas :
1. Que la loi de Bernoulli reprsente toute situation dalternative dans
laquelle une issue est code 0 et lautre code 1
2. Que la loi binomiale correspond la somme dun nombre fix de
variables alatoires de Bernoulli de mme paramtre et indpendantes
(donc un tirage avec remise)
3. Que la loi hypergomtrique correspond la somme dun nombre
fix de variables alatoires de Bernoulli de mme paramtre, mais dans
un tirage sans remise
4. Que la loi gomtrique correspond la somme de variables alatoi-
res de Bernoulli de mme paramtre et indpendantes, mais en nombre
alatoire
5. Que la moyenne et la variance dune variable alatoire de Poisson
sont gales
P179-210-9782100549412.fm Page 206 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

207


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

Exercice 6.1
Des sondages permettent de constater que 10 % de la population est constitue de
gauchers. On considre donc, dans cet exercice, que la probabilit quun individu pris
au hasard soit gaucher est gale 0,1 et celle quil soit droitier est gale 0,9.
1. Calculez la probabilit quun groupe de 10 individus contienne :
au moins un gaucher ;
au plus trois gauchers.
2. Un atelier de couture est quip de 9 paires de ciseaux pour droitiers et de 3 paires
de ciseaux pour gauchers. Quelle est la probabilit que chacun des 10 membres du
personnel trouve une paire de ciseaux sa convenance ?
3. Soit Z la variable alatoire gale au nombre de personnes ayant trouv une paire
de ciseaux sa convenance. tablir un tableau donnant Z en fonction du nombre
Y de gauchers dans les 10 membres du personnel. En dduire la loi de probabilit
de Z.
Exercice 6.2
Une compagnie dassurances envisage de crer des polices dassurances individuelles
contre un certain type daccidents. Une enqute pralable du service statistique a per-
mis destimer quau cours dune anne, chaque personne a une chance sur 5 000 envi-
ron dtre victime dun accident couvert par ce type de police, et que la compagnie
pourra vendre en moyenne 10 000 polices dassurance de ce type par an.
Dterminez la probabilit que le nombre daccidents ne dpasse pas trois par an (on
supposera que chaque personne assure a au plus un accident par an).
Exercice 6.3
La socit Alpha a vendu deux machines de pesage la socit Beta qui est une
socit de prestations de services. La Socit Beta loue ces machines la journe. Le
prix de location lui laisse, par jour et par machine, une marge brute de 20 . Chaque
machine est immobilise 1 jour sur 10 au hasard, pour rglage et contrle.
1. Donnez, en la justifiant, la loi de la variable alatoire Y gale au nombre de machi-
nes disponibles un jour quelconque.
2. Par ailleurs, on admet que le nombre dentreprises dsirant louer une machine
pour une journe est une variable alatoire Z ainsi dfinie :
Cette loi de demande reste invariable au cours du temps et na aucune incidence
sur le planning des immobilisations pour vrification, car aucune rgularit tem-
porelle na t dcele. Une entreprise est satisfaite si elle repart avec une
machine. Soit N, la variable alatoire gale au nombre dentreprises satisfaites au
cours dune journe.
Valeurs de Z 0 1 2 3
Probabilit 0,1 0,2 0,4 0,3
Exercices (corrigs page 319)
P179-210-9782100549412.fm Page 207 Jeudi, 18. novembre 2010 12:09 12
208

INTRODUCTION LA MTHODE STATISTIQUE


2.1. Quelles sont les valeurs possibles de N ?
2.2. En dduire la loi de N, ainsi que son esprance mathmatique. Donnez la
marge brute moyenne ralise au cours dune journe.
3. La socit Alpha constate quune machine sur 20 tombe en panne la premire
anne (on suppose quune machine ne peut pas tomber plus dune fois en panne
au cours dune anne). Le cot de rparation est de 200 par machine.
Au lieu de garantir les machines pendant un an, la socit Alpha propose de faire
un discount de 20 par machine aux acheteurs ventuels qui se chargeront eux-
mmes des rparations.
Vous tes prsident-directeur gnral dune socit qui achte 60 machines. Quel
choix ferez-vous si votre dcision est prise en fonction de chacun des deux critres
suivants :
vouloir ne pas y perdre en moyenne ;
refuser de courir un risque suprieur 1 % de voir la remise consentie tre inf-
rieure au cot de rparation.
Exercice 6.4
Lors de tests daccs un ordinateur central par rseau tlmatique, on a constat que
95 % des essais permettaient une connexion correcte. Une entreprise doit se connec-
ter 5 fois dans la journe pour la mise jour de ses fichiers. Soit Y le nombre dessais
ncessaires pour se connecter 5 fois.
1. Dterminez la loi de probabilit de la v.a. Y, ainsi que son esprance et sa variance.
2. Calculez P(Y = 5) et P(Y > 6).
Exercice 6.5
Soit X
t
le nombre de demandes daccs une ressource informatique en partage, pen-
dant un intervalle de temps de dure t fixe. On suppose X
t
distribue selon une loi
de Poisson de paramtre = t. Lorsque cette ressource est sature, ce qui se produit
avec une probabilit , la demande ne peut tre satisfaite. Soit Y
t
le nombre de
demandes satisfaites durant lintervalle de temps de longueur t.
1. Montrez que la v.a. conditionnelle suit une loi binomiale dont on
dterminera les paramtres.
2. Montrez que Y
t
suit une loi de Poisson de paramtre
3. On se donne = 10 et = 0,2, lunit de temps tant la seconde.
Calculez : P(Y
t
< 8) et P(3 < Y
t
< 10)
Exercice 6.6
Dans une tude sur le comportement dachat de consommateurs, on suppose qu
chaque minute, une unit (au maximum) dun certain produit a 1 % de chances dtre
vendue. On suppose les achats de ce produit effectus des temps diffrents, ind-
pendants les uns des autres.
1. Quelle est la loi de probabilit exacte du nombre dunits de ce produit vendues
en 30 min ?
Calculez la probabilit de vendre au moins 3 units en 30 min.
2. Le magasin est ouvert 7 h 30 par jour. Quel est le nombre moyen dunits vendues
par jour ?
Par quelle loi peut-on approcher la loi de probabilit du nombre dunits de ce
produit vendues en un jour ?
Y
t
X
t
x =
P179-210-9782100549412.fm Page 208 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

209


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
3. Chaque matin, le stock est reconstitu 8 units pour le premier produit, et
220 units pour le second. Quelle est la probabilit de rupture de stock pour cha-
cun des deux produits ?
Exercice 6.7
Dans un grand magasin, des observations sur un grand nombre de jours ouvrables au
rayon des magntoscopes ont amen faire lhypothse selon laquelle le nombre de
magntoscopes X vendus au cours dun jour ouvrable quelconque suit une loi de
Poisson de paramtre 5. Les ventes sont supposes indpendantes.
1. Calculez la probabilit de chacun des vnements suivants :
la vente journalire de magntoscopes est au plus gale 2 ;
la vente journalire de magntoscopes est au plus gale 2 ou au moins gale
6 ;
la vente journalire de magntoscopes est au plus gale 6 sachant quelle est
au moins gale 2.
2. Donnez, en la justifiant, la loi de la somme des ventes de deux jours conscutifs.
Calculez la probabilit que la somme des ventes de deux jours conscutifs soit
gale 10.
3. Le directeur du magasin dcide de faire pendant une semaine une campagne publi-
citaire sur les magntoscopes.
Il estime que, pendant cette semaine, la vente journalire suivra toujours une loi de
Poisson et que son paramtre sera gal 6 avec une probabilit gale 2/3 ou
8 avec une probabilit gale 1/3.
Quelle est alors la probabilit que, pendant cette campagne publicitaire, la vente
journalire de magntoscopes soit au moins gale 3 ?
Exercice 6.8
Dans une grande ville, la rgie des transports urbains dispose de 1 000 autobus. Des
observations antrieures ont montr que la probabilit quun autobus tombe en panne
un jour donn est gale 0,0025. Soit Y le nombre dautobus en panne un jour donn.
1. Dterminez, en la justifiant, la loi de la variable alatoire Y. Calculez son esp-
rance et sa variance.
2. Donnez, en la justifiant, une loi approximative de la loi de la variable alatoire Y.
3. Calculez P (3 < Y < 7).
4. Quelle doit tre la capacit minimum du service de maintenance des autobus pour
que la probabilit que toutes les pannes soient traites dans la journe, soit au
moins gale 0,998 ?
5. Le service de maintenance peut, en fait, rparer 6 pannes par jour. Calculez la
probabilit que, un jour quelconque, ce service soit dans lincapacit de rparer
tous les autobus tombs en panne.
6. Soit Z, le nombre de jours de lanne (anne de 365 jours) pour lesquels la main-
tenance est insuffisante. Dterminez, en la justifiant, la loi de la variable alatoire
Z, ainsi quune loi approche. En dduire la probabilit que la maintenance soit
suffisante tous les jours de lanne.
Daprs examen de juin 2000, GEA 1
re
anne Paris IX-Dauphine
P179-210-9782100549412.fm Page 209 Jeudi, 18. novembre 2010 12:09 12
210

INTRODUCTION LA MTHODE STATISTIQUE


Exercice 6.9
Le nombre de vhicules se prsentant au page A de lautoroute du Soleil pendant
un certain intervalle de temps T est suppos suivre une loi de Poisson de paramtre 3,
et le nombre de vhicules se prsentant au page B de la mme autoroute pendant le
mme intervalle de temps est suppos suivre une loi de Poisson de paramtre 2.
1. Dterminez la loi du nombre de vhicules se prsentant lun ou lautre des deux
pages pendant un laps de temps T en prcisant lhypothse ncessaire.
2. Calculez la probabilit que 8 vhicules se prsentent lun ou lautre des deux
pages pendant un intervalle de temps T.
3. Sachant que 8 vhicules se sont prsents lun ou lautre des deux pages, quelle
est la probabilit quil y en ait eu 5 au page A (toujours pendant un mme laps
de temps T) ?
Daprs examen de juin 2006, DUGEAD 1
re
anne Paris-Dauphine
Exercice 6.10
Les donnes suivantes, bases sur les annales de dix corps de larme prussienne sur
une priode de vingt ans la fin du XIX
e
sicle, rendent compte du nombre de cava-
liers tus par une ruade de cheval au cours dune anne.
Donnes recueillies par le statisticien L. Bortkiewicz
1. Calculez la moyenne et la variance de cette distribution.
2. Proposez, en la justifiant, une loi de probabilit pour ajuster cette distribution.
Daprs examen de septembre 2005, DUGEAD 1
re
anne Paris-Dauphine
Nombre de dcs x
k
100 11 12 3 4 5 ou +
Cumul des annes n
k
109 65 22 3 1 0
P179-210-9782100549412.fm Page 210 Jeudi, 18. novembre 2010 12:09 12

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS




211


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

7. L

es principaux
modles statistiques
continus

I. M

odles continus simples

A. L

a loi uniforme continue

Nous avons dj abord la notion dquiprobabilit dans les distributions sta-
tistiques discrtes au I.B du chapitre 6 avec la loi uniforme discrte. Nous allons
ladapter au cas dune variable alatoire continue. Pour une telle variable, on ne
peut pas parler de probabilit pour des valeurs isoles, et on imaginera la proba-
bilit comme une masse rpartie de faon diffuse. Il est clair alors que lquipro-
babilit se traduira par une probabilit dintervalle

proportionnelle

la longueur
de lintervalle. La probabilit cumule sur tout


tant limite lunit, on ne
pourra avoir de probabilit non nulle que sur un sous-ensemble born de


.
Compte tenu des proprits dune densit de probabilit, il rsulte que

k

> 0 et que :


Dfinition

Une variable alatoire

X

, absolument continue, suit une

loi uniforme
continue

sur lintervalle [

a

,

b

]



si sa densit de probabilit est donne par :
f
X
x ( )
k
0

=
si
si
x a b [ , ]
x a b [ , ]
1 f x ( ) x d
R

k x d
a
b

k b a ( ) = = = k
1
b a
------------ =

P211-282-9782100549412.fm Page 211 Mercredi, 24. novembre 2010 10:33 10

212



INTRODUCTION LA MTHODE STATISTIQUE

Lintervalle sur lequel la densit nest pas nulle est ncessairement fini.
Cette contrainte apparat tout fait naturelle si on interprte la probabilit
comme une masse.
Dautre part,
par consquent

F

X

(

x

) = 0 si

x





a,

alors que pour

x



]

a, b

[, on aura :
et enfin si

x




b

,
La densit de probabilit dune loi uniforme continue est donc constante
par morceaux, tandis que sa fonction de rpartition est linaire croissante par
morceaux (

cf.

figure 7.1, i et ii).
Pour ce qui concerne les moments de

X

:
et plus gnralement :
F
X
x ( ) f t ( ) t d

x

=
F
X
x ( ) f t ( ) t d

x

0 dt

a

1
b a
------------ t d
a
x

+
x a
b a
------------ = = =
F
X
x ( ) f t ( ) t d

x

0 dt

a

1
b a
------------ t d
a
b

0 dt
b
x

+ +
b a
b a
------------ 1 = = = =
a b
1/ (b-a)
0 a b 0
1
(i) (ii)
Figure 7.1 Densit (i) et fonction de rpartition (ii) de la loi uniforme continue
E X ( ) xf x ( ) x d
R

x
b a
------------ x d
a
b

1
b a
------------
b
2
a
2

2
----------------
b a +
2
------------ = = = =
E X
k
( )
1
b a
------------ x
k
x d
a
b

1
k 1 +
------------
b

k

1

+

a

k

1

+


b a
---------------------------- = =
P211-282-9782100549412.fm Page 212 Mercredi, 24. novembre 2010 10:33 10

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS




213


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

ce qui donne en particulier :
et par consquent :
On note que la loi uniforme continue est symtrique, et que par consquent,
sa mdiane et sa moyenne sont confondues au milieu de lintervalle [

a, b

].
Comme pour la loi uniforme discrte, ce rsultat est naturel compte tenu de
lquiprobabilit. Le calcul du coefficient dasymtrie


1

de Fisher retrouve
cette proprit puisque


1



= 0. On notera que cette distribution na pas de
mode au sens strict.
Les fractiles de la loi uniforme continue sont trs aisment calculables,
comme pour toute distribution continue dont la fonction de rpartition
sexprime analytiquement, et ici le calcul est particulirement simple. En
effet le fractile

x


dordre


est dfini par

F

X

(

x


) =


. Il correspond :
, soit
On retrouve la valeur de la mdiane, gale la moyenne, soit :
Il faut remarquer que pour cette loi, la probabilit de voir une ralisation
appartenir un intervalle donn ne dpend que de la longueur de cet inter-
valle, et quelle ne dpend pas de la position de cet intervalle. Deux interval-
les de mme longueur auront la mme probabilit, condition quils soient
tous deux inclus dans [

a, b

], domaine de dfinition de

X

.
Compte tenu de la symtrie de cette loi, on peut aussi adopter la dfinition
suivante.
Une variable alatoire

X

est

uniforme continue

sur [

a h, a + h

] si sa
densit est dfinie par :
Lquivalence des deux dfinitions est laisse au lecteur. Cest, historique-
ment, cette seconde dfinition qui est lorigine dune grande utilisation de la loi
uniforme continue dans le domaine de la prise en compte des erreurs darrondi

1

.

1. On a ainsi pu tudier que la rpartition des erreurs darrondi suit une loi uniforme continue
dans de nombreux cas.
E X
2
( )
1
3
--- b
2
ab a
2
+ + ( ) =

2
X ( ) E X
2
( ) E X ( ) ( )
2

b a ( )
2
12
------------------- = =
x

a
b a
-------------- = x

a b a ( ) + =
x
0,5
a
1
2
--- b a ( ) +
b a +
2
------------ = =
f x ( )
1
2h
------
0

=
si x a h a h + [ , ]
si

x a h a h + [ , ]
P211-282-9782100549412.fm Page 213 Mercredi, 24. novembre 2010 10:33 10

214



INTRODUCTION LA MTHODE STATISTIQUE

Cette distribution uniforme recouvre trs naturellement la notion dquipro-
babilit dans le contexte de rpartitions continues, et elle a t probablement
utilise comme telle avant le

XVIII

e

sicle, date des premiers crits la concernant.
La loi uniforme continue est, en raison de son lien avec lquiprobabilit,
lorigine de multiples modlisations (en sociologie, conomie, gestion de flux,
gestion de stocks, biologie, physique). On doit galement mentionner son int-
rt pour la simulation

1

des modles, quel que soit le domaine dapplication. Le
rsultat fondamental sur lequel reposent ces simulations est le suivant.
En effet, la fonction

F

tant bijective et monotone, elle admet une rci-
proque quon note

F

1

. Si on crit la fonction de rpartition de

Y

, on obtient :

P

(

Y

<

y

) =

P

(

F(X)

<

y

) =

P

(

X

<

F

1

(

y

)) =

F

[

F

1

(

y

)] =

y

ce qui prouve le rsultat annonc.
Partant donc dune ralisation

y

de variable alatoire distribue selon une
loi uniforme sur [0 ; 1], on peut reconstruire une ralisation

x

de variable ala-
toire

X

de fonction de rpartition

F

donne en calculant

x

=

F

1

(

y

). Connaissant
des ralisations de loi uniforme discrte, il est possible dobtenir des ralisa-
tions pour une loi quelconque partir du moment o on connat sa fonction
de rpartition (analytiquement ou avec ses valeurs point par point).
Cette mthode extrmement simple dans son principe (et base sur un rsul-
tat lmentaire) permet une trs grande quantit dapplications, que ce soit
entre autres pour la simulation de modles rels (flux, stocks) ou pour ltude
de phnomnes alatoires dont la distribution nest pas connue

a priori

.

B. L

a loi exponentielle

Dans ce paragraphe, on prsente la loi exponentielle sous son aspect le
plus simple, sans tenir compte de la famille de lois dans laquelle elle se place.
Afin de ne pas donner un contexte trop abstrait et mathmatique, on ne par-
lera pas des

lois gamma

et des proprits qui en dcoulent pour la loi expo-
nentielle. Toutefois, en conclusion de ce paragraphe, on mentionnera les
relations de ce modle exponentiel avec des modles correspondant des
schmas prcis didentification. Le but de cette prsentation tant essentiel-
lement de comprendre la nature des phnomnes alatoires pour lesquels on
envisage une reprsentation de type loi exponentielle ou drive de ce type.

1. Une prsentation simple de la simulation, avec des exemples, est donne lannexe III.

Thorme

Soit

X

une variable alatoire continue dont la fonction de rpartition

F(x)

est suppose bijective. Alors la variable alatoire

Y = F(X) suit une loi
uniforme continue sur [0 ; 1].
P211-282-9782100549412.fm Page 214 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

215


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
La figure 7.2 montre lallure des courbes reprsentatives de la densit de
la loi exponentielle de paramtres et .
Les situations usuelles correspondent au choix de = 0, ce que nous gar-
derons pour la suite, en prenant pour densit la fonction :
qui est ainsi une distribution un seul paramtre. Le cas particulier o = 1
est dit loi exponentielle standard.
Un calcul lmentaire montre que la fonction de rpartition (si = 0) est
donne par :
Calculons les moments de cette distribution :
Dfinition
On dit quune variable continue X suit une loi exponentielle de
paramtres > 0 et lorsque sa densit est :
f x ( )
1

---e
x ( )/
0

=
si x
si x <
0
0,4
0,8
1,2
1,6
2
=1
=2
=2
=1
=0,5
Figure 7.2 Densits de lois exponentielles pour diffrentes valeurs de (1 et 2)
et de (0,5, 1 et 2)
f x ( )
1

---e
x/
0

=
si x 0
si x 0 <
F x ( )
0
1 e
x/

=
si x 0 <
si x 0
E X
k
( )
1

--- x
k
0

e
x/
dx =
P211-282-9782100549412.fm Page 215 Mercredi, 24. novembre 2010 10:33 10
216

INTRODUCTION LA MTHODE STATISTIQUE


qui devient par le changement de variable :
dont le calcul est trs simple
1
en appliquant une intgration par parties la
dernire intgrale :
ce qui permet dcrire :
et puisque I
0
est gal 1 (intgrale de la densit), on obtient finalement
I
k
= k! et :
Dans le cas particulier de la loi exponentielle standard, il y a galit de
lesprance, de la variance et de lcart-type, tous gaux lunit. On peut
tablir un parallle avec la loi discrte qui possde une proprit analogue,
cest--dire la loi de Poisson pour laquelle lesprance est gale la variance,
mais non lcart-type (chapitre 6, III.A).
Ce modle correspond des phnomnes alatoires dont les valeurs
2
positives sont dautant moins probables quelles sont grandes, la dcroissance
tant de type exponentiel. En pratique, on a souvent recours un modle
exponentiel lorsquon a une variable continue positive, dont la moyenne et
lcart-type sont sensiblement gaux, et dont les probabilits dintervalles de
longueur fixe dcroissent rapidement au fur et mesure quils concernent des
valeurs leves.
1. On notera que cette intgrale I
k
nest autre que la valeur de la fonction eulrienne classique
gamma pour lentier ( k + 1), soit (k + 1).
Pour cette distribution exponentielle un paramtre ( tant nul),
lesprance et lcart-type sont tous deux gaux , alors que la variance
est gale
2
E(X) = et var(X) =
2
2. Le terme valeur ici ne doit pas prter confusion et concerne en toute rigueur un inter-
valle infiniment petit entourant une valeur ponctuelle ; ce terme est utilis ici pour ne pas
alourdir inutilement la prsentation.
t
x

--- =
E X
k
( )
1

--- t ( )
k
e
t
dt
0

k
t
k
e
t
dt
0

= =
I
k
t
k
e
t
dt
0

t
k
e
t
[ ]
0

k t
k 1
e
t
dt
0

+ k I
k 1
= = =
I
k
kI
k 1
k k 1 ( ) I
k 2
k k 1 ( ) k 2 ( ) 2 1 I
0
= = = =
E X
k
( ) k!
k
=
P211-282-9782100549412.fm Page 216 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

217


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Une situation trs classique aussi o on envisage un modle exponentiel
est celle o on sintresse au dlai de survenue dvnements alatoires dans
le temps (souvent appel dure de vie), et o on admet que le devenir X dun
individu (au sens statistique du terme) ne dpend pas de son ge :
,
On peut montrer que cette condition implique que X suit une loi de type
exponentiel.
Ces modles de dure de vie sont particulirement utiliss en conomie
du travail et dans ltude de lamortissement des investissements, mais aussi
bien entendu en fiabilit des matriels et en mdecine.
Parmi les autres domaines dapplication de la loi exponentielle, on citera
la dmographie et les files dattente.
Les deux proprits suivantes (donnes sans justification ni dmonstration)
peuvent tre utiles pour lidentification dune distribution exponentielle :
1. Si X
1
et X
2
sont deux variables indpendantes absolument continues tel-
les que V = min(X
1
, X
2
) et W = (X
1
X
2
) soient indpendantes, alors X
1
et X
2
sont des variables alatoires exponentielles de mme paramtre , mais pou-
vant avoir des carts-type
1
et
2

diffrents.
2. Si X
1
et X
2
sont deux variables de mme distribution absolument cont inue,
et si suit une loi uniforme continue sur [0 ; 1], indpendante
de ( X
1
+ X
2
)
,
alors X
1
et X
2
sont distribues selon une loi exponentielle de
mmes paramtres = 0 et .
Lcriture trs simple de la fonction de rpartition :
rend tous les calculs trs simples avec une petite calculatrice.
Ainsi pour la loi exponentielle de paramtre = 2, on peut calculer la
valeur du premier dcile D
1
tel que F(D
1
) = 0,1, do exp( D
1
/2) = 0,9 et
D
1
= 0,21072
De mme, la valeur du premier quartile Q
1
est telle que F(Q
1
) = 0,25, do :
exp( Q
1
/2) = 0,75 ou encore Q
1
= 2ln(0,75) = 0,57536
De mme encore, la valeur de la mdiane Q
2
est telle que F(Q
2
) = 0,5, do :
Q
2
= 2ln(0,5) = 1,386
P X x
0
x X x
0
> + ( ) P X x ( ) = x 0 > x
0
0 >
T
X
1
X
1
X
2
+
------------------ =
F x ( )
0
1 e
x/

=
si x 0 <
si x 0
P211-282-9782100549412.fm Page 217 Mercredi, 24. novembre 2010 10:33 10
218

INTRODUCTION LA MTHODE STATISTIQUE


Ces trois valeurs particulires ont t reportes sur la figure 7.3.
Parmi les distributions de probabilit troitement lies la loi exponen-
tielle, on citera :
la loi de Weibull (tudie au IV.C) trs utilise dans les modles de dure
de vie ; elle correspond une variable alatoire X telle que Y = (X )
c
suive une distribution exponentielle de paramtres = 0 et ;
la premire loi de Laplace utile en statistique ds lors quon dispose de
donnes dans lesquelles certaines valeurs sont extrmes ; elle corres-
pond une double distribution exponentielle en miroir autour de la
valeur ;
la loi dite du
2
2 degrs de libert (reprise au III.A) qui nest autre
quune loi exponentielle pour laquelle = 0 et = 2 ;
la loi dErlang, extrmement utilise en gestion des files dattente et fia-
bilit, est la loi suivie par la variable
dans laquelle les X
j
(j = 1, 2, , n) sont indpendantes, toutes de loi expo-
nentielle standard, et o les
j
sont tous distincts.
0
0,2
0,4
0,6
0,8
1,0
0 Q
2
2 3 4 5 Q
1
D
1
1
f(x)
F(x)
Figure 7.3 Loi exponentielle de paramtres = 0 et = 2 :
premier dcile, premier quartile, mdiane
Y
j
X
j
j 1 =
n

=
P211-282-9782100549412.fm Page 218 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

219


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
II. La loi normale ou loi de Laplace-Gauss
On dit encore loi de Gauss ou loi gaussienne, ou plus simplement une gaus-
sienne (au lieu de variable alatoire distribue selon une loi de Gauss).
A. La loi normale centre rduite
Cette fonction de densit est une fonction paire, et son graphique admet
laxe des ordonnes comme axe de symtrie. Il y a un maximum pour x = 0
qui correspond au mode de cette distribution. Compte tenu de deux points
dinflexion, le graphique est simple tracer et prsente lallure caractristi-
que connue sous le nom de courbe en cloche (cf. figure 7.4).
Il nexiste pas de fonction analytiquement exprimable qui corresponde
une primitive de la fonction de densit f. La fonction de rpartition dune loi
normale centre rduite scrit :
Dfinition
Une variable alatoire suit une loi normale centre rduite si elle peut
prendre toute valeur relle et si sa densit de probabilit est donne par :
f x ( )
1
2
----------exp x
2
/2 ( ) =
0 -1 -2 -3 -4 2 1 3
Figure 7.4 Densit de la loi normale centre rduite
F x ( )
1
2
---------- exp t
2
/2 ( )dt

x

=
P211-282-9782100549412.fm Page 219 Mercredi, 24. novembre 2010 10:33 10
220

INTRODUCTION LA MTHODE STATISTIQUE


Le produit t f(t) tant une fonction impaire :
et il sensuit que E(X) = 0. Ce rsultat justifie le nom de variable centre.
Plus gnralement la fonction t
2k +1


f(t) tant impaire, on a : E(X
2k +1
) = 0
Pour le calcul de la variance, on calcule dabord E(X
2
) par une intgration
par parties et on obtient :
Le premier terme de laccolade tant nul, il sensuit :
puisque le second membre nest autre que lintgrale de la densit sur
lensemble des rels.
Ce rsultat justifie le nom de variable rduite.
Cette distribution de probabilit possde une moyenne gale 0. Le gra-
phique tant symtrique par rapport laxe des ordonnes (parit de la den-
sit), on a une surface totale (gale 1) comprise entre la courbe et laxe des
abscisses, partage en deux parties gales par laxe vertical (soit 0,5 gauche
et 0,5 droite). La mdiane de cette distribution est aussi gale 0. Enfin, le
sommet de la cloche est au point x = 0
On verra au II.C, et au-del, limportance de cette proprit pour
lensemble des applications du calcul des probabilits lies la loi normale,
centre rduite ou non.
Par la suite cette v.a. normale centre rduite sera toujours note U
pour bien lidentifier.
B. La loi normale (m ; )
Une variable normale centre rduite U a pour moyenne 0 et pour variance 1.
Prenons alors une variable X telle que X = aU + b (avec a et b ). Il
est clair que :
E(X) = aE (U) + b = b et var (X) = a
2
var(U) = a
2
Proprit 1
Pour la loi normale centre rduite , la valeur 0 reprsente la fois la
moyenne, la mdiane et le mode.
t exp t
2
/2 ( ) dt

+

0 =
E X
2
( )
1
2
---------- t

+

2
exp t
2
/2 ( ) dt =

1
2
---------- t exp t
2
/2 ( ) [ ]

+
exp t
2
/2 ( )

+

dt +



=
E X
2
( )
1
2
---------- exp t
2
/2 ( ) dt

+

1 = =
P211-282-9782100549412.fm Page 220 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

221


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Mais on peut aller plus loin encore et dterminer la fonction de rpartition
de X puis sa densit :


On drive cette fonction par rapport x pour obtenir la densit de X :
Sur cette expression, on remarque que pour a = 1 et b = 0, on retrouve la
densit de la loi normale centre rduite. Dans le cas gnral, b reprsente la
moyenne et lcart-type.
Ceci conduit poser que X suit une loi normale de moyenne m et dcart-
type lorsque X prend toute valeur relle avec la densit :
et la loi normale centre rduite en est un cas particulier. Ce rsultat dune
importance pratique considrable, peut se prsenter sous la forme gnrale
suivante.
Ainsi que nous lavons vu, la densit dune variable normale, donc sa loi,
dpend de deux paramtres. On a montr que le premier paramtre nest autre
que sa moyenne tandis que le second correspond son cart-type. Une varia-
ble alatoire normale est entirement dtermine par sa moyenne et son
cart-type.
Proprit 2
Si X est une variable alatoire normale, alors toute fonction du
1
er
degr (fonction affine) de X suit aussi une loi normale.
F
X
x ( ) P X x < ( ) P aU b x < + ( )
P U
x b
a
----------- <
( ,
j \
1 P U
x b
a
----------- <
( ,
j \

= = =
si a 0 >
si a 0 <
F
X
x ( )
1
2
---------- exp t
2
/2 ( ) dt

x b
a
-----------

1
1
2
---------- exp t
2
/2 ( ) dt

x b
a
-----------

=
si a 0 >
si a 0 <
f
X
x ( )
1
a 2
-----------------exp x b ( )
2
/2a
2
=
a
f
X
x ( )
1
2
--------------exp x m ( )
2
/2
2
=
P211-282-9782100549412.fm Page 221 Mercredi, 24. novembre 2010 10:33 10

222



INTRODUCTION LA MTHODE STATISTIQUE

Dans le cas dune variable alatoire

X

distribue selon une loi normale


(

m

;



), la variable alatoire

Y

=

aX

+

b

suivant aussi une loi normale avec

E

(

Y

) =

am

+

b

et var(

Y

) =

a

2


2


(lcart-type de

Y

valant


),

Y

est distri-
bue selon une loi normale


(

am + b

;


).
En particulier, on peut construire la variable de moyenne nulle et
dcart-type gal 1 ; on dit alors que est la variable normale centre
rduite dduite de

X

. Cest elle qui permet de faire aisment tous les calculs
relatifs

X

( II.C).
Rciproquement, toute v.a.

X

distribue selon une loi de Gauss


(

m

;



)
peut scrire

X =


U

+

m

o

U

est une variable alatoire distribue selon une
loi de Gauss centre rduite.
Ltude de la densit
dune variable alatoire normale


(

m

;



) montre une courbe en cloche
avec un axe de symtrie vertical en

x = m

.
La valeur de la moyenne dtermine laxe de la courbe de densit. Pour
deux densits correspondant un mme cart-type, mais deux moyennes
diffrentes, on obtient deux courbes dcales (translates) lune par rapport
lautre.
Comme on le constate aisment, le sommet de la courbe en cloche a pour
ordonne :
Cette valeur inversement proportionnelle


signifie que plus grand est
lcart-type dune loi de Gauss, plus petit est le maximum de sa densit. tant
donn que la surface totale sous la courbe est constante (et gale lunit),
on en dduit que la courbe est dautant plus aplatie que lcart-type est
grand.
Au total, pour une valeur moyenne constante (sinon, il suffit de raison-
ner en translatant la courbe), plus lcart-type est grand (cest--dire plus
la dispersion de la distribution est leve), plus la densit aura des extr-
mits (aussi appeles

queues

de distribution) paisses, compensant ainsi un
sommet peu marqu. Inversement, plus lcart-type est petit (cest--dire
plus la distribution est concentre autour de sa moyenne) et plus le sommet
de sa densit sera lev, diminuant dautant lpaisseur aux extrmits
(cf. figure 7.5).
a
a
X m

--------------
X m

--------------
f
X
x ( )
1
2
--------------exp
x m ( )
2
2
2
--------------------



=
1
2
--------------
P211-282-9782100549412.fm Page 222 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

223


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Un cart-type petit correspond une distribution resserre autour de la
moyenne, cest--dire montrant par la finesse des queues de distribution que
la probabilit de scarter beaucoup de la moyenne diminue trs forte-
ment en sens inverse de lcart-type.
Nous avons dj dit quune loi de Gauss tait totalement caractrise par
sa moyenne et son cart-type. Nous voyons maintenant que, pour une telle
distribution, lcart-type donne une excellente apprciation de la dispersion.
Pour finir, prcisons ces notions de dispersion autour de la moyenne
laide de quelques rsultats exprims en terme de probabilit dobserver une
valeur scartant de la moyenne de plus de k carts-types (dispersion rela-
tive), pour plusieurs valeurs de k
En effet, soit X une v.a. distribue selon une loi (m ; ). Une valeur x
qui scarte de la moyenne m (dans un sens ou dans lautre, cest--dire vers
les valeurs infrieures ou vers les valeurs suprieures) de plus de k fois
lcart-type est caractrise par lingalit :
variance=0,25
variance=4
variance=1
Figure 7.5 Effet concentrateur de la diminution de la variance dune loi normale
x m k >
P211-282-9782100549412.fm Page 223 Mercredi, 24. novembre 2010 10:33 10
224

INTRODUCTION LA MTHODE STATISTIQUE


La probabilit cherche est :
soit,
La variable tant centre rduite, sa fonction de rpartition est
dsigne par F
U
. Dautre part, la densit de la loi normale centre rduite
tant symtrique par rapport laxe vertical, il en rsulte que (cf. figure 7.6) :
F
U
( k) = P(U < k) = P(U > k) = 1 P(U < k) = 1 F
U
(k)
Ce rsultat implique que :
Nous verrons au II.C la pratique de la lecture des tables. Nous admet-
trons pour le moment les diffrentes valeurs de F
U
(k) suivantes :
k 0,5 1 1,5 2 2,5 3
F
U
(k) 0,6915 0,8413 0,9332 0,9772 0,9938 0,9987
P X m k > ( ) P
X m

----------------- k >
( ,
j \
P
X m

-------------- k <
( ,
j \
X m

-------------- k >
( ,
j \

( ,
j \
= =
P X m k > ( ) P
X m

-------------- k <
( ,
j \
P
X m

-------------- k >
( ,
j \
+ =
X m

--------------
4 2 k k 0 2
Figure 7.6 Utilisation de la symtrie dune loi de Gauss
P X m k > ( ) P
X m

-------------- k <
( ,
j \
P
X m

-------------- k >
( ,
j \
+ =
1 F
U
k ( ) 1 F
U
k ( ) + 2 1 F
U
k ( ) ( ) = =
P211-282-9782100549412.fm Page 224 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

225


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Ceci permet dobtenir le tableau des probabilits cherches :
Ces calculs donnent des rsultats indpendants de m et de qui peuvent
tre convertis en dispersions absolues pour des valeurs donnes de comme
on le verra galement.
On note ainsi quil y a plus de 60 % des observations issues dune loi
(m ; ) qui scartent de la moyenne de plus dun demi cart-type, mais quil
ny a que 0,26 % (environ un quart de pour cent) qui scarte de la moyenne
de plus de 3 carts-types. En particulier pour une loi normale centre rduite,
cela signifie que 99,74 % des observations sont comprises entre 3 et + 3. On
remarquera encore que plus des deux tiers des observations issues dune loi
(m ; ) sont comprises dans lintervalle [ m ; m + ], alors quil ny en a
plus que 4,56 % (moins de 5 %) sortir de lintervalle [m 2 ; m + 2]. Tous
ces lments montrent bien la signification de lcart-type dune loi normale en
termes de concentration des valeurs autour de la moyenne. Ce point est tout fait
fondamental pour la pratique des applications (estimations et tests) des calcu ls
fonds sur la loi normale.
Pour finir de caractriser la loi de Laplace-Gauss, examinons les deux
coefficients
1
et
2
, caractrisant respectivement lasymtrie et laplatissement.
Puisque o les
k
dsignent les moments centrs, il sensuit
que
1
= 0. Ceci est tout fait naturel et cohrent puisque ce coefficient vise
rechercher les entorses la symtrie de la distribution.
Pour le coefficient daplatissement, qui caractrise un degr
de dcroissance aux extrmits de la distribution, le calcul (pour
4
on pro-
cde par intgration par parties successives et on obtient
4
= 3
2
)
donne
2
= 0. Ce coefficient daplatissement a t choisi afin davoir, par la
loi normale, un chelon daplatissement relatif la valeur 0.
Parmi les proprits essentielles de la distribution de Gauss, on doit
retenir :
k 0,5 1 1,5 2 2,5 3
0,6170 0,3174 0,1336 0,0456 0,0124 0,0026
La distribution normale est caractrise par sa symtrie par rapport la
moyenne et, moyenne, mdiane et mode sont confondus. Les coefficients
dasymtrie
1

et daplatissement
2

sont nuls.
P X m k > ( )

2
3/2
-------- =

2
2
----- 3 =
P211-282-9782100549412.fm Page 225 Mercredi, 24. novembre 2010 10:33 10
226

INTRODUCTION LA MTHODE STATISTIQUE


Une autre proprit de la loi normale est essentielle dans la pratique.
On admettra ce rsultat qui ncessite le calcul de la densit de la somme
de v.a. continues indpendantes (produit de convolution, prsent au III.A).
Daprs ce qui prcde, la loi de la somme admet pour paramtres
respectivement :
la somme des moyennes :
la racine carre de la somme des variances :
En effet, la moyenne dune somme de variables alatoires est toujours
gale la somme des moyennes, do la valeur de m. Dautre part, les varia-
bles alatoires tant supposes indpendantes, la variance de la somme est
gale la somme des variances, ce qui montre le second rsultat.
On notera bien que le second paramtre de la somme est la racine carre
de la somme des variances. Les variances sadditionnent lorsque les variables
sont indpendantes
1
, mais il nen est jamais de mme pour les carts-types.
C. Usage des tables
Deux tables relatives la loi de Gauss sont utilises : la table de la fonction
de rpartition et la table des fractiles (annexes IV). Nous allons les examiner
dans cet ordre.
Pour bien comprendre leur gnralit, rappelons tout dabord le point le
plus fondamental des calculs de probabilits lis une loi de Gauss :
Proprit 3
Si on a n variables alatoires normales (m
i
;
i
) et indpendantes ,
alors leur somme suit une loi normale (m ; ).
1. On dit aussi parfois variables orthogonales en rfrence au thorme de Pythagore de la
gomtrie classique.
X (m ; ) (0 ; 1)
m m
i
i 1 =
n

=

i
2
i 1 =
n

=
U
X m

-------------- =
P211-282-9782100549412.fm Page 226 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

227


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Par consquent la probabilit dun vnement li X peut toujours
sexprimer par la probabilit dun vnement li U. Les tables de la loi de
Gauss centre et rduite permettent ainsi de calculer les probabilits asso-
cies une loi de Gauss de moyenne et dcart-type quelconques.
Tout dabord examinons les utilisations de la table de la fonction de rpar-
tition de la loi (0 ; 1). Cest une table double entre par laquelle on dter-
mine la valeur de P(U < u) pour u [0 ; 3,5] donn.
On cherche :
i) la ligne correspondant la partie entire et au 1
er
chiffre dcimal de u ;
ii) la colonne correspondant au 2
e
chiffre dcimal de u ;
puis lintersection de cette ligne et de cette colonne, on lit la probabilit cher-
che.
Exemple
Par exemple si U suit une loi (0 ; 1), on lit directement lintersection
de la ligne correspondant 0,3 et de la colonne correspondant 0,08 :
P(U < 0,38) = 0,6480
et de mme lintersection de la ligne portant 1,9 et de la colonne
portant 0,06 :
P(U < 1,96) = 0,9750
Pour une loi normale quelconque X, la procdure est presque identique. Il
faut simplement se ramener une loi normale centre rduite U, selon
Lcart-type tant strictement positif :
si {X < a}, alors {X m < a m} et
mais aussi rciproquement si , alors {X < a}
Les vnements { X < a} et tant identiques, ils ont la mme
probabilit. On sest ramen une lecture de table de loi normale centre rduite.
U
X m

-------------- =
U
X m

--------------
a m

------------- < =



U
a m

------------- <



U
a m

------------- <



P211-282-9782100549412.fm Page 227 Mercredi, 24. novembre 2010 10:33 10
228

INTRODUCTION LA MTHODE STATISTIQUE


Exemples
Si X suit une loi (3 ; 2), suit une loi (0 ; 1)
P(X < 6,24) = = P(U < 1,62) = F
U
(1,62) = 0,9474
Si X suit une loi ( 4 ; 5), suit une loi (0 ; 1)
P(X < 1,65) = = P(U < 1,13) = F
U
(1,13) = 0,8708
On remarque que la table nest donne que pour des valeurs de u (le seuil)
comprises entre 0 et 3,49. Les extensions sont trs simples :
pour une valeur u < 0, on utilise la symtrie de la loi normale centre
rduite (cf. figure 7.7) :
F
U
( u) = P(U < u) = P(U > + u) = 1 Pr(U < + u) = 1 F
U
(+ u)
Par exemple, pour une variable X distribue selon une loi (4 ; 2) calcu-
lons P(X < 2) :
pour les grandes valeurs de (cest--dire au moins gales 3,5)
on dispose dune ligne supplmentaire en bas de table, moins dtaille et
sarrtant u = 4,5. Ceci sexplique par le fait (tudi plus haut au
prcdent) quune loi de Gauss na que moins de 0,30 % de chances de
scarter de plus de 3 carts-types de sa moyenne. Les probabilits cumules
(cest--dire les valeurs de la fonction de rpartition) pour des seuils sup-
rieurs 3 sont trs proches de 1, et varient extrmement peu. On le constate
la lecture de la ligne des grandes valeurs puisque lorsque le seuil passe de
4 4,5, la fonction de rpartition naugmente que de 0,00003 environ (alors
quelle augmente de 0,017 entre 2 et 2,5, soit environ 550 fois plus !) ;
enfin pour toute valeur de u contenant plus de 2 dcimales, on fait lhabi-
tuelle interpolation linaire. Si U suit une loi (0 ; 1), la valeur de
P(U < 1,645) se calcule en remarquant que 1,645 est exactement au milieu
entre 1,64 et 1,65, valeurs pour lesquelles les probabilits cumules sont res-
pectivement de 0,9495 et 0,9505. On prend donc P(U < 1,645) = 0,95 (la
valeur plus prcise est en ralit de 0,94449).
Prenons un autre exemple, en calculant P(X > 4,94) pour une v.a. X dis-
tribue selon une loi ( 2 ; 4). On crira :
U
X 3
2
------------- =
P
X 3
2
-------------
6,24 3
2
------------------- <
( ,
j \
U
X 4 +
5
------------- =
P
X 4 +
5
-------------
1,65 4 +
5
------------------- <
( ,
j \
P X 2 < ( ) P
X 4
2
------------- 1 <
( ,
j \
F
U
1 ( ) 1 F
U
1 ( ) 0,1587 = = = =
u
P X 4,94 > ( ) 1 P X 4 < 94 , ( ) 1 P
X 2 +
4
-------------
4,94 2 +
4
------------------- <
( ,
j \
= =
1 P
X 2 +
4
------------- 1,735 <
( ,
j \
1 F
U
1,735 ( ) = =
P211-282-9782100549412.fm Page 228 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

229


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Pour obtenir le rsultat, on relve dans la table :
F
U
(1,73) = 0,9582 et F
U
(1,74) = 0,9591
ce qui permet dobtenir F
U
(1,735) = 0,95865 par interpolation, et
P(X > 4,94) = 0,04135
Pour le calcul de la fonction de rpartition F
U
, il peut tre souvent nces-
saire dutiliser une formule approche, comme la formule de Hastings pr-
sente lannexe II. De nombreux calculs automatiques, par exemple ont
recours ce procd.
Parmi les autres utilisations de la table de la fonction de rpartition de la
loi de Gauss centre rduite, on retrouve souvent le calcul de probabilits
dintervalles. Ce calcul repose sur la formule tablie au chapitre 5,
P(a < X < b) = F(b) F(a) dans laquelle F dsigne la fonction de rpartition
de la v.a. continue X.
Prenons lexemple de la v.a. X distribue selon une loi ( 3 ; 2) et pour
laquelle on souhaite connatre P( 4 < X < 0). On centre et on rduit au
niveau des deux ingalits pour obtenir :
P( 4 < X < 0) = P( 0,5 < U < 1,5)
La probabilit cherche est gale :
F
U
(1,5) F
U
( 0,5) = F
U
(1,5) (1 F
U
(0,5)) = F
U
(1,5) + F
U
(0,5) 1
= 0,9332 + 0,6915 1 = 0,6247
Tous les autres calculs, comme par exemple ceux de probabilits condi-
tionnelles reposent de mme sur le passage une v.a. centre rduite, et ven-
tuellement sur les formules usuelles du calcul de base des probabilits.
Ainsi pour une variable alatoire X distribue selon une loi de Gauss
(1 ; 3), on crira pour calculer P(0 < X < > 2) :
On remarquera ce stade que pour les probabilits dintervalles, il est
indiffrent de considrer des intervalles ferms, ouverts ou mixtes puisque la
probabilit dun point pour une v.a. continue est nulle (comme on la vu au
chapitre 5, II.B).
2 X
P 0 X 2 X 2 > < < ( )
P 0 X 2 < < ( ) X 2 > ( )
( ,
j \
P X 2 > ( )
------------------------------------------------------------------
P 0 X 2 < < ( )
P X 2 > ( )
------------------------------- = =

P X 2 < ( ) P X 0 < ( )
1 P X 2 < ( )
--------------------------------------------------
F
U
2 1
3
------------
( ,
j \
F
U
0 1
3
------------
( ,
j \

1 F
U
2 1
3
----------------
( ,
j \

-------------------------------------------------------- = =

F
U
0,33 ( ) F
U
0,33 ( )
1 F
U
1 ( )
------------------------------------------------------
2F
U
0,33 ( ) 1
F
U
1 ( )
----------------------------------- 0,31 = =
P211-282-9782100549412.fm Page 229 Mercredi, 24. novembre 2010 10:33 10
230

INTRODUCTION LA MTHODE STATISTIQUE


Un calcul trs frquent est celui de , avec u > 0. Nous sommes
dans le cas dintervalles symtriques par rapport la moyenne ( cf. figure 7.7),
ce qui revient chercher :
P( u < U < + u) = P(U < + u) P(U < u), or P(U < u) = 1 P(U < u)
On a le rsultat :
Par complmentarit, on obtient galement :
Par exemple :
On peut retrouver ainsi quelques caractristiques utiles de toute distribu-
tion normale.
Si X suit une loi normale (m ; ), en donnant u successivement les
valeurs 1, 2 et 3, on trouve que la probabilit que :
On pourrait aussi prsenter ces rsultats sous la forme ( cf. figure 7.8) :
il ny a que 31,74 % des observations dune loi normale qui scartent
de la moyenne de plus de 1 cart-type ;
X scarte de sa moyenne dau plus 1 cart-type est
2 0,8413 1 = 0,6826
X scarte de sa moyenne dau plus 2 carts-types est
2 0,9772 1 = 0,9544
X scarte de sa moyenne dau plus 3 carts-types est
2 0,9987 1 = 0,9974
4 2 u u 0 2
Pr (U<u)
Pr (U>u)=1Pr (U<u)
Figure 7.7 Calcul de probabilit dintervalles symtriques
pour une loi de Gauss centre rduite
P U u < ( )
P U u < ( ) 2P U u < ( ) 1 2F
U
u ( ) 1 = =
P U u > ( ) 1 P U u < ( ) 2 1 F
U
u ( ) [ ] = =
P U 1,96 < ( ) 0,95 =
P U 1,645 < ( ) 0,90 =
P211-282-9782100549412.fm Page 230 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

231


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
il ny a que 4,56 % des observations dune loi normale qui scartent de la
moyenne de plus de 2 carts-types ;
il ny a que 0,26 % des observations dune loi normale qui scartent de
la moyenne de plus de 3 carts-types.
Dans ce domaine gaussien, la valeur 1,96 est retenir, car elle correspond
95 % des observations, ou par complmentarit,
La troisime table relative la loi de Gauss est celle des fractiles.
Rappelons tout dabord quon appelle fractile dordre (0 1) pour
une distribution de fonction cumulative F, la valeur x
a
telle que F(x

) =
Cest donc la valeur seuil x

telle que sur lensemble ] ; x[, on accumule


une probabilit .
Il est conventionnel, nous lavons dj mentionn, de dsigner par U la
loi normale centre rduite, et par consquent, on note u

le fractile dordre
(0 1) pour cette rpartition (0 ; 1).
Lutilisation de cette table des fractiles prsente une particularit : on peut
avoir la lire de deux faons diffrentes. En effet, la probabilit pour
laquelle on cherche le fractile se lit soit :
sur la colonne de gauche (2 premiers chiffres dcimaux de ) et la ligne
suprieure (3
e
chiffre dcimal de ) si < 0,5
sur la colonne de droite (2 premiers chiffres dcimaux de ) et la ligne
infrieure (3
e
chiffre dcimal de ) si > 0,5
Il ny a que 5 % des observations qui scartent de la moyenne de plus
de 1,96 fois lcart-type.
4 3 2 1 0 1 2 3
2,28 % (= 4,56 % / 2) 15,87 % (= 31,74 % / 2)
Figure 7.8 Dispersion de la loi normale
P211-282-9782100549412.fm Page 231 Mercredi, 24. novembre 2010 10:33 10
232

INTRODUCTION LA MTHODE STATISTIQUE


Il suffit de prendre alors la valeur lintersection de la ligne et de colonne
dtermines, en laffectant :
du signe + si > 0,5
du signe si < 0,5
Donnons quelques exemples dapplication pour une loi de Gauss centre
rduite :
le fractile dordre 0,010 est gal u
0,01
= 2,3263
le fractile dordre 0,950 est gal u
0,95
= + 1,6449 (on peut comparer ce
rsultat celui obtenu plus haut dans ce mme paragraphe, dans un exem-
ple dinterpolation linaire)
le fractile dordre 0,250 (premier quartile) est gal u
0,25
= 0,6745
le fractile dordre 0,750 (troisime quartile) est gal u
0,75
= + 0,6745
La comparaison de ces deux derniers fractiles fait bien sr ressortir la
symtrie de la loi.
Notons encore deux fractiles qui jouent un grand rle en statistique
dcisionnelle :
u
0,975
= + 1,96 et u
0,995
= + 2,5758
Si on sintresse une v.a. X de loi normale quelconque (m ; ), on
obtiendra le fractile x

dordre , par :
la quantit tant le fractile u

dordre dune loi de Gauss centre
rduite.
On peut crire , soit x

= m + u


Ainsi par exemple, le fractile dordre 0,675 pour une loi (2 ; 0,5)
sobtient partir du fractile dordre 0,675 de la loi de Gauss centre rduite
lu sur la table, soit u
0,675
= 0,4538, et vaut :
2 + 0,5 0,4538 = 2 + 0,2269 = 2,2269
Par la mme mthode, le fractile dordre 0,333 pour une loi (-1 ; 2) vaut :
1 + 2 ( 0,4316) = 1,8632
Dans le premier cas, 32,5 % des observations issues dune population distri-
bue selon une loi (2 ; 0,5) sont suprieures 2,2269. Dans le second cas, on
peut constater quil y a une chance sur trois dobtenir une observation tire dans
une population distribue selon une loi ( 1 ; 2) qui soit infrieure 1,8632
Ces calculs de fractiles sont particulirement utiles pour lobtention
dintervalles de confiance et la ralisation de tests.
P X x

< ( ) P
X m

--------------
x
a
m

--------------- <
( ,
, (
j \
F
U
x

---------------
( ,
j \
= = =
x
a
m

---------------
u

x
a
m

--------------- =
P211-282-9782100549412.fm Page 232 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

233


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Enfin, nous mentionnons lexistence (et lutilisation) de la table dite de lcart-
rduit. Elle permet de lire les quantits , autrement dit les probabilits
pour quune gaussienne scarte de sa moyenne de plus de u fois son cart-type.
Cette table prsente un intrt limit, car elle ncessite quelques calculs
complmentaires ds lors que lintervalle auquel on sintresse nest pas
symtrique autour de la moyenne. De plus on sait que
et ces probabilits sont en fait immdiates obtenir partir de la table de la
fonction de rpartition sans justifier de table supplmentaire.
D. Abord statistique de la loi normale
On a vu dans le paragraphe prcdent que pour une variable normale,
moyenne, mdiane et mode sont confondus, et que la rpartition est totale-
ment symtrique par rapport cette valeur.
Cette proprit essentielle est souvent utilise devant des donnes obser-
ves pour poser une hypothse de normalit cest--dire pour envisager un
modle fond sur une loi normale.
Cest donc partir de lexamen de lhistogramme des donnes recueillies
et de ses caractres de symtrie que lon peut rechercher un modle gaussien.
Dans ce cas, on prendra tout de mme bien soin de vrifier quelques carac-
tristiques de la dispersion des donnes pour avoir une apprciation plus
complte. Pour cela, on examinera le pourcentage des observations qui
scartent de la moyenne de moins dun cart-type et de moins de deux
carts-types, et on comparera ces pourcentages aux valeurs thoriques qui
seraient obtenues si les observations taient purement gaussiennes, cest--
dire respectivement 68,26 % et 95,44 %. Trs grossirement, on recherche
des pourcentages pas trop loigns de 70 % et de 95 %.
Toutefois, mme lorsque des donnes vrifient la fois la symtrie et
cette proprit de dispersion, on ne peut conclure qu une apparence de
normalit (plus ou moins approximative selon les entorses la symtrie et
aux pourcentages de dispersion). Il sagit l, comme ce qui a t prsent
pour la loi de Poisson ou la loi exponentielle, dune mthode pragmatique
visant reconnatre grossirement un contexte possible de loi de Gauss.
Le diagramme quantile-quantile, prsent dans la plupart des logiciels sta-
tistiques et trs facile construire avec un tableur muni de possibilits de
reprsentations graphiques, permet une apprciation graphique de la concor-
dance entre une distribution observe et un modle thorique. Dans ce gra-
phe, laxe des ordonnes porte les fractiles de la distribution observe, tandis
que laxe des abscisses porte les fractiles correspondants de la loi thorique.
P U u > ( )
P U u < ( ) 2 1 F
U
u ( ) ( ) =
P211-282-9782100549412.fm Page 233 Mercredi, 24. novembre 2010 10:33 10
234

INTRODUCTION LA MTHODE STATISTIQUE


Le nuage des points saligne sur la premire bissectrice lorsque la distribu-
tion thorique propose est une bonne reprsentation des observations. On
doit remarquer que lapprciation de lalignement des points le long de la
bissectrice peut tre considre comme subjective. Toutes les dviations par
rapport lalignement (extrmits prsentant une courbure, points loi-
gns) peuvent tre repres et analyses. En cas dalignement, le type de
modle est alors retenu, et il reste apprcier ses paramtres par une ven-
tuelle translation et/ou inclinaison par rapport la premire bissectrice :
un alignement sur une parallle la premire bissectrice fera voquer
une erreur sur le choix de la caractristique de position (moyenne) de
la distribution thorique ;
un alignement sur une droite passant par lorigine mais incline par rap-
port la premire bissectrice voquera une erreur sur la caractristique de
dispersion (cart-type) ;
un alignement sur une droite ne passant pas par lorigine et incline par
rapport la premire bissectrice voquera une erreur sur le choix des
caractristiques de position et de dispersion.
Prenons comme illustration lexemple suivant. Un magasin dsire adapter
ses produits sa clientle, et pour cela, tudie le nombre de clients selon lge,
partir dun chantillon de 100 clients. On a obtenu la rpartition suivante :
Peut-on accepter une hypothse de normalit pour lge des clients avec
une moyenne 35 et un cart-type 10,5 ?
On calcule pour la borne suprieure de chaque classe le quantile thorique
dune loi normale centre rduite correspondant la frquence cumule observe,
et on dduit le quantile thorique correspondant la loi normale (35 ; 10,5).
Appelons et , les quantiles thoriques (0 ; 1) et (35 ; 10,5) cor-
respondant au i
e
quantile observ x
i

partir du quantile tel que , on calcule le quantile :
Puisque les points ( , x
i
) sont peu prs aligns le long de la premire
bissectrice ( cf. figure 7.9), lajustement par la loi normale (35 ; 10,5) est
retenu.
ge < 20 [20-25[ [25-30[ [30-35[ [35-40[ [40-45[ [45-50[ 50
Nombre
de clients
8 10 13 17 22 11 12 7
Quantile observ x
i
20 25 30 35 40 45 50
Frquence cumule F
i
0,08 0,18 0,31 0,48 0,70 0,81 0,93
Quantile thorique (0 ; 1) 1,4051 0,9154 0,4959 0,0502 0,5244 0,8779 1,4758
Quantile thorique (35 ; 10,5) 20,25 25,39 29,79 34,47 40,51 44,22 50,50
u
i
*
x
i
*
u
i
*
F
U
u
i
*
( ) F
i
= x
i
*
x
i
*
10,5 u
i
*
35 + =
x
i
*
P211-282-9782100549412.fm Page 234 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

235


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Notons que le diagramme Quantile-Quantile ne sapplique pas seulement
pour un modle gaussien. On peut tracer un diagramme Quantile-Quantile
pour un ajustement par une loi continue dont la fonction de rpartition est
strictement croissante, cest--dire une loi dont la fonction de rpartition est
bijective sur lintervalle correspondant des valeurs non nulles de la fonction
de densit et ne prsentant pas de trous
1
.
Nous en montrerons lapplication pour la loi log-normale ( IV.A) et pour
la loi de Pareto ( IV.B).
Le diagramme Quantile-Quantile sutilise aussi pour comparer deux sries
dobservations.
E. Abord probabiliste de la loi normale
Cest comme loi approche quil est fait lusage le plus habituel de la loi
normale :
soit on la retient pour des arguments statistiques tels que ceux voqus
au paragraphe prcdent ;
soit on remplace la distribution relle (qui peut tre connue ou inconnue)
par une distribution gaussienne lorsquelle est une bonne approximation.
Cette recherche du recours une loi de Gauss est guide par deux
considrations :
dune part, les calculs relatifs des gaussiennes prsentent une grande sim-
plicit (notamment en raison de la symtrie) ;
1. Goldfarb B., Pardoux C., Comment faire les diagrammes Quantile Quantile ( Q Q) et
Probabilit Probabilit (P P) ? , La Revue de Modulad, n 33, juillet 2005 (www.modulad.fr,
ExcelEnse ).

Figure 7.9 Diagramme Quantile-Quantile
dune rpartition observe sensiblement normale
P211-282-9782100549412.fm Page 235 Mercredi, 24. novembre 2010 10:33 10
236

INTRODUCTION LA MTHODE STATISTIQUE


dautre part, des rsultats (dits asymptotiques) qui seront abords ultrieure-
ment donnent de nombreuses v.a. particulires des lois sensiblement gaussiennes
ds lors que leur application est fonde sur de trs grandes sries dobservations.
Trs concrtement, on peut tre conduit poser une hypothse de norma-
lit dans trois grandes situations.
i) Lorsquon a construit un schma binomial o n > 50 et p compris entre
0,4 et 0,6 , on approxime (pour les calculs) par une loi normale (np ; ).
La condition npq > 18 est quelquefois utilise dans un souci de simplicit.
ii) Lorsquon a un modle de Poisson dont le paramtre m est suprieur
25, on approxime (pour les calculs) par une loi normale (m ; ).
Dans ces deux cas, la justification rigoureuse de lapproximation ncessite la
connaissance de certaines formules danalyse mathmatique, telles que la for-
mule de Stirling. Nous les admettrons sans dmonstration. Quelques illustrations
de ces approximations et de leurs limites sont donnes aux figures 7.10a et 7.10b.
iii) La somme de n variables alatoires indpendantes, suivant la mme loi,
de moyennes m et dcarts-types suit approximativement une loi normale dont
la moyenne est la somme des moyennes, et lcart-type est la racine carre de la
somme des variances, et ce ds que n est assez grand, soit en pratique n > 30
Lapproximation de la loi binomiale par la loi normale en est un cas par-
ticulier de cette dernire situation puisquune v.a. binomiale est la somme de
v.a. de Bernoulli.
Ce rsultat joue un rle essentiel dans toute la statistique classique. Sa
dmonstration est en dehors du cadre de ce livre.
Insistons sur la ncessaire existence de m et de pour lutilisation de cette
forme du thorme central-limite, inapplicable sinon (loi de Cauchy, 3.2).
Ce thorme a t tendu la convergence en loi de variables alatoires
nayant pas la mme distribution (donc avec des moyennes et des variances
diffrentes, mais cependant toutes finies), sous la condition dite de Linde-
berg, exprimant que les variables
sont trs petites en probabilit
Thorme central-limite (ou de la limite centrale, ou encore de la limite centre)
X
i
, i = 1, 2, , n, v.a. indpendantes, de mme loi,
de moyenne m, dcart-type
(0 ; )
npq
m
X
i
m

---------------
i 1 =
n

n
X
i
m
i

i
2

-----------------
P211-282-9782100549412.fm Page 236 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

237


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Sous cette dernire forme, on peut alors interprter la loi de Gauss
comme la loi approximative des phnomnes rsultant dun grand nombre
de petites causes indpendantes, et qui sadditionnent, sans quaucune
de ces causes ne soit prdominante. Cette apparente gnralit fait postuler
trop souvent une hypothse de normalit, en fait par dfaut dinformation
(et/ou danalyse) sur les causes dun phnomne que lon cherche
tudier.
Notons encore quun domaine dapplication particulier de la loi nor-
male par cette dernire approche est ltude de la variable alatoire
qui, lorsque les variables X
i
sont toutes de mme loi et indpendantes
1
,
porte le nom de moyenne empirique.
1. On parle alors de variables indpendantes et identiquement distribues (soit i.i.d. en abrg).
(100 ; 0,4)
(40)
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
(100 ; 0,4)
(40 ; 4,9)
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
(100 ; 0,25)
(25)
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,10
(100 ; 0,25)
(25 ; 4,33)
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,10
Figure 7.10a Approximations correctes par la loi de Gauss, incorrectes par la loi de Poisson
X
n
X
1
X
2
X
n
+ + +
n
------------------------------------------- =
P211-282-9782100549412.fm Page 237 Mercredi, 24. novembre 2010 10:33 10
238

INTRODUCTION LA MTHODE STATISTIQUE


Lensemble des variables X
i
caractrise n individus extraits dune mme
population ; on lappelle n-chantillon extrait de cette population. Dans ce
contexte, dsigne la moyenne cet chantillon, mais au sens alatoire,
cest--dire compte tenu des fluctuations dchantillonnage . La moyenne
empirique dun chantillon ds lors que sa taille est assez grande (en pratique
n > 30) suit peu prs une loi normale.
Ce rsultat est dune application extrmement courante et montre dj que
le recours la loi de Gauss est trs classique pour des raisons qui mlent, tout
la fois, les arguments statistiques et les arguments probabilistes. Les lois
prsentes au paragraphe suivant sont ainsi les lois fondamentales de luni-
vers gaussien.
De tout ce qui prcde, on peut dresser le diagramme de la figure 7.11 qui
rsume les diverses approximations envisages et montre bien la position cl
de la loi de Gauss dans la modlisation de lalatoire, justifiant le terme sou-
vent utilis de statistique gaussienne.
(100 ; 0,1)
(10)
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
(100 ; 0,1)
(10 ; 3)
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
(100 ; 0,05)
(5)
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0,18
0,20
(100 ; 0,05)
(5 ; 2,18)
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0,18
0,20
Figure 7.10b Approximations incorrectes par la loi de Gauss, correctes par la loi de Poisson
X
n
P211-282-9782100549412.fm Page 238 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

239


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
La suite de ce chapitre (et notamment les lois du khi-deux, de Student,
et de Fisher-Snedecor) relativisera lgrement cette apparence. On ne doit
pas conclure tort quun phnomne est gaussien en raison des multiples
approximations. Nous avons dj vu par exemple que la loi binomiale
(n ; p) o n = 100 et p = 0,05 peut tre approxime par une loi de Pois-
son de paramtre 5, et non pas par une loi de Gauss. Le dernier paragraphe
de ce chapitre montrera plusieurs distributions de probabilit correspon-
dant des situations types non gaussiennes. Lune delles, la loi de
Pareto, dfinit un contexte probabiliste (univers partien) diffrent de celui
de la loi de Gauss.
On fera enfin particulirement attention ne pas donner le sens commun
du mot normal pour une population distribue selon une loi de ce type,
cette interprtation tant le plus souvent admise en mme temps que la gn-
ralisation abusive cite ci-dessus.
F. Correction de continuit
Une difficult se pose lors de lapproximation dune loi discrte (binomiale
ou Poisson par exemple) par la loi normale qui est continue. En effet, les
probabilits sont concentres en des points pour la loi discrte, alors que la
loi normale affecte la probabilit 0 tout point. Si on a une loi (100 ; 0,4),
comment calculer P(X = 50) partir de la loi normale ?
Lapproximation normale est ici totalement justifie (cest mme un des
meilleurs cas !). Cette probabilit P(X = 50) a une valeur exacte, difficile
calculer (dpassement de capacit), gale 0,0103 ; la loi binomiale, la loi
continue, lui affecte une valeur nulle !
On pallie cette difficult par une correction dite de continuit , de la
faon suivante.
Figure 7.11 Synthse des approximations par la loi de Gauss
P211-282-9782100549412.fm Page 239 Mercredi, 24. novembre 2010 10:33 10
240

INTRODUCTION LA MTHODE STATISTIQUE


Si X est une variable discrte quon approche par une loi normale
(m ; ), place la valeur k dans un intervalle symtrique et de largeur unit,
et on pose :
Ainsi par exemple, dans le cas de la loi (100 ; 0,4), approxime par la
loi (40 ; 4,9)
P(X = 50) F
U
(+ 2,14) F
U
(+ 1,94) = 0,01
alors que la valeur exacte calcule par la formule des probabilits binomiales
est 0,0103
La formule prsente pour ce calcul nest utiliser que si le calcul par la
loi exacte est trop dlicat. Enfin, on doit noter que ce mode de calcul na de
sens que pour obtenir des probabilits de loi discrte par des calculs appro-
chs utilisant la loi normale.
III. Les lois drives de la loi normale
A. La loi du khi-deux
Si on dispose de n v.a. {X
i
, i = 1, 2, n} indpendantes et de mme loi de
Gauss (m ; ), alors la variable alatoire appele moyenne empirique
suit une loi (m ; )
et caractrise la moyenne des X
i
. Cette moyenne empirique permet de jus-
tifier plus encore lutilisation de la loi de Gauss.
Dans le mme contexte de gaussiennes indpendantes et de mme loi, la
v.a. Q dfinie par
P X k = ( ) P k 0,5 X k 0,5 + < < ( ) F
U
k 0,5 m +

--------------------------
( ,
j \
F
U
k 0,5 m

--------------------------
( ,
j \
=
X
n
X
i
i 1 =
n

n
------------- =

n
-------
Q
X
i
m ( )
2
i 1 =
n

2
------------------------------- =
P211-282-9782100549412.fm Page 240 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

241


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
joue aussi un rle essentiel. Pour des ralisations { x
i
, i = 1, 2, , n} de ces
variables X
i
, la variable alatoire Q prend la valeur
dans laquelle on reconnat la variance de la srie des ralisations. Au fac-
teur multiplicatif prs , la variable Q va dcrire les ralisations de la
variance des observations.
Ce rle de caractristique de la variance des observations est historique-
ment
1
celui qui a conduit son tude dtaille. Cette v.a. Q peut aussi
scrire :
cest--dire comme somme de n carrs de v.a. gaussiennes centres rduites
indpendantes. Cest cette distribution quon tudie sous le nom de loi du khi-
deux n degrs de libert, note (n). Elle apparat comme troitement lie
ltude de la variance. Dans ce paragraphe, nous prsentons seulement la
distribution du khi-deux, ses proprits essentielles, la pratique des calculs,
et sa place fondamentale dans lensemble des mthodes statistiques.
1. Par le mathmaticien, probabiliste et dmographe franais I. J. Bienaym (1796-1878) entre
1838 et 1852.
Dfinition
Si X est une v.a. distribue selon une loi (m ; ), alors la loi de la
v.a. est dite loi du khi-deux 1 degr de libert , note
Proprit
La densit de probabilit dune loi
2
(1) est donne par :
x
i
m ( )
2
i 1 =
n

2
-----------------------------
n

2
-----
x
i
m ( )
2
i 1 =
n

n
-----------------------------
n s
n
2

2
------------ = =
s
n
2
n

2
-----
Q
X
i
m ( )
2
i 1 =
n

2
-------------------------------
X
i
m

---------------
( ,
, (
j \
2
i 1 =
n

= =

2
X m

--------------
( ,
j \
2

2
1 ( )
1
2
----------e
x/2
x
1/2
0

si x 0 >
si x 0
P211-282-9782100549412.fm Page 241 Mercredi, 24. novembre 2010 10:33 10

242



INTRODUCTION LA MTHODE STATISTIQUE

En effet, si

Q

suit une loi , on peut crire

Q

=

U

2

o

U

est une v.a.
normale centre rduite. On crit la fonction de rpartition de

Q

comme suit :
La drive de cette dernire expression par rapport

x

donne la densit
cherche :
Bien entendu cette dernire expression est valable si

x

> 0. Compte tenu
du fait que

Q

est un carr, lvnement

Q

<

x

est impossible si

x



0, ce qui
implique

f

Q

(x)

= 0 si

x



0
Nous avons vu au chapitre 6 comment obtenir la loi dune somme de deux
v.a. discrtes indpendantes. Dans le contexte des v.a. continues, on admettra
le rsultat suivant.
Cette expression qui lie les densits

f

X

(x)

et

g

Y

(y)

des v.a.

X

et

Y

est appele

produit de convolution

de

f

X

et

g

Y

Appliquons ce rsultat la somme des v.a.

X

et

Y

indpendantes et suivant
chacune une loi :

Thorme

Si

X

et

Y

sont deux v.a. absolument continues indpendantes, de
densits respectives

f

X

(x)

et

g

Y

(y)

, alors la densit de probabilit de la
somme

Z

=

X

+

Y est donne par :

2
1 ( )
F
Q
x ( ) P U
2
x < ( ) P U x < ( )
1
2
----------e
t
2
/2
dt
x
+ x

= = =

1
2
----------e
t
2
/2
dt

+ x

1
2
----------e
t
2
/2
dt

x

=
f
Q
x ( )
1
2
----------e
x/2
1
2 x
----------
1
2
----------e
x/2
1
2 x
---------- + =

1
2x
-------------e
x/2
1
2
---------- x
1/2
e
x/2
= =
h
Z
z ( ) f
X
x ( ) g
Y
z x ( )dx

+

g
Y
y ( ) f
X
z y ( )dy

+

= =

2
1 ( )
f
X
x ( )
1
2
----------e
x/2
x
1/2
0

si x 0 >
si x 0
=

P211-282-9782100549412.fm Page 242 Mercredi, 24. novembre 2010 10:33 10

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS




243


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

Ces rsultats permettent dobtenir la densit de la somme

Z

de deux v.a.
distribues selon des lois :
La dernire intgrale a t obtenue avec le changement de variable

x = z t

, et le calcul usuel donne la valeur


. La premire intgration se fait
entre 0 et

z

puisque

f

X

(x)

= 0 si

x

< 0 et

g

Y

(z x)

= 0, si

z x

< 0, soit si

x

>

z

.
La densit de la somme

Z

est donne par :
Cette dernire expression nest autre que la fonction densit de la loi
exponentielle de paramtres



= 0 et



= 2.
En tenant compte du fait que


(1) = 1 et que

z

0

= 1, on peut crire la den-
sit de

Z

pour

z

> 0 sous la forme

1

:
pour



= 1
Cette formule :

1. Il est particulirement utile de se servir dans ce chapitre, de la fonction gamma, dfinie en
tout point

x

> 0 par avec ,
et !
g
Y
y ( )
1
2
----------e
y/2
y
1/2
0

si y 0 >
si y 0
=
h
Z
z ( )
1
2
------ x
1/2
e
x/2
z x ( )
1/2
e
z x ( )/2
dx
0
z

=

1
2
------e
z/2
x z x ( )
( ,
j \
1/2
0
z

dx =

1
2
------e
z/2
t 1 t ( )
( ,
j \
1/2
0
1

dt =
h
Z
z ( )
1
2
---e
z/2
0

si z 0 >
si z 0
=
x ( ) t
x 1
e
t
dt
0

=
1
2
---
( ,
j \
x = x ( ) x 1 ( ) x 1 ( ) =
n ( ) n 1 ( ) =
1
2

( )
------------------z
1
e
z/2
f x ( )
1
2

( )
------------------ x
1
e
x/2
0

si x 0 >
si x 0
=

P211-282-9782100549412.fm Page 243 Mercredi, 24. novembre 2010 10:33 10

244



INTRODUCTION LA MTHODE STATISTIQUE

reprsente dune part, lorsque



= 1/2, la densit de la loi , et dautre
part, lorsque



= 1, la densit dune somme de deux lois
On peut montrer plus gnralement pour toute valeur de


que cette for-
mule donne la loi dune somme de 2


v.a. distribues selon des lois
Ceci explique que, par extension, on appellera la loi suivie par la
somme de

n

carrs de variables alatoires gaussiennes centres rduites ind-
pendantes. La densit de cette loi , dite loi du

khi-deux n degrs de
libert

(

ddl

en abrg), est donne par la formule ci-dessus avec



=

n

/2
Pour une v.a.

X

suivant une loi , il est trs ais dobtenir les deux pre-
miers moments, puisque

X

=

U

2

o

U

est une v.a. gaussienne centre rduite :

E

(

X

) =

E

(

U

2

) = var(

U

) +

E

(

U

)

2



= 1
De mme, on peut crire :
var(

X

) =

E

(

X

2

)

E

(

X

)

2



=

E

(

U

4

) 1 = 3 1 = 2
Ces rsultats se gnralisent tout de suite au cas dune loi
puisquune telle distribution est la somme de n v.a. i.i.d. de loi . Par
consquent, pour une v.a. Y de loi , on a :
E(Y) = n et var(Y) = 2n
Cette loi est une loi asymtrique, qui concide avec la loi exponentielle
pour = 1, cest--dire pour 2 ddl.
On peut calculer les caractristiques de forme :
et
montrant bien lasymtrie, mais aussi la tendance ( cf. infra) vers une loi
symtrique (la loi normale) lorsque le nombre de degrs de libert augmente.
De faon tout fait vidente, ces deux coefficients tendent vers la valeur 0
quils prennent pour une loi de Gauss.
La figure 7.12 donne la forme des distributions pour quelques
valeurs de n.

2
1 ( )

2
1 ( )

2
1 ( )

2
n ( )

2
n ( )

2
1 ( )

2
n ( )

2
1 ( )

2
n ( )

1
8
n
--- =
2
12
n
------ =

2
n ( )
0
0,2
0,4
0,6
0,8
1,0
1,2
0 3 6 9 12 15
1 ddl
2 ddl
4 ddl
8 ddl
Figure 7.12 Densits de quelques lois de khi-deux ( 1, 2, 4 et 8 ddl)
P211-282-9782100549412.fm Page 244 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

245


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
On remarque sur cette figure que, pour 1 ddl, la densit se comporte en
au voisinage de x = 0, et quelle dcrot exponentiellement vers 0. Pour
2 ddl, il sagit de la densit de la loi exponentielle de paramtres = 0
et = 2. En dehors de ces deux cas particuliers, toutes les courbes partent de
lorigine (dautant moins rapidement que le nombre de ddl est lev), elles
prsentent un maximum et dcroissent lentement vers 0. Il faut noter que plus
le nombre de ddl est lev, plus la dissymtrie est attnue. La loi du
tant la loi dune somme de n v.a. i.i.d. (de loi commune), le rsultat
voqu au II.D, indiquant que la loi dune somme de v.a. i.i.d. peut tre
approxime par une loi de Gauss, montre bien que la loi du khi-deux n ddl
tend se comporter comme une loi de Gauss lorsque n devient grand.
Cette relation entre la loi du khi-deux et la loi normale est traduite num-
riquement par la formule de Wilson-Hilferty :

reliant la fonction de rpartition de la loi celle de la loi de Gauss
centre rduite qui est tabule. Cette formule est une excellente approximation
ds lors que le nombre n de ddl nest pas trop petit (en pratique ds que n > 10).
Une autre possibilit de calculs approchs pour la fonction de rpartition
de la loi est donne par la formule de Fisher :
plus simple, mais donnant une moins bonne approximation. On ne lutilise
que pour n > 30
Enfin la loi du khi-deux 2 n ddl prsente une relation trs intressante
pour les calculs avec la loi de Poisson. Si X suit une loi , et si Y suit
une loi de Poisson de paramtre x, alors :
La figure 7.13 met bien en vidence lallure dissymtrique de la courbe gn-
rale (cest--dire pour n > 2), tant que le nombre de ddl nest pas trop lev.
Pour les calculs relatifs la loi du khi-deux on dispose essentiellement de
la table de fractiles (annexe IV). Cette table est double entre. Dans la
colonne de gauche, on recherche la ligne correspondant aux degrs de libert
de la loi tudie et dans la ligne suprieure, on recherche la probabilit
cumule qui dfinira le fractile, not . Donnons quelques exemples :
1/ x

2
n ( )

2
1 ( )
P
2
n ( ) x < ( ) F
U
x
n
---
( ,
j \
1/3
1
2
9n
------ +
( ,
j \
9n
2
------


2
n ( )

2
n ( )
P
2
n ( ) x < ( ) F
U
2x 2n 1 ( )

2
2n ( )
P X 2x > ( ) P Y n 1 > ( ) =

2
2n ( )

0,5
2
5 ( ) 4,351 =
0,95
2
10 ( ) 18,307 =
0,01
2
8 ( ) 1,64 =
0,99
2
6 ( ) 16,812 =

0,5
2
30 ( ) 29,336 =
0,95
2
40 ( ) 55,76 =
0,01
2
40 ( ) 22,16 =
0,99
2
30 ( ) 50,892 =
P211-282-9782100549412.fm Page 245 Mercredi, 24. novembre 2010 10:33 10
246

INTRODUCTION LA MTHODE STATISTIQUE


La formule classique P(a < X < b) = F(b) F(a) permet de dterminer
des probabilits dintervalles condition de disposer dune table des frac-
tiles assez dtaille. Dans le cas contraire, on peut recourir des interpola-
tions linaires. Cependant, il vaut mieux viter autant que possible cette
dernire mthode et privilgier par exemple la formule de Wilson-Hilferty.
Donnons-en un exemple. Soit X une v.a. distribue selon une loi de khi-
deux 25 ddl, et soit calculer P(14 < X < 39) = P(X < 39) P(X < 14)
Aucun des deux seuils ne se trouvant dans la table des fractiles, utilisons la
formule de Wilson-Hilferty :
On obtient 0,925 comme valeur approximative par lecture de la table de
la loi de Gauss.
Mentionnons pour finir, une proprit qui dcoule (comme dans le cas de
la loi binomiale) directement de la dfinition concrte (somme de carrs de
gaussiennes centres rduites indpendantes) de la loi du khi-deux.
Si X et Y sont deux v.a. indpendantes distribues selon des lois de khi-
deux respectivement n
1
et n
2
ddl, alors la v.a. Z = X + Y est distribue
selon une loi
0
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0,18
0,20
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
4 ddl
8 ddl
Figure 7.13 Dissymtrie de la loi du khi-deux
P
2
25 ( ) 14 < ( ) F
U
14
25
------
( ,
j \
1/3
1
2
225
--------- +
( ,
j \
225
2
---------



F
U
1,770 ( ) =
P
2
25 ( ) 39 < ( ) F
U
39
25
------
( ,
j \
1/3
1
2
225
--------- +
( ,
j \
225
2
---------



F
U
1,789 ( ) =

2
n
1
n
2
+ ( )
P211-282-9782100549412.fm Page 246 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

247


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
B. La loi de Student
1
On peut montrer que la densit de la v.a. T

est donne par :


Il sagit donc dune densit symtrique par rapport laxe des ordonnes.
On en dduit que T

est une v.a. centre :
Le calcul de la variance, ici gale , donne pour > 2 :
Lorsque = 1 ou = 2, la loi de Student nadmet pas de variance finie.
La loi de Student 1 ddl est assez particulire. En effet, elle correspond au
quotient de deux gaussiennes centres rduites indpendantes puisque le dnomi-
nateur est la racine carre dune loi , cest--dire la racine du carr dune
gaussienne centre rduite. Cette loi T
1
porte aussi le nom de loi de Cauchy.
Sa densit scrit : . Elle est reprsente sur la figure 7.14, en
comparaison avec la loi de Gauss centre rduite, par rapport laquelle elle
prsente des queues de distributions trs paisses.
Dfinition
Si U et Y sont deux v.a. indpendantes suivant respectivement une loi
(0 ; 1) et une loi , on dit que le quotient
suit une loi de Student
1
degrs de libert (ddl). On la note T

1. Student tait le pseudonyme choisi par le statisticien William Sealy Gosset (1876-1937). Il
fut lun des premiers statisticiens du monde de lentreprise, consacrant sa carrire lindustrie
agro-alimentaire (brasseries) au sein de laquelle il a toujours t reconnu la fois comme
industriel et comme scientifique. Trs associ aussi au monde universitaire, il a largement
contribu au dveloppement scientifique de cette priode.

2
( )
U
Y

---
--------
U
Y
------- =
f
T
v
t ( )
1

-------

1 +
2
------------
( ,
j \


2
---
( ,
j \

-------------------------

1

t

2

--- +

( ,
j \



1

+

2

------------

=
E T

( ) 0 =
E T
v
2
( )
var T

( )

2
------------ =

2
1 ( )
1

---
1
1 t
2
+
-------------

P211-282-9782100549412.fm Page 247 Mercredi, 24. novembre 2010 10:33 10

248



INTRODUCTION LA MTHODE STATISTIQUE

Cela est encore plus vident si on compare la loi de Cauchy la loi de
Gauss centre qui possde le mme maximum, soit 0,3183, ce qui correspond
un cart-type gal 1,2533. Dans cette comparaison, reprsente figure
7.15, on voit que la probabilit quune v.a. de Cauchy dpasse la valeur 1 est
gale 0,25 (1 est ainsi le troisime quartile, et par symtrie 1 est le premier
quartile de la loi de Cauchy), alors que la probabilit quune v.a. de Gauss


(0 ; 1,2533) dpasse la valeur 1 est gale 0,213. De mme, la probabilit
quune v.a. de Cauchy dpasse la valeur 2 est gale 0,1476, alors que pour
la v.a.


(0 ; 1,2533), cette probabilit est gale 0,055
Cette loi de Student 1 ddl, ou loi de Cauchy, prsente la particularit de
navoir aucun moment fini autre que son esprance mathmatique (qui est nulle).
On retiendra que cette situation nest pas du seul domaine de la thorie, mais
quelle correspond au rapport de deux gaussiennes centres rduites indpendantes.
3,5 2,5 1,5 0,5 0,5 1,5 2,5 3,5
Cauchy
(0 ; 1)
Figure 7.14 Loi de Cauchy et loi de Gauss centre rduite
3,5 2,5 1,5 0,5 0,5 1,5 2,5 3,5
Cauchy
(0 ; 1,2533)
Figure 7.15 Loi de Cauchy et loi (0 ; 1,2533) : comparaison des aplatissements

P211-282-9782100549412.fm Page 248 Mercredi, 24. novembre 2010 10:33 10

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS




249


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

Dans le cas gnral de la loi de Student


ddl, nous avons vu que la
moyenne est nulle, que la variance est suprieure 1 et se rapproche de cette
valeur au fur et mesure que


augmente. On a reprsent sur la figure 7.16, les
densits des lois de Student 1, 2, 5 et 15 ddl ainsi que la densit de la loi de
Gauss centre rduite. Il apparat clairement sur cette figure que la loi de Student
devient trs proche de la loi


(0 ; 1) lorsque son nombre de ddl augmente. En
pratique, cette approximation est de bonne qualit ds lors que


> 40
Sur cette figure, on constatera aussi la relation existant entre les fractiles

t


) et

u


de mme ordre a respectivement pour la loi de Student

T

k



et pour
la loi


(0 ; 1) :
De mme, on remarquera que la symtrie de la loi de Student lie les frac-
tiles

t


) et

t

1


) par la relation :

t

1


(

) = t

()
Le coefficient dasymtrie
1
est bien entendu nul puisque la densit tant
une fonction paire, tous les moments impairs sont nuls. Le calcul du coeffi-
cient daplatissement
2

est long, et nous admettrons le rsultat :
valable si > 4
Lensemble de ces deux rsultats montre bien laffinit de la loi de Stu-
dent avec la loi de Laplace-Gauss, mais aussi la limite de cette similitude. En
effet, on retrouve la symtrie de la loi et lallure en cloche de la densit,
mais cest laplatissement aux extrmits qui fait la diffrence (et nous
lavons explicit pour la loi de Cauchy). Cependant, la valeur du coefficient
1 ddl
2 ddl
0 1 2 3 4 1 2 3 4
0,2
5 ddl
25 ddl
Gauss
0,4
Figure 7.16 Convergence de la loi de Student vers la loi de Gauss centre rduite
t

( ) u

0 < <
t

( ) u

0 > >

si 0,5 <
si 0,5 >

2
6
4
------------ =

P211-282-9782100549412.fm Page 249 Mercredi, 24. novembre 2010 10:33 10

250



INTRODUCTION LA MTHODE STATISTIQUE

daplatissement de Fisher montre que cette diffrence sattnue au fur et
mesure que le nombre de ddl augmente.
Les calculs relatifs la loi de Student utilisent la table des

fractiles

(Annexe IV). Cette table se lit en recherchant :
i) dans la 1

re

colonne, la ligne correspondant aux ddl de la loi considre ;
ii) dans la 1

re

ligne, la colonne correspondant lordre


du fractile ;
et le fractile

t


) se lit lintersection de la ligne et de la colonne dtermins.
Ces fractiles sont donns pour des valeurs de


suprieures 0,5. Si


< 0,5
on utilise la symtrie de la loi de Student et la formule

t


) =

t

1

(


Exemples


le fractile dordre 0,9 dune loi de Student 5 ddl est gal 1,476


le fractile dordre 0,3 dune loi de Student 10 ddl est gal 0,542


le fractile dordre 0,975 dune loi de Student 15 ddl est gal 2,131


le fractile dordre 0,975 dune loi de Student 30 ddl est gal 2,042


le fractile dordre 0,025 dune loi de Student 100 ddl est gal 1,984
Dans les deux derniers cas, les fractiles correspondant de la loi de Gauss
centre rduite sont gaux 1,96 et 1,96. On retrouve bien que lapproxi-
mation de la loi de Student par la loi de Gauss est dautant plus valable lors-
que le nombre de ddl est lev (en particulier sil dpasse 40).
Comme pour la loi de Gauss et la loi du khi-deux, on dispose de formules
approches, pour la fonction de rpartition ainsi que pour les fractiles, utili-
ses notamment pour les calculs rpts sur ordinateur.
Pour les fractiles, on utilisera lapproximation dite de Fisher et Cornish :
qui donne de bons rsultats mme pour de faibles ddl. Ds que



> 30, on
pourra utiliser la formule beaucoup plus simple :
Pour la fonction de rpartition dans le cas gnral, cest--dire pour


> 2,
les formules sont fastidieuses crire. Elles nont dintrt que pour des pro-
grammes de calculs et de simulation. Dans lannexe II, nous indiquons les
formules valables pour 1 ddl (lerreur commise dans lapproximation par ces
formules nexcde pas 0,001).
t

( ) u

1
4
------ + u

2
1 + ( )
1
96
2
-----------u

5u

4
16u

2
3 + + ( ) +

1
384
3
--------------u

3u

6
19u

4
17u

2
15 + + ( ) +
t

( ) u

4
------ 1 u

2
+ ( ) +
P211-282-9782100549412.fm Page 250 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

251


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
On notera que pour 2 ddl, la fonction de densit sintgre sans difficults
et quon a la formule exacte pour la fonction de rpartition :
valable pour toute valeur de t > 0
La loi de Student est utilise principalement pour lestimation et les tests.
Dans ce qui suit, on justifie brivement ce rle.
Au paragraphe III.A, nous avons envisag les quantits alatoires et
Q dans le contexte de n v.a. X
i
(i = 1, 2, , n) de loi (m ; ). Ces deux v.a.
suivent respectivement des lois (m ; ) et . Nous pouvons crire :
o
la variable alatoire V
2
prenant la valeur correspondant aux observations {x
i
},
et pouvant tre calcule quand on connat la moyenne m.
De nombreuses situations ne correspondent pas ce cas. Il faut souvent
utiliser la v.a. :
pour reprsenter la variance, partir de sries obtenues par chantillonnage,
et remplacer la v.a. Q par :
Pour cette v.a. , on peut crire :
o
Ces v.a. Y
i
sont gaussiennes, mais ne sont pas indpendantes puisque lune
dentre elles sexprime en fonction des autres :
= . On ne peut donc pas dire que leur somme,
cest--dire , est distribue selon une loi . On montre quelle est en fait
distribue selon une loi , et quelle est indpendante de
P 0 T
2
t < < ( )
t
2 2 t
2
+
-------------------- =
X
n

n
-------
2
n ( )
Q
1
n
--- X
i
m ( )
2
i 1 =
n

2
-----
n

2
----- V
2
= = V
2
1
n
--- X
i
m ( )
2
i 1 =
n

=
S
n 1
2
1
n 1
------------ X
i
X
n

( ,
j \
2
i 1 =
n

=
Q
X
i
X
n

( ,
j \
2
i 1 =
n

2
---------------------------------
n 1 ( ) S
2
n 1

2
---------------------------------- = =
Q
Q
X
i
X
n

( ,
j \
2
i 1 =
n

2
---------------------------------
X
i
X
n

-----------------
( ,
, (
j \
2
i 1 =
n

Y
i
2
i 1 =
n

= = = Y
X
i
X
n

----------------- =
X
i
X
n

( ,
j \
i 1 =
n

X
i
nX
n

i 1 =
n

0 =
Q
2
n ( )

2
n 1 ( ) X
n
P211-282-9782100549412.fm Page 251 Mercredi, 24. novembre 2010 10:33 10
252

INTRODUCTION LA MTHODE STATISTIQUE


Considrons maintenant la variable alatoire :
Daprs la dfinition donne en tte de ce paragraphe, T
n1
suit une loi de
Student ( n 1) ddl. Cest la v.a. qui est utilise en lieu et place de
lorsquon cherche tudier la moyenne dune rpartition
gaussienne dont la variance nest pas connue au dpart.
Toutefois, nous avons vu que lorsque le nombre de ddl augmente, la loi
de Student peut tre approxime par la loi de Gauss (sur la figure 7.16, on
voit que pour 25 ddl, les deux densits sont dj voisines). On retiendra que
le modle de la loi de Student sapplique ltude de la moyenne dune
loi de Gauss dont la variance nest pas connue, lorsquon ne dispose que
dun petit chantillon.
C. La loi de Fisher-Snedecor
Dfinition
Si X et Y sont deux v.a. indpendantes distribues selon des lois de khi-
deux respectivement
1
et
2
ddl, la v.a. :
est dite suivre une loi de Fisher
1
et
2
degrs de libert. On la note
F(
1
,
2
)
T
n 1
X
n
m

---------------- n
( ,
, (
j \
Q
n 1
------------
-----------------------------
X
n
m
S
n 1
---------------- n = =
U
X
n
m

---------------- n =
F
X

( ,
j \
Y

( ,
j \
---------------------

1
-----
X
Y
---- = =
P211-282-9782100549412.fm Page 252 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

253


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
On fera trs attention dans la pratique de cette distribution lordre des
degrs de libert. La loi de Fisher-Snedecor
1

1
et
2
ddl nest pas la mme
que la loi de Fisher-Snedecor
2
et
1
ddl.
En effet, on peut crire :
Si cette probabilit est gale , alors c nest autre que le fractile f

(
1
,
2
).
Par consquent, 1/c correspond au fractile f
1-
(
2
,
1
). On obtient ainsi la rela-
tion trs utile, notamment dans la lecture des tables :
On peut montrer, par un calcul dintgrales assez long, que la densit de
la loi de Fisher-Snedecor F(
1
,
2
) est donne par la formule :
expression dans laquelle () reprsente la fonction eulrienne gamma
( III.A).
Lorsque
1
= 1, la densit, comportant un terme en
admet laxe des ordonnes comme asymptote.
Lorsque
1
= 2, la densit dcrot rgulirement.
En dehors de ces cas, comme on le voit sur la figure 7.17, la densit de la
loi de Fisher-Snedecor prsente un maximum aprs une croissance dautant
plus rapide que les degrs de libert du numrateur sont peu levs, puis une
dcroissance lente. Cest une densit trs dissymtrique.
1. Ltude de cette loi en tant que rapport de deux lois de khi-deux rapportes leurs degrs
de libert est due au statisticien anglais Ronald Aymler Fisher (1890-1962), tandis que les
dveloppements numriques, et notamment ltablissement des tables ont t raliss par le
statisticien amricain George Waddel Snedecor (1881-1974).
P F
1
,
2
( ) c < ( ) P

1
-----
X
Y
---- c <
( ,
j \
P

2
-----
Y
X
----
1
c
--- >
( ,
j \
= =
1 P F
2
,
1
( )
1
c
--- <
( ,
j \
( ,
j \
=
f
1

2
,
1
( )
1
f

1
,
2
( )
------------------------- =
g
F
x ( )

1
/2

2
/2

1

2
+ ( ) 2 ( )

1
/2 ( )
2
/2 ( )
------------------------------------------------------------
x
v
1
2 ( ) 1

1
x + ( )

2
+ ( ) 2
--------------------------------------------
0

si x 0 >
si x 0 <
x
1/2

1
x + ( )

2
1 + ( ) 2
1
x
2

1
x + ( )

2
1 +
------------------------------------------ =

P211-282-9782100549412.fm Page 253 Mercredi, 24. novembre 2010 10:33 10

254



INTRODUCTION LA MTHODE STATISTIQUE

On remarquera que la loi de Fisher-Snedecor o


1



= 1 se ramne la loi
de Student. En effet, le numrateur de la dfinition tant le carr dune gaus-
sienne centre rduite, il sensuit quune telle loi

F

(1,


2

) est le carr dune
v.a. distribue selon une loi de Student


2

ddl.
On peut dduire une relation entre les fractiles de la loi

F

(1,


2

) et ceux
de la loi

T

(

2
), puisque :
soit encore :
Ceci revient crire :
et on obtient la relation entre fractiles :
qui est une traduction numrique de la proprit 1 ci-dessous.
Proprit 1
Si X est une v.a. distribue selon une loi de Fisher 1 et
2
ddl, alors
X est le carr dune v.a distribue selon une loi de Student
2
ddl.
0
0,4
0,8
1,2
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5
(10; 4)
(10; 10)
(10; 50)
Figure 7.17 Densits de lois de Fisher pour
1
= 10 et quelques valeurs de
2
1 P F 1
2
, ( ) f
1
1
2
, ( ) <
( ,
j \
P T
2

2
( ) f
1
1
2
, ( ) <
( ,
j \
= =
1 P f
1
1
2
, ( ) T
2
( ) + f
1
1
2
, ( ) < <
( ,
j \
=
2P T
2
( ) + f
1
1
2
, ( ) <
( ,
j \
1 =
P T
2
( ) + f
1
1
2
, ( ) <
( ,
j \
1 2 =
f
1
1
2
, ( ) t
1 2

2
( ) =
P211-282-9782100549412.fm Page 254 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

255


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Le calcul des caractristiques de la loi de Fisher-Snedecor montre que :
i) , lesprance de cette loi ne dpend pas de
1
, et
nest dfinie que pour
2

> 2
ii) , la variance de cette loi nest
dfinie que pour
2

> 4
On notera une relation, trs utile au niveau des calculs, entre la loi de Fisher-
Snedecor dont les degrs de libert sont pairs et la loi binomiale (du type de
celle qui est mentionne au III.A entre la loi de Poisson et la loi du khi-deux).
Enfin, toujours pour la pratique au niveau des calculs, la formule suivante
est une approximation correcte des fractiles de la loi de Fisher-Snedecor lors-
que les degrs de libert sont tous les deux suffisamment grands (au moins
gaux 50) :
o u

dsigne le fractile dordre de la loi de Gauss centre rduite.


La loi de Fisher-Snedecor joue un rle essentiel dans tous les problmes
poss par ltude de la variance. Elle est le support des mthodes danalyse
de la variance et danalyse discriminante.
Les trois lois que nous avons prsentes sous cet aspect de lois drives
de la loi normale correspondent toujours des variables alatoires relies
des variances dchantillonnage dans des populations supposes gaussiennes.
Ce ne sont donc pas des distributions quon peut identifier par une dmarche
concrte. Elles sont aussi souvent utilises en tant que lois approches, cor-
respondant des rsultats asymptotiques.
Elles sont toutes trois caractrises par un ou deux paramtres appels
degrs de libert . Cette notion se justifie mathmatiquement (gomtrique-
ment) pour la loi du khi-deux, et se dduit pour les deux autres distributions
de leur construction partir de lois du khi-deux.
Proprit 2
Si X est une v.a. distribue selon une loi de Fisher-Snedecor
F(2(n r 1), 2r), et Y une v.a. distribue selon une loi binomiale (n ; p),
on a la relation :
E F
1

2
, ( )
( ,
j \

2
2
-------------- =
var F
1

2
, ( )
( ,
j \
2
2
2

2
2 + ( )

2
2 ( )
2

2
4 ( )
---------------------------------------------- =
P X
1 p
p
------------
n
n r 1
-------------------- >
( ,
j \
P Y r ( ) =
f

2
, ( )
1
2
---
2
1

1
1
( ) u

1
2
---
1
1

2
1
+ ( ) +
P211-282-9782100549412.fm Page 255 Mercredi, 24. novembre 2010 10:33 10
256

INTRODUCTION LA MTHODE STATISTIQUE


On caractrise la complexit dune structure par le nombre de ses para-
mtres indpendants qui la dfinissent (nombre de degrs de libert).
Nous avons vu quune v.a. du khi-deux n degrs de libert est la somme
de n v.a., carrs de v.a. gaussiennes centres rduites indpendantes, et nous
avons voqu que la non-indpendance des v.a. dont on additionne les carrs
diminue les degrs de libert de la loi du khi-deux correspondante. On peut
ainsi regarder lensemble des v.a. gaussiennes de dpart comme engendrant
linairement un ensemble (espace) dont la dimension est alors le nombre de ces
v.a. linairement indpendantes. Chaque relation linaire qui relie certaines de
ces variables alatoires diminue dune unit la dimension de lensemble consi-
dr, cest--dire lensemble sur lequel les lments statistiques sont dfinis.
IV. Quelques autres modles continus courants
A. La loi log-normale
Soit une variable alatoire continue X prenant des valeurs suprieures un
nombre donn x
0
, la densit f
X
(x) tant nulle si x x
0
. Si la variable
Z = ln(X x
0
) est distribue selon une loi de Gauss (m ; ), on dit que X
est distribue selon une loi log-normale note (m, , x
0
) :
(m ; ) avec (0 ; 1)
Pour obtenir la densit de probabilit de X, on dtermine dabord sa fonc-
tion de rpartition :
car le logarithme est une fonction croissante. Par consquent :
pour
Z X x
0
( ) ln = Z U m + = U
X x
0
( ) ln U m + U
1

--- X x
0
( ) m ln ( ) = =
P X x ( ) P X x
0
x x
0
( ) =
P X x
0
( ) ln m x x
0
( ) ln m [ ] =
P U
x x
0
( ) ln m

----------------------------------
( ,
j \
=
P X x ( )
1
2
----------e
x
2
/2
dx

A

= A
x x
0
( ) ln m

---------------------------------- =
P211-282-9782100549412.fm Page 256 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

257


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
et en drivant par rapport x, on obtient la densit dune loi log-normale :
La loi log-normale dpend de 3 paramtres, m, et x
0
. Les deux pre-
miers sont les moments de la loi normale associe, tandis que le dernier
est une caractristique de position puisque cest la valeur minimale de cet
ala.
On peut montrer que lesprance mathmatique et la variance de X sont
donnes par :
Dterminons maintenant la mdiane Me :
Plus gnralement, le fractile dordre dune loi log-normale
(m, , x
0
), not x

, sobtient de la faon suivante :
Le mode Mo de la distribution log-normale, correspondant au maximum
de la densit, est :
Puisque , on a et , ce qui implique
que le mode Mo, la mdiane Me et lesprance mathmatique E(X) vrifient :
Mo < Me < E(X)
La figure 7.18 donne lallure de la densit pour quelques valeurs de m et
de , avec
f
X
x ( )
1
2
---------- exp
A
2
2
------
( ,
j \
1

---
1
x x
0
( )
------------------ =

1
2 x x
0
( )
--------------------------------- exp
1
2
---
x x
0
( ) ln

------------------------
( ,
j \
2




=
E X ( ) x
0
exp m
1
2
---
2
+
( ,
j \
+ =
var X ( ) e
2m
e

2
e

2
1 ( ) =
F Me ( ) 0,5 = A
Me x
0
( ) ln m

--------------------------------------- 0 = = Me x
0
e
m
+ =
P X x

( ) P X x
0
( ) ln x x
0
( ) ln
( ,
j \
P U m x

x
0
( ) ln +
( ,
j \
= =
P U
x

x
0
( ) ln m

-------------------------------------
( ,
j \
= =
u

x
0
( ) ln m

------------------------------------- x

x
0
e
m u

+
+ = =
Mo x
0
exp m
2
( ) + =

2
0 > exp
2
( ) 1 < exp
2
2 ( ) 1 >
x
0
0 =
P211-282-9782100549412.fm Page 257 Mercredi, 24. novembre 2010 10:33 10
258

INTRODUCTION LA MTHODE STATISTIQUE


Lexpression du coefficient dasymtrie montre
que lasymtrie dpend de (cf. figure 7.19).
En particulier, lorsque devient trs petit, on obtient des distributions
log-normales ressemblant fortement des distributions normales, tout en ne
prenant que des valeurs strictement positives.
0,5
0
1
1,5
2
2,5
3
3,5
4
0,5 1 1,5 2 2,5 3 3,5 4
m = 0
= 0,1
m = 0,5
= 0,1
m = 1
= 0,1
m = 1
= 0,2
m = 0,5
= 0,2
m = 0
= 0,2
Figure 7.18 Influence des paramtres m (0 / 0,5 / 1) et (0,1 / 0,2)
sur la densit de la loi log-normale

1
e

2
2 + ( ) e

2
1 =
0,2
0,4
0,6
0,8
1
1,2
1,4
1,6
0
0,5 1 1,5 2 2,5 3 3,5 4
= 0,1
= 0,2
= 0,3
= 0,5
= 0,8
Figure 7.19 Asymtrie de la loi log-normale (0, 1, ) en fonction de
P211-282-9782100549412.fm Page 258 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

259


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Cette dernire proprit fait de la loi log-normale un modle trs intressant
pour de nombreux phnomnes valeurs positives, et pour lesquels la loi de
Gauss donnerait des probabilits non nulles des domaines de valeurs ngati-
ves. Par consquent, lorsquune distribution gaussienne (respectant donc les
caractristiques de symtrie et daplatissement) apparat adapte la reprsen-
tation dun phnomne alatoire qui, toutefois, ne prend que des valeurs posi-
tives, on recherchera une loi log-normale dont les paramtres seront adapts.
Dans ce contexte, on trouve notamment des rpartitions de poids, de taille
La dure des communications tlphoniques est trs souvent un bon
exemple de modlisation par la loi log-normale. Dans tous les cas, lorsque
lhypothse de rpartition log-normale est adopte, il suffit de prendre le
logarithme de toutes les observations pour se ramener un contexte de loi
normale, et dappliquer alors toutes les proprits vues au II.
Les distributions de revenus sont souvent modlises par la loi log-nor-
male en raison de leur asymtrie, de leurs valeurs toujours bornes gauche,
et de leffet attnuateur de la transformation logarithmique.
Exemple
Illustrons ce propos en ajustant les distributions des salaires Ensemble
en 2000 (chapitre 1, tableau 1.5) par une loi log-normale.
Si X suit une loi log-normale (m , , x
0
),
alors suit une loi normale centre rduite.
Dans ce cas, les points de coordonnes { u
i
, ln(x
i
x
0
)} sont aligns, u
i
tant le fractile dordre i/10 de la loi (0 ; 1) si x
i
est le i
e
dcile
observ, et x
0
le salaire minimum (gal 6 200 en 2000).
Le rsultat de lajustement est prsent graphiquement ( cf. figure 7.20).
Les 9 points tant proches de lalignement sur le graphique,
lajustement par une loi log-normale peut tre retenu.
U X x
0
( ) m ( ) ln ( ) =

Figure 7.20 Distribution des salaires Ensemble en 2000 ajuste par une loi log-normale
P211-282-9782100549412.fm Page 259 Mercredi, 24. novembre 2010 10:33 10
260

INTRODUCTION LA MTHODE STATISTIQUE


B. La loi de Pareto
On notera dabord que cette fonction f
X
(x) ne dfinit une densit que si > 0
La fonction de rpartition de X (cf. figure 7.22) est donne par un calcul
lmentaire. Elle est, bien entendu, nulle pour x < x
0
, et si x x
0
,
on a :
On crira donc :
Dfinition
On dit que la v.a. continue X est distribue selon une loi de Pareto de
paramtres et x
0
> 0 si sa densit est donne par :
f
X
x ( ) =

x
0
----
x
0
x
----
( ,
j \
1 +
0

si x x
0

si x x
0
<
0
2,5
5
0 1 2 3 4
= 5
= 2
= 1
Figure 7.21 Densits de lois de Pareto, pour x
0
= 1, et plusieurs valeurs de
F
X
x ( )

x
0
----
( ,
j \
x
0
t
----
( ,
j \
1 +
x
0
x

dt

x
0
----
( ,
j \
x
0
1 +

dt
t
1 +
----------
x
0
x

1
x
0
x
----
( ,
j \

= = =
f
X
x ( ) =
1
x
0
x
----
( ,
j \

si x x
0

si x x
0
<
P211-282-9782100549412.fm Page 260 Mercredi, 24. novembre 2010 10:33 10

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS




261


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

La probabilit dune valeur suprieure un seuil fix

x

, tel que
{

x

>

x

0

> 0}, est gale
Pareto

1

a introduit sa loi pour dcrire des units conomiques par des carac-
tres de taille (revenu, chiffre daffaires, budget dinvestissement). Pour de
telles grandeurs, on postule le plus souvent que le nombre dindividus dont le
caractre tudi dpasse un seuil

x

est donn par o

C

et


sont des
constantes. Lapplication de la loi de Pareto aux distributions de revenus est
une des plus usuelles, le paramtre


tant en gnral voisin de 2
Le calcul des moments est simple. On a dabord :
mais ce rsultat nest valable (convergence de lintgrale) que si


> 1 Remar-
quons quune v.a. distribue selon la loi de Pareto ne prend que des valeurs
positives (

x

0

> 0), ce qui implique que son esprance mathmatique est posi-
tive. Un rsultat correspondant


< 1, soit (



1) < 0, serait absurde.
Plus gnralement, on a :

1. La loi tudie dans ce paragraphe porte le nom de lconomiste italo-suisse Wilfrid Pareto
(1848-1923). Cest lui quon doit lhypothse, quil a suppose universelle , de la dcrois-
sance en

x



de la proportion des individus dont le revenu dpasse la valeur

x

.
x
0
x
----
( ,
j \

0
0,2
0,4
0,6
0,8
1,0
0 1 2 3 4
= 5
= 2
= 1
Figure 7.22 Fonctions de rpartition de lois de Pareto pour x
0
= 1 et plusieurs valeurs de
N
x
C
x

----- =
E X ( ) x

x
0
----
( ,
j \
x
0
x
----
( ,
j \
1 +
x
0

= dx x
0


dx
x

-----
x
0

x
0
1
------------ = =
E X
k
( ) x
k

x
0
----
( ,
j \
x
0
x
----
( ,
j \
1 +
x
0

= dx x
0


dx
x
1 k +
-----------------
x
0

x
0
k
k
------------ = =
P211-282-9782100549412.fm Page 261 Mercredi, 24. novembre 2010 10:33 10
262

INTRODUCTION LA MTHODE STATISTIQUE


mais ce calcul na de sens que si lintgrale est convergente, cest--dire si
( k + 1) > 1, soit si > k. Le moment dordre k nest donc dfini que lorsque
> k. En particulier, la variance nest dfinie que si > 2. Son calcul est simple :
Les lois conditionnelles drives dune loi de Pareto ont la proprit
essentielle dtre encore des lois de Pareto. Si X suit une loi de Pareto de
paramtres et x
0
, et si x
1
x
0
ce qui montre bien que la v.a. suit une loi de Pareto de
paramtres et x
1
On a ainsi ramen l origine de la distribution en x
1
, sans rien changer
sa forme. On notera aussi quon a :
Lcriture de la fonction de rpartition pour x x
0
, permet
de voir que :
Les points de coordonnes sont donc situs sur une
droite de pente , coupant laxe vertical en un point dordonne ln(x
0
)
Rciproquement, si les points de coordonnes
pour une distribution de fonction cumulative F sont situs sur une mme
droite de pente , cette distribution correspond une loi de Pareto puisque
si , on a :
avec
Cette reprsentation graphique fournit une mthode trs simple (et effi-
cace) pour apprcier si une distribution observe, soit (x
i
, i = 1, 2, , n) peut
tre reprsente par un modle de Pareto, en traant le nuage des points de
coordonnes , o F(x
i
) est la valeur de la fonction
cumulative en x
i
(chapitre 1). Lutilisation dchelles logarithmiques sur les
deux axes est trs apprciable. Elle est trs courante sur les logiciels.
On peut ainsi valider lhypothse de reprsentation par une loi de Pareto,
mais aussi identifier les paramtres puisque la constante est la valeur abso-
var X ( ) E X
2
( ) E X ( ) ( )
2

x
0
2
2
------------

2
x
0
2
1 ( )
2
-------------------
x
0
2
2 ( ) 1 ( )
2
------------------------------------- = = =
P X x X x
1
( )
P x
1
X x ( )
1 P X x
1
< ( )
---------------------------------
x
0
x
1
( )

x
0
x ( )

x
0
x
1
( )

---------------------------------------------- 1 x
1
x ( )

= = =
X X x
1
( )
E X X x
1
( )
x
1
1
------------ =
F x ( ) 1
x
0
x
----
( ,
j \

=
1 F x ( ) ( ) ln x
0
( ) ln x ( ) ln =
x ( ) ln ; 1 F x ( ) ( ) ln
x ( ) ln ; 1 F x ( ) ( ) ln
1 F x ( ) ( ) ln x ( ) ln K + =
1 F x ( ) x

e
K
A x ( )

= = A

e
K
=
x
i
( ) ln ; 1 F x
i
( ) ( ) ln
P211-282-9782100549412.fm Page 262 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

263


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
lue de la pente de la droite (elle peut tre calcule par la mthode des moin-
dres carrs, chapitre 3).
Il faut remarquer que dans cette reprsentation graphique, on trouve en
ordonne les valeurs (sur une chelle logarithmique) de , cest--
dire de la proportion rsiduelle au-del de la valeur x. Ceci nous reporte
lintroduction de cette loi par Pareto, et lutilisation trs frquente des
chelles logarithmiques dans ltude des variables de type taille.
Exemple
Lexemple suivant illustre une modlisation par une loi de Pareto du
chiffre daffaire des 25 premiers groupes franais de lindustrie et des
services en 2001. Les donnes sont extraites des Tableaux de
lconomie Franaise 2003-2004.
Tableau 2.1 Tableau 7.1
Les points sont peu prs aligns (cf. figure 7.23).
Le calcul de la droite des m oindres carrs donne pour estimation des
paramtres du modle de Pareto = 1,646 et x
0
= 16 774.
1 F x ( )

x
i
( ) ln ; 1 F
i
( ) ln
P211-282-9782100549412.fm Page 263 Mercredi, 24. novembre 2010 10:33 10
264

INTRODUCTION LA MTHODE STATISTIQUE


Un diagramme quantile-quantile obtenu partir de la loi de Pareto asso-
cie ces paramtres montre lui aussi que le modle nest pas inadapt, mais
que lajustement nest pas parfait en raison la premire valeur particulire-
ment leve.

y = - 1,646x + 16,014
r
2
= 0,9793
ln(x
i
)
ln(1 F
i
)
Figure 7.23 Srie des valeurs des 25 premiers chiffres daffaires franais
ajuste par une loi de Pareto
Quantile thorique
Q
u
a
n
t
i
l
e

o
b
s
e
r
v

e
Figure 7.24 Diagramme Quantile-Quantile (unit : milliards deuros)
Loi de Pareto de paramtres = 1,646 et x
0
= 16 774
P211-282-9782100549412.fm Page 264 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

265


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Pour terminer, on notera que la moyenne dune loi de Pareto de paramtres
et x
0
est gale x
0
/( 1), et que sa mdiane est gale x
0
2
1/
Pour lexemple, on peut comparer la moyenne observe gale 33 169
millions deuros la moyenne du modle thorique gale 42 740 millions
deuros, et la mdiane observe gale 25 353 millions deuros la mdiane
du modle thorique gale 25 558 millions deuros.
Les paramtres du modle de Pareto ont t valus laide de toutes les
observations avec une premire valeur particulirement leve. Ceci explique
la survaluation non ngligeable de la moyenne par le modle.
Dautre part, on notera que les mdianes (thorique et observe), plus
petites que les moyennes correspondantes, indiquent une distribution dissy-
mtrique, tale vers la droite (chapitre 1).
C. La loi de Weibull
Si X suit une loi de Weibull de paramtres a, b et c, alors suit
une loi de Weibull de paramtres 0, 1 et c. En effet :
et la densit de Y est gale la drive de cette dernire expression. Pour
a + by > a, soit si y > 0 :
et
On appelle loi de Weibull standard de paramtre c, note W(c), la loi de
lorsque X suit une loi de Weibull de paramtres a, b et c. On
Dfinition
Une v.a. continue X suit une loi de Weibull de paramtres a, b > 0 et
c > 0, si sa densit est donne par :
f x ( ) =
c
b
---
x a
b
-----------
( ,
j \
c 1
e
x a
b
-----------
( ,
j \
c

si x a >
si x a
Y
X a
b
------------- =
P Y y < ( ) P
X a
b
------------- y <
( ,
j \
P X a by + < ( )
c
b
---
x a
b
-----------
( ,
j \
c 1
e

x a


b
-----------
( ,
j \

c

x d
a
a by

+


= = =
f y ( ) b
c
b
---
a by a +
b
------------------------
( ,
j \
c 1
e

a by a

+

b
------------------------
( ,
j \

c

cy
c 1 ( )
e
y
c

= =
f y ( ) 0 si y 0 < ( ) =
Y
X a
b
------------- =

P211-282-9782100549412.fm Page 265 Mercredi, 24. novembre 2010 10:33 10

266



INTRODUCTION LA MTHODE STATISTIQUE

remarque que pour

c

= 1, la loi de Weibull standard correspond la loi expo-
nentielle. La figure 7.25 reprsente les densits de la loi de Weibull standard
pour les valeurs

c

= 1, 2, 3 et 5. On voit que cette densit est asymtrique, et
prsente un maximum si

c

> 1 pour :
Lorsque

c

> 1, le mode de la distribution de Weibull standard se rapproche de
1 lorsque

c

tend vers linfini. Dans le cas gnral de la loi de Weibull de para-
mtres

a

,

b

et

c

, le mode converge rapidement vers (

a

+

b

) lorsque

c

augmente.
Par contre si 0 <

c

< 1, le mode est en 0, car la densit est dcroissante.
La fonction de rpartition de la loi de Weibull standard est donne par :

F

(

x

) =
soit en posant : si

x

> 0
et naturellement

F(x)

= 0 si

x


0
Dans le cas gnral, posant

X

=

a

+

bY

, o

Y

suit une loi de Weibull stan-
dard, on a :
si

x

>

a

et

P

(

X < x

) = 0 si

x





a


Ceci nous montre que la mdiane est le point

w

0,5

tel que :
x
c 1
c
-----------
( ,
j \
1/c
=
0
0,5
1,0
1,5
2,0
0 1 2 3 4
W(1)
W(2)
W(5)
W(3)
Figure 7.25 Densits de la loi de Weibull standard
ct
c 1
e
t
c
dt
0
x

u t
c
= F x ( ) e
u
u d
0
x
c

e
u
[ ]
0
x
c
1 e
x
c
= = =
P X x < ( ) P a bY x < + ( ) P Y
x a
b
----------- <
( ,
j \
1 e
x a
b
-----------
( ,
j \

c
= = =
w
0,5
b 2 ln ( )
1 c
a + =
P211-282-9782100549412.fm Page 266 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

267


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Le calcul de la moyenne de la loi de Weibull standard donne :
obtenu en posant t = x
c
dans la premire intgrale, et en exprimant la seconde
intgrale laide de la fonction gamma ( III.A).
De mme, on peut calculer E(Y
2
) :
ce qui permet donc dcrire la variance :
Lexpression des moments dans le cas gnral de la loi de Weibull de
paramtres a, b et c provient de la relation X = a + bY :
La dissymtrie de la loi standard de Weibull, observe sur la figure 7.26,
varie avec la valeur du paramtre c. La moyenne tend vers 1 au fur et
mesure que c augmente, tandis que la variance dcrot. Les coefficients
dasymtrie et daplatissement de Fisher montrent que pour c peu prs gal
3,6 on obtient une courbe presque symtrique (
1

0), mais dont laplatis-
sement est lgrement moindre que celui de la loi de Gauss (
2

< 0).
E Y ( ) cx
c
e
x
c
dx
0

t
1/c
e
t
dt
0

1
1
c
--- +
( ,
j \
= = =
E Y
2
( ) cx
c 1 +
e
x
c
dx
0

t
2/c
e
t
dt
0

1
2
c
--- +
( ,
j \
= = =
var Y ( ) 1
2
c
--- +
( ,
j \
1
1
c
--- +
( ,
j \
2
=
E X ( ) a b 1
1
c
--- +
( ,
j \
+ =
var X ( ) b
2
1
2
c
--- +
( ,
j \
1
1
c
--- +
( ,
j \
( ,
j \




2
=
0
0,4
0,8
1,2
1,6
0 1 2 3 4
W(3)
W(3,6)
(0,9; 0,278)
Figure 7.26 Lois de Weibull standard et loi de Gauss
P211-282-9782100549412.fm Page 267 Mercredi, 24. novembre 2010 10:33 10
268

INTRODUCTION LA MTHODE STATISTIQUE


Il sensuit ( cf. figure 7.26) que pour des valeurs de c proches de 3,6, la
distribution standard de Weibull et la loi de Gauss ont des formes assez pro-
ches. On notera que pour cette valeur c = 3,6, la moyenne de la loi standard
de Weibull est gale 0,9011 et son cart-type 0,278
Il est intressant de noter que pour une loi de Weibull standard de para-
mtre c, lexpression de la fonction de rpartition permet dcrire :

soit encore :
ce qui montre quon peut, comme pour la loi de Pareto, mais avec une chelle
log-log sur laxe vertical, valuer graphiquement si une distribution
observe peut tre reprsente par une loi de Weibull standard.
Lintrt particulier de la loi de Weibull rside dans la proprit suivante.
En effet, soit Z = . Si z < 0, on aura P(Z < z) = 0 et si z > 0, on peut crire :
et la densit, nulle pour z < 0, sobtenant par drivation pour z > 0, est bien
gale e
z
La loi de Weibull
1
doit ainsi senvisager comme une gnralisation du
modle exponentiel, tout particulirement dans les contextes o ltude porte
sur le temps coul jusqu la ralisation dun certain vnement.
D. La loi logistique
Proprit
Si Y suit une loi de Weibull standard W(c), alors Y
c
suit une loi expo-
nentielle de paramtre 1
1. Nomme ainsi en raison des travaux du statisticien sudois Waloddi Weibull qui en a montr
lintrt (entre 1939 et 1954) pour une trs large gamme dapplications, industrielles notamment.
Dfinition
Une v.a. X continue suit une loi logistique si sa fonction densit est don-
ne par :
avec > 0
1 F
W
y ( ) ( ) ln y
c
=
1 F
W
y ( ) ( ) ln ln c y ( ) ln =
Y
c
P Z z < ( ) P Y
c
z < ( ) P Y z
1/c
< ( ) ct
c 1
e
t
c
dt
0
z
1/c

= = =
f x ( )
exp
x

------------
( ,
j \
1 exp
x

------------
( ,
j \
+
( ,
j \
2
--------------------------------------------------- =

P211-282-9782100549412.fm Page 268 Mercredi, 24. novembre 2010 10:33 10

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS




269


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

Un calcul trs simple montre alors que la fonction de rpartition est don-
ne par :
Si on pose , on obtient la forme rduite de la distribution
logistique, dfinie par la densit , et pour laquelle la fonction de
rpartition est . La densit de

Y

est symtrique puisque :

Ceci conduit constater que la variable

Y

est centre,

E

(

Y

) = 0, et que

E

(

X

) =


. Le paramtre


de la dfinition de la distribution logistique est
donc gal sa moyenne. Le calcul de la variance donne le rsultat

1

:
, ce qui donne :
La courbe reprsentative de la densit est encore une courbe en cloche,
en raison dune part, de la symtrie et dautre part, de lexistence dune
asymptote horizontale, dun maximum et de deux points dinflexion. La
comparaison de cette densit avec celle de la loi normale est justifie si lon
choisit des paramtres qui assurent lgalit des moyennes et lgalit des
variances. Compte tenu de ce qui prcde, il faut choisir la loi logistique
de paramtres :
et
On observe alors (

cf.

figure 7.27) que les deux densits sont assez pro-
ches. En raison de la symtrie, le coefficient dasymtrie



1

est nul, et la
comparaison entre le coefficient daplatissement


2

, gal 0 pour la loi de
Gauss centre rduite et 1,2 pour la loi logistique, traduit bien la limite de
leur ressemblance.

1. Le calcul passe par le dveloppement en srie de et lutilisation des fonctions eul-
riennes.
F x ( ) 1 exp
x

------------
( ,
j \
+
( ,
j \
1
=
Y
X

------------- =
e
y
1 e
y
+ ( )
2
-----------------------
1
1 e
y
+
----------------
e
y
1 e
y
+ ( )
2
-----------------------
1
e
y

( ,
j \
1
1
e
y

+
( ,
j \
2
--------------------------------
1
e
y

( ,
j \
(e
y
1)
e
y

+
( ,
j \
2
--------------------------------------
e
y
e
y
( )
2
e
y
1 + ( )
2
---------------------
e
y
1 e
y
+ ( )
2
--------------------- = = = =
1
1 e
y
+
-----------------
var Y ( )

2
3
----- = var X ( )

2
3
----------- =
0 =
3

------- 0,5513 =
P211-282-9782100549412.fm Page 269 Mercredi, 24. novembre 2010 10:33 10
270

INTRODUCTION LA MTHODE STATISTIQUE


Deux relations concernant la loi logistique standard ( = 0 et = 1) sont
particulirement utiles :
Elles font ressortir lintrt de la loi logistique dans les situations binaires.
Cette loi est particulirement utile pour modliser des systmes o la rponse
(alatoire) une intervention est du type tout ou rien (ou encore positive
ou ngative). Pour ces situations, on suppose souvent que la proportion de
rponses positives suit une loi logistique et on parle alors danalyse de type
logit . On choisit de prfrence la loi logistique dans ces problmes, mais
certains modlisent par la loi de Gauss et on parle alors danalyse de type
probit . Mais linterprtation mcaniste nest alors pas aussi fine que
celle dcoulant de la loi logistique.
La fonction dfinissant la fonction de rpartition de la loi logistique stan-
dard est utilise intensivement pour reprsenter les phnomnes de crois-
sance (entre deux limites) avec le temps. Dans ce contexte, elle est obtenue
en partant dune quation diffrentielle traduisant la proportionnalit en tout
point entre dune part le taux de croissance, et dautre part le produit des
diffrences avec les valeurs extrmes, soit :
0
0,6
1 2 3 4 1 2 3 4
Logistique (0; 1)
Normale (0; 1)
Logistique (0; 0,5513)
Figure 7.27 Densits compares de lois logistiques et de la loi normale centre rduite
f y ( ) F y ( ) 1 F y ( ) ( ) =
y
F y ( )
1 F y ( )
--------------------



ln =
dF
dx
------- c F x ( ) l ( ) L F x ( ) ( ) =
P211-282-9782100549412.fm Page 270 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

271


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
V. Bilan
Les modles prsents dans ce chapitre et dans le prcdent sont ceux qui
sont le plus souvent utiliss dans ltude de situations alatoires concrtes. On
noubliera pas cependant que dautres modles prsentent un intrt certain
pour la modlisation. Ils ne peuvent tre prsents ici, mais on se doit de citer :
la loi binomiale ngative ;
la loi log-normale, la loi de Wald, les lois gamma et bta ;
les lois de khi-deux, de Student et de Fisher-Snedecor dcentres.
Dautre part, nous navons envisag que les lois de variables alatoires
valeurs relles. Les distributions de v.a. valeurs dans
n
nont pas t abor-
des. Leur utilisation est cependant frquente.
Lensemble de ce chapitre montre lintrt particulier de la loi de Gauss.
Approximation de lois discrtes ou de lois continues, mais aussi loi approche
des moyennes dchantillonnage, la distribution gaussienne est au centre de
ldifice statistique ds quon cherche modliser des situations alatoires.
Ses proprits (symtrie, stabilit aprs transformation linaire) et son uti-
lisation particulirement simple pour les calculs expliquent le recours trs
frquent cette loi. Cependant, on ne doit pas se laisser abuser, et nous avons
vu que plusieurs problmes spcifiques conduisent dautres lois, soit par
construction (cas des lois du khi-deux, de Student, de Fisher-Snedecor), soit
par ajustement (lois de Pareto, exponentielle, logistique, de Weibull).
Le sens de lhypothse de normalit merge de cette position centrale de la
loi de Gauss, comme aussi de son apparence. La loi de Gauss est celle qui
simpose lorsque le phnomne quon tudie ne prsente pas de dterminant
prdominant. En ce sens, la distribution normale correspond une rpartition
sans caractristique ou individualisation particulire. Elle serait donc presque le
modle utiliser si aucun autre ne simposait. Dailleurs, cest historiquement
ainsi quelle a merg pour reprsenter de faon universelle les phnomnes
au sens de la moyenne
1
(cest--dire observs comme moyennes arithmtiques).
On se gardera bien de vouloir tout prix poser une hypothse de normalit
dans une attitude descriptive. Rservant la loi de Gauss pour des phnomnes
agrgeant rellement de multiples causes indpendantes les unes des autres
sans cause prdominante, on recherchera toujours le modle (moins passe-
partout, mais donc plus savoureux et surtout plus riche) dcrivant vrai-
ment au mieux les observations. La controverse entre univers gaussien et uni-
vers partien en est une illustration.
1. Dabord par Laplace la fin du 18
e
sicle, puis par Gauss en 1809, et enfin par Galton en 1889.
P211-282-9782100549412.fm Page 271 Mercredi, 24. novembre 2010 10:33 10
272

INTRODUCTION LA MTHODE STATISTIQUE


On noubliera pas :
1. Pour la loi de Gauss
La symtrie par rapport la moyenne.
La pratique des calculs par centrage et rduction
Son intrt comme modle approch (limite centrale, lois binomiale
et de Poisson).
Une somme de gaussiennes indpendantes est une gaussienne.
2. Pour les lois drives de la loi de Gauss



3. La loi de Pareto de paramtres x
0
et peut dcrire des grandeurs au
moins gales x
0
et pour lesquelles le nombre dobservations qui dpas-
sent un seuil x est proportionnel x

. Son moment dordre k nexiste que


pour k < . Cest une loi dissymtrique.
4. La loi de Weibull standard de paramtre c est une loi dissymtrique
souvent utilise pour dcrire le temps coul jusqu la ralisation dun
vnement donn (dcs, faillite, panne, reprise dactivit). Elle gn-
ralise la loi exponentielle.
X m ; ( ) U
X m

-------------- 0 ;1 ( ) =
X
1
, X
2
, , X
v
1
gaussiennes centres rduites
Y
1
, Y
2
, , Y
v
2
gaussiennes centres rduites
toutes indpendantes
Z
1
X
i
2

1
( )
i 1 =

=
khi-deux
1
degrs de libert
loi dissymtrique
de moyenne
1
et de variance 2
1
Z
2
= Y
j
2

2
( )
j 1 =

khi-deux
2
degrs de libert
loi dissymtrique
de moyenne
2
et de variance 2
2
U (0 ; 1)
U et Z
1
indpendantes
T

1
U
Z
1

1
------
----------
est une v.a. symtrique,
centre :
=
loi de Student
1
degrs de libert
F
1

2
, ( )
Z
1
/
1
Z
2
/
2
--------------

1
-----
Z

1
Z

2
------ = =
est une v.a. dissymtrique :
loi de Fisher-Snedecor


1

et


2

degrs de libert

1
1 = ( ) F 1
2
, ( ) T

2
2
=

P211-282-9782100549412.fm Page 272 Mercredi, 24. novembre 2010 10:33 10

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS




273


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

1. Une variable alatoire de Bernoulli :

a) a une loi de probabilit ne dpendant que dun seul paramtre
b) a une esprance gale son cart-type
c) a une variance maximum lorsque son paramtre est gal 0,5
d) est une variable indicatrice

2. Si X suit une loi binomiale


(

n

;

p

) :

a)

X

est la somme de n v.a. de Bernoulli de mme esprance mathmatique
b)

X

est la somme de n v.a. de Bernoulli indpendantes
c) lcart-type de

X

est gal

np

(1

p

)
d)

Y

=

X

+ 1 suit une loi binomiale


(

n

;

p

)
3. Soit X une variable alatoire binomiale (n ; p) et Y = n X :
a) pour toute valeur entire k comprise entre 0 et n, P(X = k) = P(Y = n k)
b) Y suit une loi binomiale (n ; 1 p)
c) X et Y ont mme esprance mathmatique
d) X et Y ont mme variance
4. Si X suit une loi de Poisson de paramtre 10 :
a) var(X) = 10
b) P(X = 10) = P(X = 9)
c) Y = 2X + 1 suit une loi de Poisson de paramtre 21
d) la fonction de rpartition de X est une fonction continue
5. Si X suit une loi gomtrique de paramtre p :
a) on peut aussi dire que X suit une loi de Pascal
b) X est une somme de v.a. de Bernoulli indpendantes de paramtre p
c) lesprance de X dpend du nombre de tirages
d) E(X) > var(X)
6. Si X est distribue selon une loi (n ; p) :
a) si n = 10 et p = 0,1, alors P(X = 4) = P(X = 5)
b) si n = 60 et p = 0,05, alors P(X 3) = 0,5768
c) si n = 4 et p = 0,01, alors P(X = 0) 0,96
d) si n = 50 et p = 0,08, alors P(3 < X 10) = 0,573
7. Pour une population distribue selon une loi de Gauss (1 ; 1) :
a) la mdiane est gale 1
b) la moyenne est gale 0
c) le quart des individus est caractris par une valeur suprieure 1
d) la moiti des individus est caractrise par une valeur infrieure 0
Testez-vous (les rponses sont donnes page 287)
P211-282-9782100549412.fm Page 273 Mercredi, 24. novembre 2010 10:33 10
274

INTRODUCTION LA MTHODE STATISTIQUE


8. Pour une population distribue selon une loi (0 ; 1), le pourcentage dindivi-
dus qui sont caractriss par une valeur comprise entre 1,96 et + 1,96 est gal :
a) 75%
b) 90%
c) 95%
d) 99%
9. Si X suit une loi de Gauss (2 ; 5) :
a)
b) P(X < 1) = P(X > + 3) = 0,4207
c) P( 3 < X < + 3) = 0,4206
d) P(1 < X < 3) = 0,1586
10. Si X suit une loi de Gauss (m ; ) :
a) P(X > m) = 0,5
b) sa moyenne est gale sa mdiane
c) F
x
(m + x) = F
x
(m x)
d) le graphe de la densit est symtrique par rapport la droite dquation x = 0
11. Si X est une variable alatoire (1 ; 1) et Y une variable alatoire
(1000 ; 0,01) et si X et Y sont indpendantes :
a) E(X + Y) = 11
b) var(X + Y) = 10,9
c) Y suit approximativement une loi de Poisson de paramtre 10
d) le coefficient de corrlation linaire entre X et Y est gal + 1
12. Si une population est reprsente par une variable alatoire X de loi (m ; ) :
a) 25% des individus scartent de la moyenne de plus dun cart-type
b) 50 % des individus sont au-dessus de la moyenne
c) peu prs 5 % des individus scartent de la moyenne de plus de 2 fois lcart-type
d) F
x
(m + x) = 1 F
x
(m x)
13. Si X est une variable alatoire (1 ; 1) et Y une variable alatoire
(100 ; 0,5) et si X et Y sont indpendantes :
a) E(X + Y) = 51
b) X suit approximativement une loi de Poisson de paramtre 50
c) X + Y suit approximativement une loi de Gauss
d) Z = 2X + 3 suit une loi de Gauss
14. Soit X une variable alatoire ( 3 ; 1) :
a) X est une variable alatoire rduite
b) X + 3 est une variable alatoire centre rduite
c) P(X + 3 > 0) = P(X + 3 < 0)
d) E(X
2
) = 1
P X 2 = ( ) F
U
0 ( ) 1/3 2 = =
P211-282-9782100549412.fm Page 274 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

275


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
15. Si X suit une loi exponentielle de paramtres = 0 et = 2
a) la fonction de rpartition de X est une fonction continue
b) lesprance de X est gale sa variance
c) la fonction de densit de X est une fonction qui admet un axe de symtrie
d) X ne prend que des valeurs suprieures 2
16. Soit Y une somme de n variables alatoires indpendantes X
1
, X
2
, X
n
:
a) si les X
i
sont des v.a. binomiales, alors Y suit une loi binomiale
b) si les X
i
suivent des lois de Gauss, alors Y suit une loi de Gauss
c) si les X
i
suivent des lois exponentielles, alors Y suit une loi exponentielle
d) si les X
i
suivent des lois de Pareto, alors Y suit une loi de Pareto
17. Si la demande hebdomadaire dun produit dans un magasin suit une loi bino-
miale (30 ; 0,45), alors si on suppose les demandes hebdomadaires indpendan-
tes entre elles, la demande annuelle de ce mme produit (1 an = 52 semaines) :
a) suit une loi binomiale (1560 ; 0,45)
b) suit approximativement une loi de Gauss (702 ; 19,65)
c) est une somme de v.a. de Bernoulli indpendantes
d) ne peut pas tre gale 1 600
18. Si la demande quotidienne dun produit dans un magasin suit une loi bino-
miale (40 ; 0,05), alors si on suppose les demandes quotidiennes indpendantes
entre elles, la demande de ce mme produit pour 25 jours de fonctionnement de
ce magasin suit :
a) peu prs une loi de Poisson (50)
b) peu prs une loi normale (50 ; 6,9)
c) une loi binomiale (40 ; 0,2)
d) une loi de Poisson (0,2)
P211-282-9782100549412.fm Page 275 Mercredi, 24. novembre 2010 10:33 10
276

INTRODUCTION LA MTHODE STATISTIQUE


Exercice 7.1
Le prix X dun certain article est suppos distribu selon une loi de Gauss de para-
mtres m = 45 et = 4
1. Calculez P(X < 39), P(X 48) et P(35 < X < 48)
2. Calculez
3. Calculez
Exercice 7.2
Les gains mensuels en euros dun reprsentant sont supposs suivre une loi normale.
Il a pu constater, sur un grand nombre de mois, la rpartition suivante de ses gains :
Gain > 3 000 : 4,46 %
2 400 < Gain 3 000 : 93,26%
Gain 2 400 : 2,28%
1. Calculez la moyenne et lcart-type de la loi normale envisage.
2. Si on suppose les gains du reprsentant indpendants dun mois lautre, quelle
est la loi de probabilit de la variable alatoire gale au gain du reprsentant pen-
dant 3 mois ?
3. Quelle est la probabilit que le reprsentant gagne plus de 8 700 en 3 mois ?
Exercice 7.3
Une usine fabrique des imprimantes laser dont la dure de vie X (exprime en mil-
lions de pages) est une variable alatoire normale (2 ; 0,3).
1. Calculez la probabilit p que la dure de vie dune imprimante tire au hasard dans
la production soit suprieure 2,5 millions de pages. Dans la suite de lexercice,
on arrondira cette probabilit p pour ne conserver que 2 chiffres aprs la virgule.
2. On teste 60 imprimantes tires au hasard dans la production. Dterminez, en la
justifiant, la loi de la variable Y gale au nombre dimprimantes dont la dure de
vie est suprieure 2,5 millions de pages. Donnez, en la justifiant, une loi appro-
che de Y.
3. Calculez la probabilit que parmi les 60 imprimantes testes :
exactement 10 % des imprimantes aient une dure de vie suprieure
2,5 millions de pages,
au moins 5 % des imprimantes aient une dure de vie suprieure 2,5 millions de
pages.
Exercice 7.4
Un groupe de presse dcide de lancer un nouveau quotidien. Une enqute permet de
conclure que, pendant les 30 jours conscutifs la date du lancement, la demande
journalire (exprime en milliers dexemplaires) est une v.a. X dont la loi de proba-
bilit peut tre considre comme une loi normale de paramtres m = 100 et = 25.
1. Calculez la probabilit davoir pendant la priode considre :
une demande journalire comprise entre 75 et 125 ;
une demande journalire de plus de 150.
Exercices (corrigs page 324)
P X m ( )
P 41 X 49 X 39 ( )
P211-282-9782100549412.fm Page 276 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

277


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
2. Calculez les valeurs n
1
et n
2
telles que :
la demande journalire soit suprieure n
1
, 9 jours sur 10 ;
la demande journalire soit infrieure n
2
, 4 jours sur 10.
3. Dterminez un intervalle symtrique autour de m ayant 90 % de chances de
contenir la demande journalire.
Exercice 7.5
Un vigneron commercialise des vins de qualit diffrentes quil rpartit en deux
classes : la classe des vins courants dits du terroir , la classe des vins de qualit,
appels grand cru , et vendus 6 la bouteille. Malgr le soin apport lembou-
teillage, il subsiste des erreurs dtiquetage, et on admet quun acheteur de vin
grand cru aura une probabilit p = 0,12 davoir en fait une bouteille de vin ordi-
naire.
1. Un restaurateur achte 200 bouteilles grand cru au vigneron. Soit Y la v.a.
gale au nombre de bouteilles de vin courant parmi les 200 bouteilles achetes.
Dterminez la loi de probabilit de la v.a. Y, ainsi que son esprance et sa variance.
Donnez, en la justifiant, une approximation de la loi de Y.
2. Calculez : P(Y > 20) et P(Y < > 20).
3. Au fur et mesure de la consommation des 200 bouteilles, le restaurateur a pu dtec-
ter chacune des bouteilles de type courant. Il dcide alors de ne payer que les bou-
teilles de qualit effectivement livres et de refuser tout paiement pour les
bouteilles de vin ordinaire.
Calculez, dans cette hypothse, la probabilit dun bnfice nanmoins positif pour
le vigneron sachant que chaque bouteille de vin courant lui revient 1,5 et que
chaque bouteille de vin de qualit lui revient 3,5 .
Exercice 7.6
Lors la naissance de jumeaux, on note la probabilit quil sagisse de vrais jumeaux
et on fait les deux hypothses suivantes :
i) deux vrais jumeaux sont toujours de mme sexe, et la probabilit quils soient des
garons est gale 1/2 ;
ii) deux faux jumeaux ont des sexes indpendants et chacun des deux enfants est un
garon avec une probabilit gale 1/2.
Soit A, B et C les vnements suivants relatifs la naissance de deux jumeaux :
A = { 2 garons }
B = { 2 filles }
C = { 1 garon et une fille }
1. Calculez en fonction de les probabilits des vnements A, B et C.
2. Soit Y la variable alatoire gale au nombre de fois o on a eu un garon et une
fille sur 1 000 naissances de jumeaux.
Donnez en fonction de , et en la justifiant, la loi de probabilit de la variable
alatoire Y.
Donnez lesprance et la variance de Y en fonction de .
3. On suppose = 0,35 ; par quelle loi peut-on approximer la loi de Y ? (justifiez
votre rponse).
Dterminez les probabilits des vnements {Y > 300} et {310 Y > 300}.
30 Y
350 Y
P211-282-9782100549412.fm Page 277 Mercredi, 24. novembre 2010 10:33 10
278

INTRODUCTION LA MTHODE STATISTIQUE


Exercice 7.7
Aprs avoir fait remplir un long questionnaire portant sur laudience de la presse
magazine 200 individus, un institut de sondage a tabli la distribution suivante pour
la dure dinterview (en minutes) concernant ces 200 individus :
1. Calculez la mdiane de cette distribution.
2. On ajuste cette distribution par une loi normale (37 ; 10). Reprsentez le dia-
gramme quantile-quantile. Quel jugement permet-il de porter sur la qualit de
ladquation de la distribution observe ce modle thorique ?
3. On suppose pour la suite de ce problme que la dure X dune interview suit une
loi normale (37 ; 10).
3.1. Soient X
1
, X
2
, , X
n
les variables alatoires associes aux dures de n inter-
views, on suppose les v.a. X
i
indpendantes et identiquement distribues X.
Que reprsente la variable alatoire ? Donnez, en la justifiant,
sa loi en fonction de n.
3.2. Calculez la probabilit que la dure moyenne de 6 interviews nexcde pas
35 minutes.
3.3. Pour quelles valeurs de n, la dure moyenne de n interviews nexcde pas
45 minutes avec une probabilit au moins gale 0,99 ?
Exercice 7.8
Durant une anne, on a observ que 70 % des actions enregistres sur le march bour-
sier de Londres ont augment de valeur, tandis que 30 % sont restes stationnaires ou
ont baiss.
1. Au dbut de lanne, un service de conseils financiers a choisi 10 actions pour les
placer dans la rubrique des actions spcialement recommandes .
1.1. Pour un non-initi qui considrait ces 10 actions choisies alatoirement (au
hasard et avec remise), donnez, en la justifiant, la loi de probabilit du nom-
bre dactions la hausse.
1.2. Calculez les probabilits des vnements suivants :
accroissement de valeur pour au moins 8 actions ;
accroissement de valeur pour moins de 4 actions.
2. On considre maintenant que le service de conseils financiers a choisi 100 actions.
Toujours pour un non-initi qui considrait ces 100 actions choisies alatoirement
(au hasard et avec remise), calculez, en justifiant le recours une loi de probabilit
approche, les probabilits des vnements suivants :
accroissement de valeur pour au moins 80 % des actions ;
accroissement de valeur pour moins de 40 % des actions.
Daprs examen de juin 2002, GEA 1
re
anne Paris IX-Dauphine
Dure
(min)
< 25 [25 ; 30[ [30 ; 35[ [35 ; 40[ [40 ; 45[ [45 ; 50[ 50
Effectif 18 32 36 40 30 24 20
X
n
1
n
--- X
i
i 1 =
n

=
P211-282-9782100549412.fm Page 278 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

279


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Exercice 7.9
Un appareil lectronique est soumis des impulsions spares par des intervalles de
temps variables, indpendants les uns des autres. On suppose que la dure Y (expri-
me en secondes) sparant deux impulsions successives est une v.a. dfinie ainsi :
Y = 2 + X
o est un paramtre strictement positif et X une v.a. exponentielle de paramtre 1.
1. Dterminez en fonction de :
E(Y) et var(Y) ;
la fonction de rpartition de la variable alatoire Y.
2. On suppose dans cette question le paramtre gal 5.
2.1. Calculez P(Y < 2) et P(2 Y 5).
2.2. Afin dtudier si la loi thorique retenue pour Y reprsente bien le phnomne
tudi, on a mesur de faon indpendante 10 dures sparant 11 impulsions
successives et on a obtenu les rsultats suivants en secondes :
2,3 3,5 3,9 4,7 5,1 6,8 7,9 9,6 13,1 15,5
Tracez le diagramme quantile-quantile pour juger la qualit de lajustement
de cette distribution observe par la loi retenue. Conclusion.
Exercice 7.10
Afin de mieux connatre sa clientle, le grant du cinma Paradiso fait procder un
sondage. Il obtient pour un chantillon alatoire de taille 100 la rpartition par ge
suivante :
1. Calculez la moyenne et lcart-type de cette distribution ; on supposera lge mini-
mum gal 10 ans et lge maximum gal 70 ans.
2. Calculez la mdiane de cette distribution.
3. On suppose que la distribution de lge des clients du cinma Paradiso suit une loi
normale de paramtres m = 28 ans et = 9,5 ans.
3.1. Quel est le pourcentage thorique des clients qui ont entre 18 et 35 ans ?
Calculez le pourcentage observ, partir de lchantillon de taille 100, pour
la mme classe dge.
3.2. Calculez lge thorique A tel que 75 % des clients ait un ge suprieur A.
Calculez, partir de lchantillon, lge A tel que 75 % des individus de
lchantillon ait un ge suprieur A. Comment sappelle cette valeur A ?
4. Tracez le diagramme quantile-quantile pour juger la qualit de lajustement de la
distribution observe par une loi normale de paramtres m = 28 ans et = 9,5 ans.
Lhypothse prcdente vous semble-t-elle justifie ?
Exercice 7.11
On considre que la dure du temps dattente T (mesur en minutes) du bus que doit
prendre Valrie pour se rendre lUniversit, est distribue selon une loi exponen-
ge < 15 ans [15 ; 20[ [20 ; 25[ [25 ; 30[ [30 ; 35[ [35 ; 40[ [40 ; 50[ 50 ans
Effectif 4 13 22 28 15 10 5 3
P211-282-9782100549412.fm Page 279 Mercredi, 24. novembre 2010 10:33 10
280

INTRODUCTION LA MTHODE STATISTIQUE


tielle de moyenne 5 mn, cest--dire que la variable alatoire T admet la densit de
probabilit suivante :
1. Quelle est la fonction de rpartition de la variable alatoire T ?
2. Quelle est la probabilit que le temps dattente T dpasse 8 minutes ? Dans la suite
de lexercice, on arrondira cette probabilit sa premire dcimale.
3. Valrie utilise le mtro avec un seul ticket si elle attend le bus plus de 8 mn. Il
faut deux tickets pour le bus, mais Valrie a une nette prfrence pour le bus quelle
utilise si le temps dattente ne dpasse pas 8 mn. Soit Y, le nombre de trajets allers
effectus en bus en n jours.
3.1. Donnez, en la justifiant, la loi de Y.
3.2. Calculez son esprance et sa variance.
4. Soit Z, la variable alatoire gale au nombre de tickets utiliss par Valrie pour
ses trajets allers en n jours.
4.1. Dterminez la loi de Z.
4.2. Calculez son esprance et sa variance.
Daprs examen de septembre 2002, GEA 1
re
anne Paris IX-Dauphine
Exercice 7.12
Le tableau ci-dessous donne les dix meilleurs rsultats nets des grandes entreprises
franaises en 2001 (Source : Tableaux de lconomie Franaise 2003-2004,
INSEE) :
Soit F
i
la proportion dentreprises dont les rsultats nets X sont infrieurs x
i.
1. Peut-on considrer les 10 points de coordonnes {{ln( x
i
), ln(l F
i
)}, i = 1 10}
approximativement aligns ? (On calculera le coefficient de corrlation linaire et
les coefficients de la droite des moindres des carrs).
Reprsentez graphiquement le nuage de ces 10 points, ainsi que la droite des
moindres carrs.
Socit Rsultats nets (millions d)
TotalFinaElf
Suez
PSA Peugeot Citron
Sanofi-Synthlabo
Aventis
LOral
Carrefour
Saint Gobain
Renault
Gaz de France
7 658 = x
10
2 087 = x
9
1 691 = x
8
1 585 = x
7
1 505 = x
6
1 291 = x
5
1 266 = x
4
1 134 = x
3
953 = x
2
891 = x
1
f
T
T ( )
=
1
5
--- e
t /5

si t 0
sinon

P211-282-9782100549412.fm Page 280 Mercredi, 24. novembre 2010 10:33 10

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS




281


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

2.

En dduire que lon peut ajuster la distribution de

X

par une loi de Pareto de
paramtres


et

x

0

quon valuera laide des rsultats prcdents.

Exercice 7.13 (suite de lexercice 3.9)

On choisit le modle quadratique puisque la part de variation de

Y non explique par
ce modle est plus faible quavec le modle linaire.
On envisage un ajustement de la distribution des rsidus du modle quadratique par
une loi de Gauss de paramtres

m

= 0 et


= 22.

1.

Calculez la srie des 12 rsidus de ce modle, et rangez-les par ordre croissant.

2.

Reprsentez le diagramme Quantile Quantile.
Quel jugement permet-il de porter sur la qualit de ladquation de cette distribu-
tion par la loi de Gauss envisage ?

Daprs examen de juin 2006, DUGEAD 1

re

anne Paris Dauphine

Exercice 7.14

Une socit de fabrication de boissons dcide de lancer une nouvelle boisson faible
teneur en sucre. Les tudes effectues montrent que la teneur

X

dune bouteille dun
litre de cette boisson suit une loi normale de moyenne 70 g et dcart-type 25 g.

1.

Calculez la probabilit que la teneur en sucre dune bouteille dun litre diffre de
la teneur moyenne dau plus 10 g.

2.

On choisit au hasard 25 bouteilles. Soient

X

1
,

X

2
, ... ,

X

25



les variables alatoires
associes. On les suppose indpendantes et identiquement distribues

X

.
Que reprsente la variable alatoire ? Donnez sa loi (justifier).
Calculez la probabilit que la teneur moyenne en sucre des 25 bouteilles diffre
de la moyenne

m

= 70 g dau plus 10 g.

3.

La socit dcide de modifier lgrement la fois la composition et le procd de
fabrication. La variable

X

suit maintenant une loi normale de moyenne

m

et
dcart-type


avec

m

et


inconnus. Les essais conduisent aux observations
suivantes :
Dterminez les fractiles

u

i

dfinis par

F

U

(

u

i

) =

F

i

o

F

U

dsigne la fonction de
rpartition de la loi normale centre rduite.
Reprsentez le nuage des points (

u

i

,

x

i

)

.

En dduire une valuation de chacun des nouveaux paramtres

m

et


en utilisant
la mthode des moindres carrs.
Teneur

x

i

40 50 60 70 80 90 100

F

i

0,11 0,23 0,40 0,60 0,77 0,89 10,96
X
1
25
------ X
i
i 1 =
25

=
P211-282-9782100549412.fm Page 281 Mercredi, 24. novembre 2010 10:33 10
282

INTRODUCTION LA MTHODE STATISTIQUE


Exercice 7.15
On donne la srie statistique ordonne des niveaux de vente d'une revue hebdoma-
daire dans 100 points de distribution pour une semaine donne :
La moyenne de cette srie d'observations est gale 124,6 et l'cart-type 32
1. Dterminez les trois quartiles de cette distribution. Proposez trois indicateurs de
tendance centrale, deux indicateurs de dispersion, et donnez leurs valeurs.
2. On note X la variable alatoire suivant une loi (125 ; 30)
2.1 Calculez la probabilit que la v.a. X appartienne l'intervalle centr en sa
moyenne et de longueur gale :
a) 2 fois l'cart-type
b) 4 fois l'cart-type
2.2 Dterminez les dciles de la distribution de la v.a. X, c'est--dire les valeurs x
i
(1 i 9) telles que :
P(X < x
i
) = i/10
3. Classez la distribution observe en 10 classes dtermines par les dciles x
i
calcu-
ls prcdemment (question 2.2).
4. Comparez laide dun diagramme les frquences cumules observes avec les
frquences cumules thoriques (probabilits cumules en pourcentage) pour
apprcier la qualit de l'ajustement de la distribution observe par la loi (125 ; 30).
Conclusion.
Daprs examen de septembre 2009, DEGEAD 1
re
anne Paris Dauphine
32 40 53 54 59 65 66 72 75 80
84 85 89 93 95 95 95 101 104 105
105 105 105 106 107 107 108 110 111 111
112 113 113 114 114 115 116 119 119 122
122 122 123 124 124 124 124 126 127 127
127 127 127 129 129 130 130 130 130 130
131 132 132 135 135 138 138 140 141 141
142 143 143 143 144 146 147 150 152 152
153 156 156 158 158 158 158 158 159 160
160 162 166 166 168 170 176 192 195 196
P211-282-9782100549412.fm Page 282 Mercredi, 24. novembre 2010 10:33 10

RPONSES AUX QUESTIONNAIRES TESTEZ-VOUS




283


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

R

ponses aux
questionnaires
Testez-vous

C

hapitre 1

1.

Bonnes rponses : b) et c)

Trois

quartiles sparent lintervalle de variation [min(

X

), max(

X

)] en quatre intervalles
contenant chacun le

quart

de leffectif, donc 75 % des observations sont suprieures au
1

er

quartile.

2.

Bonnes rponses : a), b) et d)
La bote de distribution contient 50 % des observations et la mdiane, gale la moyenne,
est le milieu de lintervalle interquartile.

3.

Bonnes rponses : c) et d)
On ne peut utiliser dans ce cas que des caractristiques indpendantes des units.

4.

Bonnes rponses : a) et b)
La mdiane de la srie des carts absolus la moyenne est une mesure de la dispersion ;
les quartiles

Q

1
et

Q

3
sont des indicateurs de position, mais non de tendance centrale.

5.

Bonnes rponses : c) et d)
Pour calculer la note moyenne et lcart-type des deux classes runies, il faut utiliser des
formules avec des pondrations ( III.B.1 pour la proprit 4 de la moyenne et III.C.4
pour la proprit 4 de la variance).
Lcart absolu moyen la mdiane est le plus petit cart absolu moyen ( III.C.3), dautre
part, lcart-type est toujours suprieur lcart absolu moyen la moyenne arithmtique
( III.C.4), donc, lcart absolu moyen des notes la mdiane est au plus gal 4 pour
la classe 1.

6.

Bonnes rponses : a) et d)

7.

Bonne rponse : c)
Se rfrer la moyenne gomtrique ( III.B.2).

P283-334-9782100549412.fm Page 283 Mercredi, 24. novembre 2010 10:57 10

284



INTRODUCTION LA MTHODE STATISTIQUE

8.

Bonnes rponses : b) et c)

9.

Bonnes rponses : a) et c)

C

hapitre 2

1.

Bonne rponse : b)
Lindice des prix actuellement calcul par lINSEE est un indice-chane de Laspeyres.

2.

Bonne rponse : c)
Un indice de Paasche est souvent un indice des quantits, mais il peut aussi tre un indice
des prix ( II.A).
Lindice de Paasche est souvent infrieur lindice de Laspeyres, mais les pondrations
de ces deux indices ntant pas les mmes, il est possible que cette proprit ne soit pas
vrifie ( II.C).

3.

Bonnes rponses : a), b) et c)
Un indice des

dpenses

ou du

cot de la vie

sert mesurer lvolution du niveau des
dpenses de consommation entre deux priodes distinctes.
Sagissant des sommes dbourser par un mnage compte tenu des prix, mais aussi des
quantits achetes, cest un indice de valeur qui est donc rversible et transitif.

4.

Bonnes rponses : a), b) et d)
Le taux annuel moyen de variation peut tre dtermin graphiquement en utilisant une
reprsentation graphique avec une ordonne logarithmique ( IV.A).

5.

Bonnes rponses : c) et d)
Le taux de croissance pour priode 1999-2001 est gal :
1,029


1,038


1,021 1


9 %

C

hapitre 3

1.

Bonnes rponses : a) et d)

2.

Bonnes rponses : a), b) et c)
On a deux variables lies par une relation linaire inverse, leur coefficient de corrlation
linaire est gal 1 et les pentes des deux droites des moindres sont ngatives.

P283-334-9782100549412.fm Page 284 Mercredi, 24. novembre 2010 10:57 10

RPONSES AUX QUESTIONNAIRES TESTEZ-VOUS




285


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

3.

Bonnes rponses : a) et b)
Le nuage de points est form de 2 points, et par 2 points, on peut faire passer une droite,
la reprsentation graphique nous montre que la droite est de pente positive, on a donc

r = +

1

4.

Bonne rponse : c)
Cette question a pour objectif de sensibiliser lattention qui doit tre ncessairement
porte la signification des variables ( II.E).

5.

Bonnes rponses : b), c) et d)
On a un tableau de profils en colonne.

6.

Bonnes rponses : a), b) et d)
La moyenne est une moyenne pondre des moyennes conditionnelles ( I.C) ; en ce qui
concerne les moyennes conditionnelles, elles sobtiennent partir du tableau de contin-
gence, ou partir du tableau des profils en lignes pour les moyennes conditionnelles de

Y



X

fix et du tableau des profils en colonnes pour les moyennes conditionnelles de

X



Y

fix.

7.

Bonnes rponses : a), b) et d)
Si

a =

20



et

b =

5, il y a indpendance puisque les profils en colonnes sont identiques
(

r =

0).
Si

a =

0 et

b =

0, alors on a seulement deux observations diffrentes sur deux variables
et dans ce cas,

r =


1 puisque le nuage de points est rduit deux points (ici

r =

1).
Si

a =

0



et

b =

10, il ny a ni indpendance, ni liaison linaire, donc

r






1 et

r




0 (en
fait

r =

0,5).
Si

a =

10 et

b =

10, il y a indpendance puisque les profils en lignes sont identiques.

8.

Bonne rponse : d)
Lorsquon connat les marges, il suffit de connatre (

k

1) (

l

1) effectifs du tableau
de contingencedu fait des liaisons entre les effectifs marginaux et les effectifs du tableau ;
le nombre (

k

1) (

l

1) est appele nombre de

degrs de libert

.

9.

Bonnes rponses : a), c) et d)
26 % des malades ont pris un somnifre

et

ont bien dormi.

10.

Bonnes rponses : a) et d)
On a un tableau de profils en colonnes. Si les deux variables nominales taient indpen-
dantes, les deux profils-colonnes seraient identiques.
Les pourcentages de deux lignes ne saditionnent pas. Pour calculer le pourcentage total
des salaris (hommes et femmes runis), il faut utiliser les effectifs (total des emplois).
On obtient pour les non-salaris :
(13,4


13 670 + 7,3


12 243)/(13 670 + 12 243) = 10,5 %
Et pour les salaris :
(86,6



13 670 + 92,7



12 243)/(13 670 + 12 243) = 89,5 %
x

P283-334-9782100549412.fm Page 285 Mercredi, 24. novembre 2010 10:57 10

286



INTRODUCTION LA MTHODE STATISTIQUE

C

hapitre 4

1.

Bonnes rponses : a), c) et d)
Il y a (

T p

+ 1) moyennes mobiles centres de longueur impaire

p

et (

T p

) moyennes
mobiles centres de longueur paire

p

.

2.

Bonne rponse : b) et d)
Si le facteur saisonnier est proportionnel la tendance, on choisit le modle multiplicatif,
et dans ce cas, la courbe joignant les maxima est peu prs parallle celle qui joint les
minima sur un graphique ordonne logarithmique ( II).
Des maxima distants de 5 dates peuvent indiquer une composante saisonnire de priode
5, mais cette seule information nest pas suffisante pour choisir le modle adapt.

3.

Bonnes rponses : a) et b)
La moyenne mobile centre de longueur

p

rend constante les sries priodiques de
priode

p

et de priode sous-multiple de

p

.
La moyenne mobile centre de longueur 2

p

liminent la composante saisonnire de
priode

p

puisque la somme des coefficients saisonniers sur une priode est nulle.
La somme de

p

termes successifs divise par

p

donne une valuation de la tendance pour
la date correspondant celle du terme du milieu des

p termes.
On peut calculer (T p) moyennes mobiles centres de longueur p si p est pair, et (T p + 1)
moyennes mobiles centres de longueur p si p est impair, on a donc toujours au moins ( T p)
moyennes mobiles centres.
4. Bonnes rponses : c) et d)
Le lissage exponentiel simple ne peut senvisager que pour une chronique sans saisonna-
lit et sans volution tendancielle ; la prvision tient dautant plus compte des valeurs
rcentes de la srie que la constante de lissage est leve.
Chapitre 5
1. Bonnes rponses : a) et d)
2. Bonnes rponses : a) et b)
3. Bonne rponse : c)
4. Bonnes rponses : b) et d)
Car P(AB) = P(A) + P(B) P(AB) et A et B tant indpendants, P(AB) = P(A) P(B)
P283-334-9782100549412.fm Page 286 Mercredi, 24. novembre 2010 10:57 10
RPONSES AUX QUESTIONNAIRES TESTEZ-VOUS

287


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
5. Bonnes rponses : c) et d)
Soit A lvnement le livre est touch par au moins un des chasseurs , alors
P(A) = 1 P
6. Bonnes rponses : c) et d)
7. Bonnes rponses : a), b) et d)
8. Bonnes rponses : b) et c)
9. Bonnes rponses : a) et d)
Seule la loi de probabilit dune variable alatoire continue est dfinie par une fonction
de densit.
10. Bonnes rponses : b) et c)
11. Bonne rponse : a)
La rponse d) est vraie si a est positif.
12. Bonnes rponses : a), b) et d)
13. Bonnes rponses : a) et c)
14. Bonnes rponses : a) et c)
15. Bonnes rponses : a), b) et c)
Puisque
on peut calculer la loi jointe ;
16. Bonnes rponses : a), b) et c)
17. Bonne rponse : a)
Pour spcifier la loi jointe, il faut connatre en sus des k lois conditionnelles {Y X = x
i
}
la loi marginale de X, ou en sus des l lois conditionnelles {X Y = y
j
} la loi marginale de Y.
Chapitres 6 et 7
1. Bonnes rponses : a), c) et d)
2. Bonnes rponses : a) et b)
3. Bonnes rponses : a), b) et d)
A ( )
P X x
i
= ( ) Y y
i
= ( ) P X x
i
Y y
i
= = ( ) P Y y
i
= ( ) =
P X 1 = ( ) P X 1 Y 1 = = ( ) P Y 1 = ( ) P X 1 Y 2 = = ( ) P Y 2 = ( ) + =
+ P X 1 Y 3 = = ( ) P Y 3 = ( ) 0,2 =
P283-334-9782100549412.fm Page 287 Mercredi, 24. novembre 2010 10:57 10

288



INTRODUCTION LA MTHODE STATISTIQUE

4.

Bonnes rponses : a) et b)

5.

Bonnes rponses : a) et b)

6.

Bonnes rponses : b), c) et d)
La loi


(60 ; 0,05) peut tre approche par une loi


(3)




P

(

X


3) = 1

P

(

X


2) = 0,5768
si

n

= 4 et

p

= 0,01 :

P

(

X

= 0) = (0,99)

4



0,96
si

n

= 50 et

p

= 0,08 :

P

(3 <

X


10) =

P

(

X


10)

P

(

X


3) = 0,573

7.

Bonne rponse : a)

8.

Bonne rponse : c)

9.

Bonnes rponses : b), c) et d)

P

(

X

= 2) = 0, car pour une variable alatoire continue, la probabilit dun point est nulle.

10.

Bonnes rponses : a) et b)

11.

Bonnes rponses : a), b) et c)
Les v.a.

X

et

Y

tant indpendantes, leur coeficient de corrlation linaire est nul.

12.

Bonnes rponses : b), c), et d)

13.

Bonnes rponses : a), c) et d)
On peut approcher la loi de

Y

par une loi de Gauss,

X

et

Y

tant indpendantes, la v.a.
(

X

+

Y

) suit approximativement une loi de Gauss puisque la somme de deux variables
alatoires gaussiennes indpendantes est gaussienne .

14.

Bonnes rponses : a), b) et c)

E

(

X

2

) = var(

X

) + (

E

(

X

))

2

= 10

15.

Bonne rponse : a)
Pour une v.a. exponentielle, lesprance est gale lcart-type et ses valeurs possibles
sont suprieures


, donc 0.

16.

Bonne rponse : b)
Une somme de variables alatoires binomiales indpendantes suit une loi binomiale si
tous les paramtres

p

i

sont gaux.

17.

Bonnes rponses : a), b), c) et d)

18.

Bonnes rponses : a) et b)
La demande du produit pour 25 jours de fonctionnement suit une loi


(1 000 ; 0,05), et on
est dans les conditions dapproximation par la loi normale et aussi par la loi de Poisson.
P283-334-9782100549412.fm Page 288 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES

289


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
1
Corrigs
des exercices*
Chapitre 1
Exercice 1.1
1. Population : forme des 5 sous-populations (non disjointes) de lensemble des familles
en France en 1968, 1975, 1982, 1990 et 1999 .
Unit statistique : une famille parmi cet ensemble de familles .
Caractre tudi : nombre denfants de 0 18 ans en milliers, caractre quantitatif discret.
2. Le nombre total de familles, le nombre de familles sans enfant, le nombre de familles
avec 1 enfant, le nombre de familles avec 2 enfants augmentent au cours de la priode
1968-1999, tandis que le nombre de familles de 4 enfants et le nombre de familles de
5 enfants ou plus diminuent. Le nombre total denfants augmente de 1968 1975, et
diminue ensuite.
3. Pour tracer les diagrammes en btons, il est prfrable dutiliser les distributions de
frquences (en %).
Mode de chaque distribution : 1 enfant
Le nombre de familles nombreuses diminuant, la dispersion autour de la valeur moyenne
diminue.
1968 1975 1982 1990 1999
Familles avec enfants 6 760 7 340 7 610 7 491 7 418
1 enfant
2 enfants
3 enfants
4 enfants
5 enfants ou plus
40,3
30,4
15,7
7,1
6,5
42,4
32,3
14,8
5,8
4,7
43,4
35,9
14,2
4,1
2,4
43,8
36,8
14,2
3,5
1,8
44,7
37,4
13,6
3,1
1,2
Total frquences 100 100 100 100 100
Nombre total denfants 14 569 14 826 14 294 13 748 13 308
Moyenne 2,16 2,02 1,88 1,84 1,79
cart-type 1,88 1,58 1,14 1,01 0,89
* Les onglets renvoient au chapitre du cours correspondant.
P283-334-9782100549412.fm Page 289 Mercredi, 24. novembre 2010 10:57 10
290

INTRODUCTION LA MTHODE STATISTIQUE


Diagrammes en btons juxtaposs
Exercice 1.2
1. Population : forme de 7 sous-populations associes chacune une anne (2000
2006) ; lensemble des jours dune anne constitue la population de lanne.
Unit statistique : une journe dune anne .
Caractre tudi : niveau de lindice de la qualit de lair, caractre qualitatif, mais
aussi ordinal (les modalits du caractre sont ordonnes).
2. Diagramme en btons de la distribution 2006 : mode = niveau 3 .
P283-334-9782100549412.fm Page 290 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES

291


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
3.
Le niveau moyen a t particulirement lev en 2003.
Exercice 1.3
1. = 9,75 s
G
= 3,945 = 11,1 s
P
= 3,727
Me
G
= 10 Me
P
=
Pour une distribution symtrique, la moyenne est gale la mdiane.
2. = 0,3 + 0,7 = 10,695 10,7
3. Tous les indicateurs sont multiplis par 10
Exercice 1.4
1. Population : le personnel ouvrier dun secteur industriel.
Unit statistique : un homme ou une femme de ce personnel.
Caractre tudi : le salaire annuel net en euros, variable statistique continue.
2.
a) On peut en fait proposer 4 indicateurs de tendance centrale :
= 15 400 Me = 14 800
(Q
1
+ Q
3
)/2 = 15 205 (D
1
+ D
9
)/2 = 15 585
b) On peut en fait proposer 3 indicateurs de dispersion :
s
H
= 3 620 (Q
3
Q
1
) = 4 910 (D
9
D
1
) = 9 270
c) On peut en fait proposer 3 indicateurs de dispersion relative :
s
H
/ 0,235 (Q
3
Q
1
) / Me 0,332 (D
9
D
1
) / Me 0,626
3.
11 82 + 13 34 + 15 12 + 18 n
4
= 12 (128 + n
4
)
1 524 1 536
n
4
= 2 N = 130
4. s
F
1 509 s
F
/ 0,125
5. =
Anne 2000 2001 2002 2003 2004 2005 2006 2000-2006
Niveau moyen 3,6 3,7 3,7 4,1 3,6 3,6 3,7 3,7
x
G
x
P
10 2 +
25 10
25
------------------ 11,2 =
x x
G
x
P
x
H
x
H
x
F
x
180 x
H
130 x
F
+
310
---------------------------------------------- 13 974
P283-334-9782100549412.fm Page 291 Mercredi, 24. novembre 2010 10:57 10
292

INTRODUCTION LA MTHODE STATISTIQUE


Exercice 1.5
Appelons x le cot total de la main duvre :

moyenne harmonique pondre
Exercice 1.6
1.
B
1
:
taux de croissance moyen = 8 %
B
2
:
taux de croissance moyen = 8,2 %
2. La banque B
1
est la moins performante. Soit x son taux durant la 3
e
priode. On peut
calculer x pour que le taux moyen de croissance gale celui de la banque B
2
:
(1,12)
2
(1,08)
4
(1 + x)
4
= 2,2 x 6,5 %
Exercice 1.7
1. Population : les 30 premiers groupes franais de lindustrie et des services selon leur
CAHT en 2001.
Unit statistique : un groupe parmi les 30 premiers groupes franais de lindustrie et
des services selon leur CAHT en 2001.
Caractres tudis : deux caractres quantitatifs, le CAHT en millions d et leffectif.
2. CA : n = 30
= 30 000 millions d s
X
= 19 729 millions d
Effectif : n = 30
134 448 s
Y
87 248
3.1.
n = 30 P(Me) = 15,5 Me = 23 197 millions d
P(Q) = 8 Q
1
= 16 667 millions d et Q
3
= 37 200 millions d
cot horaire moyen
cot total
nombre total dheures
----------------------------------------------------
x
0,7x
8
----------
0,3x
10
---------- +
----------------------------
1
0,7
8
-------
0,3
10
------- +
--------------------- 8 51 , = = =
1,12 ( )
2
1,08 ( )
4
1,06 ( )
4
10
1,0798 1,08 =
1,1 ( )
3
1,08 ( )
3
1,07 ( )
4
10
2,2
10
1,0819 1,082 = =
x
y
P283-334-9782100549412.fm Page 292 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES

293


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
3.2. et 3.3. Graphiques SPSS
4. Le diagramme branche et feuille ne peut senvisager que pour des distributions de
population de taille peu leve, contrairement lhistogramme o lhypothse dqui-
rpartition lintrieur des classes nest raliste quavec un effectif suffisant dans cha-
que classe. Cette reprsentation permet de plus de ne pas perdre linformation valeur
par valeur et aussi dtiqueter ventuellement les observations.
La bote de distribution met en vidence une valeur loigne (Carrefour) et une valeur
extrme (TotalFinaElf). Cette distribution asymtrique tale vers les valeurs leves
sera modlise par la loi de Pareto au chapitre 7, IV.B.
5.1. La srie tant ordonne selon le CA, il faut maintenant lordonner selon leffectif
n = 30 P(Me) = 15,5 Me = 120 510
P(Q) = 8 Q
1
= 82 892 et Q
3
= 173 329
5.2. et 5.3. Graphiques SPSS
La bote de distribution met en vidence trois valeurs loignes : Carrefour,
Vivendi Universal et La Poste.
Frequency Stem & Leaf
6,00 1 . 334444
4,00 1 . 5677
6,00 2 . 000123
4,00 2 . 5567
1,00 3 . 0
2,00 3 . 67
3,00 4 . 023
,00 4 .
1,00 5 . 1
1,00 5 . 7
2,00 Extremes (> = 69 486)
Stem width : 10 000
Each leaf : 1 case(s)
Frequency Stem & Leaf
5,00 0 . 02234
5,00 0 . 57899
11,00 1 . 00111222234
4,00 1 . 6789
2,00 2 . 02
3,00 Extremes (> = 313854)
Stem width : 100 000
Each leaf : 1 case(s)
P283-334-9782100549412.fm Page 293 Mercredi, 24. novembre 2010 10:57 10

294



INTRODUCTION LA MTHODE STATISTIQUE

Exercice 1.8

1.

Population

: ensemble des mnages en France en 1999 .

Unit statistique

: un mnage en France en 1999 .

Caractre tudi

: le revenu annuel en euros, hors revenus du patrimoine quantitatif
continu.

2.
3.

Les moyennes ntant pas gales aux centres des classes, lhypothse dquirparti-
tion nest pas justifie.

4.

Indicateurs de tendance centrale : ,

Me

=

D

5

= 20 631, (

D

9

+

D

1

)/2 = 26 973
Indicateur de dispersion :

D

9



D

1

= 39 338
Indicateur de dispersion relative : (

D

9



D

1

)

D

5



1,9

5.

Distribution asymtrique tale vers les valeurs leves, car la mdiane est infrieure
la moyenne (et on a aussi

Me

< (

D

9

+

D

1

)/2). Les distributions de revenus (ou de
salaires) sont toujours asymtriques et tales vers les valeurs leves.

6.

Indicateur de disparit des revenus :

D

9

/

D

1

= 6,4


les 10 % les mieux lotis peroivent plus de 6 fois plus que les 10 % les moins bien
lotis.

7.

16 % des revenus sont perus par les 4 diximes des mnages aux revenus les plus
faibles.

8.

Courbe de concentration ou courbe de Lorenz

F

i

(%) 10 20 30 40 50 60 70 80 90 100

R

i

(%) 12 15 10 16 23 32 43 56 72 100
x
1
10
------ x
i
25 255
i 1 =
10

=
x 25 255
0
10
20
30
40
50
60
70
80
90
100
0 20 10 40 30 60 50 80 70 100 90

P283-334-9782100549412.fm Page 294 Mercredi, 24. novembre 2010 1:12 13
CORRIGS DES EXERCICES

295


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
Lindice de Gini mesure ici la concentration des revenus des mnages. Il est gal au
double de laire comprise entre la courbe de concentration et la bissectrice.
Cet indice est compris entre 0 et 1.
La valeur minimum 0 correspond au cas o la courbe est confondue avec la bissec-
trice et au cas de lquirpartition : tous les individus ont une part gale du revenu.
La courbe sloigne de la bissectrice lorsque lingalit saccrot.
A contrario, si un seul mnage dtient la totalit du revenu, tous les autres ayant un
revenu nul, lindice de Gini vaut 1. Dans cette situation, la courbe est confondue avec
les cts du carr : axe des abscisses et segment vertical reliant le point {100 ; 0} au
point {100 ; 100}.
Exercice 1.9
1. Population : les exploitations agricoles de France mtropolitaine en 1979, 1988, 2000
et 2005
Unit statistique : une exploitation agricole de France mtropolitaine en 1979, 1988,
2000 et 2005
Caractre tudi : la taille de la SAU, variable statistique continue
2. Soit c
1
, c
2
et c
3
les taux annuels moyens de variation au cours de chacune des
3 priodes :
(1 + c
1
)
9
= = (0,80522)
9
c
1
2,4 %
(1 + c
2
)
12
= = (0,65290)
12
c
2
3,5 %
(1 + c
3
)
3
= = (0,96127)
5
c
3
3,9 %
Le taux annuel moyen de variation c de 1979 2005 est une moyenne gomtrique
pondre des 3 taux c
1
, c
2
et c
3
: 1 + c =
1 + c = c

3,2 %
3.
Le nombre des exploitations agricoles diminue, la taille moyenne des SAU augmente,
ainsi que la taille moyenne des exploitations de 50 ha ou plus.
4. Le centre de la dernire classe tant par hypothse la SAU moyenne des exploitations
de 200 ha ou plus est gale en 2005 280 (= 4 762/17). On value ainsi la SAU maxi-
mum approximativement 360 ha.
1979 1988 2000 2005
SAU moyenne 23 28 142 50
SAU moyenne des exploitations de 50 ha ou plus 88 90 106 112
1 017
1 263
-------------
664
1 017
-------------
545
664
---------
1 c
1
+ ( )
9
1 c
2
+ ( )
12
1 c
3
+ ( )
5

26
545
1 263
------------- 26 0,96819
P283-334-9782100549412.fm Page 295 Mercredi, 24. novembre 2010 10:57 10
296

INTRODUCTION LA MTHODE STATISTIQUE


Lhistogramme comporte 6 classes : 6 rectangles de hauteur f
i
/a
i
.
Pour construire un histogramme classes ingales, se reporter la page
EXCELENSE du n 34 de la revue Modulad, Raliser un histogramme
(www.modulad.fr).
Courbe de concentration
Taille de SAU [0, 5[ [5, 20[ [20, 50[ [50, 100[ [100, 200[ [200, 360[
f
i
24,2 19,1 20,0 20,7 12,8 3,1
f
i
/a
i
4,844 1,272 0,667 0,415 0,128 0,019
p
i
(%) 0 24,2 43,3 63,3 84,0 96,9 100
q
i
(%) 0 1,0 5,2 18,7 48,1 82,7 100
f
i
/a
i
P283-334-9782100549412.fm Page 296 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES

297


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
2
Chapitre 2
Exercice 2.1
1. I
A
(p) = 112,5 I
B
(p) = 140 I
C
(p) = 100
2. La moyenne arithmtique des indices lmentaires pondre par la part des dpenses
engages par lentreprise pour chacune des matires premires en 2000, est lindice
de Laspeyres des prix en 2004, base 2000.
Dpense 2000 = 8 000 + 2 000 + 3 000 = 13 000
L
04/00
(p) = 113,8
3. I
A
(q) = 60 I
B
(q) = 100 I
C
(q) = 160
L
04/00
(q) = 89,2
4. Dpense 2004 = 5 400 + 2 800 + 4 800 = 13 000 I
04/00
(v) = 100
5. Taux de variation des prix : 13,8 %
Taux de variation des quantits : 10,8 %
Taux de variation des dpenses : 0 %
La non-variation de la dpense totale sexplique par une compensation entre les vo-
lutions des prix et des quantits consommes : diminution de la quantit de matire
premire A dont le prix a augment, stagnation de la quantit de matire premire B
dont le prix a augment, et augmentation de la quantit de matire premire C dont
le prix a stagn.
Exercice 2.2
1. Soit c le taux annuel moyen de variation pendant entre 1980 et 2000 :
c = 6,1 %
2. CA
2000
= CA
1980
(0,95)
20
3,275 = CA
1980
1,174 I
2000/1980
(CA) = 117,4
Exercice 2.3
Soit c
1
le taux trimestriel moyen de croissance entre le 31 dcembre 1998 et le 30 sep-
tembre 2009 :
(1 + c
1
)
43
= 1,4145 (1,0081)
43
taux trimestriel moyen de croissance = 0,81 %
Soit c
2
le taux annuel moyen de croissance entre le 31 dcembre 1998 et le 30 septembre
2008 :
(1 + c
2
)
10
= 1,3908 = (1,0335)
10
taux annuel moyen de croissance = 3,35 %
Exercice 2.4
1. Indice de valeur de la production des Produits vgtaux
2008/2007
= 99,7
04/00 04/00
04/00 04/00
8 000
13 000
---------------- 112,5
2 000
13 000
---------------- 140
3 000
13 000
---------------- 100 + +
04/00
04/00 04/00
8 000
13 000
---------------- 60
2 000
13 000
---------------- 100
3 000
13 000
---------------- 160 + +
1 c + ( )
20
1,5
168
130
--------- 1 0,06 + ( )
9
3,275 1,061 ( )
20
= = =
P283-334-9782100549412.fm Page 297 Mercredi, 24. novembre 2010 10:57 10
298

INTRODUCTION LA MTHODE STATISTIQUE


Indice de valeur de la production des Olagineux, protagineux
2008/2007
= 103,2
Indice de valeur de la production des Vins
2008/2007
= 97,9
2. volution 2008/2007 des prix la production des Produits vgtaux
= 99,7/103,6 1 0,038 = 3,8 %
volution 2008/2007 des prix la production des Olagineux, protagineux
= 103,2/104,8 1 0,015 = 1,5 %
3. volution 2008/2007 du volume de la production des Vins
= 97,9/103,7 1 0,056 = 5,6 %
4. La diminution en valeur de la production de Produits vgtaux entre 2007 et 2008
est due une diminution des prix qui na pas t totalement compense par laugmenta-
tion du volume de la production.
Laugmentation en valeur de la production des Olagineux, protagineux entre 2007
et 2008 est due laugmentation du volume de la production qui a plus que compens la
diminution des prix.
La diminution en valeur de la production de Vins entre 2007 et 2008 est due une
diminution du volume de la production qui na pas t totalement compense par laug-
mentation des prix.
Exercice 2.5
1. La variation relative de la consommation mdicale entre 1970 et 2000 peut s'crire
sous forme d'indice, elle est alors gale au rapport (multipli par 100) de la consom-
mation en 2000 par la consommation en 1970 : (123,545/6,494)100-1 902,4
2.
Anne Indice 1970 = 100 Anne Indice 1970 = 100 Anne Indice 1970 = 100
1970 100
1971 115,7 1981 545,1 1991 1 346,2
1972 131,9 1982 633,6 1992 1 439,4
1973 151,4 1983 721,4 1993 1 519,2
1974 178,4 1984 800,7 1994 1 568,5
1975 222,5 1985 878,4 1995 1 636,2
1976 258,9 1986 950,2 1996 1 682,2
1977 289,7 1987 997,4 1997 1 710,1
1978 347,2 1988 1 084,7 1998 1 735,8
1979 401,6 1989 1 176,1 1999 1 803,0
1980 465,3 1990 1 261,3 2000 1 902,4
P283-334-9782100549412.fm Page 298 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES

299


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
3
3. et 4.
Pendant la priode 1970-1982, les points sont quasi aligns, le taux annuel de croissance
c de l'indice est donc quasi constant et gal la pente de la droite joignant les deux points
extrmes (cf. figure 1) :

Entre 1982 et 2000, lvolution nest plus exponentielle, mais quasi-linaire avec une
augmentation annuelle moyenne de lindice gale la pente de la droite joignant les deux
points extrmes (cf. figure 2) :
Lindice de la consommation mdicale est pass dune volution exponentielle avec
un taux annuel moyen de croissance de 16,6 % une volution quasi-linaire avec une
augmentation annuelle moyenne gale 70,5 %.
5. Tenir compte de la variation des prix permet de passer dun indice de valeur un
indice de volume et d'valuer le taux annuel moyen de croissance du volume de la
consommation entre 1970 et 1982 en s'affranchissant de l'illusion montaire :

Entre 1982 et 2000, lvolution nest plus exponentielle, mais linaire et on peut cal-
culer laugmentation annuelle moyenne de lindice de volume :
Indice de la consommation mdicale totale
base 100 en 1970
Indice de la consommation mdicale totale
base 100 en 1970
1970 1980 1990 2000 1970 1980 1990 2000
Figure 1 Ordonne logarithme Figure 2 Ordonne arithmtique
1 c + ( )
12
6,336 = c 6,336 1
12
= c 16,6 % =
a CM
2000
CM
1982
( ) CM
1970
( ) 100 18 1902,4 633,6 ( ) 18 70,5 % = =
IndiceCM
82 70
100 3,187 198,8 = c 1,988
12
1 5,9 % = =
( )
2000 1982
1970
82 / 70
00 / 70 82 / 70
82 / 70
1
' 100
5, 584 18
1
18 5, 584
1 1902, 4 633, 6
18 5, 584 3,187
340, 7 198,8 18 7, 9 %
CM CM
a CM
I
Indice CM Indice CM
I
j \
j \

, (
, (
, (
( ,
( ,
j \

, (
( ,
j \

, (
( ,


P283-334-9782100549412.fm Page 299 Mercredi, 24. novembre 2010 10:57 10
300

INTRODUCTION LA MTHODE STATISTIQUE


6. En dflatant, on est pass, sur la priode 1970-1982, dun taux annuel moyen de crois-
sance de 16,6 % pour lindice de valeur un taux annuel moyen de croissance de
5,9 % pour lindice de volume, et sur la priode 1982-2000, dune augmentation
annuelle moyenne de 70,5 % pour lindice de valeur une augmentation annuelle
moyenne de 7,9 % pour lindice de volume.
Chapitre 3
Exercice 3.1
1. Population : 30 000 assurs pour le risque vhicules moteur .
Caractres tudis : puissance fiscale, variable statistique discrte,
Caractres tudis : kilomtrage parcouru la dernire anne, variable statistique continue.
2. Distribution marginale de Y
Daprs lnonc : 1
re
classe [2 ; 10 [ dernire classe [40 ; 50[
= 27 140 km s
Y
= 12 648 km
Me = 20 + 10 = 29,5 milliers de km = 29 500 km
3. La distribution du kilomtrage parcouru par les possesseurs dune voiture dune puis-
sance fiscale dau plus 6 CV est une distribution conditionnelle :
/X 6 = 14 564 km s
Y/X 6
= 9 211 km
Exercice 3.2
1. Population : les 100 salaries femmes et les 140 salaris homme dune entreprise.
Unit statistique : un homme ou une femme parmi les 240 salaris.
Caractres tudis : le salaire mensuel en euros, variable statistique continue,
Caractres tudis : lanciennet exprime en annes, variable statistique continue.
2. Parmi les 50 femmes ayant moins de 8 ans danciennet, 44 gagnent moins de 2 200 :
44 100 / 50 = 88 %
Y milliers de km < 10 [10 ; 20[ [20 ; 30[ [30 ; 40[ 40
f


j
14 % 17 % 20 % 33 % 16 %
6 < 10 [10 ; 20[ [20 ; 30[ [30 ; 40[ 40
Frquence
(%)
41,4 35,0 14,3 9,3 0
y
50 31
20
------------------
Y X
11,6
28
---------- 100
( ,
j \
9,8
28
------- 100
( ,
j \
4,0
28
------- 100
( ,
j \
2,6
28
------- 100
( ,
j \
y
P283-334-9782100549412.fm Page 300 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES

301


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
3
3. Femmes : = 2 000 s
1
548
Hommes : = 2 508 s
2
697,50
Ensemble : = 2 296
4. Moyenne et cart-type de lanciennet des femmes (en annes) : = 9,8 s
Y
6,7
5. Graphe des frquences cumules : ligne brise qui joint les points ( y
i
, F
i
)
6.
7. = r = 0,45
Point dintersection : ( , ) = (2 000 ; 9,8)
y
i
0 4 8 12 20 28
F
i
(%) 0 20 50 70 90 100
1 800 [0 ; 4[ [4 ; 8[ [8 ; 12[ [12 ; 20[ [20 ; 28[
Frquence
(%)
13,3
(8/60)
33,3
(20/60)
16,7
(10/60)
20
(12/60)
16,7
(10/60)
x
1
x
2
x
n
1
x
1
n
2
x
2
+
n
1
n
2
+
-------------------------------------
y
Y X
a
s
Y
s
1
-----
6,7
548
--------- 0,0055 b

y a x 9,8 0,0055 2000 1,2 = =


x y
P283-334-9782100549412.fm Page 301 Mercredi, 24. novembre 2010 10:57 10
302

INTRODUCTION LA MTHODE STATISTIQUE


Exercice 3.3
1. Indice PIB en 1991 = Indice 1990 (1 + variation 1991/100) = 102,6 (1 + 1/100) = 103,6
r = 0,992 1 liaison approximativement linaire
2. et 3.
= 1,09 = 11,40 (rsultat obtenir avec une calculatrice ou avec Excel)
Calcul du coefficient de corrlation linaire et des coefficients de la droite des moin-
dres carrs avec Excel :
r = COEFFICIENT.CORRELATION(D2:D22;E2:E22)
= INDEX(DROITEREG(E2:E22;D2:D22);1)
= INDEX(DROITEREG(E2:E22;D2:D22);2)
La part de variation de Y explique par la relation linaire est gale r
2
, soit 98 %.
X = variation en volume du PIB
Y = variation en volume de la consommation prive
r
2
(X,Y) 0,563 = (0,75)
2

a b

a
b

P283-334-9782100549412.fm Page 302 Mercredi, 24. novembre 2010 10:57 10


CORRIGS DES EXERCICES

303


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
3
Pour obtenir et tracer avec Excel la droite des moindres carrs qui ajuste le nuage de
points :
Onglet Graphique , Ajouter une courbe de tendance , type Linaire , option
Afficher lquation sur le graphique , et Afficher le coefficient de dtermination
(R
2
) sur le graphique
4. Les variables indice de volume du PIB et indice de volume de la consommation prive
sont lies linairement au temps :
r
2
(indice PIB, temps) 0,974
r
2
(indice Consommation, temps) 0,964
La liaison linaire entre ces deux indices est due leur liaison linaire avec une mme
3
e
variable qui est le temps.
Ltude des variations relatives permet dliminer la tendance. On dit alors quon a
stationnaris les sries.
Exercice 3.4
1. 810 / 1 000 = 81 %
2. 440 / 810 = 54,3 %
3.

Profils en ligne en pourcentage :
Pas du tout
satisfait
Plutt pas
satisfait
Plutt
satisfait
Trs
satisfait
Total
> 2 ans danciennet 10 50 245 195 500
2 ans danciennet 40 90 205 165 500
> 2 ans danciennet 2 10 49 39 100
2 ans danciennet 8 18 41 33 100
P283-334-9782100549412.fm Page 303 Mercredi, 24. novembre 2010 10:57 10
304

INTRODUCTION LA MTHODE STATISTIQUE


4.
5.
Exercice 3.5
1. r = 0,928 = 0,018 = 3,513 (utilisation dune calculatrice)
2. = 0,018 x + 3,513
Les deux droites des moindres carrs ont des pentes de mme signe.
3. Recette globale = 1 000 x y 18 x
2
+ 3 513 x
= 18 2x + 3 513 = 0 pour x
c
= 96,3 tonnes
La recette globale est une fonction croissante de x entre [0 , x
c
] et dcroissante pour
x > x
c
la valeur critique que les producteurs ont intrt ne pas dpasser est la valeur :
x
c
= 96,3 tonnes
Exercice 3.6
1. Population : les n mnages (hors tudiants) interrogs pour lenqute logement 1996
de lINSEE.
Unit statistique : un mnage parmi les n mnages interrogs.
Caractres : niveau de vie en F/uc/mois (quantitatif continu), type socio-conomique
(qualitatif).
2. Profils en ligne et profils en colonne, ou distributions conditionnelles selon le niveau
de vie et selon le type socio-conomique.
Profils en colonne
Pas du tout ou plutt satisfait Plutt ou trs satisfait
> 2 ans danciennet 60 440
2 ans danciennet 130 370
Niveau de vie
(en F/uc/mois)
Type socio-conomique
Infrieur
au 1
er
dcile
< 3 700
du 1
er
dcile
au 3
e
quartile
[3 700 ; 9 933[
du 3
e
quartile
au 9
e
dcile
[9 933 ; 13 900[
Au moins
gal au
9
e
dcile
13 900
Ensemble
Communes agricoles
Communes
et quartiers ouvriers
Communes et quartiers des
classes moyennes tertiaires
Communes et quartiers
techniques trs qualifis
Quartiers hupps
22
41
28
3
6
13
41
34
5
6
7
31
39
11
12
5
22
32
13
28
12
37
34
7
9
Ensemble 100 100 100 100 100
n
12
500 810
1 000
---------------------- 405 = =
a b

y
R
x
------
R
x
------
P283-334-9782100549412.fm Page 304 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES

305


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
3
Profils en ligne
3. Quartiers hupps : Me = 9 933 F/uc/mois
4. On peut proposer comme indicateur de disparit : D
9
/D
1
3,76
Nombre sans dimension qui indique que le 9
e
dcile est 3,76 fois plus lev que le
1
er
dcile.
5. ((11 + 12)
.
0,15 + (13 + 28)
.
0,10)/0,25 = 30,2 %
6. = 0,0556 = 5,56 %
= 47,06 %
= 22,19 %
= 25,19 %
Niveau de vie
(en F/uc/mois)
Type socio-conomique
Infrieur
au 1
er
dcile
< 3 700
du 1
er
dcile
au 3
e
quartile
[3 700 ; 9 933[
du 3
e
quartile
au 9
e
dcile
[9 933 ; 13 900[
Au moins
gal
au 9
e
dcile
13 900
Ensemble
Communes agricoles
Communes et quartiers
ouvriers
Communes et quartiers des
classes moyennes tertiaires
Communes et quartiers
techniques trs qualifis
Quartiers hupps
18
11
8
5
6
70
71
65
51
44
8
12
17
25
20
4
6
9
19
30
100
100
100
100
100
Ensemble 10 65 15 10 100
Niveau de vie
(F/uc/mois)
< 3 700 [3 700 ; 9 933[ [9 933 ; 13 900[ 13 900 Total
Frquence (%) 5,56 47,06 22,19 25,19 100
0,05 0,07n 0,06 0,09n +
0,16n
----------------------------------------------------------------
0,51 0,07n 0,44 0,09n +
0,16n
----------------------------------------------------------------
0,25 0,07n 0,20 0,09n +
0,16n
----------------------------------------------------------------
0,19 0,07n 0,30 0,09n +
0,16n
----------------------------------------------------------------
P283-334-9782100549412.fm Page 305 Mercredi, 24. novembre 2010 10:57 10
306

INTRODUCTION LA MTHODE STATISTIQUE


Exercice 3.7
1.

2
=

2
=
2. La courbe de rgression de Y en x est une ligne brise qui joint les points ( x
i
, ), x
i
tant le centre de la i
e
classe de X.
X n
i
= 11,2
Sc
intra
= 656,32
Sc
inter
= 782,6
SC
tot
= 1438,92
[5 ; 7[
[7 ; 9[
[9 ; 11[
[11 ; 13[
[13 ; 15[
[15 ; 17[
[17 ; 19]
12
28
39
54
41
22
4
7,17
9,00
10,00
11,37
12,58
14,36
16,50
27,67
60,00
120,00
206,60
161,95
69,10
11,00
Y n
j
= 11,65
Sc
intra
= 756,24
Sc
inter
= 921,24
SC
tot
= 1677,48
[5 ; 7[
[7 ; 9[
[9 ; 11[
[11 ; 13[
[13 ; 15[
[15 ; 17[
[17 ; 19]
10
32
59
46
36
14
3
6,80
9,30
10,80
12,26
13,90
15,14
17,33
17,60
108,90
312,95
156,87
127,55
29,70
2,67
y
i
y
ij
y
i
( )
2
j 1 =
n
i

y
X/Y
782,6
1 438,92
--------------------- 0,5843 =
x
j
x
ji
x
j
( )
2
i 1 =
n
j

x
X/Y
921,24
1 677,48
--------------------- 0,549 =
y
i
P283-334-9782100549412.fm Page 306 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES

307


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
4
3. Les variables X et Y tant quantitatives, on peut mesurer leur liaison laide du coef-
ficient de corrlation linaire : r
2
= 0,542 = (0,736)
2
On retrouve : 0 r
2
min(
2
;
2
) max(
2
;
2
) 1
Exercice 3.8
1.
2. Distribution conjointe
Eau minrale X
C
Y
C
Arcens
Arvie
Badoit
Beckerich
Chteauneuf
Eau de Perrier
Faustine
La Salvetat
Perrier
Puits St-Georges
Pyrnes
Quzac
San Pellegrino
St-Diry
St-Jean
St-Pierre
St-Yorre
Vernet
Vernire
Vichy-Clestins
Wattwiller
2
1
2
1
3
1
3
1
1
1
1
3
1
1
2
2
3
2
1
3
2
3
4
2
1
4
1
2
1
1
3
1
2
1
3
2
3
4
2
2
4
1
Y
C
X
C
1 2 3 4
1
2
3
6
1
0
1
3
2
2
2
0
1
0
3
10
6
5
Total 7 6 4 4 21
X/Y X/Y X X/Y X/Y
P283-334-9782100549412.fm Page 307 Mercredi, 24. novembre 2010 10:57 10
308

INTRODUCTION LA MTHODE STATISTIQUE


Tableau des profils en ligne
3. Les profils en ligne ntant pas identiques, les deux variables ne sont pas indpen-
dantes.
4. Distribution conditionnelle de X
C
sachant {Y > 300 mg/l} :
Exercice 3.9
1. Taux trimestriel moyen : (1 + c)
11
= 339/117 2,90 = (1,10)
11


c 10 %
2.
2.1. = 16,52 = 98,50
2.2. r = 0,90
Part de variation de Y non explique par le modle = 1 r
2
= 1 0,81 = 19 %
3.
Y
C
X
C
1 2 3 4
1 60 10 20 10 100
2 16,7 50 33,3 0 100
3 10 40 10 60 100
Profil
moyen
33,3 28,6 19,1 19 100
X
C
Effectif
C1
X
3
C2
X
2
C3
X
3
t
2
Nombre de contrats souscrits
111
114
119
116
125
136
149
164
181
100
121
144
117
178
149
189
145
173
170
223
223
281
285
339
b

P283-334-9782100549412.fm Page 308 Mercredi, 24. novembre 2010 10:57 10


CORRIGS DES EXERCICES

309


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
4
3.1. = 1,3 = 135,45
3.2. r = 0,94
Part de variation de Y non explique par le modle = 1 r
2
= 1 0,88 = 12 %
4. Le modle quadratique est prfrable au modle linaire puisque le coefficient de cor-
rlation linaire est plus lev pour ce modle. On peut aussi dire que la part de varia-
tion de Y non explique est plus faible avec ce modle.
Chapitre 4
Exercice 4.1
1 et 2.
La moyenne mobile lisse la srie chronologique, et permet dvaluer la tendance.
Exercice 4.2
1.
b




P283-334-9782100549412.fm Page 309 Mercredi, 24. novembre 2010 10:57 10
310

INTRODUCTION LA MTHODE STATISTIQUE


La srie x
t
est priodique de priode 4.
Toutes les suites de moyennes mobiles sont aussi priodiques de priode 4.
La suite des moyennes mobiles de longueur 4 est constitue de termes constants gaux
la moyenne des termes sur une priode.
2. La moyenne mobile tranforme une srie aligne en elle-mme, donc la srie
y
t
= 10 2t est transforme en elle-mme, et la suite des moyennes mobiles de lon-
gueur 4 de la srie z
t
est gale : 10 2t + 2 = 12 2t (t = 3 10).
Exercice 4.3
1. Le schma additif est adapt puisque les lignes brises qui joignent dune part, les
maxima (distants de 6 dates), et dautre part, les minima (distants de 6 dates) sont
peu prs parallles.
2. 6. La priode du mouvement saisonnier tant gale 6, on value la tendance par la
suite des moyennes mobiles de longueur 6.
t x
t
M
6
(t) x
t
M
6
(t) s
t
s
*
t
CVS Tendance Prvision
Erreur
de prvision
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
13,3
15,1
14,8
16,3
14,8
14,2
13,8
14,2
14,1
17,0
15,2
14,8
14,4
16,0
16,2
18,5
16,2
15,3
15,4
16,8
17,4
19,9
17,9
17,4
14,8
14,7
14,6
14,6
14,7
14,8
14,9
15,1
15,4
15,7
15,9
16,0
16,2
16,3
16,5
16,7
17,0
17,3
1,6
0,0
0,5
0,8
-0,5
0,7
2,1
0,1
0,6
1,3
0,1
0,1
2,3
0,1
1,2
1,3
0,2
0,1
2,0
0,0
0,8
1,2
0,2
0,2
2,0
0,0
0,8
1,2
0,2
0,2
2,0
0,0
0,8
1,2
0,2
0,2
1,1
0,2
0,1
2,0
0,1
0,7
1,1
0,2
0,1
2,0
0,1
0,7
1,1
0,2
0,1
2,0
0,1
0,7
1,1
0,2
0,1
2,0
0,1
0,7
14,4
15,3
14,9
14,3
14,7
14,9
14,9
14,4
14,2
14,9
15,2
15,5
15,5
16,1
16,3
16,4
16,1
16,0
16,5
16,9
17,5
17,9
17,8
18,1
14,0
14,1
14,3
14,5
14,6
14,8
14,9
15,1
15,3
15,4
15,6
15,7
15,9
16,1
16,2
16,4
16,5
16,7
16,9
17,0
17,2
17,3
17,5
17,7
25
26
27
17,2
18,5
18,6
1,1
0,2
0,1
17,8
18,0
18,1
16,7
17,8
18,0
0,5
0,7
0,6
P283-334-9782100549412.fm Page 310 Mercredi, 24. novembre 2010 10:57 10

CORRIGS DES EXERCICES




311


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

4

Coefficients de la droite des moindres carrs ajustant la srie

CVS

:


= 0,16 = 13,82






Les erreurs de prvision tant toujours positives, lerreur absolue moyenne est
gale lerreur moyenne de prvision : = (0,5 + 0,7 + 0,6)/3 = 0,6
Pour tracer avec Excel la droite des moindres carrs qui ajuste la srie CVS : onglet
Graphique , Ajouter une courbe de tendance , type Linaire . On peut utiliser
ensuite longlet Options pour Afficher l'quation sur le graphique et pour
Afficher le coefficient de dtermination (R

2

) sur le graphique .

Exercice 4.4

1.

Sur la reprsentation graphique, on remarque une composante saisonnire de priode 4.

2. 6.
12
14
16
18
20
22
Jv-Fv 2002 Jv-Fv 2004 Jv-Fv 2003 Jv-Fv 2005 Jv-Fv 2006
M
6
(t )
Droite des moindres carrs
Prvision
b

y
t
0,16 t 13,82 + =
x
25
y
25
1,1 16,7 = = x
26
y
26
0,2 17,8 = = x
27
y
27
0,1 18 = =


P283-334-9782100549412.fm Page 311 Mercredi, 24. novembre 2010 1:16 13
312

INTRODUCTION LA MTHODE STATISTIQUE


Calcul des coefficients de la droite des moindres carrs avec Excel

:
= Index(Droitereg(F2:F13;A2:A13);1) = 21,6
= Index(Droitereg(F2:F13;A2:A13);2) = 3 270,8
= 21,6 t + 3 270,8
= (21,6 13 + 3 271) 1,062 = 3 771
= (21,6 14 + 3 271) 0,979 = 3 499
Exercice 4.5
1.
a
b

y
t
x
13
x
14

P283-334-9782100549412.fm Page 312 Mercredi, 24. novembre 2010 10:57 10

CORRIGS DES EXERCICES




313


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

5

Jusquau 6

e

mois inclus :
partir du 7

e

mois :

2.

Une constante de lissage leve jusquau 6

e

mois inclus permet un taux de rponse
plus rapide au changement de niveau du dbut de la chronique.

3.

Erreur moyenne = 0,56
Erreur absolue moyenne = 1,48
Erreur quadratique moyenne = 3,09

4.

Sous lhypothse dune srie sans tendance, la demande est suppose constante. Les
prvisions de la demande pour les mois 16, 17 et 18 sont gales 41,4 units.

Exercice 4.6

1.

Cette chronique a une composante saisonnire de priode 4 et une tendance approxi-
mativement constante sur la priode 2002-2005. Les deux schmas de composition
peuvent tre envisags. Nous choisissons le schma additif.

2.

Pour une chronique avec une composante saisonnire de priode 4, la moyenne
mobile de longueur 4 limine la saisonnalit et permet dvaluer la tendance.
x
t
0,6 x
t
0,4 x
t 1
+ =
x
t
0,3 x
t
0,7 x
t 1
+ =
80
90
100
110
120
130
140
1
er
trimestre 2003 1
er
trimestre 2005
M
4
(t)

P283-334-9782100549412.fm Page 313 Mercredi, 24. novembre 2010 1:17 13

314



INTRODUCTION LA MTHODE STATISTIQUE

3. 5.

La srie

CVS

pouvant tre considre sans tendance, on peut utiliser le lissage expo-
nentiel simple.
Aprs avoir resaisonnalis les prvisions obtenues avec le

LES

, on obtient les prvi-
sions de lindice trimestriel pour les deux premiers trimestres 2006 quon peut com-
parer aux observations.
On obtient :
Erreur moyenne de prvision = Erreur absolue moyenne de prvision = 1,55

t x

t

M

4

(

t

)

x

t



M

4

(

t

)

s

t

CVS LES

(



= 0,3) Prvision Erreur
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
94,2
105,3
103,5
127,5
98,3
103,8
115,7
125,5
100,9
110,7
106,6
126,3
98,7
109,8
110,8
129,4
108,12
108,44
109,78
111,06
111,14
112,34
112,07
111,03
110,30
108,78
107,71
107,46
4,65
19,03
11,48
7,30
4,56
13,16
11,17
0,30
3,70
17,52
13,48
2,20
12,04
3,26
1,26
16,57
12,04
3,26
1,26
16,57
12,04
3,26
1,26
16,57
12,04
3,26
1,26
16,57
106,3
108,5
104,7
110,9
110,3
107,0
117,0
108,9
112,9
114,0
107,9
109,7
110,8
113,0
112,1
112,8
106,3
107,0
106,3
107,7
108,5
108,0
110,7
110,2
111,0
111,9
110,7
110,4
110,5
111,3
111,5
17
18

100,8
110,8
111,5
111,5

1

99,9
108,6
0,9
2,2
80
90
100
110
120
130
140
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
LES
CVS
Prvision

P283-334-9782100549412.fm Page 314 Mercredi, 24. novembre 2010 1:18 13
CORRIGS DES EXERCICES

315


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
5
Chapitre 5
Exercice 5.1
a) 75/120 = 0,625
b) 50/120 0,417
c) 45/120 = 0,375
d) 100/120 0,833
Exercice 5.2
A = tre all en Espagne B = Avoir pris lavion
P(A) = 0,6
P(B) = 0,45
P( ) = 0,25
P( ) = P( ) = 1 P( )
= 1 (P(A) + P(B) P( )) = 0,2
Exercice 5.3
1. A = Lire Notre Campus B = Lire la Vie tudiante
P(A) = 23 522/32 564 0,722
P(B) = 18 859/32 564 0,579
P( ) = 11 422/32 564 0,351
a) P( ) = P( ) = 1 P( ) = 1 (P(A) + P(B) P( )) 0,05
b) P( ) = P(A) P( )) 0,371
2. a) 0,05
2
= 0,0025
b) 0,351 0,05 0,018
Exercice 5.4
n = 2 : 4 vnements lmentaires { P,P}, {P,F}, {F,P}, {F,F}
P(A) = 3/4 P(B) = 1/2 P( ) = 1/2 P(A) P(B)
A et B non indpendants
n = 3 : 8 vnements lmentaires
{P,P,P}, {P,P,F}, {P,F,P}, {P,F,F}, {F,P,P}, {F,P,F}, {F,F,P}, {F,F,F}
P(A) = 1/2 P(B) = 3/4 P( ) = 3/8 = P(A) P(B)
A et B indpendants
et si on continue, on peut montrer que A et B ne sont indpendants que pour n = 3
Exercice 5.5
1. Il y a 2
5
familles diffrentes de 5 enfants et familles de 5 enfants avec 3 filles et
2 garons. Par hypothse toutes les familles sont quiprobables :
A B
A B A B A B
A B
A B
A B A B A B A B
A B A B
A B
A B
5
3 ( ,
j \
P283-334-9782100549412.fm Page 315 Mercredi, 24. novembre 2010 10:57 10
316

INTRODUCTION LA MTHODE STATISTIQUE


P(trois filles et deux garons) = = = = 0,3125
2. Toutes les familles ne sont plus quiprobables. On a une probabilit gale
(0,48)
3
(0,52)
2
davoir une famille de 5 enfants avec 3 filles et 2 garons, et toutes
les familles tant incompatibles, on a :
P(trois filles et deux garons) = (0,48)
3
(0,52)
2
= 0,299
Exercice 5.6
1. E(X) = 5/3 = 1,667
X
= 0,943 (utiliser les fonctions statistiques dune calculatrice)
E((X)) = 600 E(X) 800 = 200
(X)
= 600
X
= 565,68
Signification de lesprance du profit : sur un trs grand nombre de jours, la moyenne
du profit sera voisine de 200 .
2. Loi de probabilit du profit :
Fonction de rpartition du profit : fonction en escalier, continue droite, les points de
discontinuit correspondant aux valeurs possibles du profit.
Exercice 5.7
1. E(B) = 0 0,6 + 500 0,25 + 1 500 0,1 + 2 500 0,05 = 400
Pour esprer un bnfice moyen de 50 par assur, le montant de la cotisation
doit tre fix 450
valeur de X 0 1 2 3
valeur de 800 200 400 1 000
Probabilit 1/6 1/6 1/2 1/6
z < 800 [ 800 , 200[ [ 200, 400[ [400, 1 000[ 1 000
F

(z) = P( z) 0 1/6 2/6 5/6 1


nombre de cas favorables
nombre de cas possibles
-------------------------------------------------------------
5
3 ( ,
j \
2
5
--------
10
32
------
5
3 ( ,
j \
F

(z)
0,2
0,4
0,6
0,8
1
1 000 800 600 400 200 0
0
200 400 600 800 1 000 1 200 1 400
z
P283-334-9782100549412.fm Page 316 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES

317


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
5
2. Le montant encaiss de la part de deux assurs est gal 900 .
Il faut quau plus un seul des deux assurs ait un sinistre, et le rglement de ce
sinistre ne peut pas dpasser 500
La probabilit demande est gale : 0,6
2
+ 2 0,6 0,25 = 0,66
Exercice 5.8
1. E(X) = 1,1 var(X) = 0,69 (utiliser les fonctions statistiques dune calculatrice)
2. valeurs possibles de Y : {0, 1, 2, , 24}
car les v.a. X
i
sont indpendantes

car les X
i
sont indpendantes
3.1.
3.2.
P(Z = 0) = P({(Z = 0) (X = 0)} {(Z = 0) (X = 1)} {(Z = 0) (X = 2)})
= 1 0,3 + 0,1 0,3 + 0,01 0,4 = 0,334
P(Z = 1) = 0,6 0,3 + 0,12 0,4 = 0,228
P(Z = 2) = 0,3 0,3 + 0,42 0,4 = 0,258
P(Z = 3) = 0,36 0,4 = 0,144
P(Z = 4) = 0,09 0,4 = 0,036
E(Z) = 1,32 var(Z) 1,39 (utilisation dune calculatrice)
Exercice 5.9
Appelons D lvnement :
{une pellicule tire au hasard dans la production est dfectueuse}
P(D) = P({D et machine A} {D et machine B} {D et machine C})
Z
X
0 1 2 3 4
0
1
2
1
0,1
0,1
2
0,01
0
0,6
2 0,6 0,1
0,12
0
0,3
2 0,3 0,1 + 0,6
2
0,42
0
0
2 0,6 0,3
0,36
0
0
0,3
2
0,09
Y X
i
i 1 =
12

=
E Y ( ) E X
i
( ) 12 1,1 13,2 = =
i 1 =
12

=
var Y ( ) var X
i
( ) 12 0,69 8,28 = =
i 1 =
12

=
P Y 0 = ( ) P X
i
0 =
i 1 =
12

( ,
j \
P X
i
0 = ( )
i 1 =
12

0,3
12
5,3 10
7
= = = =
}}}}}
P283-334-9782100549412.fm Page 317 Mercredi, 24. novembre 2010 10:57 10
318

INTRODUCTION LA MTHODE STATISTIQUE


Les 3 vnements tant incompatibles :
P(D) = P(D A) + P(D B) + P(D C) = 0,2 0,06 + 0,5 0,05 + 0,3 0,03 = 0,046
P( ) = P( ) P(A) P(D) = 0,261
P( ) = P( ) P(A) P(D) = 0,94 0,2/0,954 = 0,197
Exercice 5.10
1.
a + b = = a = = b = a
2.
Puisque X et Y sont indpendantes, les lois conditionnelles de X pour les diffrentes
valeurs de Y sont identiques la loi marginale de X.
3.
E(X) = E(Y) = u + E(X Y) = +
Si = 0, alors cov( X, Y) = 0 :
E(X Y) = + = E(X) E(Y) =
2u u = 1 u = 0,5
Y
X
u 0 1 Loi de Y
0
1
1/4
1/5
a
b
1/8
1/10
15/40 + a
12/40 + b
Loi de X 18/40 a + b 9/40 27/40 + a + b
X 0 1
P
Y
X
u 0 1 Loi de Y
0
1
1/4
1/5
1/5
1/8
1/8
1/10
23/40
17/40
Loi de X 18/40 13/40 9/40 1
A D D A
A D D A
13
40
------
18
40
------
15
40
------ a +
( ,
j \
1
4
---
10
18
------
15
40
------
13
72
------
13
90
------
15
40
------ a +
40
72
------
5
9
--- = =
12
40
------ b +
40
90
------
4
9
--- = =
17
40
------
18
40
------
9
40
------
u
5
---
1
10
------
u
5
---
1
10
------
17
40
------
18
40
------ u
9
40
------ +
( ,
j \
17 18
160
----------------
17 9
160
-------------
P283-334-9782100549412.fm Page 318 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES

319


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
6
Exercice 5.11
1.
Toutes les probabilits devant tre comprises entre 0 et 1, on doit avoir :
{
0 p 1
p 1/2
0 p 1/3
p 1/3
p 5/6
2. E(X) = 1/2 E(Y) = 4/3 E(X Y) = 2 ( p + 1/6)
cov(X, Y) = 2 ( p + 1/6) 2/3 = 2 p 1/3
E(X
2
) = 1/2 E(Y
2
) = 8/3 var(X) = 1/4 var(Y) = 8/9
(X, Y) =
Chapitre 6
Exercice 6.1
1. Au i
e
individu (i = 1 10), on associe une variable de Bernoulli :
X
i
=

{
1 si i
e
individu gaucher p = 0,1
0 sinon q = 0,9
Soit Y, le nombre de gauchers parmi les 10 individus :
Y est une somme de 10 v.a. indpendantes de Bernoulli de mme paramtre p = 0,1
Y = (10 ; 0,1)
On utilise les tables de la loi Binomiale pour calculer les probabilits :
P(Y 1) = 1 P(Y = 0) = 1 0,3486 = 0,6514 P(Y 3) = 0,9872
2. Pour que chacun des 10 membres du personnel trouve une paire de ciseaux sa con-
venance, il faut que le nombre de gauchers soit au plus gal 3 et au moins gal 1 :
P(1 Y 3) = P(Y 3) P(Y < 1) = P(Y 3) P(Y = 0) = 0,9872 0,3486 = 0,6386
Y
X
0 1 Loi de X
0
1
p
1/3 p
1/2 p
1/6 + p
1/2
1/2
Loi de Y 1/3 2/3 1
2p 1 3
1
2
---
2 2
3
----------
----------------------
6p 1
2
--------------- =
X
i
i 1 =
10

P283-334-9782100549412.fm Page 319 Mercredi, 24. novembre 2010 10:57 10


320

INTRODUCTION LA MTHODE STATISTIQUE


3.
En utilisant la table dune loi binomiale de paramtres 10 et 0,1, on dduit la loi de Z :
Les probabilits associes aux valeurs 3, 4, 5 et 6 sont ngligeables.
Exercice 6.2
1. Au i
e
assur (i = 1 10 000), on associe une variable de Bernoulli :
X
i
=

{
1 si i
e
assur a un accident de ce type p = 1/5 000
0 sinon q = 1 p
Soit Y, le nombre daccidents par an parmi les 10 000 assurs.
On suppose les X
i
indpendantes, Y est alors une somme de 10 000 v.a. indpendantes
de Bernoulli de mme paramtre p = 1/5 000 :
Y = (10 000 ; 1/5 000) (2)
n > 50 et p < 0,1
P(Y 3) = 0,8571 (lecture de table)
Exercice 6.3
1. la i
me
machine (i = 1,2), on associe :
X
i
=

{
1 si i
me
machine disponible p = 0,9
0 sinon
Le nombre Y de machines disponibles un jour quelconque est une somme de 2 v.a.
indpendantes de Bernoulli de mme paramtre p = 0,9 Y (2 ; 0,9)
2.1.
Y 0 1 2 3 4 5 6 7 8 9 10
Z 9 10 10 10 9 8 7 6 5 4 3
Z 7 8 9 10
P 0,0001 0,0015 0,3599 0,6385
Valeurs de Y 0 1 2
Probabilit 0,01 0,18 0,81
Valeurs de N
Z
Y
0 1 2 3
0
1
2
0
0
0
0
1
1
0
1
2
0
1
2
X
i
i 1 =
10 000

P283-334-9782100549412.fm Page 320 Mercredi, 24. novembre 2010 10:57 10


CORRIGS DES EXERCICES

321


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
6
2.2.
P(N = 2) = P({Y = 2 Z = 2} {Y = 2 Z = 3})
= P({Y = 2 Z = 2}) + P({Y = 2 Z = 3)
= P(Y = 2) ( P(Z = 2) + P(Z = 3)) = 0,81 0,7 = 0,567
P'(N = 1) = 0,18 (0,2 + 0,4 + 0,3) + 0,81 0,2 = 0,324
P'(N = 0) = 1 0,324 0,567 = 0, 109
E(N) = 1,458 Marge brute moyenne = 29,16
3. Y dsigne maintenant le nombre de machines tombant en panne au cours de la 1
re
anne.
X
i
=

{
1 si i
e
machine en panne au cours de la 1
re
anne p = 0,05
0 sinon
(i = 1, , 60)
Hypothse : les 60 v.a. de Bernoulli sont indpendantes
Y est une somme de 60 v.a. indpendantes de Bernoulli de mme paramtre p = 0,05
Y = (60 ; 0,05) (3)
n > 50 et p < 0,1
i) On a en moyenne 3 pannes puisque E(Y) = 3. En cas de machines non garanties, le
cot moyen est donc gal : 3 200 = 600 .
Le discount tant de 1 200 , on choisit le discount.
ii) La remise est infrieure au cot de rparation si plus de 6 machines tombent en
panne :
P(Y > 6) = 1 P(Y 6) = 1 0,9665 = 0,0335 > 1 %
on choisit la garantie pour chaque machine.
Exercice 6.4
1. chaque essai, on peut associer une v.a. de Bernoulli de paramtre 0,95. Le nombre
dessais Y ncessaires pour se connecter 5 fois suit une loi de Pascal de paramtres
K = 5 et p = 0,95. Appliquons les rsultats du cours :
E(Y) = var(Y) =
2. Pour avoir {Y = 5}, il faut stre connect les 5 fois avec succs :
P(Y = 5) = (0,95)
5
0,774
La v.a. Y peut prendre toutes les valeurs entires au moins gales 5 :
P(Y > 6) = 1 P(Y = 5) P(Y = 6) = 1 0,774 5 (0,95)
5
0,05 = 0,0325
Exercice 6.5
1. Lorsque X
t
= x, le nombre de demandes satisfaites Y
t
peut prendre toutes les valeurs
entires de 0 x, et chaque demande est satisfaite avec une probabilit (1 ).
{ = x} (x ; 1 )
Valeurs de N 0 1 2
Probabilit 0,109 0,324 0,567
X
i
i 1 =
60

K
p
----
5
0,95
---------- 5,26 = =
K 1 p ( )
p
2
-------------------------- 0,277 =
Y
t
X
t
P283-334-9782100549412.fm Page 321 Mercredi, 24. novembre 2010 10:57 10
322

INTRODUCTION LA MTHODE STATISTIQUE


2. P(Y
t
= k) = P({Y
t
= k} {X
t
k}) = (Y
t
= k X
t
= x) P(X
t
= x)
=
=
=
=
Y
t
((1 ) )
3. = 10 et = 0,2 Y
t
(8) P(Y
t
< 8) = 0,4530
P(3 < Y
t
10) = P(Y
t
10) P(Y
t
3) = 0,8159 0,0424 = 0,7735
Exercice 6.6
1. la i
e
minute (i = 1 30), on associe :
X
i
=

{
1 si vente i
e
minute p = 0,01
0 sinon q = 0,99
Soit Y, le nombre dunits vendues en 30 min.
Y est une somme de 30 v.a. indpendantes de Bernoulli de mme paramtre p = 0,01
Y = (30 ; 0,01) P(Y 3) = 1 P(Y 2) = 1 0,9967 = 0,0033
2. Le magasin est ouvert 7 h 30 par jour, donc 450 min par jour.
Z = nombre dunits vendues par jour = (450 ; 0,01) E(Z) = 4,5
Z (450 ; 0,01) (4,5)
n > 50 et p < 0,1
3. P(Z > 8) = 1 P(Z 8) = 1 0,9597 = 0,0403
Exercice 6.7
1. X (5) P(X 2) = 0,1247
P({X 2} {X 6}) = 0,1247 + 1 0,6160 = 0,5087
2. Y = X
1
+ X
2
(10), car Y est somme de deux v.a. de Poisson indpendantes
P(Y = 10) = 0,5831 0,4580 = 0,1251
P
x k

x
k ( ,
j \
1 ( )
k

x k
e

( )
x
x!
-----------
x k

e

x!
k! x k ( )!
------------------------ 1 ( )
k

x k
( )
x
x!
-----------
x k

=
e

1
k! x k ( )!
------------------------
1

------------
( ,
j \
k
( )
x

x k

e

k!
---------
1

------------
( ,
j \
k

1
x k ( )!
------------------ ( )
k

x k

=
e

k!
---------
1

------------
( ,
j \
k
( )
k

( )
x
x!
-------------------
x 0

e

1 ( ) ( )
k
k!
-------------------------------- e

=
e
1 ( )
1 ( ) ( )
k
k!
--------------------------------
( ,
, (
j \
X
i
i 1 =
30

X
i
i 1 =
450

P X 6 X 2
P 2 X 6 ( )
P X 2 ( )
-------------------------------
P X 6 ( ) P X 2 < ( )
1 P X 2 < ( )
--------------------------------------------------
0,7622 0,0404
1 0,0404
-------------------------------------- 0,7522 = = = =
P283-334-9782100549412.fm Page 322 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES

323


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.
7
3. P(X 3) = P({X 3 = 6} {X 3 = 8} = P({X 3 = 6} + P({X 3 = 8})
= P({X 3 = 6} P( = 6) + P(X 3 = 8) P( = 8) = 0,938 2 / 3 + 0,9862 / 3 0,954
Exercice 6.8
1.
Y est somme de 1 000 v.a. de Bernoulli de mme paramtre p = 0,0025 quon sup-
pose indpendantes.
(1 000 ; 0,0025) E (Y) = 2,5 var (Y) 2,5
2. (1 000 ; 0,0025) (2,5)
n > 50 p < 0.1
P (3 < Y < 7) = P (Y 6) P (Y 3) = 0,9858 0,7576 = 0,2282
3. P (Y 8) = 0,9989 La capacit du service de maintenance doit au moins
gale 8 autobus pour que la probabilit que toutes les pannes soient traites dans la
journe, soit au moins gale 0,998.
4. P (Y > 6) = 1 P (Y 6) = 1 0,9858 = 0,0142
5. (365 ; 0,0142) (5,183)
n > 50 p < 0.1
P (Z = 0) = e
5,183
0,0056
Exercice 6.9
1. X
1
(3) X
2
(2)
X
1
et X
2
indpendantes Y = X
1
+ X
2
(5)
2. P (Y = 8) = 0,0653
3.
=
Exercice 6.10
1. Var (X) = 0,6079
2. Variable discrte :
les valeurs possibles sont les nombres entiers positifs ou nuls ;
la moyenne est peu diffrente de la variance.
X
i
1 si i
e
autobus en panne p 0,0025 =


0 sinon q 0,9975 =



=
Y X
i
i 1 =
1 000

=
Y X
i
i 1 =
1 000

=
Z X
i
i 1 =
365

=
P X
1
5 = Y 8 = ( )
P X
1
5 = x
2
3 = ( )
P Y 8 = ( )
---------------------------------------------------------------- =
P X
1
5 = X
2
3 = ( )
P Y 8 = ( )
--------------------------------------------------------------
0,1008 0,1804
0,0653
------------------------------------- 0,2785 = =
x 0,61 =

P283-334-9782100549412.fm Page 323 Mercredi, 24. novembre 2010 10:57 10

324



INTRODUCTION LA MTHODE STATISTIQUE

On a une variable discrte valeurs positives ou nulles avec une moyenne quasi-gale
la variance. On peut envisager une loi de Poisson


(0,61). La comparaison des
diagrammes en btons des distributions observe et thorique montre une excellente
adquation.

C

hapitre 7

Exercice 7.1

1.

X



(45 ; 4)

P

(

X

< 39) =

F

U

((39 45)/4) =

F

U

( 1,5) = 1

F

U

(1,5) = 1 0,9332 = 0,0668

P

(

X



48) = 1

P

(

X

< 48) = 1

F

U

(0,75) = 1 0,7734 = 0,2266

P

(39 <

X

< 48) =

P

(

X



48)

P

(

X



39) = 0,7734 0,0668 = 0,7066

2.

P

(

X



m



) =

P

(

m





m

+


) =

F

U

(1)

F

U

( 1) = 2

F

U

(1) 1 = 0,6826
(en fait, rsultat de cours : II.C)

3.

Puisque

m

= 45 et


= 4, on a : {41


49}


{

m







m

+


}

P

(41


49



X



39) =

P

({41


49}


{

X



39})/

P

(

X



39)
=

P

(41


49)/

P

(

X



39)
= 0,6826 / 0,9332 = 0,7315

Nombre de dcs

x

k

0 1 2 3 4 5 o u + Total
Cumul des annes

n

k

109 65 22 3 1 0 200
Probabilit


(0,61) 0,5434 0,3314 0,1011 0,0206 0,0031 0,0004 1
Nombre thorique

n

*

k

108,7 66,3 20,2 4,1 0,6 0,1 200
0
20
40
60
80
100
120
Observ
Thorique
1 3 2 5 ou + 4

P283-334-9782100549412.fm Page 324 Mercredi, 24. novembre 2010 1:19 13

CORRIGS DES EXERCICES




325


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

7
Exercice 7.2

1.

P

(

X



2 400) =

F

U

((2 400

m

)/


) = 0,0228


(2 400

m

)/


= 2

P

(

X

> 3 000) = 0,0446




P

(

X



3 000) = 0,9554


(3 000

m

)/


= 1,7
On rsout un systme de 2 quations 2 inconnues :

m



2 724


162


(2 724 ; 162)

2.

Soit

X

i



le gain du

i

e

mois, par hypothse, les

X

i

sont

iid



X

(

iid

pour indpendants
et identiquement distribus ).
La v.a.

Y

gale au gain pendant trois mois est une somme de 3 v.a. normales indpen-
dantes et par consquent, suit une loi normale :

Y

=


(3

m

;


), soit :


(8 172 ; 280,6)

3.

P

(

Y

> 8 700) = 1

F

U

(528/280,6) = 1

F

U

(1,88) = 1 0,9699 = 0,301

Exercice 7.3

1.

p

=

P

(

X

> 2,5) = 1

P

(

X



2,5) = 1

F

U

(1,67) = 1 0,9525 = 0,0475


0,05

2.

la

i

e



imprimante tire, on associe une v.a. de Bernoulli

X
i

de paramtre 0,05 :

X

i

=


{

1 si dure de vie > 2,5 millions de pages
0 sinon




Y

est une somme de 60 v.a. indpendantes de Bernoulli de mme paramtre

p

(les

X
i

sont considres indpendantes puisque les imprimantes ont t tires au
hasard dans une production suppose suffisamment importante pour avoir un taux de
sondage

n/N infrieur 10 %)
Y = (60 ; 0,05) (3)
n > 50, p < 0,1
3. En utilisant les tables de la loi de Poisson, on obtient :
P(Y = 6) = 0,9665 0,9161 = 0,0504
P(Y 3) = 1 P(Y 2) = 1 0,4232 = 0,5768
Exercice 7.4
1. P(75 X 125) = F
U
(1) F
U
( 1) = 0,6826
en fait : P(75 X 125) = P( X m )
P(X > 150) = 1 F
U
(2) = 1 0,9772 = 0,0228
en fait : P(X > 150) = P(X > 2)
2. P(X > n
1
) = 0,9 F
U
= 0,1 = 1,2816 n
1
68
P(X < n
2
) = 0,4 F
U
= 0,4 = 0,2533 n
2
94
X
i
i 1 =
3

3
X
i
i 1 =
60

n
1
100
25
--------------------
( ,
j \
n
1
100
25
--------------------
n
2
100
25
--------------------
( ,
j \
n
2
100
25
--------------------

P283-334-9782100549412.fm Page 325 Mercredi, 24. novembre 2010 10:57 10

326



INTRODUCTION LA MTHODE STATISTIQUE

3.

On cherche

a

tel que :

P

(

X



m

<

a

) = 0,9




a

= 41,125


[

m



a

;

m

+

a

] = [58,87 ; 141,13]

Exercice 7.5

1.

Soit

X
i

la variable alatoire de Bernoulli associe la

i

e

bouteille grand cru achete :

X

i

=


{

1 si

i

e

bouteille vin courant

p

= 0,12
0

q

= 0,88

i

= 1, , 200
Le nombre

Y

de bouteilles de vin courant parmi les 200 bouteilles achetes est gal
la somme des 200 variables de Bernoulli

X
i

:

Y

=
Les 200 bouteilles tant supposes tires au hasard dans lensemble des bouteilles
grand cru avec un taux de sondage infrieur 10 %, la v.a.

Y

suit une loi binomiale

B

(200 ; 0,12).

E

(

Y

) =

np

= 24 var(

Y

) =

npq

= 21,12
Puisque

npq

= 21,12 > 18, la loi de

Y

peut tre approche par la loi normale


(24 ; 4,6).

2.

Comme on approxime une loi discrte par la loi normale, on fait la correction de
continuit :

P(Y > 20) = 1 P(Y 20) = 1 F
U
{(20 + 0,5 24)/4,6} = 1 F
U
( 0,76) = 0,7764
P(Y < 30 Y > 20) =
P(Y<30 Y>20) =
3. Les bouteilles de type courant, en nombre Y, occasionnent une perte unitaire de 1,5 .
Les bouteilles rellement grand cru , en nombre (200 Y), crent un bnfice uni-
taire de 2,50 (= 6 3,5). Donc, au total :
Bnfice = 2,5 (200 Y) 1,5Y = 500 4Y P(Bnfice > 0) = P(Y < 125) 1
Exercice 7.6
1. Sachant que la probabilit dune runion de 2 vnements incompatibles est gale
la somme des probabilits de ces vnements, on a :
P(A) = P({vrais jumeaux et 2 garons} {faux jumeaux et 2 garons})
= P(vrais jumeaux et 2 garons) + P(faux jumeaux et 2 garons)
P(A) = P(2 G vrais jumeaux) P(vrais jumeaux) + P(2 G faux jumeaux) P(faux jumeaux)
P(A) = /2 + (1 )/4 = ( + 1)/4 = P(B)
P(C) = P({faux jumeaux} {1 garon et 1 fille})
= P(1 garon et 1 fille faux jumeaux) P(faux jumeaux) = (1 )/2
P
X m

-----------------
a

--- <
( ,
j \
0,9 = 2F
U
a

---
( ,
j \
1 0,9 =
F
U
a

---
( ,
j \
0,95 =
a

--- 1,645 =
X
i
i 1 =
200

P 20 Y 30 < < ( )
P Y 20 > ( )
-------------------------------------
P Y 30 < ( ) P Y 20 ( )
0,7764
-------------------------------------------------------- =
F
U
1,2 ( ) F
U
0,76 ( )
0,7764
----------------------------------------------------
0,8849 0,2236
0,7764
--------------------------------------- 0,8517 = =

P283-334-9782100549412.fm Page 326 Mercredi, 24. novembre 2010 10:57 10

CORRIGS DES EXERCICES




327


D
u
n
o
d
.

L
a

p
h
o
t
o
c
o
p
i
e

n
o
n

a
u
t
o
r
i
s

e

e
s
t

u
n

d

l
i
t
.

7

2.

la

i

e

naissance, on associe :

X

i

=


{

1 si

i

e

naissance avec 1

G

et 1

F



p

= (1


)/2
0 sinon




Y

est une somme de 1 000 v.a. indpendantes de Bernoulli de mme paramtre

p




Y

=


(1 000 ; (1


)/2)

E

(

Y

) = 500 (1


) var(

Y

) = 250 (1


2

)

3.

Si


= 0,35 :

Y



(1 000 ; 0,325)


(325 ; 14,8)

npq

>18

P

(

Y

> 300) = 1

P

(

Y



300)


1

F

U

=

F

U

(1,69)


0,9545

P

(310


350) =

P

(

Y



350)

P

(

Y

< 310)
=

F

U

(1,69)

F

U

( 1,01) = 0,9545 (1 0,8438) = 0,7983




P

(310


350



Y

> 300) =

P

({310




Y 350} {Y > 300})/P(Y > 300)
= 0,7983/0,9545 0,836