Académique Documents
Professionnel Documents
Culture Documents
Statistique
Statistique
la mthode
statistique
Manuel et exercices corrigs
Bernard Goldfarb
Catherine Pardoux
6e dition
V. Bilan 37
Testez-vous 39
Exercices 41
2. Indices statistiques 47
I. Indices lmentaires 47
A. Dfinition 47
B. Proprits 48
Annexes 335
I. Formulaire lmentaire de combinatoire 335
A. Ensemble des parties dun ensemble 335
B. Arrangements avec rptition 335
C. Permutations 336
D. Arrangements sans rptition 336
E. Combinaisons sans rptition 337
F. Coefficients multinomiaux 339
Bibliographie 361
Index 371
Avant-propos
Tout le monde sait et dit que celui qui observe sans ide, observe en vain.
lments de philosophie, Alain (1868 1951)
Dans cette sixime dition, nous avons maintenu toute notre attention sur
les visualisations, ainsi que sur la pratique et lutilisation du tableur Excel
largement rpandu.
AVANT-PROPOS IX
P009-010R-9782100549412.fm Page X Jeudi, 18. novembre 2010 12:00 12
1. D istributions
statistiques
un caractre
Le savant doit ordonner ; on fait la science avec des faits
comme une maison avec des pierres ;
mais une accumulation de faits nest pas plus une science
quun tas de pierres nest une maison.
La Science et lhypothse, Henri Poincar (1854-1912)
L
a statistique descriptive est un ensemble de mthodes permettant
de dcrire, prsenter, rsumer des donnes souvent trs nom-
breuses. Ces mthodes peuvent tre numriques (tris, laboration
de tableaux, calcul de moyennes) et/ou mener des reprsentations
graphiques.
I. Dfinitions
A. Population, individu, chantillon
Dunod. La photocopie non autorise est un dlit.
Une population est lensemble des lments auxquels se rapportent les don-
nes tudies. En statistique, le terme population sapplique des ensem-
bles de toute nature : tudiants dune acadmie, production dune usine,
poissons dune rivire, entreprises dun secteur donn
Des enqutes de lOffice statistique des communauts europennes don-
nent la dure hebdomadaire moyenne du travail des salaris temps com-
plet pour 15 pays membres. Les rsultats de ces enqutes ne donnent pas
dinformation atomise un niveau plus bas que le pays ; la population
de rfrence nest donc pas ici lensemble (plusieurs millions) de tous les
salaris des 15 pays. Ltude de ces 15 observations concerne un ensemble
B. Variables
Chaque individu dune population peut tre dcrit selon une ou plusieurs
variables qui peuvent tre des caractristiques qualitatives ou prendre des
valeurs numriques.
Une variable est dite qualitative si ses diffrentes ralisations (modalits)
ne sont pas numriques. Ainsi : le sexe, la situation matrimoniale, la catgorie
socioprofessionnelle sont des variables qualitatives. On peut toujours rendre
numrique une telle variable en associant un nombre chaque modalit ; on
dit alors que les modalits sont codes. Bien entendu, les valeurs numriques
nont dans ce cas aucune signification particulire, et effectuer des oprations
algbriques sur ces valeurs numriques na pas de sens.
Une variable est dite quantitative lorsquelle est intrinsquement numri-
que : effectuer des oprations algbriques (addition, multiplication) sur une
telle variable a alors un sens. Une variable quantitative peut tre une variable
statistique discrte ou continue.
Les variables statistiques discrtes sont des variables qui ne peuvent pren-
dre que des valeurs isoles, discrtes. Le nombre denfants dune famille, le
nombre de ptales dune fleur, le nombre de buts marqus lors dune rencon-
tre de football sont des variables quantitatives discrtes. Le plus frquem-
ment, les valeurs possibles sont des nombres entiers.
Les variables statistiques continues peuvent prendre toutes les valeurs
numriques possibles dun ensemble inclus dans : le revenu, la taille, le
taux de natalit sont des variables continues.
Prune
Pomme de table
10 % Pche et nectarine
24 %
10 %
Autres fruits
10 %
12 % Noix
8,8
10 %%
5%
8% Olives
5% 6%
Poire de table
Abricot
Pomme cidre
Cerise
A. Distributions statistiques
et reprsentations graphiques
Considrons une variable observe sur une population de n individus. Si
la variable X prend k valeurs ou ensembles de valeurs (appels dans ce qui
suit, modalits), le premier traitement des donnes brutes consiste compter
le nombre ni dindividus qui prsentent la ie modalit ( i = 1, 2 , , k ).
Mnages de :
1 personne 34,4 12,7 37,4 29,2 20,7 22,8 22,7 30,6 13,7
Dunod. La photocopie non autorise est un dlit.
2 personnes 32,3 24,5 31,0 31,8 28,9 23,1 23,1 34,0 26,4
3 personnes 16,0 21,8 14,4 16,8 19,8 15,6 15,6 13,4 24,7
4 personnes 12,6 24,0 11,9 14,2 21,7 17,1 17,1 15,9 22,8
5 personnes et plus 4,7 17,0 5,3 8,0 8,9 21,4 21,4 6,2 12,4
Ensemble (en milliers) 34 413 12 112 2 222 23 126 3 756 1 146 1 146 6 425 3 275
Nombre de f (%)
i
personnes 30 %
1 29,2
2 31,8 20 %
3 16,8
10 %
4 14,2
5 ou plus 8,0
100 % 1 2 3 4 5 ou +
Figure 1.2 Diagramme en btons Nombre de personnes par mnage en France en 1995
On verra par la suite quune difficult du travail avec des sries classes
est le choix des limites pour les classes extrmes, indispensable aussi pour le
trac de lhistogramme.
la ie classe, correspond un rectangle dont la base est lintervalle [ xi 1, x i [
et dont la surface est proportionnelle la frquence fi (ou leffectif ni). Si
les classes ont toutes la mme amplitude, les hauteurs des rectangles sont
proportionnelles aux frquences. Dans le cas o les classes sont damplitudes
ingales, la hauteur du rectangle correspondant la ie classe damplitude ai
sera hi = fi /ai. La surface du rectangle reprsentant la ie classe sera ainsi gale
fi
Pour une srie dobservations relatives une variable statistique X dis-
crte ou continue classe, la donne des modalits et de leurs frquences est
appele distribution statistique de la variable X.
Tableau 1.2 Chmeurs BIT selon le sexe et lanciennet de chmage en septembre 2006
fi
ai
Mois
01 3 6 12 24 36 60
Ni = n j pour i = 1, 2, , k
ji
Pour une variable statistique discrte, cette fonction est une fonction en
escalier, prsentant en chacune des valeurs possibles xi, un saut gal la fr-
quence correspondante fi (cf. figure 1.4).
Dans le cas dune variable statistique continue, la fonction cumulative
nest connue que pour les valeurs de X gales aux extrmits des classes.
Lhypothse dquirpartition ( II.A.2) implique que la fonction F est
linaire entre ces valeurs ( cf. figure 1.5). Cette fonction est donc continue et
linaire par morceaux. Ici encore, il est ncessaire de choisir des limites pour
les classes extrmes.
t F(t) (%)
100 %
<1 0
[1 ; 2[ 29,2
Dunod. La photocopie non autorise est un dlit.
[2 ; 3[ 61,0
[3 ; 4[ 77,8
[4 ; 5[ 92,0
5 100
1 2 3 4 5 et +
Figure 1.4 Graphe des frquences cumules de la distribution reprsente la figure 1.2
t F(t) (%)
Fi
0 0
1 16,8 100
3 35,8
6 50,9
12 68,7
24 87,2
36 94,2
0
13 6 12 24 36 60
60 100 Mois
Tableau 1.4 Pays ordonns selon la dure hebdomadaire du travail des salaris
temps complet en 2000
Rang Rang
Profondeur Dure (heures) Pays
croissant dcroissant
1 15 1 38,5 Belgique
2 14 2 38,6 Italie
3 13 3 38,9 France
Dunod. La photocopie non autorise est un dlit.
4 12 4 39,0 Pays-Bas
5 11 5 39,3 Danemark
6 10 6 39,3 Finlande
7 9 7 39,8 Luxembourg
8 8 8 39,9 Irlande
9 7 7 40,0 Sude
10 6 6 40,1 Allemagne
11 5 5 40,1 Autriche
12 4 4 40,3 Portugal
13 3 3 40,6 Espagne
14 2 2 40,9 Grce
15 1 1 43,6 Royaume-Uni
Figure 1.6 Branche et feuille (logiciel SPSS) pour les sries du tableau 1.3
Figure 1.7 Diagramme Branche et feuille complt par lidentit des pays (1995)
A. Conditions de Yule
Le statisticien britannique Yule 1 a nonc un certain nombre de proprits
souhaites pour les indicateurs des sries statistiques ; ceux-ci doivent tre
dune part, des rsums maniables et dautre part, les plus exhaustifs pos-
sibles relativement linformation contenue dans les donnes.
1. G. Udny Yule et M. G. Kendall, An Introduction to the Theory of Statistics, Charles Griffin
& Co, 14 e dition, 1950.
Dans son schma, une caractristique statistique doit tre une valeur-type :
1. dfinie de faon objective et donc indpendante de lobservateur ;
2. dpendante de toutes les observations ;
3. de signification concrte pour tre comprise par des non-spcialistes ;
4. simple calculer ;
5. peu sensible aux fluctuations dchantillonnage ;
6. se prtant aisment aux oprateurs mathmatiques classiques.
En ralit, on ne dispose pas de caractristiques rpondant simultanment
ces six conditions. Le choix dun indicateur sera lobjet dun compromis
guid par la spcificit de ltude en cours.
1) La moyenne arithmtique
On appelle moyenne arithmtique la somme de toutes les donnes statistiques
divise par le nombre de ces donnes. La moyenne arithmtique conserve la
somme totale des valeurs observes : si on modifie les valeurs de deux obser-
vations dune srie statistique tout en conservant leur somme, la moyenne de
la srie sera inchange.
Soit la srie statistique de donnes brutes : x1 , , x i , , x n , sa moyenne
arithmtique a pour expression :
n
1
x = --- x i
ni = 1
Bien entendu, si une valeur xi de X est observe ni fois, comme
xi + xi + + xi = ni xi , la formule prcdente devient :
ni fois
k k
1
ni = 1
x = --- n i x i = fx
i=1
i i
1. Ch. Antoine, Les moyennes au quotidien , dans Les Moyennes, Que Sais-je, PUF, n 3383,
1998, p. 107.
n
o k dsigne le nombre de valeurs distinctes de X et fi = ----i
n
Lorsquon a une variable statistique continue, on ne connat pas les valeurs
exactes prises par la variable, mais seulement le nombre dobservations
lintrieur de chaque classe. Pour calculer la moyenne arithmtique dune
telle variable, on ramne chaque observation au centre de sa classe, ceci en
raison de lhypothse dquirpartition lintrieur des classes, et cel revient
considrer la moyenne des individus de la ie classe gale (xi1+ x i)/2.
Dans le cas des classes extrmes non limites, le choix des limites de ces
classes influe videmment sur la valeur de la moyenne arithmtique. Ces
limites devront tre choisies en fonction des connaissances sur les donnes
et en noubliant pas lhypothse de base : lhomognit lintrieur des
classes. Pour une classe extrme dans laquelle on sait quil ny a pas quir-
partition, les observations tant vraisemblablement en majorit regroupes
sur une partie de la classe, il conviendra de choisir la borne extrme :
moins faible que la borne relle (suppose) sil sagit de la premire
classe ;
plus faible que la borne relle (suppose) sil sagit de la dernire classe.
Cest ce qui a t fait pour la srie prsente au tableau 1.2 et la figure 1.3,
lanciennet moyenne du chmage a t considre gale 48 mois pour ceux
dont lanciennet tait au moins gale 36 mois et la borne suprieure de la
dernire classe a t de ce fait fixe 60 mois (lhypothse dquirpartition
amne considrer que la moyenne des observations dune classe est gale au
centre de la classe).
Proprits
1. La moyenne est une caractristique qui satisfait toutes les conditions
de Yule, sauf la conditions 5 : une observation extrme (exceptionnel-
lement leve ou faible) peut avoir une forte incidence sur sa valeur.
Dunod. La photocopie non autorise est un dlit.
Exemple
Lanciennet moyenne dinscription au chmage pour hommes et femmes
runis en septembre 2006 est gale (cf. tableau 1.2 pour les donnes) :
1
x = ------------------ ( 1 094,5 341 + 1 077,7 334 ) 338 jours
2 172,2
2) Dautres moyennes
a) La moyenne gomtrique
Cest la moyenne applicable des mesures de grandeurs dont la croissance
est gomtrique ou exponentielle.
La moyenne gomtrique conserve le produit des x i : si on modifie les
valeurs de deux observations tout en conservant leur produit, la moyenne
gomtrique sera inchange.
La moyenne gomtrique G de la srie de valeurs x1 , , x i , , x n sup-
poses toutes positives (strictement), est dfinie ainsi :
n n
1
G= n x
i=1
i
ln ( G ) = --- ln ( x i )
ni = 1
Lorsque la distribution de la variable statistique est donne par les k couples
(xi ,ni), les xi tant tous positifs ; la moyenne gomtrique a pour expression :
k ni k fi k
G= n xi = xi ln ( G ) = f ln ( x )
i=1
i i
i=1 i=1
Exemple
Supposons que pendant une dcennie, les salaires aient t multiplis
par 2 et que pendant la dcennie sui vante, ils aient t multiplis par 4 ;
le coefcient multiplicateur moyen par dcennie est gal :
2 4 = 8 2,83
La moyenne arithmtique (= 3) nest pas gale au coefcient demand.
i=1 i
---
x
f
----i
x i
i=1
La moyenne harmonique peut tre utilise lorquil est possible dattribuer
un sens rel aux inverses des donnes en particulier pour les taux de change,
les taux dquipement, le pouvoir dachat, les vitesses. Elle est notamment
utilise dans les calculs d indices.
Exemple
On achte des dollars une premire fois pour 100 au cours de 1,23 le
dollar, une seconde fois pour 100 au cours de 0,97 le dollar.
Le cours mo yen du dollar pour lensemble de ces deux oprations est
gal :
200
--------------------------- 1,085
100- + --------- 100-
---------
1,23 0,97
La moyenne arithmtique (= 1,1) ne reprsente pas le cours mo yen du
dollar.
Comparaison des 3 moyennes tudies
On montre que si les xi sont tous positifs :
min xi H G x max xi
Dunod. La photocopie non autorise est un dlit.
lin lin
Lgalit de deux de ces moyennes entre elles entrane leur galit dans
leur ensemble, et dans ce cas, toutes les valeurs xi sont gales.
3) Le mode
Pour obtenir une mesure de la tendance centrale non influence par les
valeurs extrmes de la distribution, on peut prendre la valeur ou la classe
de valeurs du caractre pour laquelle le diagramme en btons respective-
ment lhistogramme prsente son maximum : cest le mode respectivement
lintervalle modal de la distribution ; dans le cas o le diagramme en btons
ou lhistogramme prsente aussi un maximum local, il y a deux modes
respectivement deux classes modales.
a) La mdiane
La mdiane est la valeur de la variable statistique telle quil y ait autant
dobservations suprieures et dobservations infrieures cette valeur. Elle
partage la srie statistique en deux parties dgal effectif. Elle se dtermine
soit partir de la srie des valeurs ordonnes, soit partir de la fonction
cumulative ( II.A.3).
Pour les variables statistiques discrtes , la mdiane est dtermine
laide de la profondeur .
Dans le cas o la srie comporte un nombre impair n dobservations, la
mdiane est gale la valeur de profondeur maximum (n + 1)/2 : pour la srie
des 15 valeurs du tableau 4, la mdiane est gale la valeur de profondeur
8, soit 39,9 h.
Dans le cas o la srie comporte un nombre pair n dobservations, la
mdiane est la moyenne arithmtique des deux valeurs de profondeur n/2 et
est ainsi dfinie comme la valeur de profondeur ( n + 1)/2.
La mdiane est ainsi dans tous les cas la valeur de profondeur (n + 1)/2.
Lorsque les donnes dune variable statistique discrte sont classes, il
nexiste gnralement pas une valeur mdiane Me pour laquelle la fonction
cumulative vaut 50 %. Il faut dans ce cas utiliser dautres valeurs typiques
pour caractriser la tendance centrale de la srie : ceci est le cas pour la dis-
tribution du nombre de personnes par mnage dont la fonction cumulative est
reprsente la figure 1.4.
Pour les variables statistiques continues , la valeur mdiane Me est
telle que F(Me) = 50%. On commence par chercher la classe mdiane
laide des frquences cumules, la classe mdiane [xi 1 , xi[ tant telle que
Dunod. La photocopie non autorise est un dlit.
Fi 1 < 50% et Fi > 50%. La valeur de la mdiane sobtient ensuite par inter-
polation linaire en raison de lhypothse dquirpartition lintrieur des
classes. Cette dtermination peut se faire par le calcul ou graphiquement
(cf. figure 1.9) :
Me x i 1 0, 5 Fi 1 0,5 Fi 1
----------------------- = ------------------------ Me = x i 1 + ( x i x i 1 ) ----------------------
-
xi xi 1 fi fi
Pour la distribution de lanciennet du chmage des femmes (tableau 1.2
et figure 1.5), la mdiane appartient la classe [3 ; 6[ :
50 35,8
Me = 3 + 3 ---------------------- 5,8 mois
15,1
Fi
fi
0,5
Fi-1
0,5- Fi-1
xi-1 Me xi
Figure 1.9 Dtermination graphique de la mdiane pour une variable continue
La mdiane peut aussi tre dtermine partir de la courbe des frquences
cumules comme labscisse du point dordonne 50 %.
Une seule observation trs leve (ou trs faible) peut influencer fortement
la moyenne, alors que la mdiane peut supporter sans tre modifie quune
moiti des observations soit trs leve (ou trs faible) : on dit que la mdiane
est rsistante. La mdiane satisfait aux conditions 1, 3, 4 et 5 de Yule.
Dans le cas de distribution unimodale, la mdiane est frquemment com-
prise entre la moyenne arithmtique et le mode, et plus prs de la moyenne
que du mode. Si la distribution est symtrique, ces trois caractristiques de
tendance centrale sont confondues (cf. figure 1.10).
Distribution
symtrique
{ Mo = Me = x } x
Distribution tale
Distribution tale vers la gauche
vers la droite
Mo Me x x x Me Mo x
b) Les quantiles
Les quantiles sont des indicateurs de position .
Le quantile dordre (0 1), not x , est tel quune proportion
des individus ait une valeur du caractre X infrieure ou gale x
Le quantile x0,5 est gal la mdiane.
On utilise couramment les quantiles dordre 1/4, 1/2 et 3/4. Ils sont ainsi
nots et nomms :
Q1 = premier quartile = x 0,25
Q2 = deuxime quartile = mdiane = x 0,5
Q3 = troisime quartile = x 0,75
Les quartiles se dterminent, comme la mdiane, laide de la profondeur
(variable discrte), ou laide des frquences cumules (variable continue).
Dans le cas dune variable statistique discrte, le premier quartile Q1 et le troi-
sime quartile Q3 sont des lments de mme profondeur gale (m + 1)/2 o
m dsigne la partie entire de la profondeur de la mdiane. On peut aussi
considrer Q1 comme la mdiane des m premires valeurs de la srie et Q3
comme la mdiane des m dernires valeurs. Ainsi par exemple, pour une srie
de 39 observations, la mdiane a une profondeur gale 20, et les quartiles
Q1 et Q3 sont de profondeur 10,5 ; pour une srie de 50 observations, la
mdiane a une profondeur de 25,5 et la partie entire de cette profondeur
tant 25, les quartiles Q1 et Q3 sont de profondeur 13.
La pratique de la dtermination des quartiles ne respecte pas toujours la
dfinition prcdente due Tukey. Ainsi les calculatrices de poche (TI,
Casio,) dterminent le 1 er quartile (resp. le 3 e quartile) comme la mdiane
des valeurs de profondeur infrieure (resp. suprieure) la profondeur de la
mdiane. Le rsultat diffre de celui calcul avec la dfinition de Tukey dans
le cas dun nombre impair dobservations. Le logiciel SPSS dtermine deux
types de quartiles : Valeurs charnires selon la dfinition de Tukey, et
Moyenne pondre laide dune formule dinterpolation linaire
Dunod. La photocopie non autorise est un dlit.
25 16,8
Q 1 = 1 + 2 ---------------------- 1,9 mois
19
75 68,7
Q 3 = 12 + 12 ---------------------- 16,1 mois
18,5
On peut dfinir partir des quartiles Q1 et Q3 le paramtre de tendance
centrale (Q1 + Q3)/2, gal la mdiane dans le cas dune distribution sym-
trique, ainsi que lintervalle interquartile [Q1, Q3] qui contient 50 % des obser-
vations.
Plus gnralement, deux quantiles dordres complmentaires x et x1-
dfinissent un intervalle dont le milieu peut tre considr comme un para-
mtre de tendance centrale.
De la mme faon, on dfinit les dciles D1, D2, , D9 qui sont les quan-
tiles xi/10 (i = 1 9), les vingtiles, quantiles xi/20 ( i = 1 19), les centiles, etc.
Les classes dune variable statistique continue sont souvent dfinies
laide des dciles. Dans ce cas, on a 10 classes contenant chacune 10 % de
leffectif total ( cf. tableau 1.5 et figure 1.11).
Source : INSEE.
hi = 10
D i Di 1
h2
h1
D1 D2 D3 D4 D5 D6 D7 D8 D9
2) Ltendue interquartile
De par la dfinition des quartiles, lintervalle interquartile [ Q1, Q3] contient
50 % des observations. Sa longueur, note EIQ (tendue InterQuartile), est
un indicateur de dispersion :
EIQ = Q3 Q1
Le calcul de ltendue interquartile a lavantage par rapport celui de
ltendue dcarter les valeurs extrmes, souvent sans signification.
Plus gnralement, les longueurs des fourchettes dfinies par les dciles
extrmes, les centiles extrmes constituent des indicateurs de dispersion
contenant respectivement 80 % et 98 % des observations.
4) Lcart-type
Lcart-type sX dune variable statistique X est la mesure de dispersion la plus
couramment utilise.
Algbriquement, il se dfinit comme la racine carre de la variance, et la variance
est la moyenne arithmtique des carrs des carts la moyenne arithmtique :
n k
1
ni = 1
var ( X ) = --- ( x i x ) 2 ou var ( X ) = f ( x x)
i=1
i i
2
sX = var ( X )
n n
1 1
var ( X ) = --- ( x i x ) 2 = --- x i2 ( x ) 2
ni = 1 ni = 1
k k
ou var ( X ) = f (x i i x )2= f x 2
i i ( x )2
i1 i=1
Proprits
1. Lcart-type satisfait aux conditions 1, 2 et 6 de Yule ; lcart-type
est plus sensible aux fluctuations dchantillonnage et aux valeurs extr-
mes que la moyenne, en raison des lvations au carr.
2. On montre que la variance est le plus petit cart quadratique moyen,
cest--dire :
n
1
var ( X ) --- ( x i C ) 2 pour tout C
ni = 1
3. Lorsque deux variables X et Y sont en correspondance par le chan-
Dunod. La photocopie non autorise est un dlit.
1 2
var ( X ) = --- n 1 var ( X 1 ) + n 2 var ( X 2 ) + n 1 ( x 1 x ) 2 + n 2 ( x 2 x )
n
Remarque
Le moment centr 1 est nul, et le moment centr 2 nest autre que la
variance et ne peut tre nul, comme tous les moments centrs dordre
pair, que si toutes les observations ont la mme valeur.
2) Lasymtrie
Pour une distribution symtrique, la moyenne arithmtique est gale la
mdiane et ( x + x 1 )/2 pour compris entre 0 et 0,5. Dautre part, les
moments centrs dordre impair sont nuls pour une distribution symtrique,
ngatifs pour une distribution unimodale tale gauche, positifs pour une
distribution unimodale tale droite. Ces proprits sont utilises pour dia-
gnostiquer et mesurer lasymtrie.
1 > 0 1 = 0 1 < 0
Figure 1.12 Signe du coefficient dasymtrie
Les coefficients calculs par les logiciels statistiques sont soit celui de
Fisher, soit des variantes de mme linterprtation. Par exemple, le logiciel
SPSS donne un coefficient dasymtrie lgrement modifi :
n - 1
------------------------------------- pour n3
(n 1) (n 2)
3) Laplatissement
Les coefficients daplatissement mesurent laplatissement dune distribution
ou limportance des queues dune distribution. Le coefficient daplatisse-
ment de Fisher, not 2 , est ainsi dfini :
2 = -----42 3 pour 2 0
2
Ce coefficient est nul pour une distribution normale (chapitre 7), positif
ou ngatif selon que la distribution est plus ou moins aplatie que la distribu-
tion normale de mme moyenne et de mme cart-type.
Les coefficients calculs par les logiciels sont celui de Fisher ou des
variantes de mme interprtation.
Ces coefficients dasymtrie et daplatissement sont invariants par chan-
gement dorigine et dchelle, mais ils sont sensibles aux fluctuations
dchantillonnage puisquils font intervenir des moments dordre lev.
Midi-
Midi-Pyrnes PACA PACA
Pyrnes
f Proportion f Proportion p q p q
i SAU i SAU i i i i
q 100
C B
80
1I
2 G
60
Dunod. La photocopie non autorise est un dlit.
40
0 p 20
A PACA
Figure 1.13 Courbe de Lorenz Midi-Pyrnes
0
0 20 40 60 80 100
i = 1j = i+1
xi x j
I G = --------------------------------------
n(n 1) x
les xi (i = 1, , n) dsignant ici les valeurs prises (supposes toutes distinctes)
par la variable sur chacun des n individus de la population tudie.
1. Le statisticien italien Corrado Gini a propos cette mesure de la concentration en 1912 et a
montr deux annes plus tard que son indice tait gal au double de laire comprise entre la
droite dquirpartition et la courbe propose par Max Otto Lorenz en 1905.
n = 15 Dure hebdomadaire
8 Me = 39,9 h
8 39,9 h
1
4,5 39,15 40,2 EIQ = 1,05 --- ( Q 1 + Q 3 ) = 39,615
2
38 39 40 41 42 43
tendue
Minimum xb Q1 Me Q3 xh Maximum
Q1 1,5 EIQ Q3 + 1,5 EIQ
45
44 * R-Uni
R-Uni * R-Uni
43
42
41
Dunod. La photocopie non autorise est un dlit.
40
39
38
37
N= 15 15 15
1990 1995 2000
Figure 1.17 Reprsentation SPSS des botes de distribution du tableau 1.3
Euros
30 000
20 000
10 000
Maximum
Minimum
1. 2. 3. 4.
Figure 1.19 Quelques types de botes de distribution :
1. Distribution symtrique
2. Distribution peu disperse
3. Distribution tale vers les valeurs leves
4. Distribution tale vers les valeurs faibles
V. Bilan
Avant toute tude formelle, il est ncessaire de procder une valuation
descriptive des donnes. Cette approche descriptive prsente deux difficults,
lune lie aux calculs, lautre la diversit des indicateurs. Si les calculatrices
de poche ont permis depuis longtemps dj de rendre aiss les calculs de
moyenne et cart-type, il a fallu attendre la gnralisation des moyens de calcul
5. Une tude des notes obtenues par deux classes dune cole un test commun
a fourni les rsultats suivants :
Dunod. La photocopie non autorise est un dlit.
Effectif 20 30
Moyenne 12 10
cart-type 4 6
Mdiane 12 12
Exercice 1.2
Le tableau suivant donne la distribution du niveau de lindice de la qualit de lair
ATMO en agglomration parisienne de 2000 2006 (en nombre de jours par an).
1. Dfinir les populations tudies, lunit statistique, le caractre tudi et sa nature.
2. Tracez le diagramme en btons de la distribution en 2006, et indiquez le mode.
3. Calculez les niveaux annuels moyens de 2000 2006.
Niveau Qualit 2000 2001 2002 2003 2004 2005 2006 Total
1 Trs bon 0 0 0 0 0 0 0 0
2 Trs bon 8 15 9 15 23 23 25 118
3 Bon 206 190 183 138 186 188 177 1 268
4 Bon 99 97 111 109 96 99 106 717
5 Moyen 36 33 45 47 39 34 26 260
6 Mdiocre 13 13 8 30 19 11 16 110
7 Mdiocre 2 14 7 16 2 6 11 58
8 Mauvais 2 3 2 10 1 4 4 26
9 Mauvais 0 0 0 0 0 0 0 0
10 Trs mauvais 0 0 0 0 0 0 0 0
Source : AIRPARIF.
Exercice 1.3
On a relev pendant 50 quinzaines successives les niveaux de ventes, exprims en
milliers dunits de produit, de deux prsentations notes G (Gel) et P (Poudre) dun
mme produit. Les rsultats sont les suivants :
Prsentation G Prsentation P
Niveau de <5 [5-10[ [10-12[ [12-20] Niveau de < 10 [10-12[ [12-16[ [16-20]
vente vente
Nombre de 5 20 15 10 Nombre de 10 25 10 5
quinzaines quinzaines
1. Calculez les moyennes, carts-types et mdianes des niveaux de ventes pour cha-
cune des deux prsentations.
Quelle est la condition ncessaire sur la moyenne et la mdiane dune distribution
pour que celle-ci soit symtrique ?
2. Sur lensemble des points de vente pour toute la priode de ltude, on disposait
de 30 % du produit en gel, et de 70 % du produit en poudre.
Quel a t le niveau de ventes moyen pour lensemble des deux prsentations du
produit ?
3. Les niveaux de ventes tant maintenant exprims en centaines dunits de produit,
donnez les nouvelles valeurs des moyennes, carts-types et mdianes calcules
la 1 re question.
Exercice 1.4
Afin dtudier les disparits de salaires entre hommes et femmes, une enqute a t
ralise auprs du personnel ouvrier dun secteur industriel. Les rsultats concernant
les salaires annuels nets en euros sont rsums dans les deux tableaux suivants :
Tableau 1. Hommes
9e dcile 20 220
femmes de lenqute.
Exercice 1.5
Dans un atelier, le cot horaire de la main doeuvre est de 8 (base 35 h par
semaine). Une heure supplmentaire revient 10 , et le service de paie indique que
le cot total des heures supplmentaires reprsente 30 % du cot total de la main
doeuvre.
Calculez le cot horaire moyen et indiquez le type de moyenne utilise.
Exercice 1.6
Une mme somme S a t confie deux banques B1 et B2 pour une dure de 10 ans.
Les rendements successifs des placements effectus par les deux banques ont t les
suivants :
Exercice 1.7
Le tableau ci-aprs donne des caractristiques des 30 premiers groupes franais de
lindustrie et des services selon leur chiffre daffaires en 2001 (Source : Tableaux de
lconomie Franaise 2003-2004, INSEE) :
CAHT CAHT
Socit (millions Effectif Socit (millions Effectif
d) d)
Groupe Auchan 26 200 136 000 Groupe Danone 14 470 100 560
Exercice 1.8
Le tableau suivant donne le revenu annuel moyen des mnages, en euros, pour les
dix intervalles dfinis par les dciles, et la part de chaque intervalle dans le revenu
total.
% de la masse totale
Valeur des dciles Revenu moyen
Intervalle des revenus
(euros) dans lintervalle
dans lintervalle
D9 69 930 28
8.1. Tracez la courbe joignant, dans lordre, les points ( Fi , Ri). Comment sappelle
cette courbe ?
8.2. Rappelez linterprtation graphique de lindice de concentration de Gini ?
8.3. Quelles sont les valeurs minimum et maximum de cet indice ?
8.4. quelles situations correspondent-elles ?
Daprs examen de juin 2004, GEA 1re anne Paris-Dauphine.
Exercice 1.9
Le tableau suivant donne le nombre (en milliers) et la superficie agricole utilise
(SAU, en milliers dha) des exploitations agricoles en France mtropolitaine par clas-
ses de grandeur pour les annes 1979, 1988, 2000 et 2005.
Source : INSEE.
2. I ndices statistiques
P
our ltude des problmes conomiques et sociaux, on a souvent
besoin de dcrire les variations de grandeurs simples telles que
le prix du baril de ptrole, la production de bl, le taux de
fcondit Ces comparaisons dans le temps (ou dans lespace) se font
gnralement en effectuant le rapport des valeurs de la grandeur consi-
dre deux dates diffrentes (ou en deux lieux distincts) ; on parle
dindice statistique lmentaire.
Mais, il est important dtre en mesure de suivre les volutions de gran-
deurs complexes telles que le niveau gnral des prix, la production
industrielle, les exportations Celles-ci peuvent tre rsumes par une
caractrisque de tendance centrale dindices lmentaires, ce qui amne
la construction d indices synthtiques.
Toute caractristique de tendance centrale, notamment les diffrents types
de moyennes, prsentant la fois des avantages et des inconvnients, il
nest pas possible de proposer une mthode unique de construction des
indices synthtiques. Il existe diffrentes formules. On va exposer les plus
utilises.
De par limportance que revtent ces indicateurs dvolution dans les dis-
cussions conomiques et politiques, il est ncessaire de bien comprendre
leur laboration, danalyser leurs modes de construction et dtudier
leurs proprits.
I. Indices lmentaires
Dunod. La photocopie non autorise est un dlit.
A. Dfinition
On appelle indice lmentaire de la grandeur simple x la date (ou priode)
t, dite date courante , par rapport la date 0, dite date de rfrence , le
rapport :
x
I t 0 ( x ) = ----t
x0
INDICES STATISTIQUES 47
P047-066-9782100549412.fm Page 48 Jeudi, 18. novembre 2010 12:03 12
B. Proprits
1) Circularit (ou transitivit ou transfrabilit)
I t 0 ( x ) = I t t ( x ) I t 0 ( x )
Cette formule permet de changer de base en passant de la date de rf-
rence 0 la date de rfrence t :
I t 0( x)
I t t ( x ) = ----------------
-
I t 0 ( x )
Lutilisateur a en effet souvent besoin de mesurer lvolution dune gran-
deur entre deux dates diffrentes de la date de rfrence.
De cette proprit, rsulte la proprit denchanement :
I t 0( x) = I t t 1( x) I 1 0( x)
2) Rversibilit
1
I 0 t ( x ) = ---------------
-
I t 0( x)
Cette proprit est intressante dans le cas de comparaison gographique,
car le choix du lieu de rfrence est arbitraire.
3) Multiplication
Si une grandeur simple z est le produit de deux grandeurs x et y, lindice
lmentaire de la grandeur produit est gal au produit des indices des gran-
deurs facteurs :
quel que soit t : zt = xt yt It/0(z) = It/0(x) It/0(y)
INDICES STATISTIQUES 49
P047-066-9782100549412.fm Page 50 Jeudi, 18. novembre 2010 12:03 12
vt
p ti q ti
Vt 0 = ---- = ------------------
i -
v0
p 0i q 0i
i
p q i
0
i
t
L t 0 ( q ) = ------------------
i -
i
p 0i q 0i
p q i i
t t
V t 0 = Lt 0 ( q ) t 0 ( p ) t 0 ( p ) = -----------------
i -
i
p 0i q ti
p q p q i i
t 0
i i
t t
V t 0 = L t 0 ( p ) t 0 ( q ) = ------------------
i - -----------------
i -
i i
p0 q0
i
p ti q 0i
i
L(p) et L(q) sont les indices de Laspeyres des prix et des quantits, (p)
et (q) sont les indices de Paasche des prix et des quantits 1.
Essayons dexprimer littrairement la diffrence entre lindice de Laspey-
res et lindice de Paasche. Pour un indice des prix par exemple :
indice de Laspeyres : on fige le panier2 dans sa composition de la
priode de base et on compare la valeur quil aurait la priode courante
avec sa valeur relle la priode de base ;
indice de Paasche : on fige le panier dans sa composition de la priode
courante, on calcule rtrospectivement ce quaurait t sa valeur la
priode de base et on la compare avec sa valeur actuelle.
B. Formules dveloppes
1) Indice de Laspeyres
q
i i
0 pt
q 0i p 0i . p ti
L t 0 ( p ) = ------------------
i -= ------------------
- -----i
i
q 0i p 0i i i
q 0i p 0i p 0
q 0i p 0i q 0i p 0i
La pondration k 0i = ------------------
- = ----------
- sinterprte dans un indice des prix
q 0i p 0i
i
v0
p q
i i
0 t
p 0i q 0i . q ti
L t 0 ( q ) = ------------------
I - = ------------------
- -----i
I
p 0i q 0i i i
p 0i q 0i q 0
INDICES STATISTIQUES 51
P047-066-9782100549412.fm Page 52 Jeudi, 18. novembre 2010 12:03 12
2) Indice de Paasche
q p q p
i i i i
t t t t
1 q ti p ti p 0i
t 0 ( p ) = -----------------
i - = ----------------------------
i -
p 0i
------------------- =
t 0 ( p ) - -----i
----------------
i
q ti p 0i
i i
q t p t . -----i
pt
i i
q ti p it p t
i
q
i i
Dans le cas de lindice de Laspeyres, le numrateur 0 pt (cf. premi-
i
res formules) est un peu plus fort quil ne devrait ltre, car, conformment
la loi de loffre et de la demande, les consommateurs ont tendance acheter
Exemple
Entre janvier 2006 et janvier 2010, lvolution des prix et du nombre
dexemplaires de journaux vendus en un mois par une socit de presse
ditant trois journaux mensuels A, B et C a t la suivante :
INDICES STATISTIQUES 53
P047-066-9782100549412.fm Page 54 Jeudi, 18. novembre 2010 12:03 12
q
i
i
2010 p 2006 = 43 750
i
Effet volume Effet prix
4,9 % 16,6 %
Quantits constantes
q = 54 000
i i
2006 p 2010
i
Figure 2.1 Schma de dcomposition de lvolution dun indice de valeur
D. Indice de Fisher
Cet indice a t construit la suite de la recherche dun indice idal.
Dfinition
Ft 0( p) = Lt 0 ( p ) t 0 ( p )
1 1
mais : L 0 t = ----------- mais : 0 t = ----------
t 0 Lt 0
1. Le nouvel indice des prix la consommation, anne de base 1998 , Bulletin Mensuel de
la Statistique, n 2-1999, INSEE.
INDICES STATISTIQUES 55
P047-066-9782100549412.fm Page 56 Jeudi, 18. novembre 2010 12:03 12
III. Indices-chanes
A. Raccord dindices
Les indices ont une dure de vie limite en raison de lvolution des structures
conomiques. Lorsquon veut dcrire lvolution dune grandeur complexe
B. Les indices-chanes
Pour valuer lvolution dune grandeur complexe sur une longue priode,
lemploi de la formule de Laspeyres prsente un inconvnient, car la pond-
ration vieillit. Les prfrences des consommateurs comme les procds
auxquels recourent les producteurs se modifient : les articles choisis pour
reprsenter lvolution de certaines catgories de biens cessent dtre bien
adapts cet objectif et les pondrations de la priode de base et de la priode
courante deviennent trop diffrentes pour que la comparaison reste valable.
On a donc propos de calculer des indices dont la base changerait cha-
que priode.
Mais, comment comparer alors la situation entre deux dates o ont t calcu-
ls deux ou plusieurs indices ayant des bases diffrentes ? On adopte une solution
parfaitement empirique : le raccordement entre ces indices intermdiaires.
Les indices-chanes rsultent de la gnralisation de lopration de rac-
cord de deux indices. Ce sont des indices dfinis partir du produit des indi-
ces ayant pour base lanne prcdente. Lindice-chane de Laspeyres est un
Dunod. La photocopie non autorise est un dlit.
INDICES STATISTIQUES 57
P047-066-9782100549412.fm Page 58 Jeudi, 18. novembre 2010 12:03 12
1. www.insee.fr/fr/themes
A. chelle logarithmique
Le papier semi-logarithmique comporte un axe des abscisses chelle arith-
mtique et un axe des ordonnes chelle logarithmique. Sur laxe des abs-
cisses, on peut choisir lorigine et une unit de longueur quelconque. Mais
pour laxe des ordonnes, on utilise une chelle logarithmique ; la place des
nombres est fixe par leur logarithme dcimal (cf. figure 2.2) :
Nombre 1 2 3 4 5 6 7 8 9 10
0,7 5 50 500
0,6 4 40 400
0,5 3 30 300
0,4
0,3 2 20 200
0,2
0,1
Dunod. La photocopie non autorise est un dlit.
0 1 10 100
INDICES STATISTIQUES 59
P047-066-9782100549412.fm Page 60 Jeudi, 18. novembre 2010 12:03 12
xt = (1 + 0,5)t log xt
10
8
7
6
5
4
3
2
1
0 1
0 1 2 3 4 5 t 0 1 2 3 4 5 t
Ordonne arithmtique Ordonne logarithmique
V. Bilan
Un indice nest ni parfait, ni rigoureux, ni parfaitement reprsentatif ; en fait,
il existe autant dindices que le statisticien veut en construire, et chacun a la
signification qui rsulte de son calcul mme. Parmi tous ces indices, lco-
nomiste choisira celui qui lui parat le mieux correspondre lusage quil
veut en faire.
Pour construire un indice synthtique, on est amen faire quatre choix :
deux choix dordre conomique :
choix des grandeurs entrant dans la composition de lindice,
choix de la priode de rfrence ;
INDICES STATISTIQUES 61
P047-066-9782100549412.fm Page 62 Jeudi, 18. novembre 2010 12:03 12
Taux annuel moyen de croissance (en %) 2,0 3,2 2,9 3,8 2,1 1,2
a) le taux de croissance sur les cinq annes est la somme des cinq taux de croissance
b) le taux annuel moyen de croissance sur la priode 1997 2002 est gal la
moyenne arithmtique des taux annuels moyens de croissance
c) le taux annuel moyen de croissance sur la priode 1997 2002 se calcule laide
dune moyenne gomtrique
d) pour la priode 1999 2001, le taux de croissance du PIB en volume a t de 9 %
A 800 10 900 6
B 500 4 700 4
C 600 5 600 8
1. Calculez les indices lmentaires rendant compte de lvolution des prix de cha-
cune des matires premires entre 2000 et 2004.
2. Calculez la moyenne arithmtique des indices lmentaires prcdents pondre
par la part des dpenses engages par lentreprise pour chacune de ces matires
premires en 2000. De quel indice sagit-il ?
3. Effectuez le mme calcul pour rendre compte de lvolution des quantits entre
2000 et 2004.
4. Calculez lindice mesurant lvolution globale des dpenses de matires premires
entre 2000 et 2004.
5. Dterminez, en utilisant les rsultats des questions prcdentes, les taux de varia-
tion (exprims en pourcentage) des prix, des quantits et de la dpense totale.
Comment sexplique lvolution de la dpense totale ?
Exercice 2.2
Entre 1980 et 2000, les quantits de sel extraites dune mine ont t multiplies par
1,5 entre 1980 et 1985, sont passes de lindice 130 en 1985 lindice 168 en 1992
avant daugmenter de 6 % par an entre 1992 et 2000.
Dunod. La photocopie non autorise est un dlit.
1. Quel est le taux annuel moyen de variation des quantits de sel extraites entre
1980 et 2000 ?
2. Au cours de la mme priode, le taux de variation annuel moyen du prix du sel a
t de 5 %. Quelle est la valeur de lindice du chiffre daffaire en 2000, base
1980 ?
INDICES STATISTIQUES 63
P047-066-9782100549412.fm Page 64 Jeudi, 18. novembre 2010 12:03 12
Exercice 2.3
Ce tableau donne les indices trimestriels des salaires horaires de base de lensemble
des ouvriers (secteurs non agricoles), base 100 au 4e trimestre 2008. La srie est rtro-
pole depuis le 4 e trimestre 1998 (Source : INSEE) :
Sachant que cet indice vaut 71,9 au 31 dcembre 1998, calculez le taux trimestriel
moyen de croissance entre le 31 dcembre 1998 et le 30 septembre 2009, et le taux
annuel moyen de croissance entre le 31 dcembre 1998 et le 31 dcembre 2008.
Exercice 2.4
Le tableau suivant est un extrait du tableau Production et valeur ajoute de lagri-
culture :
2008 2008/2007 en %
En Mds
Volume Prix Valeur
deuros
Produits vgtaux 38,2 3,6 ? 0,3
Crales 10,7 19,2 21,3 6,2
Olagineux, protagineux 2,4 4,8 ? 3,2
Betteraves industrielles 0,8 7,2 3,4 10,3
Autres plantes industrielles* 0,3 2,9 13,5 10,3
Fruits, lgumes, pommes de terre 7,4 3,1 6,3 3,0
Vins 9,4 ? 3,7 2,1
Fourrages, plantes, fleurs 7,4 1,2 9,7 8,4
* Tabac, lin textile, houblon, canne sucre, etc.
Source : Tableaux de lconomie franaise, dition 2010.
Exercice 2.5
Considrons la consommation mdicale totale en France (en milliards deuros cou-
rants) de 1970 2000 ( Source : Tableaux de l'conomie franaise , INSEE).
INDICES STATISTIQUES 65
P047-066-9782100549412.fm Page 66 Jeudi, 18. novembre 2010 12:03 12
1. http://www.insee.fr/fr/indicateur/achatfranc.htm
3. Distributions
statistiques
deux caractres
L
orsque les observations portent simultanment sur deux caract-
res, et lorsquelles sont trop nombreuses pour quon les cite une
une, on les prsente sous la forme dun tableau double
entre. On dfinit alors la distribution conjointe, les distributions margi-
nales et les distributions conditionnelles. Ltude de la distribution de
deux variables se pousuit par celle de leur liaison.
Ltude de la liaison entre les variables observes, appele commun-
ment ltude des corrlations, dpend de leur nature. On envisagera les
trois cas suivants : deux variables quantitatives, une variable quantitative
et une variable qualitative, deux variables qualitatives . Lorsque le
domaine de variation dune variable quantitative a t dcoup en clas-
ses et que les observations sont prsentes dans un tableau double
entre, alors cette variable peut tre traite comme une variable quali-
tative et dans ce cas, on a plusieurs mthodes pour ltude de la liaison.
A. Distribution conjointe
Dsignons par X et Y les deux variables qui peuvent tre qualitatives ou quan-
titatives, et qui peuvent ne pas tre de mme nature. Les k modalits de X
sont dsignes par x1 , , x i , , x k ; les l modalits de Y sont dsignes par
y1, , y j , , y l . La ie modalit dune variable dsigne le centre de la ie classe
dans le cas dune variable quantitative continue.
Modalit de Y
y1 yj yl Total
Modalit de X
x1 n 11 n1 j n 1l n 1
. . . . . . .
. . . . . . .
. . . . . . .
xi n i1 n ij n il n i
. . . . . . .
. . . . . . .
. . . . . . .
xk n k1 n kj n kl n k
Total n 1 n j n l n
Tableau 3.2 Exemple de tableau de contingence : distribution des notes de 100 tudiants
une preuve dun concours selon leur filire dorigine
k l
On a videmment : ni = n j = n
i=1 j=1
B. Distributions marginales
Les k couples (xi , ni) forment la distribution marginale de la variable X.
Les l couples (yj , n j) forment la distribution marginale de la variable Y.
Les distributions marginales peuvent aussi tre donnes sous forme de fr-
quences :
ni n j
fi = ------ et f j = ------
n n
Disposant dune distribution conjointe, on peut dduire les distributions
marginales qui permettent dtudier sparment chaque variable en reprsen-
tant graphiquement sa distribution et sil sagit dune variable quantitative, en
calculant ses caractristiques de tendance centrale, de dispersion, de forme
C. Distributions conditionnelles
La distribution de la variable Y, la variable X tant gale xi, est appele
distribution conditionnelle de Y pour X = x i :
Y/X = xi y1 yj yl Total
Y/X = xi y1 yj yl Total
f
2
yi = f j/i y j et s i2 = j/i ( ( y j yi )
j=1 j=1
X/Y = yj x1 xi xk Total
f
2
xj = fi/j x i et s 2j = i/j ( xi x j )
i=1 i=1
sommes en ligne sont gales 100 % ; ce tableau est appel tableau des pro-
fils en ligne (cf. tableau 3.3).
Tableau 3.3 Tableau des profils en ligne correspondant au tableau de contingence 3.2
Modalit de Y Distribution
y1 yj yl marginale
Modalit de X de X
Total 1 1 1 1
Dunod. La photocopie non autorise est un dlit.
Mi
yi
0 xi x
cov(X,Y) = f ij ( x i x ) ( yj y ) = f ij xi yi x y
i=1j=1 i=1j=1
Proprits de la covariance
1. cov(X,Y) = cov(Y, X)
2. cov(X, X) = var(X)
3. var(X + Y) = var(X) + var(Y) + 2 cov(X, Y)
4. a, b, c, x 0, y0 : cov(aX + x0, bY + y0) = ab cov(X,Y)
var(aX + bY + c) = a2 var(X) + b2 var(Y) + 2ab cov(X,Y)
5. cov ( X , Y ) var ( X ) var ( Y )
Dunod. La photocopie non autorise est un dlit.
1
n n n
2 2
= --- ( x i x ) + ( y i y ) + 2 ( x i x ) ( y i y )
n i = 1 i=1 i=1
= var ( X ) + var ( Y ) + 2cov ( X , Y )
+ r ( X , Y ) si a et b de mme signe
=
""
r ( X , Y ) si a et b de signe oppos
Ce coefficient, invariant par changement dorigine et dchelle , est un
nombre sans dimension qui, daprs la proprit 5 de la covariance, varie
entre 1 et + 1. On montrera que sil est gal 1, les n points ( xi , y i )
sont aligns.
MH
2
cest--dire telle que : i i soit minimum ( cf. figure 3.2) :
i=1
M2
y
Mi y = ax + b
yi H1
H2
axi + b
Hi
M1
xi x
Figure 3.2 Interprtation gomtrique de la droite des moindres carrs
Les distances sont comptes paralllement lun des axes des coordon-
nes ; nous avons choisi ici laxe des ordonnes ( cf. figure 3.2).
Il sagit de dterminer la droite dquation { y = ax + b } telle que :
n
y ( ax + b ) 2 soit minimum
F ( a, b ) = i i
i=1
n n
= ( y i ax i ) 2 2b ( y ax ) + nb
i i
2
i=1 i=1
Quand a est fix, le dernier membre constitue une fonction de b qui atteint
F
son minimum pour b = b tel que ------- ( a, b ) = 0 , soit :
b
Dunod. La photocopie non autorise est un dlit.
F n
b
------- ( a, b ) = 2 ( y i ax i ) nb = 0
i = 1
n
1
b = ---
n ( y ax )
i i = y ax
i=1
n n n
=
i=1
( y i y ) 2 2a
i=1
( yi y ) ( xi x ) + a2 (x x )
i=1
i
2
n n
( y y )
2
i=1
M i H i 2 = F ( a, b ) =
i=1
i i sera plus faible
( cov ( X , Y ) )2
= n var ( Y ) -------------------------------
var ( X )
( cov ( X , Y ) )2
et comme : r 2 = --------------------------------------
var ( X ) var ( Y )
on a :
n n n
2
( y y ) (1 r )
2 2
( y i y i ) = n var ( Y ) ( 1 r 2 ) ( y i y i ) = i
2
ce qui implique :
1 r2 0 r +1 et cov ( X , Y ) var ( X ) var ( Y )
n
( y y )
2
La quantit i i , appele Somme des Carrs Rsiduelle (SCrs),
i=1
est dautant plus faible que r2 est proche de 1.
Elle est nulle pour r = + 1 et dans ce cas, on a une liaison linaire entre X et
Y, car si { y i = y i pour tout i}, alors les n points (xi , yi) sont aligns.
n
2
La quantit (y y )
i tant appele Somme des Carrs Totale (SC tot)
Dunod. La photocopie non autorise est un dlit.
i=1
de Y, il sensuit :
n
( y y )
2
i i
i=1 SC rs
1 r 2 = ------------------------------ = -----------
-
n
2 SC tot
( yi y )
i=1
yi
xi
n 2
Figure 3.3 ( y i y ) = SC tot
i=1
yi
yi
xi
n 2
Figure 3.4 ( y i y i ) = SC rs
i=1
ce qui implique aussi que les moyennes des y i et des y i sont gales : y = y
et ceci est d au fait que la droite des moindres carrs passe par le point
moyen ( x , y ) du nuage des n points.
La dcomposition de la variation totale de Y permet une autre interprta-
tion de r2 :
n n
2 2
i=1
( yi y ) = ( y y + y y )
i=1
i i i
n n n
2
=
i=1
( y i y i ) 2 +
i=1
( y i y ) + 2 ( y y ) ( y y )
i=1
i i i
( y y ) ( y y )
i=1
i i i = a y y a ( x x ) ( x x )
i=1
i i i
n n
2
i = 1 i=1
= a ( y i y ) ( x i x ) a ( x i x )
n
( y y ) ( y y )
i=1
i i i = n a cov ( X , Y ) avar ( X ) = 0
puisque a = cov ( X , Y -)
-----------------------
var ( X )
n
2
La quantit ( y y )
i=1
i tant appele Somme des Carrs Explique (SCexpl),
i=1
( y y )
i
SC expl
r 2 = ------------------------------ = --------------
n
2 SC tot
i=1
( yi y )
Dunod. La photocopie non autorise est un dlit.
X et Y indpendantes
r(X, Y) = 0
( x x )
2 2
M i Gi = i i = n var ( X ) ( 1 r 2 )
i=1 i=1
y
Mi
yi
Gi
xi xi x
'
y y
y G y G
'
y '
x x x x
r = -1 -1 < r < 0
G
y
' x x
y r=0 y
'
G G
y y
Dunod. La photocopie non autorise est un dlit.
x x x x
0 < r < +1 r = +1
Figure 3.6 Positions respectives des droites des moindres carrs selon les valeurs de r
I II III IV
X Y X Y X Y X Y
10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58
8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76
13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71
9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84
11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47
14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04
6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25
4,0 4,26 4,0 3,10 4,0 5,39 8,0 12,50
12,0 10,84 12,0 9,13 12,0 8,15 19,0 5,56
7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91
5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89
I II III IV
10 10 10 10
5 5 5 5
10 20 10 20 10 20 10 20
Figure 3.7 Extrait de F. J. Anscombe : Graphs in Statistical Analysis ,
adapt avec la permission de The American Statistician, 27 (February 1973), 17-21,
American Statistician Association
Tableau 3.5 Donnes extraites du journal Que Choisir ?, n 422 bis, 2005
s
Y 185X + 51 puisque r ----Y- 185 et y 185x 51
sX
Sodium
2 100
1 800
1 500
1 200
900
600
300
0
0 1 2 3 4 5 6 7 8 9 10
Fluorures
Figure 3.8 Nuage des 21 eaux minrales gazeuses et droite des moindres carrs
10 2 000
St-Yorre
*
St-Yorre
8 *
1 500
6 Vichy-Clestins
Vichy-Clestins
1 000
500
2
0 0
Fluorures Sodium
Figure 3.9 Botes de distribution des deux composants Fluorures et Sodium
( y y )
2
i i
i=1
r 2 = 1 ------------------------------
n
2
(y y )
i=1
i
n 2
Modalit de X ni yi n ij ( y ij yi )
j=1
i=1j=1 i=1
k l
SC tot = n ij ( y ij y )2
i=1j=1
X et Y indpendantes 2 = 0
Y /X
Y
y1 y2 yi
X
x1 n11 0 y1
x2 0 n22 y2
x3 n31 0 y1
Y
y1 y2 yi
X
1 20 0 y1
4 0 50 y2
6 30 0 y1
xj 4 4
yk
yi
y1
x1 xi xk
Figure 3.10 Courbe de rgression de Y en x
( fij fij* ) 2
2 = i, j
------------------------
fij*
-
Y y1 y2 ni
X
x1 20 0 20
(10) (10)
x2 0 50 50
(25) (25)
x3 30 0 30
(15) (15)
nj 50 50 100
V. Bilan
La mesure de lassociation de deux variables dpend de leur nature. Lorsque
les observations de deux variables quantitatives sont suffisamment nombreu-
ses pour tre prsentes dans un tableau de contingence, on peut traiter lune
delles comme une variable qualitative ou mme les deux variables comme
des variables qualitatives. Leur association peut se mesurer par le coefficient
de corrlation linaire , les rapports de corrlation et le khi-deux.
Pour les donnes du tableau 3.8, les deux variables X et Y ne sont pas
indpendantes, mais :
elles sont linairement indpendantes puisque r = 0
il y a absence de corrlation entre X et toute fonction de Y puisque
X2 /Y = 0
la variable Y est lie fonctionnellement la variable X puisque Y2 / X = 1
Lanalyse conjointe de deux variables est un problme trs dlicat ; il faut
bien examiner les donnes avant de conclure lindpendance, et en cas de
liaison, il convient de ne pas conclure htivement une relation de cause
effet sans stre pench sur sa signification concrte.
On noubliera pas les diffrents modes dtudes de la liaison de deux variables selon leur nature
Nature des variables et prsentation des donnes tude de la liaison entre deux variables X et Y
ni = nbre de valeurs de Y associes {X = xi} Si X est une variable quantitative classe, graphique de la courbe de rgression
moyenne conditionnelle y i pour {X = xi} de Y en x qui joint les points (xi , yi )
X qualitative, Y qualitative : * *
( n n )2
ij ij ( fij fij ) 2
i, j n ij i, j fij*
93
P067-102-9782100549412.fm Page 94 Mercredi, 24. novembre 2010 9:53 09
Y
y1 y2 y3
X
0 75 40 100 50
1 25 60 0 50
100 100 100 100
Y
0 3 4
X
0 20 20 0
1 10 40 10
Y
0 1
X
1 a 10
1 10 b
l colonnes :
a) il suffit de connatre les effectifs marginaux
b) il suffit de connatre k (l 1) lments du tableau
c) il suffit de connatre k (l 1) lments du tableau et les sommes en lignes
d) il suffit de connatre ( k 1) (l 1) lments du tableau et ses marges
9. Parmi un groupe de 100 malades qui se plaignent de ne pas bien dormir, cer-
tains ont pris un somnifre sous forme de cachet, dautres ont pris un cachet
de sucre ; tous pensaient prendre un somnifre. Aprs la nuit, on leur a
demand si le cachet avait t efficace. Le tableau suivant donne la rparti-
tion des rponses (on suppose que tous les malades ont dit la vrit) :
10. Ce tableau donne la rpartition des salaris et non-salaris par sexe pour les
actifs de 15 ans ou plus ayant un emploi et vivant en France mtropolitaine :
Hommes Femmes
100,0 100,0
Y (milliers de km)
< 10 [10 ; 20[ [20 ; 30[ [30 ; 40[ 40
X (chevaux
fiscaux)
4 4,4 1,6
56 7,2 8,2 4,0 2,6
78 2,4 7,2 13,6 14,4 4,4
9 10 2,4 11,6 6,0
> 10 4,4 5,6
Exercice 3.2
Dans une entreprise, on tudie la rpartition de 100 salaries femmes ( cf. tableau 1)
et 140 salaris hommes ( cf. tableau 2) selon le salaire mensuel brut X exprim en
euros et lanciennet Y exprime en annes.
Dunod. La photocopie non autorise est un dlit.
Y
[0 ; 4[ [4 ; 8[ [8 ; 12[ [12 ; 20[ [20 ; 28]
X
[1 200 ; 1 800[ 12 10 10 8
[1 800 ; 2 200[ 8 14 5 4 4
[2 200 ; 3 000[ 6 5 6 3
[3 000 ; 4 200] 2 3
Y
[0 ; 4[ [4 ; 8[ [8 ; 12[ [12 ; 20[ [20 ; 28]
X
[1 200 ; 1 800[ 10 6
[1 800 ; 2 200[ 4 9 18 8 8
[2 200 ; 3 000[ 4 8 16 12 4
[3 000 ; 4 200] 5 8 8 12
Exercice 3.3
Le tableau suivant donne les pourcentages de variation par rapport la priode pr-
cdente du produit intrieur brut (prix constants) et de la consommation finale prive
(prix constants) en France ( source : http://stats.oecd.org/)
Anne 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
PIB 2,6 1,0 1,4 0,9 2,2 2,1 1,1 2,2 3,5 3,3
Consommation 2,5 0,6 1,0 0,4 1,4 1,7 1,6 0,4 3,9 3,5
Anne 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
PIB 3,9 1,9 1,0 1,1 2,5 1,9 2,2 2,3 0,4 2,2
Consommation 3,6 2,6 2,4 2,0 2,5 2,6 2,4 2,5 1,0 0,8
1. Calculez les sries des indices, base 1989, du PIB et de la Consommation prive.
Calculez le coefficient de corrlation linaire entre les indices du PIB et de
la consommation prive.
2. Peut-on considrer qu'il y a approximativement une liaison linaire entre les indi-
ces de volume du PIB et de la Consommation prive ? Calculez lquation de la
droite des moindres carrs expliquant lindice de la Consommation prive en fonc-
tion de lindice du PIB.
Reprsentez le nuage des 21 points avec la droite des moindres carrs.
Quelle est la part de variation de l'indice de la consommation prive explique par la
relation linaire ?
3. Calculez le coefficient de corrlation linaire entre les variations du PIB et de la
Consommation prive. Calculez lquation de la droite des moindres carrs expli-
quant la variation de la Consommation prive en fonction de la variation du PIB.
Reprsentez le nuage des 20 points avec la droite des moindres carrs.
4. Vous semble-t-il plus intressant d'analyser la liaison entre les variations du PIB
et celles de la Consommation prive qu'entre les indices du PIB et de la Consom-
mation prive ? Si oui, pourquoi ?
Exercice 3.4
Une entreprise a effectu un sondage auprs de sa clientle pour connatre son appr-
ciation sur le service livraison. Les rsultats ont t les suivants :
Pas du Plutt
Plutt Trs
tout pas
satisfait satisfait
satisfait satisfait
Clients de plus de 2 ans danciennet 10 50 245 195
Clients dau plus 2 ans danciennet 40 90 205 165
Exercice 3.5
Lobservation des quantits offertes sur un march de raisin de table et des prix de
vente a donn les rsultats suivants :
Prix moyen Y par kg (euros) 1,60 1,40 1,95 2,10 1,75 2,25 1,50 1,80
Exercice 3.6
Le tableau suivant, extrait de la revue Synthses, Revenus et patrimoine des
mnages (INSEE, n 19, 1998), donne la rpartition (en %) des mnages selon leur
niveau de vie et leur type socio-conomique.
Niveau de vie
Infrieur Du 1er dcile Du 3e quartile au Au moins gal
(en F/uc/mois)
au 1er dcile au 3e quartile 9e dcile au 9e dcile Ensemble
< 3 700 [3 700 ; 9 933[ [9 933 ; 13 900[ 13 900
Type socio-conomique
Communes agricoles 22 13 7 5 12
18 70 8 4 100
Communes et quartiers 28 34 39 32 34
des classes moyennes tertiaires 8 65 17 9 100
Communes et quartiers 3 5 11 13 7
techniques trs qualifis 5 51 25 19 100
Quartiers hupps 6 6 12 28 9
6 44 20 30 100
uc : unit de consommation.
Lecture : 30 % des habitants des quartiers hupps appartiennent au 10e dcile de niveau de vie (cest--dire parmi les
10 % des mnages les plus aiss). Et 28 % des mnages du 10e dcile habitent dans des quartiers hupps.
Champ : mnages hors tudiants.
Source : Enqute Logement 1996, INSEE.
Exercice 3.7
Le tableau suivant donne la distribution de 200 tudiants selon leur note dexamen X
en conomie et leur note dexamen Y en Statistique.
Y
[5 , 7[ [7 , 9[ [9 , 11[ [11 , 13[ [13 , 15[ [15 , 17[ [17 , 19]
X
[5 , 7[ 7 3 2
[7 , 9[ 2 12 12 2
[9 , 11[ 1 10 18 8 2
[11 , 13[ 7 15 21 10 1
[13 , 15[ 11 12 13 5
[15 , 17[ 1 3 10 7 1
[17 , 19] 1 1 2
Exercice 3.8
Reprenons les donnes relatives aux 21 eaux minrales gazeuses (cf. tableau 3.5). On
recode la variable X (fluorures) en trois classes et la variable Y (sodium) en quatre
classes, de la faon suivante :
Dunod. La photocopie non autorise est un dlit.
1. crire un tableau qui a pour premire colonne les eaux minrales, pour deuxime
colonne la variable XC (variable X recode) gale au numro de classe dans le
recodage de X, et pour troisime colonne la variable YC (variable Y recode) gale
au numro de classe dans le recodage de Y.
Exercice 3.9
Soit les donnes trimestrielles suivantes relatives des souscriptions de contrats
dassurance vie de fin mars 2000 fin dcembre 2002 :
Y = Nombre
t de contrats
souscrits
400
1 117 350
2 178
Nombre de contrats
300
3 149
250
4 189
200
5 145
150
6 173
100
7 170
223 50
8
0
9 223
0 1 2 3 4 5 6 7 8 9 10 11 12 t
10 281
Reprsentation graphique
11 285
12 339
Tous les rsultats de cet exercice seront donns avec une prcision de deux dcimales.
1. Calculez le taux trimestriel moyen de croissance du nombre de contrats souscrits.
2. On ajuste cette srie par le modle linaire : Y = a t + b.
2.1. Calculez les coefficients de ce modle par la mthode des moindres carrs.
2.2. Quelle est la part de variation de Y non explique par le modle ?
3. On ajuste maintenant cette srie par le modle quadratique : Y = at2 + b.
3.1. Calculez les coefficients de ce modle par la mthode des moindres carrs.
3.2. Quelle est la part de variation de Y non explique par ce nouveau modle ?
4. Quel modle choisissez-vous ? (justifiez votre rponse)
Daprs examen de juin 2006, DUGEAD 1re anne Paris-Dauphine.
4. Sries chronologiques
et prvision
U
ne srie chronologique ou chronique est constitue par une
suite ordonne dobservations dune grandeur au cours du
temps. Ltude de ces sries intresse tous ceux qui dsirent
dcrire, expliquer, contrler, prvoir des phnomnes voluant au cours
du temps.
jours de certaines ftes mobiles ne sont pas les mmes chaque anne. Pour
que ces variations ne soient pas intgres dans la composante rsiduelle du
modle, on corrige les donnes en adoptant une correction proportionnelle
qui consiste pour des donnes mensuelles, par exemple, ramener chaque
mois un mme nombre thorique de jours.
B. Le mouvement saisonnier
Le facteur saisonnier, not st , se rpte intervalles de temps gaux avec une
forme peu prs constante. Il peut tre d au rythme des saisons ou des
facteurs humains. Sa priode est de 12 pour des sries mensuelles, de 4 pour
des sries trimestrielles
Si p dsigne la priode du mouvement saisonnier : st = st + p = st + 2p =
Le facteur saisonnier est donc totalement dtermin par p coefficients
saisonniers :
s1 , , sj , , sp
C. Les irrgularits
Cette composante, appele aussi mouvement rsiduel et note et , re groupe
tout ce qui na pas t pris en compte par la tendance et le f acteur saisonnier.
Elle est la rsultante de uctuations irrgulires et imprvisibles dues des
facteurs perturbateurs non permanents ; ces uctuations sont supposes de
faible amplitude et de moyenne nulle sur un petit nombre dobserv ations
conscutives.
D. Les perturbations
Les perturbations sont des uctuations ponctuelles de forte amplitude. Elles
sont dues, par e xemple, une grv e, des conditions mtorologiques
exceptionnelles pour lagriculture, un krach nancier Il con vient de les
liminer avant tout traitement de la srie . Les mthodes pour le f aire sont
simples ; pour faire comme si ces vnements na vaient pas eu lieu, les
instruments pri vilgis sont linterpolation et la rgle de tr ois. La
reprsentation de la srie chronologique des Voyageurs RATP de 1995
2002 ( cf. gure 4.1) montre une baisse importante du nombre de v oyageurs
en dcembre 1995 due une longue grv e. Avant destimer les composantes
de cette chronique, il est ncessaire de corriger la v aleur 0,19 milliard de
voyageurs-km de ce mois de dcembre en la remplaant, par e xemple par la
moyenne des mois de dcembre 1994 et 1996 (resp. 1,06 et 0,95 milliards de
voyageurs-km), soit 1 milliard de voyageurs-km.
On traite gnralement des sries deux composantes : tendance et mou-
vement rsiduel, ou trois composantes : tendance, mouvement saisonnier
et mouvement rsiduel. Les observations dune chronique possdant une
composante saisonnire peuvent tre disposes dans un tableau selon les
deux dimensions du temps, annuelle et mensuelle (ou trimestrielle), comme
pour les tableaux 4.1, 4.2 et 4.4. Cette prsentation, introduite par C. Buys-
Ballot en 1847, est appele table de Buys-Ballot .
additif et multiplicatif.
Pour le mouvement saisonnier de priode p, on fait lhypothse dune
compensation exacte sur une priode entre les variations saisonnires positi-
ves et les variations saisonnires ngatives, sinon, le partage entre le facteur
saisonnier et la tendance serait indtermin :
p
s j = 0
j=1
Quand on analyse une srie chronologique, le premier problme est le
suivant : la srie prsente-t-elle des variations saisonnires et si oui, quel est
le schma de composition le mieux adapt ?
Source : www.insee.fr
Source : www.insee.fr
Pour choisir le modle de composition , on peut relier par une courbe (ou
plutt par une ligne brise) les maxima distants dune priode p et faire de
mme avec les minima.
Si ces deux courbes sont peu prs parallles, alors le facteur saisonnier
a des amplitudes peu prs constantes, cest--dire quil affecte la ten-
dance indpendamment de son niveau, et le schma additif est adapt.
faisant par la mthode des moindres carrs (mthode qui minimise les carts
quadratiques entre modle et observ ations). Citons quelques-uns de ces
modles :
modle linaire : y(t) = a + b t
modle quadratique : y(t) = a + b t + c t 2
modle exponentiel : y(t) = exp (a + b t), ce type de modle convient
des quantits voluant taux constant puisque y(t + 1) = exp(b) y(t)
( y (t + 1) = c y(t) o c est constant)
modle logarithmique : y(t) = a + b ln (t)
modle S (courbe sigmode ) : y(t) = exp(a + b/t), ce type dajuste-
ment convient la description du cycle de vie de certains produits.
Ces mthodes analytiques sont simples, mais reposent sur lhypothse
dune tendance voluant selon une fonction analytique dtermine, hypothse
quon ne peut pas frquemment faire, mme la suite dune transformation
de variable.
En labsence de rfrence un modle prcis pour la tendance, on prf-
rera utiliser une mthode non-paramtrique qui filtre la tendance en liminant
le facteur saisonnier tout en rduisant les irrgularits. Dans la suite, nous
appellerons filtre une sorte de bote noire rgularisant une chronique X en
la transformant en une chronique Y qui est une approximation de la compo-
sante tendancielle de la chronique X :
X
filtre
Y
Nous tudierons deux des principaux filtres linaires qui sont la moyenne
mobile et le lissage exponentiel simple. Un filtre linaire est une application
linaire de lensemble des chroniques dans lui-mme transformant la chroni-
que X en une nouvelle chronique Y de la faon suivante :
yt = x
kK
k t+k avec K et k = 1
kK
Dunod. La photocopie non autorise est un dlit.
1
+m
Premier cas, p impair, p = 2m + l : M p ( t ) = ---
p k = m
x t+k
Il y a ( T p + 1) moyennes mobiles centres de longueur impaire p.
Deuxime cas, p pair, p = 2m :
1 xt m x t + m
m1
M p ( t ) = --- ---------
p 2
-+ x t + k + ----------
k = m+1
2
-
Valeurs x xt m + 1 . xt . xt + m 1 xt + m
tm
1 1 . 1 . 1 1
Pondrations ------ --- --- --- ------
2p p p p 2p
X est gale la longueur de la moyenne mobile ( p' = p), les moyennes mobi-
les forment alors une suite de termes constants gaux la moyenne des ter-
mes de la srie X sur une priode.
La moyenne mobile centre de longueur p rend constantes les sries
priodiques de priode p.
Deux chroniques ont la mme suite de moyennes mobiles centres de
longueur p si leur diffrence est une srie priodique de priode p dont la
somme des termes sur une priode est nulle.
Exemple
La chronique {xt , t = 1, ,12} du tableau 4.3 est priodique de priode
p = 4 ; les suites des moyennes mobiles de longueur 2, 3, 5 sont aussi
de priode 4, et la suite des moyennes mobiles de priode 4 est une suite
de termes constants gaux -1/4, moyenne des termes sur une priode.
Tableau 4.3 Calcul de moyennes mobiles
Figure 4.4 Reprsentation dune chronique et de ses moyennes mobiles centres de longueur 4
A. Modle additif
Le modle est le suivant : xt = ft + st + et
On approxime la tendance ft par la moyenne mobile centre yt .
Soient n le nombre dannes et p la priode du facteur saisonnier :
T = np observations np p = p (n 1) moyennes mobiles si
p est pair ( cf. tableau 4.5).
Les coefficients saisonniers tant priodiques de priode p, on dispose
pour chacun des p coefficients saisonniers de ( n 1) valeurs qui sont ( n 1)
diffrences {xt yt}. On rsume ces ( n 1) valeurs par leur moyenne arith-
mtique, ou leur mdiane, ou leur moyenne arithmtique aprs limination
de la valeur la plus faible et de la valeur la plus leve (le logiciel SPSS
utilise ce dernier rsum).
Si la somme des coefficients saisonniers nest pas nulle sur une priode,
on corrige les coefficients saisonniers obtenus de faon avoir une somme
nulle :
p
1
st s t* = s t s avec s = ---
p s t
t=1
des diffrences :
x t* = x t s t*
Pour toutes les dates pour lesquelles on dispose de la valeur de la
moyenne mobile, et donc dune valuation de la tendance, on peut calculer
lcart entre le modle et lobservation :
et = x t y t s t* = x t* yt
Si le modle est adapt, les valeurs absolues des carts ne doivent pas tre
leves, et leur somme voisine de zro.
B. Modle multiplicatif
Le modle est le suivant : xt = ft (l + st) (l + et)
Comme prcdemment, on approxime la tendance ft par la moyenne
mobile centre yt .
Les coefficients saisonniers tant priodiques de priode p, on dispose
pour chacun des p coefficients saisonniers de (n 1) valeurs qui sont ( n 1)
quotients {xt / yt}. On rsume ces ( n 1) valeurs par leur moyenne arithm-
tique, ou leur mdiane, ou leur moyenne arithmtique aprs limination de la
valeur la plus faible et de la valeur la plus leve (le logiciel SPSS utilise ce
dernier rsum).
Si la somme des (1 + st) nest pas gale p sur une priode, on fait une
correction proportionnelle :
p
1+s 1
1 + st 1 + s t* = -------------t
1+s
avec
s = --- s t
pt = 1
On tablit ensuite la srie corrige des variations saisonnires :
xt
x t* = -------------
-
1 + s t*
Dans le cas du modle multiplicatif, les coefficients saisonniers sexpri-
ment en pourcentage de la tendance. Ils ont une interprtation plus concrte
que ceux du modle additif.
Le modle multiplicatif prdit ainsi des valeurs y t ( 1 + s t* ) et il est alors
naturel, pour toutes les dates auxquelles on dispose de la valeur de la
moyenne mobile, et donc dune valuation de la tendance, de considrer les
rsidus et sous la forme :
xt x*
- 1 = ----t- 1
e t = ---------------------------
yt
y t 1 + s t*
C. Autres approches
On peut chercher amliorer lv aluation de la tendance en repassant un
ltre mo yenne mobile sur la srie CVS. On choisit gnralement une
longueur assez faible pour cette nouvelle suite de moyennes mobiles : 5 ou 7
dans le cas dune srie de priode 12, et 3 dans le cas dune srie de priode
4. Avec cette nouv elle valuation de la tendance, on dtermine de nouv eaux
coefcients saisonniers et une nouv elle srie CVS. Cette mthode itrati ve
pourrait videmment tre poursuivie, mais le g ain devient peu prs nul au-
del de deux tapes.
On peut aussi remplacer la moyenne mobile centre par la mdiane mobile
centre qui est un filtre non linaire : au lieu de synthtiser une suite de valeurs
de la srie par une moyenne pondre, on les rsume par leur mdiane (par-
ticulirement aise dterminer la main avec p = 3). Les mdianes mobiles,
dveloppes par Tukey, sont robustes puisqutant fondes sur lutilisation
de statistiques dordre, elles liminent les valeurs singulires (chapitre 1,
III.B.4). Elles constituent des lisseurs aux proprits complmentaires des
moyennes mobiles. Certaines mthodes de dsaisonnalisation reposent sur
une association de ces deux types de lisseurs.
Disposant des coefficients saisonniers, on peut ajuster la srie CVS par
une fonction, faire une prvision pour la tendance en extrapolant cette fonc-
tion dajustement ou en utilisant une mthode de lissage exponentiel sur la
srie CVS ( VI). Mais, il ne faut pas oublier que ce mode de prvision ne
peut tre envisag que sur du court terme puisquil suppose une volution
future non perturbe par des changements sur lenvironnement.
Figure 4.5 Chronique du tableau 4.4 et suite des moyennes mobiles de longueur 4
A. Schma additif
Pour obtenir la srie CVS et la srie des rsidus, les calculs ont t raliss
laide du tableur Excel selon les tapes indiques (cf. tableau 4.5). Dans cet
exemple, la synthse des coef cients saisonniers a t ralise par la
moyenne.
B. Schma multiplicatif
Comme pour le modle additif, les calculs ont t raliss laide du tableur
Excel (cf. tableau 4.6). La synthse des coef cients saisonniers a aussi t
ralise par la mo yenne. Les diffrences entre certains rsultats donns dans
le tableau 4.6 avec ceux obtenus par calcul direct, sont e xpliquer par le fait
que Excel utilise pour les calculs un grand nombre de dcimales.
(1 ) ( x
i
T 1 a )2 (3)
i=0
est la suivante :
T 1
(1 ) x
i=0
i
T i
a = -----------------------------------------
- x T
1 ( 1 )T
La prvision sinterprte alors comme la constante qui sajuste le mieux
la srie au voisinage de T, lexpression au voisinage traduisant le
fait que dans la minimisation, linfluence des observations dcrot lorsquon
sloigne de la date T.
Cette dernire interprtation montre clairement que le lissage exponentiel
simple ne sapplique que si la chronique peut tre approche par une droite hori-
zontale au voisinage de T, ce qui implique une tendance localement constante.
La minimisation de ces critres peut tre faite sur toute la srie des
erreurs de prvision ou sur un pourcentage donn de ses derniers termes
(dans ce cas, on prend souvent le dernier tiers de la srie, tableau 4.7). Cer-
tains logiciels proposent actuellement les mthodes de lissage avec une
constante dtermine par la minimisation dun critre. Le logiciel SPSS
calcule la constante optimale en minimisant lErreur Quadratique Moyenne
de prvision.
Dunod. La photocopie non autorise est un dlit.
Figure 4.8 Chronique du tableau 4.6 et srie obtenue par LES avec = 0,4
Tableau 4.7 Prsentation des calculs du LES avec les critres calculs
sur le dernier tiers de la srie
= 0,4 = 0,5
1 130
2 121 130,00 9,00 9,00 81,00 130,00 9,00 9,00 81,00
3 120 126,40 6,40 6,40 40,96 125,50 5,50 5,50 30,25
4 127 123,84 3,16 3,16 9,99 122,75 4,25 4,25 18,06
5 122 125,10 3,10 3,10 9,63 124,88 2,88 2,88 8,27
6 129 123,86 5,14 5,14 26,39 123,44 5,56 5,56 30,94
7 124 125,92 1,92 1,92 3,68 126,22 2,22 2,22 4,92
8 120 125,15 5,15 5,15 26,53 125,11 5,11 5,11 26,11
9 139 123,09 15,91 15,91 253,12 122,55 16,45 16,45 270,45
10 136 129,45 6,55 6,55 42,85 130,78 5,22 5,22 27,28
11 135 132,07 2,93 2,93 8,57 133,39 1,61 1,61 2,60
12 134 133,24 0,76 0,76 0,57 134,19 0,19 0,19 0,04
13 136 133,55 2,45 2,45 6,02 134,10 1,90 1,90 3,62
14 133 134,53 1,53 1,53 2,33 135,05 2,05 2,05 4,20
15 138 133,92 4,08 4,08 16,67 134,02 3,98 3,98 15,81
16 133 135,55 2,55 2,55 6,50 136,01 3,01 3,01 9,07
17 134,53 134,51
T 1
a 1 ( T ) = 2S 1 ( T ) S 2 ( T )
S1 ( T ) =
i=0
( 1 )i xT i
avec
- S 1 ( T ) S 2 ( T )
a 2 ( T ) = ----------- T 1
1 S2( T ) =
i=0
( 1 )i S1( T i )
S1 ( T ) = xT + ( 1 ) S1 ( T 1 )
S2( T ) = S1( T ) + ( 1 ) S2( T 1 )
Linitialisation de ces formules de mise jour peut tre :
S1 ( 1 ) = x1
S2( 2 ) = S1( 2 )
{
a 1 ( T ) = a 1 ( T 1 ) + a 2 ( T 1 ) + ( 1 ( 1 ) 2 ) x T x T 1 ( 1 )
= x T ( 1 ) 2 x T x T 1 ( 1 )
a 2 ( T ) = a 2 ( T 1 ) + 2 x T x T 1 ( 1 )
a 1 ( 2 ) = x 2
Linitialisation de ces formules peut tre :
a 2 ( 2 ) = x 2 x 1
Exercice 4.2
t 1 2 3 4 5 6 7 8 9 10 11 12
xt 3 1 51 3 15 1 3 15 1
Exercice 4.3
Le tableau suivant donne la srie chronologique bimestrielle du transport des voya-
geurs sur le rseau Air France International (en milliards de passagers-km) de 2002
2005.
Source : www.insee.fr
t 1 2 3 4 5 6 7 8 9 10 11 12
xt 3 428 3 295 3 376 3 195 3 573 3 334 3 434 3 300 3 703 3 411 3 545 3 327
Dunod. La photocopie non autorise est un dlit.
Exercice 4.5
La demande dun certain article a t releve au cours de 15 mois conscutifs :
Mois 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Demande 37 41 39 40 42 39 41 39 42 41 40 42 43 40 42
Exercice 4.6
Le tableau ci-dessous donne les valeurs des indices trimestriels (base 2000) de la pro-
duction industrielle des boissons pour les annes 2002 2005 :
Source : www.insee.fr
5. M odle probabiliste
et variable alatoire
Il ne faut donc pas se demander si nous percevons vraiment un monde, il faut se dire au
contraire : le monde est cela que nous percevons.
Phnomnologie de la perception, Maurice Merleau-Ponty (1908-1961)
L
a statistique descriptive permet de rsumer les mesures dune ou
plusieurs grandeurs obtenues sur les individus dun chantillon ou
dune population par un classement (tri simple dans le cas dune
seule variable, tri crois dans le cas de plusieurs variables). Une grandeur
est alors dcrite par sa distribution, qui est dtermine partir des obser-
vations, justifiant ainsi le nom de distribution empirique de la grandeur
(ou de la variable). Cest la reprsentation de base pour apprcier
une grandeur aprs quelle a t classe.
Lobservation de nombreuses distributions empiriques montre pour cer-
taines dentre elles des analogies de formes, et des caractristiques voi-
sines. Ceci conduit dfinir des distributions thoriques afin de disposer
dinstruments plus formels regroupant les proprits. Ces distributions
thoriques sont une abstraction destine non pas simplement prsen-
ter les donnes, mais les interprter ou les expliquer. Ce paralllisme
entre lobservation et la reprsentation thorique se retrouve galement
au niveau de lobservation individuelle quon replace dans un ensemble
potentiel dobservations supposes homognes. Les variations entre dif-
frentes observations sont considres comme des fluctuations non attri-
Dunod. La photocopie non autorise est un dlit.
dfinir une probabilit. Cette structure est celle dune algbre de Boole (cas
fini), ou dune -algbre (cas infini).
A. Notion de probabilit
Soit lensemble fondamental associ une preuve alatoire et ()
lensemble des parties de .
1. Cest--dire pouvant tre mis en bijection avec tout ou partie de lensemble des entiers naturels.
2. Le complmentaire de lensemble G est not indiffremment G ou Gc.
On dit que () est une algbre de Boole si les deux conditions
suivantes sont vrifies :
C1 : G G
C2 : G et H G H
Cette structure dalgbre de Boole correspond la traduction ensembliste
de la logique des vnements dans le cas o lensemble fondamental est fini.
On dit que () est une -algbre de Boole (ou plus simplement
une -algbre) si les deux conditions suivantes sont vrifies :
C1 : G G
C2 : Gi pour i UG
i
i
P U G =
i i
P(G )
i
i
ts suivantes :
1. Si G , alors P( G ) 1= P(G)
En effet, on a : G =G et G G = , ce qui donne :
P() = 1 = P (G G ) = P(G) + P( G )
2. La probabilit de lvnement impossible est nulle : P() = 0
Il suffit dappliquer la proprit prcdente en posant G =
1. On dit encore une mesure de probabilit pour bien faire rfrence aux qualits mtrologiques
de cette application. On dsignera indiffremment par la suite la probabilit par Pr ou par P.
B. Probabilits conditionnelles
Nous avons voqu en introduction de ce chapitre le lien particulier entre
linformation disponible, le contrle des facteurs dterminants dun phnomne
et limportance de sa partie alatoire, donc de sa probabilit de ralisation.
Nous allons retrouver ceci au travers de la notion de probabilit conditionnelle.
Soit une preuve alatoire donne, munie de son ensemble fondamental ,
de la -algbre des vnements, et de la probabilit P associe chacun de ces
derniers, en dautres termes, nous supposons donn un espace probabilis
(, , P). La connaissance dune information complmentaire sur le droule-
ment de lpreuve quivaut la modification des probabilits dfinies sur les
lments de . En effet, cette information acquise nest autre quune condition
dsormais suppose ralise quel que soit le rsultat de lexprience alatoire.
Prenons-en un exemple. Nous avons vu que la probabilit de raliser la
figure 421 lors du jet de 3 ds tait de 1/36. Supposons maintenant que le
premier d soit lanc avant les deux autres, et quil fasse apparatre le chiffre
2. Lensemble fondamental associ au jet des 2 ds restant contient 36 vne-
ments lmentaires, mais parmi ceux-ci, seuls les couples (4 ;1) et (1 ; 4) permet-
tent de complter la configuration 421 . On en dduit donc que si on sait que
le premier d a affich la valeur 2, la probabilit de raliser un 421 est de 1/18.
On remarque dans cet exemple que lensemble fondamental a t modifi, et
donc aussi la -algbre des vnements, ainsi que la mesure de probabilit P.
Dfinition 1
Soit (, , P) un espace probabilis et soit C un vnement par-
ticulier, appel condition, de probabilit non nulle. Pour tout vnement
A , on appelle probabilit conditionnelle de A sachant C , note
P ( A C ), la quantit :
P( A C )
P ( A C ) = ------------------------
P(C )
A A
C C
Dunod. La photocopie non autorise est un dlit.
Proprit
Si A1, A2, , An sont n vnements quelconques dune -algbre
dun espace probabilis ( , , P), on peut crire :
P ( A1 A2 An ) =
P ( A1 ) P ( A2 A1 ) P ( An A1 A2 An 1 )
Dfinition 2
Deux vnements A et B dun espace probabilis ( , , P) sont dits
indpendants en probabilit si la ralisation de lun deux ne modifie pas
la probabilit de survenue de lautre.
Il sagit dune relation symtrique. On parle galement dvnements sto-
chastiquement indpendants. Dans la suite de ce livre, on crira toutefois
simplement vnements indpendants.
On voit alors que si A et B sont deux vnements indpendants, on a :
P( A B) = P( A)
P(B A) = P(B)
et chacune de ces galits montre que :
A et B indpendants P ( A B ) = P ( A ) P ( B )
Dautre part, il est important de ne pas confondre les notions dindpen-
dance et dincompatibilit. Dans le premier cas, si les deux vnements A et
B sont de probabilit non nulles, alors la probabilit P ( A B ) est aussi non
nulle. Dans le second cas, mme si A et B sont de probabilit non nulles,
lintersection ( A B ) est de probabilit nulle. Il sensuit que deux vne-
ments la fois indpendants et incompatibles sont tels quau moins lun
deux est un vnement impossible (cest--dire de probabilit nulle).
Notons encore que si A et B sont deux vnements indpendants, alors :
P( A B) = P( A B) = P( A)
P( B A) = P( B A) = P( B)
Dfinition 3
Soient n vnements dun espace probabilis ( , , P). On dit quils
sont mutuellement indpendants si quels que soient A1, A2, , Ak choisis
parmi ces n vnements, on a :
P ( A1 A2 Ak ) = P ( A1 ) P ( A2 ) P ( Ak )
Thorme de Bayes
Soit (, , P) un espace probabilis, et soient A1, A2, , An un ensem-
n
ble dvnements deux deux incompatibles vrifiant U
A k = (on dit
k=1
que les Ak forment un systme complet dvnements). Pour tout vne-
P ( B Ai ) P ( Ai )
ment B, on a alors : P ( A i B ) = ------------------------------------------------
- pour i = 1, 2, , n
n
P( B A ) P( A )k k
k=1
Dunod. La photocopie non autorise est un dlit.
n n
et dautre part que B = B = B k = 1 A k = U U (B A )
k =1 k
1. Le rvrend Thomas Bayes (1701-1761) est lauteur de An Essay Towards Solving a Pro-
blem in the Doctrine of Chances qui ne fut publi quen 1763, aprs sa mort.
On en dduit :
P ( Ai B ) P ( B A1 ) P ( A1 ) 0,5
P ( A 1 B ) = ------------------------ - = 0,9
- = --------------------------------------- ------------------- = 0,414
P( B) P( B) 0,435
ainsi que : P ( A 2 B ) = 0,414 et P ( A 3 B ) = 0,172
Ce calcul montre que linformation complmentaire le dossier tudi
correspond un score bas a permis une augmentation de la probabilit
associe au de venir contentieux (0,414 au lieu de 0,2) et de la
probabilit associe au de venir difcults lgres (0,414 au lieu de
0,3), et une forte diminution de la probabilit associe au de venir
aucune difcult (0,172 au lieu de 0,5).
On nomme aussi probabilits rvises, les probabilits a posteriori P ( A k B ).
Le thorme de Bayes est lorigine de nombreux dveloppements for-
mant ce quon a appel la statistique baysienne. Les domaines dapplication
sont trs varis : gestion financire, prvisions, diagnostic,
Cependant, son utilisation est trs conteste, notamment en raison de la
ncessit dune valuation a priori , subjective, de probabilits. De plus les
causes Ak se trouvent affectes de probabilits, ce qui peut apparatre
paradoxal si on se rfre la notion dterministe de causalit. Pour ceux qui
contestent la statistique baysienne, un phnomne est, ou nest pas, cause
(ventuellement partielle) dun autre, et ne saurait donc tre muni dune pro-
babilit sur cette causalit 1.
De nombreuses difficults persistent autour de la notion de probabilit, et
particulirement celle du choix des probabilits quon affecte aux vne-
ments rapports une preuve alatoire. Lanalyse combinatoire et lappro-
che frquentiste offrent une solution, dite objectiviste . Cependant, ce
point de vue se heurte :
quelques contradictions logiques : le lien entre la probabilit et la fr-
quence relative, qui permet dvaluer une probabilit, est relativiser par
la loi faible des grands nombres ( cf. infra ), donc par une probabilit ; on
Dunod. La photocopie non autorise est un dlit.
Exemple
On jette deux ds non pips ; lensemble fondamental associ cette
exprience alatoire est form de 36 vnements lmentaires quipro-
bables :
= ({1,1} ; {1,2} ; {2,1} ; ; {6,6})
Si on sintresse la somme des points marqus par les deux ds, on
dnira sur cet espace probabilis une v .a. X gale cette somme ;
lensemble de ses valeurs possibles est :
{2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
Pour obtenir la probabilit dune v aleur quelconque de X, il suf t de
dnombrer les vnements lmentaires de qui ralisent cette valeur;
ainsi :
P ( X = 4 ) = P ( { 1,3 } { 2,2 } { 3,1 } )
= P ( { 1,3 } ) + P ( { 2,2 } ) + P ( { 3,1 } ) = 3/36 = 1/12
Remarque
Pour une variable alatoire continue X, il faut complter la dfinition
en ajoutant que limage rciproque de tout intervalle ] , x] doit
appartenir la -algbre :
Dunod. La photocopie non autorise est un dlit.
x X1(],x]) = ( ( X ) ( ) x )
La probabilit tant dfinie sur la famille des parties de formant
une -algbre, cette condition permet de dterminer la probabilit de
tout intervalle de .
Notons que cette condition est gnrale puisquelle est ralise pour
les variables alatoires discrtes ; pour ces variables alatoires, limage
rciproque de tout intervalle de est une partie de laquelle est
associe une probabilit.
Valeur de X x1 xi xk k
pi = 1
Probabilit p1 pi pk i=1
Exemple 1
Loi de probabilit de la v.a. discrte nie X gale la somme des points
marqus lors du lancer de deux ds non pips :
Valeur de X 2 3 4 5 6 7 8 9 10 11 12
1 1 1 1 5 1 5 1 1 1 1
Probabilit ------ ------ ------ --- ------ --- ------ --- ------ ------ ------
36 18 12 9 36 6 36 9 12 18 36
Valeur de X 1 2 3 i
1
---- = 1
2 i
1 1- 1- 1- i=1
Probabilit --- ---- ---- ---
2 22 23 2i
F(x)
1
35/36
33/36
30/36
26/36
21/36
15/36
10/36
6/36
3/36
1/36
0 1 2 3 4 5 6 7 8 9 10 11 12 x
Figure 5.2 Fonction de rpartition (exemple 1)
1/6
1/12
0
1 2 3 4 5 6 7 8 9 10 11 12 x
1. Cest--dire que la fonction Fx peut ne pas tre drivable sur un ensemble dnombrable de
points de
Toute fonction vrifiant ces cinq proprits peut tre considre comme
la fonction de rpartition dune variable alatoire absolument continue.
La drive de FX , note fX , est appele densit de probabilit de la varia-
ble alatoire X.
Une fonction f, dfinie sur tout , peut tre considre comme la densit
de probabilit dune variable alatoire absolument continue si elle possde
les trois proprits suivantes :1
1. f ( x ) 0 x
2. f continue presque partout 1
+
3.
f ( x ) dx
= 1
f(x)
Dunod. La photocopie non autorise est un dlit.
a b x
Figure 5.4 Reprsentation de la probabilit dun intervalle
1. Cest--dire que la fonction f peut ne pas tre continue sur un ensemble dnombrable de
points de ; on dit encore que f est continue par morceaux ; mentionnons que les points de
non-drivabilit de F correspondent aux points de discontinuit de f
= F ( x + b ) F ( x ) + F ( x ) F ( x a )
F ( x ) F ( x a ) 0 si a 0
do : P ( X = x ) = 0
la probabilit quune v.a. continue X prenne une valeur donne x est
nulle, on dit que la loi de X est diffuse (ou continue).
Par consquent, pour une variable alatoire continue :
Exemple
Soit la fonction f dnie par :
0 pour x 0
1
f ( x ) = ---------- pour 0 < x 1
2 x
0 pour x > 1
Montrons que cette fonction peut tre considre comme la fonction de
densit dune v.a. continue :
1. f(x) 0 x
2. f continue sauf en x = 0 et x = 1
+ 1 1
1 12
3.
2
f ( x ) dx = --- x 1 2 dx = x
0
= 1
0
0 1 x
1
pour 0 < x 1 F(x) =
0
0 dt + --------- dt =
2 t
t 0
= x
0 1 x
1 - dt + 0 dt = 1
pour x >1 F(x) =
0
2 t
0 dt + --------
0
On vrie aisment que cette fonction F possde les proprits de la
fonction de rpartition dune v.a. continue1.
On peut calculer la probabilit de tout interv alle ou runion dintervalles,
par exemple :
P(0,16 < X < 0,25) = F(0,25) F(0,16) = 0,5 0,4 = 0,1
1) Changement de variable Y = aX + b
Les paramtres a (a 0) et b sont des nombres rels. Connaissant la fonction
de rpartition de X, on peut calculer la fonction de rpartition FY de la v.a. Y :
pour a > 0 :
yb yb
F Y ( y ) = P ( Y y ) = P ( aX + b y ) = P X ----------- = F X -----------
Dunod. La photocopie non autorise est un dlit.
a a
pour a < 0 :
yb
F Y ( y ) = P ( Y y ) = P X -----------
a
yb
1 F X ----------- si X est une v.a. continue
a
=
y a
1 P X < -----------
a
si X est une v.a. discrte
(x , y)2 F ( x , y ) = P ( X x ) ( Y y )
Caractrisation dune fonction de rpartition dun couple alatoire (X,Y )
La loi du couple alatoire ( X,Y) est dfinie par les probabilits pij asso-
cies tout couple de valeurs possibles ( xi , yj) (cf. tableau 5.1) :
l k
p ij = P ( X = x i ,Y = y j ) p
j = 1i = 1
ij =1
Valeur de Y
Loi marginale
y1 yj yl
de X
Valeur de X
x1 p11 p1j p1l p1
. . . . . . .
. . . . . . .
. . . . . . .
xi pi1 pij pil pi
. . . . . . .
. . . . . . .
. . . . . . .
xk pk1 pkj pkl pk
Loi marginale
de Y p1 pj p1 1
k
p j = p ij = P ( X = xi )
i=1
Toutes les notions dveloppes pour les couples de variables alatoires dis-
crtes finies peuvent tre gnralises des variables alatoires discrtes infinies.
La loi de probabilit dun couple alatoire discret peut aussi tre dfinie
par sa fonction de rpartition.
Pour {xi x < xi+1} et { yj y < yj+1}:
j i
F ( x , y) = P(( X x) (Y y)) = p
n=1 m=1
mn
i j
1. Les probabilits conditionnelles pj/i et pi/j sont aussi parfois notes p j et p i
Toute fonction vrifiant les cinq proprits peut tre considre comme la
fonction de rpartition dun couple de variables alatoires continues.
2F
La densit f du couple ( X, Y) est donne par : f ( x , y ) = ------------ (x , y)
xy
La loi de probabilit dun couple de variables alatoires continues peut
tre dfinie, soit par la fonction de rpartition, soit par la fonction de densit,
et on a la relation fondamentale suivante :
y x
(x , y ) 2 F ( x , y) =
f ( u , v ) d u dv
Exemple
Un couple (X, Y) de variables alatoires continues suit une loi uniforme
sur [ 0 ; 1 ] [ 0 ; 1 ] si sa densit de probabilit est la suivante :
0 pour tout ( x , y) [0 ; 1] [0 ; 1]
F ( x, y ) =
1 pour tout ( x , y) [0 ; 1] [0 ; 1]
2
Considrons le domaine de ainsi dni :
= {(x , y) 2 x > 0, y > 0 et x + y < 1},
1 1u
alors P{X, Y } =
0 0
1 du dv = 0,5
1
Le lecteur peut vrier que les
lois marginales de X et Y sont des
lois uniformes continues sur
[0 ; 1] (chapitre 7, I.A). x
0 1
Indpendance
A. Mode
Le mode dune variable alatoire est la valeur pour laquelle le diagramme en
btons ou la courbe de densit prsente son maximum. On appelle mode rela-
tif une valeur correspondant un maximum local du diagramme en btons
ou de la courbe de densit, mais en gnral, le mode est unique. Le mode est
un indicateur de tendance centrale.
B. Esprance mathmatique
Lesprance mathmatique dune variable alatoire X est aussi appele
moyenne ou valeur moyenne de X. Elle est gnralement note m.
1) Cas discret
Soit X une variable alatoire discrte finie :
i=1
sous rserve que la srie de terme gnral xi pi soit absolument convergente 1,
sinon, et mme si elle est simplement convergente, on dira que la v.a. X na
pas desprance mathmatique.
+ + +
1. La srie x i p i est absolument convergente si la srie xi pi = x i p i est
i=1 i=1 i=1
convergente.
k
De mme : E { X Y = yi } = x p
i=1
i i/ j
2) Cas continu
La variable alatoire X tant continue de densit f, on appelle esprance
mathmatique E(X) de X :
+
E(X ) =
x
f ( x ) dx
Remarque
Lesprance mathmatique dune variable certaine X, cest--dire une
v.a. ne prenant quune seule valeur, note b, avec la probabilit 1, est
gale cette valeur : E(b) = b. Notons quune telle variable ne mrite
pas exactement le nom de variable alatoire puisquelle peut tre iden-
tifie la constante b.
On appelle variable alatoire centre une variable alatoire dont
lesprance mathmatique est nulle.
+ +
1. Lintgrale
x f ( x ) dx est absolument convergente si lintgrale
x f ( x ) dx est
convergente.
2. Soit une fonction dfinie sur valeurs dans , alors si X est une v.a.,
(X) est une v.a. ( II.C) dont on peut calculer lesprance sans avoir dter-
miner sa loi.
Cas discret
E (( X )) = ( x ) p
i
i i en supposant toujours que la srie du second mem-
E( X 2) = x
i
2p
i
Cas continu
E (( X )) =
( x ) f ( x ) dx
R
en supposant toujours lintgrale du second
E X i =
i = 1
E(X )
i=1
i = nm
Dunod. La photocopie non autorise est un dlit.
n
1
si on dsigne par X leur moyenne : X = --- X i , on obtient : E ( X ) = m
ni = 1
4. Esprance dun produit de variables alatoires
Cas discret
Soit (X, Y) un couple de v.a. discrtes, on a, si la srie du second membre
est absolument convergente :
E(X Y ) = x y p
i, j
i i ij
Cas continu
Soit (X, Y) un couple de v.a. continues, on a, si lintgrale du second mem-
bre est absolument convergente :
E(X Y ) =
xy f ( x, y ) d x d y
R2
C. Variance
La variance dune variable alatoire X est lesprance mathmatique du carr
de la v.a. centre associe X (si elle existe) :
var ( X ) = E ( X m ) 2
La variance est un nombre positif ou nul ; sa racine carre, note , est
appele cart-type1 :
= var ( X )
Lcart-type dune v.a. X, exprim dans les mmes units que la variable
X, a la signification dun indicateur de dispersion autour de la moyenne
m de X. Illustrons cette ide par un exemple. Soient les variables alatoires
X et Y :
1 1 1 X = 6 1 1 1 Y = 148
Probabilit --- --- --- Probabilit --- --- ---
2 4 4 3 2 6
Ces deux variables alatoires ont mme esprance. Cette grandeur typi-
que ne permet pas de les distinguer. Cet exemple montre bien que lcart-
type dune variable alatoire est un indicateur de dispersion autour de sa
moyenne.
1. Les calculs de la moyenne et de lcart-type des v.a. discrtes finies peuvent se faire avec
des calculatrices possdant les fonctions statistiques, les frquences tant remplaces par les
probabilits.
Proprits de la variance
1. var(X) est la valeur minimale de E ( X b ) 2 , car on montre que :
2
E ( X b ) 2 = var ( X ) + E ( X ) b
De cette formule, on dduit :
{var(X) = 0 X est une variable certaine}
2
la relation usuelle : var ( X ) = E ( X 2 ) E ( X )
2. laide de cette dernire expression de la variance, on montre sans
difficult :
a et b , var ( aX + b ) = a 2 var ( X ) aX + b = a X
3. La variance dune somme de deux variables alatoires indpendantes
X et Y est gale la somme des variances :
var(X + Y) = var(X) + var(Y)
en effet :
var ( X + Y ) = E ( ( X + Y E ( X + Y ) ) 2 )
= E ( X E ( X ) + (Y E ( Y ) ) 2
= E ( ( X E ( X ) )2 ) + E ( ( Y E ( Y ) )2 )
+ 2E (( X E ( X ))(Y E (Y )))
= var ( X ) + var ( Y ) + 2 E ( X E ( X ) ) ( Y E ( Y ) )
pour deux variables indpendantes, le dernier terme est nul
var(X + Y) = var(X) + var(Y)
1re consquence
X et Y indpendantes var(X Y) = var(X) + var( Y) = var(X) + var(Y)
2de consquence
Dunod. La photocopie non autorise est un dlit.
var X i =
i = 1 i=1
var ( X i ) = n 2
n
1
Si on dsigne par X leur moyenne : X = --- X i , on obtient :
ni = 1
var ( X ) =
2
-----
n
Une variable alatoire rduite est une variable alatoire dont lcart-type
est gal 1. Si X a une moyenne m et un cart-type , on peut lui associer
une variable alatoire Y centre rduite :
Xm
Y = -------------
-
X et Y indpendantes cov(X, Y) = 0
Proprits de la covariance
1. cov(X,Y) = cov(Y, X)
2. cov(X, X) = var(X)
3. a, b, c et d :
cov ( aX + b, cY + d ) = ac cov ( X , Y )
var ( aX + bY + c ) = a 2 var ( X ) + b 2 var ( Y ) + 2ab cov ( X , Y )
4. cov ( X , Y ) var ( X ) var ( Y ) , cette ingalit est une consquence
de lingalit de Schwarz.
On appelle coefficient de corrlation linaire entre X et Y le rapport :
( X , Y )-
= cov-----------------------
X Y
2) Moment factoriel
On appelle moment factoriel [k] dordre k (k entier positif) dune variable
alatoire X lesprance mathmatique de X ( X 1 )..... ( X k + 1 ) si elle
existe :
[ k ] = E X ( X 1 )..... ( X k + 1 )
Le moment factoriel dordre k est une combinaison linaire des moments
non centrs m1 , m2 , , mk
Relations entre moments et moments factoriels jusqu lordre 4 :
[1] = m1 m1 = [1]
Dunod. La photocopie non autorise est un dlit.
2. gX(0) = 0 et gX(1) = 1
3. Si le moment factoriel dordre k de X existe, on montre que pour u
compris entre 0 et 1:
+
g X( k ) ( u ) = [ i ( i 1 )..... ( i k + 1 )u
i=k
i k] pi g X( k ) ( 1 ) = [ k ]
F. Indicateurs de forme
Ces indicateurs donnent des informations sur la forme de la loi de X, et en
particulier, ils la comparent la loi normale (chapitre 7, II.B). Ils sont direc-
tement inspirs des coefficients dasymtrie (en anglais skewness) et dapla-
tissement ( kurtosis) dfinis en statistique descriptive.
Fisher a dfini les coefficients dasymtrie et daplatissement dune varia-
ble alatoire X, dont les premiers moments existent, par :
3
coefficient dasymtrie 1 = --------
23/2
coefficient daplatissement 2 = -----24 3
2
Les moments centrs dordre impair tant nuls pour une distribution
symtrique, 1 est nul si la distribution de X est symtrique par rapport la
moyenne m, mais la rciproque nest pas vraie : 1 peut tre nul sans que la
loi de X soit symtrique. Si la distribution de X est unimodale tale vers la
droite, 1 est positif. Dans le cas contraire, 1 est ngatif.
Le coefficient daplatissement 2 est nul pour une variable distribue selon
une loi normale, mais l encore, la rciproque nest pas vraie. Selon que la
loi de X est plus ou moins aplatie que la loi normale, 2 sera positif ou ngatif.
Plus que laplatissement, ce coefficient mesure limportance des queues
dune distribution.
Ces coefficients 1 et 2 sont invariants par changement dorigine et
dchelle.
G. Quantiles
Comme pour les variables statistiques, on dfinit pour les variables alatoires
les quantiles, encore appels fractiles, qui sont indicateurs de position partir
desquels on peut dfinir des indicateurs de tendance centrale et de dispersion.
On appelle quantile dordre (0 1) dune variable alatoire X de fonc-
tion de rpartition F toute valeur x telle que : F(x) = ( P(X x) = )
Notons que si F est continue et strictement croissante, le quantile x, pour
donn, existe et est unique. Si F nest pas continue et strictement crois-
sante, il peut ne pas exister ou il peut y avoir plusieurs solutions possibles.
La mdiane Me dune v.a. X est le quantile dordre 1/2 : Me = x0,5
Le premier quartile , not Q1, est le quantile dordre 1/4. Le troisime
quartile, not Q3, est le quantile dordre 3/4. La mdiane est le second quar-
tile. On dfinit aussi les dciles : le ime dcile Di est le quantile dordre i /10
(1 i 9).
Comme en statistique descriptive, on peut dfinir plusieurs indicateurs
partir des quantiles :
des indicateurs de tendance centrale comme par exemple, la mdiane
Me ou encore le milieu de lintervalle interquartile :
Dunod. La photocopie non autorise est un dlit.
1
--- ( Q 1 + Q 3 )
2
des indicateurs de dispersion comme, par exemple, ltendue interquar-
tile (Q3 Q1) ou lesprance mathmatique des carts absolus la mdiane :
E X Me ( = min E X b )
b
2 = var ( Z ) =
(z )
R
2
f ( z ) dz > ( z ) 2 f ( z ) dz
2 k 2 2 f ( z ) dz = k 2 2 f ( z ) dz = k 2 2 P ( Z > k )
ce qui montre que la suite de v.a. { Zn} converge en probabilit vers la v.a.
certaine 0.
Il suffit alors de prendre {Zn = Xn a} pour voir que si la suite des moyen-
nes E(Xn) converge vers a et la suite des variances var( Xn) converge vers 0,
alors la suite des v.a. { Xn} converge en probabilit vers a.
Une suite de v.a. dont la suite des moyennes converge vers une limite a
et dont la suite des variances converge vers 0, converge en probabilit vers a.
On notera cependant que ce dernier rsultat nest pas quivalent la dfi-
nition, et que lon peut parler de convergence en probabilit sans supposer
lexistence des moments dordre 1 et 2.
On peut montrer que la convergence en probabilit implique la conver-
gence en loi, mais que la rciproque nest pas exacte.
Le troisime mode de convergence que nous prsenterons, la convergence
en moyenne quadratique, est trs utilis dans les problmes destimation sta-
tistique.
E X n X p
On montre que si la suite Xn converge en moyenne quadratique vers X, et
que si la suite Yn converge en moyenne quadratique vers Y, alors la suite XnYn
converge en moyenne dordre 1 vers XY, cest--dire que la suite des
moyennes E(XnYn) converge vers E(XY). Ce rsultat est videmment parti-
culirement intressant dans ltude des liaisons entre variables alatoires.
Plus gnralement, on montre que si g(x, y) est une fonction continue en x
et en y, et si Xn (resp Yn) converge en probabilit vers X (resp. vers Y), alors
g(Xn , Yn) converge en probabilit vers g(X, Y).
Il sagit dun mode de convergence fort qui implique la convergence en
probabilit.
Dautre part, il est important de noter que la convergence en moyenne
dordre p implique la convergence en moyenne dordre q pour tout q < p. On
Convergence
en moyenne dordre p
Convergence Convergence
Dunod. La photocopie non autorise est un dlit.
Convergence
en probabilit
Convergence en loi
Soit alors une preuve alatoire lissue de laquelle un rsultat R peut se pro-
duire avec la probabilit p. On rpte cette preuve indpendamment n fois, et
lon dsigne par Fn la variable alatoire gale la proportion dpreuves ayant
donn le rsultat R. Ces variables sont appeles frquences empiriques.
On applique directement la loi des grands nombres pour montrer la con-
vergence en probabilit des frquences empiriques vers la probabilit p. Cest
le thorme de De Moivre-Laplace.
partir de ce rsultat, toute lapproche frquentiste des probabilits ( supra,
I) sest dveloppe sur lvaluation de la probabilit dun vnement par la
limite de la frquence relative dapparition de cet vnement lorsquon rpte
indfiniment lpreuve alatoire lors de laquelle il peut se raliser.
On peut aussi dmontrer un rsultat plus gnral.
Loi forte des grands nombres
On noubliera pas :
Loi ou Les vnements lmentaires sont : X prend ses valeurs dans un intervalle (ou une runion
distribution de {X = xi}, xi , i I, I dintervalles) de , ou dans tout entier
probabilit dune Densit de probabilit fX :
variable avec : P(X = xi) = pi > 0 et pi = 1
iI
alatoire relle 1. f ( x ) 0 x
La loi de probabilit est dfinie par les couples :
{xi , pi}, i I 2. f presque continue partout
3. f ( x ) dx = 1
a, b , a < b :
P(X [a ; b]) = p i avec I * = ( i I x i [a ; b] )
i I*
P(X = x) = 0
P(X ]a ; b ] ) = a, b , a < b :
P ( X b ) P ( X a ) = FX ( b ) FX ( a ) P(X [a ; b]) = P(X [a ; b[) = P(X ]a ; b]) = P(X ]a ; b[)
P131-178-9782100549412.fm Page 171 Mercredi, 24. novembre 2010 10:19 10
b
= F X (b) F X (a) =
f ( x ) dx
a
Moment dordre k : k
si
171
P131-178-9782100549412.fm Page 172 Mercredi, 24. novembre 2010 10:19 10
1. Dans lensemble des classes Terminales dun lyce, 14 % des lves tu-
dient le russe, 68 % ntudient ni le russe ni lespagnol, 2 % tudient ces deux
langues :
a) 20 % des lves tudient au moins lespagnol
b) 16 % des lves tudient seulement le russe
c) 18 % des lves tudient seulement lespagnol
d) 32 % des lves tudient le russe ou lespagnol
7. Si X est une variable alatoire continue, on a, quelque soient les nombres rels a
et b :
a) P(X = a) = 0
b) P(a < X < b) = P(a < X b)
c) P(a < X < b) P(a X < b)
d) P(X > a) = 1 P(X < a)
a) E(aX + b) = aE(X) + b
b) var( X + b) = var(X) + b
c) P(X > E(X)) = 0,5
yb
d) Y = aX + b FY(y) = F X -----------
a
12. La loi jointe des deux variables alatoires X et Y est donne dans le tableau
suivant :
Y
0 1 2
X
1 0,10 0,20 0,10
2 0,15 0,30 0,15
a) X et Y sont indpendantes
b) P(Y = 2 X = 1) = 1/4
c) (X,Y) = +1
d) E(Y) = 1
14. Soient deux variables alatoires X et Y telles que var(X) = 144, var(Y) = 81 et
var(X + Y) = 25
a) cov(X,Y) = -100
b) (X,Y) = 0
c) var(X Y) = 425
d) X et Y sont lies par une relation linaire
15. Soit un couple de v.a. (X,Y) pour lequel on dispose des lois conditionnelles de
X pour chaque valeur possible de Y et de la loi marginale en Y :
Y
1 2 3
X
1 0,2 0 0,5
2 0,8 1 0,5
et de la loi marginale de Y :
Valeur de Y 1 2 3
Probabilit 0,5 0,3 0,2
16. La loi jointe des deux variables alatoires X et Y est donne dans le tableau
suivant :
Y
0 1 2
X
Exercice 5.2
Aprs une enqute auprs dune population, on sait que 40 % des individus ne sont
jamais alls en Espagne et que 55 % des individus nont jamais pris lavion, mais que
25 % ont t en Espagne et ont dj pris lavion.
Quelle est la probabilit quun individu tir au hasard dans cette population ne soit
pas all en Espagne et nait jamais pris lavion ?
Exercice 5.3
Une enqute exhaustive sur un campus universitaire montre que sur les 32 564 tu-
diants, 23 522 lisent la revue Notre campus publie par lUniversit, 18 859 lisent la
revue La Vie tudiante publie par le BDE, et 11 422 tudiants lisent Notre campus
et La Vie tudiante.
1. On interroge au hasard un tudiant du campus. Calculez la probabilit que cet
tudiant :
ne lise ni Notre campus, ni La Vie tudiante ;
lise Notre campus et ne lise pas La Vie tudiante.
2. On interroge au hasard deux tudiants du campus et on admet que leurs rponses
sont indpendantes. Calculez la probabilit
que les deux tudiants ne lisent aucune des deux revues ;
quun tudiant lise les deux revues et que le second nen lise aucune.
Exercice 5.4
On lance n fois une pice de monnaie, on suppose que la probabilit dobtenir pile
est gale la probabilit dobtenir face. Soient A et B les vnements suivants :
A = obtenir au plus une fois pile
B = obtenir au moins une fois pile et au moins une fois face
1. Calculez P(A), P(B) et P(AB) pour n = 2 ; A et B sont-ils indpendants pour
n=2?
2. Mme question pour n = 3.
Exercice 5.5
Calculez la probabilit quil y ait 3 filles et 2 garons dans une famille de 5 enfants :
1. Si on suppose la probabilit de naissance dune fille gale la probabilit de nais-
sance dun garon
2. Si on suppose la probabilit de naissance dune fille gale 0,48
Exercice 5.6
La demande journalire X dun bien fabriqu par une entreprise est une v.a. qui suit
la loi suivante : P(X = 0) = 1/6 P(X = 1) = 1/6 P(X = 2) = 1/2 P(X = 3) = 1/6.
On suppose que le profit, fonction de la demande et du cot, vrifie la relation :
(X) = p.X C, p tant le prix unitaire du bien fix 600 , C tant le cot suppos
indpendant de la demande et gal 800 .
1. Calculez lesprance et lcart-type du profit. Quelle est la signification de lesp-
rance du profit ?
2. Dterminez la fonction de rpartition du profit et tracez son graphe.
Exercice 5.7
Une compagnie dassurances admet pour lanne venir et pour un certain type de
contrat, que 60 % des assurs nauront pas de sinistre. Par ailleurs on suppose que le
cot moyen de rglement des accidents est de 500 avec une probabilit de 0,25, de
1 500 avec une probabilit de 0,1, de 2 500 avec une probabilit de 0,05. Un
assur dclare au plus un sinistre de ce type dans lanne.
1. Pour esprer un bnfice moyen de 50 par assur, quel doit tre le montant de
la cotisation ?
2. Quelle est la probabilit pour que le cot de rglement total de deux assurs pris
au hasard nexcde pas le montant encaiss de leurs cotisations (au tarif dtermin
au 1) ?
Exercice 5.8
Dans une banque, un systme de guichet automatique a t mis en place et permet de
faire des oprations bancaires courantes : extrait de compte, remise de chque, retrait.
Le nombre de clients utilisant le guichet automatique dans un intervalle de temps de
5 minutes est une v.a. X telle que :
P(X = 0) = 0,3, P(X = 1) = 0,3 et P(X = 2) = 0,4
1. Calculez E(X) et var(X).
2. On suppose que les nombres de clients utilisant le guichet automatique sur deux
priodes de 5 minutes ne se chevauchant pas sont indpendants. Soit Y la v.a.
gale au nombre de clients utilisateurs sur une priode dune heure. La v.a. Y peut
scrire :
12
Y = Xi
i=1
o Xi dsigne le nombre de clients utilisateurs au cours de ie intervalle de 5 minutes
Dunod. La photocopie non autorise est un dlit.
3.1. Donnez dans un tableau double entre lensemble des probabilits condition-
nelles de Z sachant X.
3.2. Quelle est la loi de Z ? Calculez E(Z) et var(Z).
Exercice 5.9
Une usine de pellicules de photo dispose de trois machines A, B et C qui fabriquent
respectivement 20 %, 50 % et 30 % de la production totale. Les proportions de pelli-
cules dfectueuses fabriques par les machines A, B ou C sont respectivement gales
6 %, 5 % et 3 %.
On tire au hasard une pellicule dans la production, calculez :
la probabilit que cette pellicule soit dfectueuse ;
la probabilit quelle provienne de la machine A sachant quelle est dfectueuse ;
la probabilit quelle provienne de la machine A sachant quelle est non dfec-
tueuse.
Exercice 5.10
Un couple ( X, Y) de variables alatoires suit la loi jointe donne dans le tableau
suivant :
Y
u 0 1
X
0 1/4 a 1/8
1 1/5 b 1/10
Exercice 5.11
Soient deux variables alatoires X et Y : X prend les valeurs 0 et 1 avec les pro-
babilits 1/2 et 1/2, Y prend les valeurs 0 et 2 avec les probabilits 1/3 et 2/3. On
note : P(X = 0 et Y = 0) = p.
1. Calculez, en fonction de p, les probabilits suivantes :
P(X = 0 et Y = 2) P(X = 1 et Y = 0) et P(X = 1 et Y = 2)
Entre quelles limites peut varier p ?
2. Calculez, en fonction de p, le coefficient de corrlation linaire (X, Y).
6. L es principaux
modles statistiques
discrets
Notion de modle
variable parente) puisque tout individu tant quon ne connat pas ses
caractristiques individuelles peut tre reprsent par une variable
alatoire de mme loi quelle. Il sera alors possible dtudier un ensem-
ble dindividus extrait de la population gnrale comme un ensemble de
variables alatoires ayant toutes comme loi, la loi de la variable gnri-
que de la population. Lorsque ces variables sont indpendantes entre
elles, on dit quelles forment un chantillon de la variable parente ; cette
condition dindpendance est quivalente un tirage avec remise des
individus formant lchantillon au sein de la population.
Modles empiriques (ou exprimentaux)
Ce sont des modles qui sont construits sur lobservation dune srie sta-
tistique. Leur validit dpend tout particulirement de la taille de la
srie statistique des observations. On recherche ici les caractristiques
essentielles de la srie observe (moyenne, mdiane, mode, quartiles,
symtrie ou non). Parmi les reprsentations en lois de probabilit con-
nues, on en cherche une qui soit cohrente avec les donnes observes,
du point de vue de ces caractristiques. On procde par analogie.
Modles thoriques (ou analytiques)
On tudie le phnomne en essayant de le dcomposer en composantes
lmentaires directement reprsentes et de faon naturelle par une loi
de probabilit (telle que la loi de Bernoulli ou la loi uniforme).
Le schma binomial comme le schma hypergomtrique ( infra II.B et
II.C), ou encore la loi gomtrique ( II.D) sont des exemples de cette
approche.
Classification des modles
On doit distinguer les modles discrets pour lesquels les diverses occu-
rences sont ponctuelles et parfaitement bien isoles (spares) les unes
des autres, des modles continus pour lesquels les occurences sont beau-
coup trop nombreuses pour pouvoir tre isoles ponctuellement et ne
peuvent tre tudies que par classes de valeurs. lintrieur des mod-
les discrets, on distingue encore les modles discrets finis (cest--dire
dont le domaine des valeurs est de cardinal fini) des modles discrets
infinis dnombrables.
Il existe dautres classifications mais qui concernent des modles qui ne
sont pas abords dans ce cours du fait de leur plus grande complexit et
de leur utilisation moins frquente.
De trs nombreux modles (discrets ou continus) ont t construits pour
correspondre des situations pratiques dtermines. N ous prsentons
dans ce chapitre et dans le suivant ceux qui sont le plus frquemment
utiliss, mais bien entendu il ne faudra pas croire que tout phnomne
puisse tre rapport aux quelques modles dcrits ici.
Probabilit q=1p p
1 1
1p 1p
0 1 0 1
Probabilit 1/ k 1/ k 1/ k
ce qui permet dobtenir les moments successifs, mais aussi de retrouver les
rsultats prcdents. On constate aussi par ailleurs que les moments factoriels
dordre strictement suprieur k sont nuls : [n](X) ds que n > k
On ajoutera simplement pour terminer que le diagramme en btons de
cette loi est form de btons de mme hauteur, et que le graphe de la fonction
cumulative est form de marches descalier galement espaces (lespace
entre deux dentre elles tant de 1/ k) et de mme largeur (lunit).
A. Le schma binomial
Dfinition
Une variable alatoire est dite suivre une loi binomiale de paramtres
n et p, note (n ; p), si elle peut tre considre comme la somme de n
variables alatoires de Bernoulli, indpendantes et de mme paramtre p.
Soit par exemple, une population dans laquelle une proportion p dindividus
prsente un caractre donn. On se pose la question de savoir si un chan-
tillon1 de n individus choisis au hasard dans la population a de grandes chan-
ces de contenir k individus ayant le caractre.
Chaque individu de la population (et donc de lchantillon) est prsent
dans ce problme par une alternative : il possde le caractre tudi ou non.
Il est parfaitement justifi de lui associer une variable de Bernoulli prenant
la valeur 1 sil a le caractre tudi, et la valeur 0 sinon. Cette variable ainsi
Dunod. La photocopie non autorise est un dlit.
k fois (n k) fois
n n!
Il y a exactement = ------------------------ faons disoler k individus parmi les
k k! ( n k )!
n de lchantillon (les k premiers, les ( k 1) premiers et le dernier, , les
k derniers), donc dobtenir une somme gale k, chacun de ces
assemblages tant incompatible avec lun quelconque des autres
puisquau moins une paire dindividus passe dun tat lautre. La probabi-
lit que la somme Y prenne la valeur k, sans tenir compte du rang des Xi
prenant la valeur 1 condition quil y en ait k et k seulement, est ainsi laddi-
n
tion de fois la probabilit p k ( 1 p ) n k
k
Le tableau suivant prsente la loi de probabilit binomiale (n ; p) :
Valeur de Y 0 1 2 k n
n n k
Probabilit ( 1 p ) n np ( 1 p ) n 1 p 2 ( 1 p ) n 2 p ( 1 p ) n k pn
2 k
Les caractristiques dune loi binomiale (n ; p) sont trs faciles calcu-
ler si on utilise la dcomposition en somme de variables de Bernoulli ind-
pendantes. En effet :
E(Y ) = E( X1 + X2 + + Xn)
= E( X1) + E( X2) + + E( Xn)
= n E(X )
et par consquent :
E ( Y ) = np
Pour le calcul de la variance, la proprit dadditivit, toujours vraie pour
lesprance, suppose que les variables de Bernoulli Xi sont indpendantes, et
cette hypothse est fondamentale pour la validit du rsultat :
var ( Y ) = var ( X 1 + X 2 + + X n )
= var ( X 1 ) + var ( X 2 ) + + var ( X n )
= n var ( X ) = np ( 1 p )
On obtient le rsultat :
var ( Y ) = npq
On pourra comparer ce dernier rsultat avec celui du II.B obtenu pour
une loi hypergomtrique, cas dune somme de variables alatoires de Ber-
noulli non indpendantes.
La proprit suivante est intressante en pratique.
Proprit 1
Si Y et Z sont deux variables alatoires indpendantes, respectivement
distribues selon des lois binomiales (n1 ; p) et (n2 ; p), leur somme
Y + Z suit une loi binomiale (n1 + n2 ; p)
Dunod. La photocopie non autorise est un dlit.
Proprit 2
Si Y suit une loi (n ; p), alors n Y suit une loi (n ; 1 p)
Probabilit n n
p k ( 1 p ) n k p
n
( 1 p ) n np ( 1 p ) n 1 p 2 ( 1 p ) n 2
2 k
Diagramme Fonction
1 en btons 1 de rpartition
0 1 2 3 4 5 6 0 1 2 3 4 5 6
Figure 6.2 Loi binomiale (6 ; 0,5)
n pk + 1( 1 p )n k 1 n!
----------------------------------------------- p
P( X = k + 1) k + 1 ( k + 1 )! ( n k 1 )!
-------------------------------- = ------------------------------------------------------------ = ---------------------------------------------------
P( X = k ) n
pk ( 1 p )n k n!
------------------------ ( 1 p )
k k! ( n k )!
(n k) p
= ----------------------------------
(k + 1)(1 p)
Dunod. La photocopie non autorise est un dlit.
B. Le schma hypergomtrique
Dans le schma binomial, on rpte une preuve de Bernoulli n fois, mais de
telle faon que les preuves soient indpendantes.
Cette condition peut paratre peu raliste. En pratique lorsquon tire un
chantillon de taille n dans une population de taille N(n < N), le bon sens veut
quon ne prenne pas 2 fois le mme individu, ce qui quivaut tirer lchan-
tillon sans remise (on parle encore de tirage exhaustif). Les variables ala-
toires de Bernoulli associes aux diffrents lments de lchantillon, et
indicatrices de la prsence ou de labsence dun caractre donn, sont, du fait
du tirage sans remise, mutuellement dpendantes.
La variable alatoire Y gale au nombre dindividus de lchantillon pos-
sdant le caractre considr est dans ce cas somme de n v.a. de Bernoulli
dpendantes, et de mme paramtre.
Notons p, la proportion dindividus dans la population (dont on dsigne
la taille par N) possdant le caractre tudi, et tudions la loi de cette varia-
ble alatoire Y dabord en ce qui concerne les valeurs possibles, puis pour ce
qui est des probabilits associes.
Le nombre dindividus de la population possdant le caractre tudi est
gal Np, et le nombre de ceux qui ne le possde pas est gal Nq. Le nombre
maximum dindividus de lchantillon possdant le caractre tudi ne peut
tre suprieur ni la taille de lchantillon, ni Np. Par consquent, la valeur
maximum de Y est gale min( n, Np). Le nombre minimum dindividus de
lchantillon possdant le caractre tudi est, bien entendu, au moins gal 0,
mais aussi au moins gal ( n Nq). En effet, si le nombre dindividus ne
possdant pas le caractre tudi, soit Nq, est plus petit que la taille n de
lchantillon, on aura au moins (n Nq) individus qui possderont le caractre
tudi dans lchantillon. Il sensuit que le nombre minimum dindividus de
lchantillon possdant le caractre tudi est gal max(0, n Nq).
La variable alatoire Y peut prendre toutes les valeurs entires comprises
Dunod. La photocopie non autorise est un dlit.
entre :
max(0, n Nq) et min(n, Np)
Pour le calcul de P(Y = k), k tant lune des valeurs possibles entre
max (0, n Nq) et min(n, Np), on peut utiliser la mthode combinatoire clas-
sique et calculer le rapport du nombre des occurences favorables au nombre
des occurences possibles.
Les occurences possibles sont reprsentes par le nombre dchantillons
de taille n quon peut extraire sans remise dune population de taille N, cest-
-dire . N
n
(k 1) fois
On calcule aussi :
d
E(Y) =
k=1
k qk 1 p = p
k=1
k qk 1 = p -----
dq
k=1
-(q ) k
= p k ( k 1 ) + k q
k=1
k1
= p k(k 1)q k 2q
+p kq k1
k=1 k=1
Le second terme de lexpression obtenue nest autre que E(Y). Pour le pre-
mier terme, on remarque que :
p k ( k 1 )q k 2 q = p q k ( k 1 )q
k=1
k2
k=1
d2
= pq k(k 1 )q k 2 = pq -------
dq
k=2
-(q )2
k
k=2
car encore une fois la double drivation sous le signe somme est licite en
raison de la convergence absolue de la srie.
On obtient :
d 2-
p k ( k 1 )q k 2 q = p q -------
2
q k
dq k = 2
k=1
d 2 q2 2 2q
= p q --------2 ------------ = p q -------------------3 = -----2-
dq 1 q (1 q) p
et par consquent :
2q 1 2q + p q+ p+q q+1
E ( Y 2 ) = -----2- + --- = ---------------
2
- = ---------------------
2
- = -----------
-
p p p p p2
On dduit la variance dune variable alatoire de loi gomtrique :
q+1 1 q
var ( Y ) = -----------
- -----2 = -----2
p2 p p
Dans ltude de la modlisation des situations concrtes de ce type, on
doit faire trs attention de prciser si on sintresse au nombre total Y
dpreuves alternatives ralises jusqu lobtention du premier rsultat l-
mentaire de probabilit p (cas tudi), ou si on sintresse au nombre Z
dpreuves lmentaires de probabilit (1 p) ralises jusqu lobtention
du premier rsultat de probabilit p.
Comme nous lavons dj mentionn Z = Y 1. Les valeurs possibles de
Z sont toutes les valeurs entires positives ou nulle, alors que les valeurs pos-
sibles de Y sont toutes les valeurs entires strictement positives. La relation
entre Y et Z implique quon peut calculer les probabilits associes Z par-
tir de celles de Y :
P( Z = k ) = P( Y = k + 1 ) = qk p
P( Z n ) = P( Y n + 1 ) = 1 qn + 1
Lesprance mathmatique de Z est gale celle de Y diminue dune
unit :
1p
E ( Z ) = E ( Y 1 ) = E ( Y ) 1 = --1- 1 = ------------ = ---
q
p p p
alors que les variances de Y et Z sont gales :
q
var ( Z ) = var ( Y 1 ) = var ( Y ) = -----2
p
En rsum
Dunod. La photocopie non autorise est un dlit.
probabilit quune pice prise au hasard soit dfectueuse est gale 0,05
(chapitre 5). On peut supposer les tirages indpendants en raison de la
grande taille de la population (ici la production).
Le schma binomial est ici adapt puisquon recherche la probabilit
dun nombre donn de dfectueux sur un chantillon de taille fixe.
Pour cette loi (20 ; 0,05), on a P(X = 0) = (0,95)20 = 0,3585
Si dautre part, on cherche calculer la probabilit que le premier dfec-
tueux ne soit pas lune des 20 premires pices, on gardera la modlisa-
tion des units statistiques par les alas de Bernoulli de paramtre 0,05
toujours supposs indpendants pour les mmes raisons. Mais le nom-
bre de pices tudies ntant plus donn, ce nombre devient lala dont
on a besoin de dterminer la loi de probabilit.
Soit Y le nombre de pices observes jusqu lobtention de la premire
pice dfectueuse. La variable alatoire Y est une variable alatoire dis-
tribue selon une loi gomtrique de paramtre 0,05 ; par consquent :
0,95
j
P ( Y 21 ) = 0,05 0,95
20
j0
20 1 20
= 0,05 0,95 ------------------- = 0,95 = 0,3585
1 0,95
Lesprance mathmatique de cette variable alatoire Y tant gale 20,
on doit tirer en moyenne 20 pices pour en observer une dfectueuse,
cest--dire quavant de tirer une pice dfectueuse, on tire, en
moyenne, 19 pices qui ne le sont pas.
La relation entre tous ces rsultats est laisse au lecteur.
Si on stait intress au nombre de pices examiner pour en tirer deux
dfectueuses, on aurait une loi de Pascal desprance mathmatique
gale 40. Ici encore, on laisse au lecteur le soin de comparer les deux
Dunod. La photocopie non autorise est un dlit.
derniers rsultats.
Ces deux lois, loi gomtrique et loi de Pascal, interviennent particulirement
en contrle de qualit, mais aussi dans la surveillance des vnements dont une
certaine frquence de survenue est interprte en terme de signal dalarme.
Les formules de la loi gomtrique sont suffisamment simples pour que les cal-
culs ne posent aucune difficult avec une petite calculatrice, et pour la loi de Pas-
cal, on peut recourir quelques pas de programme comme pour la loi binomiale.
Remarque
Les lois binomiale, hypergomtrique, gomtrique et de Pascal sont
donc toutes construites sur la base de la rptition dpreuves deux
Nn
Hypergomtrique fix max(0, n Nq) min(n, Np) exhaustif np np ( 1 p ) -------------
N1
1 1 p
Gomtrique alatoire 1 sans indpendant --- ------------
p p2
K K (1 p)
Pascal alatoire K sans indpendant ---- ----------------------
p p2
A. Dfinitions et proprits 1
Dfinition
Une variable alatoire X ayant pour valeur possible tout nombre entier
positif ou nul, et telle que :
mk
P ( X = k ) = e m ------
k!
pour tout k 0 entier, est dite distribue selon une loi de Poisson1 de para-
mtre m, m tant un nombre rel strictement positif.
On remarque tout de suite quune telle variable alatoire prsente une diff-
rence essentielle avec les variables de Bernoulli ou binomiales, car elle est
discrte, mais non finie (cest--dire ici que les valeurs possibles ne sont pas
limites suprieurement). Nous avons dj rencontr cette situation avec la
loi gomtrique et la loi de Pascal.
Il sagit bien dune distribution de probabilit car, il est facile de le constater que :
toutes les probabilits sont positives ;
la somme des probabilits est gale 1, compte tenu de lexpression de
la srie exponentielle :
mk mk
k0
P( X = k ) =
k0
e m ------ = e m
k! k0
------ = e m . e m = e 0 = 1
k!
Le calcul de la moyenne est assez simple :
mk
E(X ) = k P( X = k ) = k e
k0 k0
m ------
k!
mk mk
= e m
k0
k ------ = e m
k! k1
k ------
k!
Dunod. La photocopie non autorise est un dlit.
Proprit 1
Si X1 et X2 sont deux variables alatoires indpendantes qui suivent des
lois de Poisson respectivement de paramtres m1 et m2, alors Y = X1 + X2
suit une loi de Poisson de paramtre m1 + m2
i = k
P(Y = k ) = P
i
U ({ X
= 0
1 = i } { X 2 = k i } )
i=k
= P({ X
i=0
1 = i} { X2 = k i})
i=k
= P({ X = i}) P({ X 2 = k i})
Dunod. La photocopie non autorise est un dlit.
1
i=0
donc :
i=k i=k
mi m 2k i
P(Y = k ) =
i=0
P( X 1 = i) P( X 2 = k i) =
i=0
e m1 -----1- e m2 ----------------
i! ( k i )!
-
soit :
( m + m ) i = k
i=k
m 1i m 2k i e 1 2 k!
( m1 + m2 )
P(Y = k ) = e ---------------------- = -------------------- ---------------------- m 1i m 2k i
i=0
i! ( k i )! k! i = 0 i! ( k i )!
Remarque
Ce rsultat peut stendre une somme finie de variables alatoires
indpendantes distribues toutes selon des lois de Poisson .
Il existe une forme rciproque de cette proprit.
Proprit 2
Si les variables alatoires indpendantes X et Y sont telles que la
somme (X + Y) est distribue selon une loi de Poisson, alors les variables
X et Y sont elles-mmes distribues selon des lois de Poisson.
On ne dmontrera pas cette proprit trs utile. Il faut remarquer ici quon
na pas le moyen direct de dcomposer (pour cette proprit 2) le paramtre
de (X + Y) en deux paramtres, lun pour X et lautre pour Y.
Une proprit, elle aussi caractristique de la loi de Poisson, est celle qui
suit, obtenue aisment en crivant le rapport des probabilits et en simplifiant :
Proprit 3
Si X suit une loi de Poisson de paramtre m, on a :
P( X = k )
-------------------------------- = m
----
P( X = k 1) k
B. Abord statistique
Daprs les proprits qui viennent dtre montres, on remarque quil est
justifi denvisager une loi de Poisson comme un modle reprsentatif de
donnes statistiques discrtes pour lesquelles la variable ne prend que
des valeurs entires, positives ou nulle, et pour lesquelles :
la moyenne et la variance sont sensiblement gales ;
fk
les rapports ----------
- de 2 frquences conscutives sont inversement
fk 1
proportionnels k
Il est frquent que cette dernire condition ne soit vrifie que pour les
faibles valeurs de k. Dans la pratique, on accorde moins dimportance aux
entorses cette proprit pour les queues de distribution.
Enfin, on prendra garde de bien noter quil ne sagit l que dune indication. Il
est indispensable de justifier le choix dun modle par un jugement dadquation.
C. Abord probabiliste
Il sagit maintenant de poser la loi de Poisson comme modle dune preuve
alatoire avec laide dune analyse raisonne de cette preuve. Un rsultat est
ncessaire cette dmarche.
Proprit 4
Les probabilits dune loi binomiale (n ; p) peuvent tre approximes
par les probabilits dune loi de Poisson de paramtre np si les conditions
suivantes sont ralises :
Dunod. La photocopie non autorise est un dlit.
Ceci implique que la loi de Poisson peut tre considre comme lapproxi-
mation dune loi binomiale qui reprsente la somme dun grand nombre
(n > 50) dalas de Bernoulli de faible paramtre ( p < 0,1).
On remarque ce sujet que si une variable alatoire est distribue selon
une loi binomiale (n ; p) pour laquelle n > 50 et p < 0,1, on aura q 1 et
par consquent np npq. Si on approxime cette loi binomiale par une loi de
Poisson (np), on imagine que les deux lois doivent tre assez proches pour
que les esprances mathmatiques, dune part, et les variances, dautre part,
soient voisines, sinon mme gales. Or, les esprances sont gales toutes
deux np, mais les variances respectivement gales npq pour la loi bino-
miale et np pour la loi de Poisson sont proches puisque q 1. La valeur de
lapproximation apparat bien lie la faible valeur de p
Bien videmment, par symtrie, et en particulier en tenant compte de la
proprit 2 vue au II.A, pour une variable X suivant une loi (n ; p) o
n > 50 et p > 0,9, cette approximation sera applique la variable ( n X) qui
suit une loi (n ; 1 p)
Lorsquun vnement a une faible probabilit ( p < 0,1) dapparition lors
dune preuve lmentaire, et si on rpte cette preuve un grand nombre de
fois (n > 50), le nombre total de ralisations de lvnement considr suit
peu prs une loi de Poisson de paramtre np. Les graphiques de la figure 6.3a
et 6.3b montrent la comparaison entre les diagrammes en btons de plusieurs
lois binomiales et des lois de Poisson qui sont proposes comme approxima-
tion. On retrouve en examinant ces graphiques que plus p est petit, meilleure
est la qualit de lapproximation.
Pour cette raison, la loi de Poisson a t appele la loi des petites proba-
bilits, ou loi des faibles occurences, ou loi des phnomnes rares .
0,10 0,10
0,09 0,09 (100 ; 0,25)
0,08 (100 ; 0,4) 0,08
0,07 0,07
0,06 0,06
0,05 (40) 0,05 (25)
0,04 0,04
0,03 0,03
0,02 0,02
0,01 0,01
0,00 0,00
0,5 0,20
0,0 0,00
fix ;
nombre dappels intercontinentaux sur une ligne pendant une priode
donne.
Les formules des probabilits de lois binomiale et de Poisson montrent
bien lintrt de la seconde. Mme avec une bonne calculatrice, il nest pas
ais (et parfois pas possible directement) de calculer les probabilits dune
loi binomiale. Mais cependant, on ne recourra lapproximation par la loi de
Poisson que lorsquon ne peut aisment obtenir le rsultat exact, cest--dire
quon ne cherchera pas approximer la loi binomiale tant que le calcul est
simple.
Les tables de la loi de Poisson ( cf. annexe IV) donnent les valeurs de la
fonction de rpartition pour les valeurs du paramtre :
entre 0 et 1 par pas de 0,1
entre 1 et 10 par pas de 0,5
entre 10 et 25 par pas de 1
Comme pour la loi binomiale, lusage des tables est limit certaines
valeurs du paramtre. On peut utiliser quelques pas de programme pour tous
les calculs (annexe II).
Toutefois, lorsque m dpasse 25, on utilise lapproximation par la loi de
Gauss et la correction de continuit (chapitre 7).
La loi de Poisson de paramtre m est une loi caractrise par lgalit
de sa moyenne et de sa variance, et dont les probabilits pk croissent tant
que k < m, puis dcroissent. Elle peut tre envisage comme une approxi-
mation de la loi binomiale, donc comme la loi approche de la somme
dun grand nombre (n > 50) dalas de Bernoulli indpendants reprsen-
tant une alternative dont lune des issues est de probabilit trs faible
(p < 0,1). Elle est ainsi directement postule comme modle reprsen-
tatif du nombre doccurences au cours du temps pour un vnement
particulirement peu probable, mais dont la probabilit de survenue est
stable.
On ajoutera encore quil sagit dun modle particulirement utilis en
pratique dans la gestion des files dattente notamment, et qui est lorigine
de dveloppements trs importants dans lanalyse des sries dvnements
(processus poissoniens).
On noubliera pas :
1. Que la loi de Bernoulli reprsente toute situation dalternative dans
laquelle une issue est code 0 et lautre code 1
2. Que la loi binomiale correspond la somme dun nombre fix de
variables alatoires de Bernoulli de mme paramtre et indpendantes
(donc un tirage avec remise)
3. Que la loi hypergomtrique correspond la somme dun nombre
fix de variables alatoires de Bernoulli de mme paramtre, mais dans
un tirage sans remise
4. Que la loi gomtrique correspond la somme de variables alatoi-
res de Bernoulli de mme paramtre et indpendantes, mais en nombre
alatoire
5. Que la moyenne et la variance dune variable alatoire de Poisson
sont gales
Exercice 6.2
Une compagnie dassurances envisage de crer des polices dassurances individuelles
contre un certain type daccidents. Une enqute pralable du service statistique a per-
mis destimer quau cours dune anne, chaque personne a une chance sur 5 000 envi-
ron dtre victime dun accident couvert par ce type de police, et que la compagnie
pourra vendre en moyenne 10 000 polices dassurance de ce type par an.
Dterminez la probabilit que le nombre daccidents ne dpasse pas trois par an (on
supposera que chaque personne assure a au plus un accident par an).
Exercice 6.3
La socit Alpha a vendu deux machines de pesage la socit Beta qui est une
socit de prestations de services. La Socit Beta loue ces machines la journe. Le
prix de location lui laisse, par jour et par machine, une marge brute de 20 . Chaque
machine est immobilise 1 jour sur 10 au hasard, pour rglage et contrle.
1. Donnez, en la justifiant, la loi de la variable alatoire Y gale au nombre de machi-
Dunod. La photocopie non autorise est un dlit.
Valeurs de Z 0 1 2 3
Probabilit 0,1 0,2 0,4 0,3
Exercice 6.4
Lors de tests daccs un ordinateur central par rseau tlmatique, on a constat que
95 % des essais permettaient une connexion correcte. Une entreprise doit se connec-
ter 5 fois dans la journe pour la mise jour de ses fichiers. Soit Y le nombre dessais
ncessaires pour se connecter 5 fois.
1. Dterminez la loi de probabilit de la v.a. Y, ainsi que son esprance et sa variance.
2. Calculez P(Y = 5) et P(Y > 6).
Exercice 6.5
Soit Xt le nombre de demandes daccs une ressource informatique en partage, pen-
dant un intervalle de temps de dure t fixe. On suppose Xt distribue selon une loi
de Poisson de paramtre = t. Lorsque cette ressource est sature, ce qui se produit
avec une probabilit , la demande ne peut tre satisfaite. Soit Yt le nombre de
demandes satisfaites durant lintervalle de temps de longueur t.
1. Montrez que la v.a. conditionnelle { Y t X t = x } suit une loi binomiale dont on
dterminera les paramtres.
2. Montrez que Yt suit une loi de Poisson de paramtre
3. On se donne = 10 et = 0,2, lunit de temps tant la seconde.
Calculez : P(Yt < 8) et P(3 < Yt < 10)
Exercice 6.6
Dans une tude sur le comportement dachat de consommateurs, on suppose qu
chaque minute, une unit (au maximum) dun certain produit a 1 % de chances dtre
vendue. On suppose les achats de ce produit effectus des temps diffrents, ind-
pendants les uns des autres.
1. Quelle est la loi de probabilit exacte du nombre dunits de ce produit vendues
en 30 min ?
Calculez la probabilit de vendre au moins 3 units en 30 min.
2. Le magasin est ouvert 7 h 30 par jour. Quel est le nombre moyen dunits vendues
par jour ?
Par quelle loi peut-on approcher la loi de probabilit du nombre dunits de ce
produit vendues en un jour ?
Exercice 6.7
Dans un grand magasin, des observations sur un grand nombre de jours ouvrables au
rayon des magntoscopes ont amen faire lhypothse selon laquelle le nombre de
magntoscopes X vendus au cours dun jour ouvrable quelconque suit une loi de
Poisson de paramtre 5. Les ventes sont supposes indpendantes.
1. Calculez la probabilit de chacun des vnements suivants :
la vente journalire de magntoscopes est au plus gale 2 ;
la vente journalire de magntoscopes est au plus gale 2 ou au moins gale
6;
la vente journalire de magntoscopes est au plus gale 6 sachant quelle est
au moins gale 2.
2. Donnez, en la justifiant, la loi de la somme des ventes de deux jours conscutifs.
Calculez la probabilit que la somme des ventes de deux jours conscutifs soit
gale 10.
3. Le directeur du magasin dcide de faire pendant une semaine une campagne publi-
citaire sur les magntoscopes.
Il estime que, pendant cette semaine, la vente journalire suivra toujours une loi de
Poisson et que son paramtre sera gal 6 avec une probabilit gale 2/3 ou
8 avec une probabilit gale 1/3.
Quelle est alors la probabilit que, pendant cette campagne publicitaire, la vente
journalire de magntoscopes soit au moins gale 3 ?
Exercice 6.8
Dans une grande ville, la rgie des transports urbains dispose de 1 000 autobus. Des
observations antrieures ont montr que la probabilit quun autobus tombe en panne
un jour donn est gale 0,0025. Soit Y le nombre dautobus en panne un jour donn.
1. Dterminez, en la justifiant, la loi de la variable alatoire Y. Calculez son esp-
rance et sa variance.
2. Donnez, en la justifiant, une loi approximative de la loi de la variable alatoire Y.
Dunod. La photocopie non autorise est un dlit.
Exercice 6.9
Le nombre de vhicules se prsentant au page A de lautoroute du Soleil pendant
un certain intervalle de temps T est suppos suivre une loi de Poisson de paramtre 3,
et le nombre de vhicules se prsentant au page B de la mme autoroute pendant le
mme intervalle de temps est suppos suivre une loi de Poisson de paramtre 2.
1. Dterminez la loi du nombre de vhicules se prsentant lun ou lautre des deux
pages pendant un laps de temps T en prcisant lhypothse ncessaire.
2. Calculez la probabilit que 8 vhicules se prsentent lun ou lautre des deux
pages pendant un intervalle de temps T.
3. Sachant que 8 vhicules se sont prsents lun ou lautre des deux pages, quelle
est la probabilit quil y en ait eu 5 au page A (toujours pendant un mme laps
de temps T) ?
Daprs examen de juin 2006, DUGEAD 1re anne Paris-Dauphine
Exercice 6.10
Les donnes suivantes, bases sur les annales de dix corps de larme prussienne sur
une priode de vingt ans la fin du XIXe sicle, rendent compte du nombre de cava-
liers tus par une ruade de cheval au cours dune anne.
7. Les principaux
modles statistiques
continus
I. Modles continus simples
A. La loi uniforme continue
Nous avons dj abord la notion dquiprobabilit dans les distributions sta-
tistiques discrtes au I.B du chapitre 6 avec la loi uniforme discrte. Nous allons
ladapter au cas dune variable alatoire continue. Pour une telle variable, on ne
peut pas parler de probabilit pour des valeurs isoles, et on imaginera la proba-
bilit comme une masse rpartie de faon diffuse. Il est clair alors que lquipro-
babilit se traduira par une probabilit dintervalle proportionnelle la longueur
de lintervalle. La probabilit cumule sur tout tant limite lunit, on ne
pourra avoir de probabilit non nulle que sur un sous-ensemble born de .
Dfinition
Une variable alatoire X, absolument continue, suit une loi uniforme
Dunod. La photocopie non autorise est un dlit.
Lintervalle sur lequel la densit nest pas nulle est ncessairement fini.
Cette contrainte apparat tout fait naturelle si on interprte la probabilit
comme une masse.
Dautre part,
x
FX ( x ) =
f ( t ) dt
et enfin si
x a b x
1 a
0 dt + ------------ dt + 0 dt = b-----------
x b, F X ( x ) =
f ( t ) dt
=
ba
a
ba
b
- = 1
(i) (ii)
1
1/ (b-a)
a 0 b a 0 b
Figure 7.1 Densit (i) et fonction de rpartition (ii) de la loi uniforme continue
et plus gnralement :
b
1 1 bk + 1 ak + 1
k
E ( X ) = ------------ x k dx = ------------ ----------------------------
ba k+1 ba
a
2 ( X ) = E ( X 2 ) ( E ( X ) ) 2 = (------------------
b a )2
-
12
On note que la loi uniforme continue est symtrique, et que par consquent,
sa mdiane et sa moyenne sont confondues au milieu de lintervalle [ a, b ].
Comme pour la loi uniforme discrte, ce rsultat est naturel compte tenu de
lquiprobabilit. Le calcul du coefficient dasymtrie 1 de Fisher retrouve
cette proprit puisque 1 = 0. On notera que cette distribution na pas de
mode au sens strict.
Les fractiles de la loi uniforme continue sont trs aisment calculables,
comme pour toute distribution continue dont la fonction de rpartition
sexprime analytiquement, et ici le calcul est particulirement simple. En
effet le fractile x dordre est dfini par FX (x) = . Il correspond :
x a
- = , soit x = a + ( b a )
-------------
ba
On retrouve la valeur de la mdiane, gale la moyenne, soit :
1 b+a
x 0,5 = a + --- ( b a ) = -----------
-
2 2
Il faut remarquer que pour cette loi, la probabilit de voir une ralisation
appartenir un intervalle donn ne dpend que de la longueur de cet inter-
valle, et quelle ne dpend pas de la position de cet intervalle. Deux interval-
les de mme longueur auront la mme probabilit, condition quils soient
tous deux inclus dans [ a, b ], domaine de dfinition de X.
Compte tenu de la symtrie de cette loi, on peut aussi adopter la dfinition
suivante.
Une variable alatoire X est uniforme continue sur [ a h, a + h] si sa
densit est dfinie par :
Dunod. La photocopie non autorise est un dlit.
1
------ si x [a h, a + h]
f ( x ) = 2h
0 si x [a h, a + h]
Lquivalence des deux dfinitions est laisse au lecteur. Cest, historique-
ment, cette seconde dfinition qui est lorigine dune grande utilisation de la loi
uniforme continue dans le domaine de la prise en compte des erreurs darrondi 1.
1. On a ainsi pu tudier que la rpartition des erreurs darrondi suit une loi uniforme continue
dans de nombreux cas.
Thorme
Soit X une variable alatoire continue dont la fonction de rpartition
F(x) est suppose bijective. Alors la variable alatoire Y = F(X) suit une loi
uniforme continue sur [0 ; 1].
B. La loi exponentielle
Dans ce paragraphe, on prsente la loi exponentielle sous son aspect le
plus simple, sans tenir compte de la famille de lois dans laquelle elle se place.
Afin de ne pas donner un contexte trop abstrait et mathmatique, on ne par-
lera pas des lois gamma et des proprits qui en dcoulent pour la loi expo-
nentielle. Toutefois, en conclusion de ce paragraphe, on mentionnera les
relations de ce modle exponentiel avec des modles correspondant des
schmas prcis didentification. Le but de cette prsentation tant essentiel-
lement de comprendre la nature des phnomnes alatoires pour lesquels on
envisage une reprsentation de type loi exponentielle ou drive de ce type.
1. Une prsentation simple de la simulation, avec des exemples, est donne lannexe III.
Dfinition
On dit quune variable continue X suit une loi exponentielle de
paramtres > 0 et lorsque sa densit est :
1
--- e ( x )/ si x
f ( x) =
0 si x <
=0,5
1,6
1,2
=1
0,8
0,4
=2
0
=1 =2
Figure 7.2 Densits de lois exponentielles pour diffrentes valeurs de (1 et 2)
et de (0,5, 1 et 2)
Les situations usuelles correspondent au choix de = 0, ce que nous gar-
derons pour la suite, en prenant pour densit la fonction :
1
--- e x/ si x 0
f ( x) =
0 si x < 0
qui est ainsi une distribution un seul paramtre. Le cas particulier o = 1
Dunod. La photocopie non autorise est un dlit.
dont le calcul est trs simple 1 en appliquant une intgration par parties la
dernire intgrale :
Ik =
0
t k e t dt = [ t k e t ] 0 + k t k 1 e t dt = k I k 1
0
1. On notera que cette intgrale Ik nest autre que la valeur de la fonction eulrienne classique
gamma pour lentier ( k + 1), soit (k + 1).
2. Le terme valeur ici ne doit pas prter confusion et concerne en toute rigueur un inter-
valle infiniment petit entourant une valeur ponctuelle ; ce terme est utilis ici pour ne pas
alourdir inutilement la prsentation.
F(x)
0,8
0,6
0,4
0,2
f(x)
0
0 D1 Q1 1 Q2 2 3 4 5
Cette fonction de densit est une fonction paire, et son graphique admet
laxe des ordonnes comme axe de symtrie. Il y a un maximum pour x = 0
qui correspond au mode de cette distribution. Compte tenu de deux points
dinflexion, le graphique est simple tracer et prsente lallure caractristi-
que connue sous le nom de courbe en cloche (cf. figure 7.4).
Dunod. La photocopie non autorise est un dlit.
-4 -3 -2 -1 0 1 2 3
+
Le produit t f(t) tant une fonction impaire :
t exp ( t /2 ) dt
2 = 0
1 +
= ---------- [ t exp ( t 2 /2 ) ] +
2
+
exp ( t 2 /2 ) dt
Le premier terme de laccolade tant nul, il sensuit :
1 +
E ( X 2 ) = ----------
2
exp ( t 2 /2 ) dt = 1
xb
P U < ----------- si a>0
a
FX ( x ) = P ( X < x ) = P ( aU + b < x ) =
x b si a<0
1 P U < -----------
a
1 xb
-----------
exp ( t 2 /2 ) dt si a>0
a
----------
2
FX ( x ) =
xb
1 -----------
1 ---------- exp ( t 2 /2 ) dt
a
si a<0
2
Proprit 2
Si X est une variable alatoire normale, alors toute fonction du
1er degr (fonction affine) de X suit aussi une loi normale.
Ainsi que nous lavons vu, la densit dune variable normale, donc sa loi,
dpend de deux paramtres. On a montr que le premier paramtre nest autre
que sa moyenne tandis que le second correspond son cart-type. Une varia-
ble alatoire normale est entirement dtermine par sa moyenne et son
cart-type.
Dans le cas dune variable alatoire X distribue selon une loi normale
(m ; ), la variable alatoire Y = aX + b suivant aussi une loi normale avec
E(Y) = am + b et var( Y) = a22 (lcart-type de Y valant a ), Y est distri-
bue selon une loi normale (am + b ; a ).
Xm
En particulier, on peut construire la variable -------------- de moyenne nulle et
Xm
dcart-type gal 1 ; on dit alors que -------------- est la variable normale centre
rduite dduite de X. Cest elle qui permet de faire aisment tous les calculs
relatifs X ( II.C).
Rciproquement, toute v.a. X distribue selon une loi de Gauss (m ; )
peut scrire X = U + m o U est une variable alatoire distribue selon une
loi de Gauss centre rduite.
Ltude de la densit
1 ( x m )2
fX ( x ) = --------------exp -------------------
-
2 2 2
variance=0,25
variance=4
variance=1
Xm Xm
soit, P ( X m > k ) = P -------------- < k + P -------------- > k
Xm
La variable -------------- tant centre rduite, sa fonction de rpartition est
dsigne par FU . Dautre part, la densit de la loi normale centre rduite
tant symtrique par rapport laxe vertical, il en rsulte que (cf. figure 7.6) :
FU( k) = P(U < k) = P(U > k) = 1 P(U < k) = 1 FU(k)
4 2 k 0 k 2
Proprit 3
Si on a n variables alatoires normales (mi ; i) et indpendantes ,
alors leur somme suit une loi normale (m ; ).
n
la racine carre de la somme des variances : =
i=1
2
i
Xm
X (m ; ) U = -------------
- (0 ; 1)
Exemple
Par exemple si U suit une loi (0 ; 1), on lit directement lintersection
de la ligne correspondant 0,3 et de la colonne correspondant 0,08 :
P(U < 0,38) = 0,6480
et de mme lintersection de la ligne portant 1,9 et de la colonne
portant 0,06 :
P(U < 1,96) = 0,9750
Pour une loi normale quelconque X, la procdure est presque identique. Il
faut simplement se ramener une loi normale centre rduite U, selon
Xm
U = -------------
-
Lcart-type tant strictement positif :
X m a m
Dunod. La photocopie non autorise est un dlit.
a m
Les vnements { X < a} et U < ------------- tant identiques, ils ont la mme
probabilit. On sest ramen une lecture de table de loi normale centre rduite.
Exemples
Si X suit une loi (3 ; 2), U = ------------ X 3- suit une loi (0 ; 1)
2
X 3 6,24 3
P(X < 6,24) = P ------------- < ------------------- = P(U < 1,62) = FU (1,62) = 0,9474
2 2
Si X suit une loi ( 4 ; 5), U = ------------ X + 4 suit une loi (0 ; 1)
-
5
X + 4 1,65 + 4
P(X < 1,65) = P ------------- < ------------------- = P(U < 1,13) = FU (1,13) = 0,8708
5 5
On remarque que la table nest donne que pour des valeurs de u (le seuil)
comprises entre 0 et 3,49. Les extensions sont trs simples :
pour une valeur u < 0, on utilise la symtrie de la loi normale centre
rduite (cf. figure 7.7) :
FU ( u) = P(U < u) = P(U > + u) = 1 Pr(U < + u) = 1 FU (+ u)
Par exemple, pour une variable X distribue selon une loi (4 ; 2) calcu-
lons P(X < 2) :
X4
P ( X < 2 ) = P ------------- < 1 = F U ( 1 ) = 1 FU ( 1 ) = 0,1587
2
pour les grandes valeurs de u (cest--dire au moins gales 3,5)
on dispose dune ligne supplmentaire en bas de table, moins dtaille et
sarrtant u = 4,5. Ceci sexplique par le fait (tudi plus haut au
prcdent) quune loi de Gauss na que moins de 0,30 % de chances de
scarter de plus de 3 carts-types de sa moyenne. Les probabilits cumules
(cest--dire les valeurs de la fonction de rpartition) pour des seuils sup-
rieurs 3 sont trs proches de 1, et varient extrmement peu. On le constate
la lecture de la ligne des grandes valeurs puisque lorsque le seuil passe de
4 4,5, la fonction de rpartition naugmente que de 0,00003 environ (alors
quelle augmente de 0,017 entre 2 et 2,5, soit environ 550 fois plus !) ;
enfin pour toute valeur de u contenant plus de 2 dcimales, on fait lhabi-
tuelle interpolation linaire. Si U suit une loi (0 ; 1), la valeur de
P(U < 1,645) se calcule en remarquant que 1,645 est exactement au milieu
entre 1,64 et 1,65, valeurs pour lesquelles les probabilits cumules sont res-
pectivement de 0,9495 et 0,9505. On prend donc P(U < 1,645) = 0,95 (la
valeur plus prcise est en ralit de 0,94449).
Prenons un autre exemple, en calculant P(X > 4,94) pour une v.a. X dis-
tribue selon une loi ( 2 ; 4). On crira :
X + 2 4,94 + 2
P ( X > 4,94 ) = 1 P ( X < 4, 94 ) = 1 P ------------- < -------------------
4 4
X+2
= 1 P ------------- < 1,735 = 1 FU ( 1,735 )
4
P( X < 2) P( X < 0) 3 3
= -------------------------------------------------- = --------------------------------------------------------
1 P ( X < 2 ) 21
1 F U ----------------
3
FU ( 0,33 ) FU ( 0,33 ) 2FU ( 0,33 ) 1
- 0,31
- = ----------------------------------
= -----------------------------------------------------
1 FU ( 1 ) FU ( 1 )
On remarquera ce stade que pour les probabilits dintervalles, il est
indiffrent de considrer des intervalles ferms, ouverts ou mixtes puisque la
probabilit dun point pour une v.a. continue est nulle (comme on la vu au
chapitre 5, II.B).
4 2 u 0 u 2
Figure 7.7 Calcul de probabilit dintervalles symtriques
pour une loi de Gauss centre rduite
Un calcul trs frquent est celui de P ( U < u ) , avec u > 0. Nous sommes
dans le cas dintervalles symtriques par rapport la moyenne ( cf. figure 7.7),
ce qui revient chercher :
P( u < U < + u) = P(U < + u) P(U < u), or P(U < u) = 1 P(U < u)
On a le rsultat : P ( U < u ) = 2P ( U < u ) 1 = 2FU ( u ) 1
Par complmentarit, on obtient galement :
P ( U > u ) = 1 P ( U < u ) = 2 [ 1 FU ( u ) ]
P ( U < 1,96 ) = 0,95
Par exemple :
P ( U < 1,645 ) = 0,90
On peut retrouver ainsi quelques caractristiques utiles de toute distribu-
tion normale.
Si X suit une loi normale (m ; ), en donnant u successivement les
valeurs 1, 2 et 3, on trouve que la probabilit que :
On pourrait aussi prsenter ces rsultats sous la forme ( cf. figure 7.8) :
il ny a que 31,74 % des observations dune loi normale qui scartent
de la moyenne de plus de 1 cart-type ;
4 3 2 1 0 1 2 3
Dans ce domaine gaussien, la valeur 1,96 est retenir, car elle correspond
95 % des observations, ou par complmentarit,
Peut-on accepter une hypothse de normalit pour lge des clients avec
une moyenne 35 et un cart-type 10,5 ?
On calcule pour la borne suprieure de chaque classe le quantile thorique
dune loi normale centre rduite correspondant la frquence cumule observe,
et on dduit le quantile thorique correspondant la loi normale (35 ; 10,5).
Quantile observ xi 20 25 30 35 40 45 50
Frquence cumule Fi 0,08 0,18 0,31 0,48 0,70 0,81 0,93
Quantile thorique (0 ; 1) 1,4051 0,9154 0,4959 0,0502 0,5244 0,8779 1,4758
Quantile thorique (35 ; 10,5) 20,25 25,39 29,79 34,47 40,51 44,22 50,50
Appelons u*i et x*i , les quantiles thoriques (0 ; 1) et (35 ; 10,5) cor-
respondant au ie quantile observ xi
partir du quantile u*i tel que FU ( u*i ) = Fi , on calcule le quantile x*i :
x*i = 10,5 u*i + 35
*
Puisque les points ( x i , xi) sont peu prs aligns le long de la premire
bissectrice ( cf. figure 7.9), lajustement par la loi normale (35 ; 10,5) est
retenu.
1. Goldfarb B., Pardoux C., Comment faire les diagrammes Quantile Quantile ( Q Q) et
Probabilit Probabilit (P P) ? , La Revue de Modulad, n 33, juillet 2005 (www.modulad.fr,
ExcelEnse ).
dautre part, des rsultats (dits asymptotiques) qui seront abords ultrieure-
ment donnent de nombreuses v.a. particulires des lois sensiblement gaussiennes
ds lors que leur application est fonde sur de trs grandes sries dobservations.
Trs concrtement, on peut tre conduit poser une hypothse de norma-
lit dans trois grandes situations.
i) Lorsquon a construit un schma binomial o n > 50 et p compris entre
0,4 et 0,6 , on approxime (pour les calculs) par une loi normale (np ; npq).
La condition npq > 18 est quelquefois utilise dans un souci de simplicit.
ii) Lorsquon a un modle de Poisson dont le paramtre m est suprieur
25, on approxime (pour les calculs) par une loi normale (m ; m ).
Dans ces deux cas, la justification rigoureuse de lapproximation ncessite la
connaissance de certaines formules danalyse mathmatique, telles que la for-
mule de Stirling. Nous les admettrons sans dmonstration. Quelques illustrations
de ces approximations et de leurs limites sont donnes aux figures 7.10a et 7.10b.
iii) La somme de n variables alatoires indpendantes, suivant la mme loi,
de moyennes m et dcarts-types suit approximativement une loi normale dont
la moyenne est la somme des moyennes, et lcart-type est la racine carre de la
somme des variances, et ce ds que n est assez grand, soit en pratique n > 30
Lapproximation de la loi binomiale par la loi normale en est un cas par-
ticulier de cette dernire situation puisquune v.a. binomiale est la somme de
v.a. de Bernoulli.
Ce rsultat joue un rle essentiel dans toute la statistique classique. Sa
dmonstration est en dehors du cadre de ce livre.
0,09 0,09
0,08 (100 ; 0,4) 0,08 (100 ; 0,4)
0,07 0,07
0,06 0,06 (40 ; 4,9)
0,05 0,05
0,04 (40) 0,04
0,03 0,03
0,02 0,02
0,01 0,01
0,00 0,00
0,10 0,10 (100 ; 0,25)
(100 ; 0,25)
0,09 0,09
0,08 0,08
0,07 0,07
0,06 (25) 0,06 (25 ; 4,33)
0,05 0,05
0,04 0,04
0,03 0,03
0,02 0,02
0,01 0,01
0,00 0,00
Figure 7.10a Approximations correctes par la loi de Gauss, incorrectes par la loi de Poisson
Dunod. La photocopie non autorise est un dlit.
0,20 0,20
(100 ; 0,05) (100 ; 0,05)
0,18 0,18
0,16 0,16
0,14 0,14
0,12 0,12
0,10 (5) 0,10 (5 ; 2,18)
0,08 0,08
0,06 0,06
0,04 0,04
0,02 0,02
0,00 0,00
Figure 7.10b Approximations incorrectes par la loi de Gauss, correctes par la loi de Poisson
F. Correction de continuit
Dunod. La photocopie non autorise est un dlit.
Si X est une variable discrte quon approche par une loi normale
(m ; ), place la valeur k dans un intervalle symtrique et de largeur unit,
et on pose :
k + 0,5 m k 0,5 m
P ( X = k ) = P ( k 0,5 < X < k + 0,5 ) FU -------------------------- FU --------------------------
Ainsi par exemple, dans le cas de la loi (100 ; 0,4), approxime par la
loi (40 ; 4,9)
P(X = 50) FU (+ 2,14) FU (+ 1,94) = 0,01
alors que la valeur exacte calcule par la formule des probabilits binomiales
est 0,0103
La formule prsente pour ce calcul nest utiliser que si le calcul par la
loi exacte est trop dlicat. Enfin, on doit noter que ce mode de calcul na de
sens que pour obtenir des probabilits de loi discrte par des calculs appro-
chs utilisant la loi normale.
A. La loi du khi-deux
Si on dispose de n v.a. {Xi, i = 1, 2, n} indpendantes et de mme loi de
Gauss (m ; ), alors la variable alatoire appele moyenne empirique
n
X i
-
i=1
X n = ------------- suit une loi (m ; ------ )
n n
et caractrise la moyenne des Xi . Cette moyenne empirique permet de jus-
tifier plus encore lutilisation de la loi de Gauss.
Dans le mme contexte de gaussiennes indpendantes et de mme loi, la
v.a. Q dfinie par
n
i=1
(X i m )2
Q = ------------------------------
-
2
( xi m )2 ( x m)i
2
n -----------------------------
i=1 n s n2
i=1
----------------------------
- = ----- = -----------
-
2 2 n 2
dans laquelle on reconnat la variance s n2 de la srie des ralisations. Au fac-
n
teur multiplicatif prs -----2 , la variable Q va dcrire les ralisations de la
variance des observations.
Ce rle de caractristique de la variance des observations est historique-
ment1 celui qui a conduit son tude dtaille. Cette v.a. Q peut aussi
scrire :
n
(X i m )2
X i m
n
2
i=1
Q = ------------------------------
- = ---------------
2
i = 1
cest--dire comme somme de n carrs de v.a. gaussiennes centres rduites
indpendantes. Cest cette distribution quon tudie sous le nom de loi dukhi-
deux n degrs de libert , note 2 (n). Elle apparat comme troitement lie
ltude de la variance. Dans ce paragraphe, nous prsentons seulement la
distribution du khi-deux, ses proprits essentielles, la pratique des calculs,
et sa place fondamentale dans lensemble des mthodes statistiques.
Dfinition
Si X est une v.a. distribue selon une loi (m ; ), alors la loi de la
Xm 2
v.a. -------------- est dite loi du khi-deux 1 degr de libert , note 2 ( 1 )
Dunod. La photocopie non autorise est un dlit.
Proprit
La densit de probabilit dune loi 2(1) est donne par :
1 x/2 1/2
----------e x si x > 0
2
0 si x 0
+ x x
1 t 2 /2 1
=
----------e
2
dt
----------e
2
t 2 /2 dt
Thorme
Si X et Y sont deux v.a. absolument continues indpendantes, de
densits respectives fX (x) et gY (y), alors la densit de probabilit de la
somme Z = X + Y est donne par :
+ +
hZ ( z ) =
fX ( x ) g Y ( z x )dx =
g
Y ( y) fX ( z y )dy
Cette expression qui lie les densits fX (x) et gY (y) des v.a. X et Y est appele
produit de convolution de fX et gY
Appliquons ce rsultat la somme des v.a. X et Y indpendantes et suivant
chacune une loi 2 ( 1 ) :
1 x/2 1/2
----------e x si x>0
fX ( x ) = 2
0 si x0
1 y/2 1/2
----------e y si y > 0
gY ( y ) = 2
0 si y 0
Ces rsultats permettent dobtenir la densit de la somme Z de deux v.a.
distribues selon des lois :
z
1
2
h Z ( z ) = ------ x 1/2 e x/2 ( z x ) 1/2 e ( z x )/2 dx
0
z 1/2
1
= ------e z/2 x ( z x ) dx
2
0
1 1/2
1
= ------e z/2 t ( 1 t ) dt
2
0
La dernire intgrale a t obtenue avec le changement de variable
x = z t, et le calcul usuel donne la valeur . La premire intgration se fait
entre 0 et z puisque fX (x) = 0 si x < 0 et gY (z x) = 0, si z x < 0, soit si x > z.
La densit de la somme Z est donne par :
1
--- e z/2 si z>0
hZ ( z ) = 2
0 si z0
Cette dernire expression nest autre que la fonction densit de la loi
exponentielle de paramtres = 0 et = 2.
En tenant compte du fait que (1) = 1 et que z0 = 1, on peut crire la den-
sit de Z pour z > 0 sous la forme 1 :
1
-z 1 e z/2 pour = 1
-----------------
2( )
Cette formule :
Dunod. La photocopie non autorise est un dlit.
1
------------------ x 1 e x/2 si x>0
f ( x ) = 2( )
0
si x0
et ! ( n ) = ( n 1 )
0,8
0,6
0,4
2 ddl
0,2 4 ddl
8 ddl
0
0 3 6 9 12 15
Figure 7.12 Densits de quelques lois de khi-deux ( 1, 2, 4 et 8 ddl)
rale (cest--dire pour n > 2), tant que le nombre de ddl nest pas trop lev.
Pour les calculs relatifs la loi du khi-deux on dispose essentiellement de
la table de fractiles (annexe IV). Cette table est double entre. Dans la
colonne de gauche, on recherche la ligne correspondant aux degrs de libert
de la loi tudie et dans la ligne suprieure, on recherche la probabilit
cumule qui dfinira le fractile, not 2 ( 2n ) . Donnons quelques exemples :
2 2 2 2
0,5 ( 5 ) = 4,351 0,95 ( 10 ) = 18,307 0,01 ( 8 ) = 1,64 0,99 ( 6 ) = 16,812
2 2 2 2
0,5 ( 30 ) = 29,336 0,95 ( 40 ) = 55,76 0,01 ( 40 ) = 22,16 0,99 ( 30 ) = 50,892
0,20
0,18
0,16 4 ddl
0,14 8 ddl
0,12
0,10
0,08
0,06
0,04
0,02
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Figure 7.13 Dissymtrie de la loi du khi-deux
B. La loi de Student 1
Dfinition
Si U et Y sont deux v.a. indpendantes suivant respectivement une loi
(0 ; 1) et une loi 2 ( ), on dit que le quotient
U U
-------- = -------
Y Y
---
suit une loi de Student 1 degrs de libert (ddl). On la note T
---
2
Il sagit donc dune densit symtrique par rapport laxe des ordonnes.
On en dduit que T est une v.a. centre :
E(T ) = 0
Le calcul de la variance, ici gale E ( T v2 ), donne pour > 2 :
var ( T ) = -----------
-
2
Lorsque = 1 ou = 2, la loi de Student nadmet pas de variance finie.
La loi de Student 1 ddl est assez particulire. En effet, elle correspond au
quotient de deux gaussiennes centres rduites indpendantes puisque le dnomi-
nateur est la racine carre dune loi 2 ( 1 ), cest--dire la racine du carr dune
gaussienne centre rduite. Cette loi T1 porte aussi le nom de loi de Cauchy.
1 1
Sa densit scrit : --- -------------2 . Elle est reprsente sur la figure 7.14, en
Dunod. La photocopie non autorise est un dlit.
1+t
comparaison avec la loi de Gauss centre rduite, par rapport laquelle elle
prsente des queues de distributions trs paisses.
1. Student tait le pseudonyme choisi par le statisticien William Sealy Gosset (1876-1937). Il
fut lun des premiers statisticiens du monde de lentreprise, consacrant sa carrire lindustrie
agro-alimentaire (brasseries) au sein de laquelle il a toujours t reconnu la fois comme
industriel et comme scientifique. Trs associ aussi au monde universitaire, il a largement
contribu au dveloppement scientifique de cette priode.
Cauchy
(0 ; 1)
Cauchy
(0 ; 1,2533)
Figure 7.15 Loi de Cauchy et loi (0 ; 1,2533) : comparaison des aplatissements
1 ddl
2 ddl
5 ddl
25 ddl
0,2
Gauss
4 3 2 1 0 1 2 3 4
Figure 7.16 Convergence de la loi de Student vers la loi de Gauss centre rduite
Sur cette figure, on constatera aussi la relation existant entre les fractiles
t() et u de mme ordre a respectivement pour la loi de Student Tk et pour
la loi (0 ; 1) :
Exemples
le fractile dordre 0,9 dune loi de Student 5 ddl est gal 1,476
le fractile dordre 0,3 dune loi de Student 10 ddl est gal 0,542
le fractile dordre 0,975 dune loi de Student 15 ddl est gal 2,131
le fractile dordre 0,975 dune loi de Student 30 ddl est gal 2,042
le fractile dordre 0,025 dune loi de Student 100 ddl est gal 1,984
Dans les deux derniers cas, les fractiles correspondant de la loi de Gauss
centre rduite sont gaux 1,96 et 1,96. On retrouve bien que lapproxi-
mation de la loi de Student par la loi de Gauss est dautant plus valable lors-
que le nombre de ddl est lev (en particulier sil dpasse 40).
Comme pour la loi de Gauss et la loi du khi-deux, on dispose de formules
approches, pour la fonction de rpartition ainsi que pour les fractiles, utili-
ses notamment pour les calculs rpts sur ordinateur.
Pour les fractiles, on utilisera lapproximation dite de Fisher et Cornish :
1 1
t ( ) u + ----- - u ( u 2 + 1 ) + -----------u 4 2
( 5u + 16u + 3 )
4 96 2
1 6 4 2
+ --------------u ( 3u + 19u + 17u 15 )
384 3
qui donne de bons rsultats mme pour de faibles ddl. Ds que > 30, on
pourra utiliser la formule beaucoup plus simple :
u
t ( ) u + ------ ( 1 + u 2 )
4
Pour la fonction de rpartition dans le cas gnral, cest--dire pour > 2,
les formules sont fastidieuses crire. Elles nont dintrt que pour des pro-
grammes de calculs et de simulation. Dans lannexe II, nous indiquons les
formules valables pour 1 ddl (lerreur commise dans lapproximation par ces
formules nexcde pas 0,001).
i n
n X i Xn n
X i Xn
i=1
Q = --------------------------------
2
- = ----------------- =
i = 1
Y
i=1
2
i o Y = ----------------
-
Ces v.a. Yi sont gaussiennes, mais ne sont pas indpendantes puisque lune
dentre elles sexprime en fonction des autres :
n n
X X =
i=1
i n X
i=1
i nXn = 0 . On ne peut donc pas dire que leur somme,
cest--dire Q , est distribue selon une loi 2 ( n ) . On montre quelle est en fait
distribue selon une loi 2 ( n 1 ) , et quelle est indpendante de Xn
Xn m
---------------- n
Xn m
- n
Tn 1 = ----------------------------- = ---------------
Q Sn 1
------------
n1
Daprs la dfinition donne en tte de ce paragraphe, Tn1 suit une loi de
Student ( n 1) ddl. Cest la v.a. qui est utilise en lieu et place de
Xn m
- n lorsquon cherche tudier la moyenne dune rpartition
U = ---------------
gaussienne dont la variance nest pas connue au dpart.
Toutefois, nous avons vu que lorsque le nombre de ddl augmente, la loi
de Student peut tre approxime par la loi de Gauss (sur la figure 7.16, on
voit que pour 25 ddl, les deux densits sont dj voisines). On retiendra que
le modle de la loi de Student sapplique ltude de la moyenne dune
loi de Gauss dont la variance nest pas connue, lorsquon ne dispose que
dun petit chantillon.
C. La loi de Fisher-Snedecor
Dfinition
Si X et Y sont deux v.a. indpendantes distribues selon des lois de khi-
deux respectivement 1 et 2 ddl, la v.a. :
X
1 2 X
F = --------------------- = ----- ----
1 Y
Y
2
est dite suivre une loi de Fisher 1 et 2 degrs de libert. On la note
F(1, 2)
1
= 1 P F ( 2 , 1 ) < ---
c
Si cette probabilit est gale , alors c nest autre que le fractile f(1, 2).
Par consquent, 1/c correspond au fractile f1-(2, 1). On obtient ainsi la rela-
tion trs utile, notamment dans la lecture des tables :
1
f 1 ( 2 , 1 ) = ------------------------
-
f ( 1 , 2 )
On peut montrer, par un calcul dintgrales assez long, que la densit de
la loi de Fisher-Snedecor F(1, 2) est donne par la formule :
11 /2 22 /2 ( ( 1 + 2 ) 2 ) x 1
(v 2) 1
------------------------------------------------------------ -------------------------------------------
- si x>0
gF ( x ) ( 1 /2 ) ( 2 /2 ) ( 2 + 1 x ) ( 1 + 2 ) 2
0 si x<0
1. Ltude de cette loi en tant que rapport de deux lois de khi-deux rapportes leurs degrs
de libert est due au statisticien anglais Ronald Aymler Fisher (1890-1962), tandis que les
dveloppements numriques, et notamment ltablissement des tables ont t raliss par le
statisticien amricain George Waddel Snedecor (1881-1974).
1,2
(10; 4)
(10; 10)
0,8 (10; 50)
0,4
0
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5
Figure 7.17 Densits de lois de Fisher pour 1 = 10 et quelques valeurs de 2
1 = P F ( 1, 2 ) < f1 ( 1, 2 ) = P T 2 ( 2 ) < f1 ( 1, 2 )
soit encore :
1 = P f 1 ( 1, 2 ) < T ( 2 ) < + f 1 ( 1, 2 )
= 2P T ( 2 ) < + f 1 ( 1, 2 ) 1
Ceci revient crire :
P T ( 2 ) < + f 1 ( 1, 2 ) = 1 2
et on obtient la relation entre fractiles :
f 1 ( 1, 2 ) = t 1 2 ( 2 )
qui est une traduction numrique de la proprit 1 ci-dessous.
Proprit 1
Si X est une v.a. distribue selon une loi de Fisher 1 et 2 ddl, alors
X est le carr dune v.a distribue selon une loi de Student 2 ddl.
2 22 ( 1 + 2 2 )
ii) var F ( 1, 2 ) = ---------------------------------------------
- , la variance de cette loi nest
1 ( 2 2 ) 2 ( 2 4 )
dfinie que pour 2 > 4
On notera une relation, trs utile au niveau des calculs, entre la loi de Fisher-
Snedecor dont les degrs de libert sont pairs et la loi binomiale (du type de
celle qui est mentionne au III.A entre la loi de Poisson et la loi du khi-deux).
Proprit 2
Si X est une v.a. distribue selon une loi de Fisher-Snedecor
F(2(n r 1), 2r), et Y une v.a. distribue selon une loi binomiale (n ; p),
on a la relation :
1p n
P X > ------------ -------------------- = P ( Y r )
p n r 1
1 1 ln ( x x 0 ) 2
= --------------------------------- exp --- -----------------------
-
2 ( x x 0 ) 2
La loi log-normale dpend de 3 paramtres, m, et x0 . Les deux pre-
miers sont les moments de la loi normale associe, tandis que le dernier
est une caractristique de position puisque cest la valeur minimale de cet
ala.
On peut montrer que lesprance mathmatique et la variance de X sont
donnes par :
1
E ( X ) = x 0 + exp m + --- 2
2
var ( X ) = e 2m e 2 ( e 2 1 )
Dterminons maintenant la mdiane Me :
ln ( Me x 0 ) m
F ( Me ) = 0,5 A = --------------------------------------- =0 Me = x 0 + e m
Plus gnralement, le fractile dordre dune loi log-normale
(m, , x0), not x , sobtient de la faon suivante :
P ( X x ) = P ln ( X x 0 ) ln ( x x 0 ) = P U + m ln ( x x 0 )
ln ( x x 0 ) m
= P U ------------------------------------
- =
ln ( x x 0 ) m
- x = x 0 + e m + u
u = ------------------------------------
Dunod. La photocopie non autorise est un dlit.
Le mode Mo de la distribution log-normale, correspondant au maximum
de la densit, est :
Mo = x 0 + exp ( m 2 )
Puisque 2 > 0 , on a exp ( 2 ) < 1 et exp ( 2 2 ) > 1 , ce qui implique
que le mode Mo, la mdiane Me et lesprance mathmatique E(X) vrifient :
Mo < Me < E(X)
La figure 7.18 donne lallure de la densit pour quelques valeurs de m et
de , avec x 0 = 0
4
m=0
3,5 = 0,1
2,5 m = 0,5
= 0,1
2
m=1
1,5 m=0 m = 0,5 = 0,1
= 0,2 = 0,2
m=1
1 = 0,2
0,5
1,6
1,4
1,2 = 0,1
0,8
0,2
Figure 7.20 Distribution des salaires Ensemble en 2000 ajuste par une loi log-normale
B. La loi de Pareto
Dfinition
On dit que la v.a. continue X est distribue selon une loi de Pareto de
paramtres et x0 > 0 si sa densit est donne par :
x 0 + 1
---- ---- si x x0
f X ( x ) = x0 x
si x < x0
0
On notera dabord que cette fonction fX(x) ne dfinit une densit que si > 0
5
=5
2,5
=2
=1
0
0 1 2 3 4
1,0
=5
0,8 =2
0,6 =1
0,4
0,2
0
0 1 2 3 4
Pareto1 a introduit sa loi pour dcrire des units conomiques par des carac-
tres de taille (revenu, chiffre daffaires, budget dinvestissement). Pour de
telles grandeurs, on postule le plus souvent que le nombre dindividus dont le
C
caractre tudi dpasse un seuil x est donn par N x = ----- o C et sont des
x
constantes. Lapplication de la loi de Pareto aux distributions de revenus est
une des plus usuelles, le paramtre tant en gnral voisin de 2
Le calcul des moments est simple. On a dabord :
+1
x x
x ---- ----0 dx
E(X ) =
x0
x 0 x
dx = x 0
----x -
x0
= -----------0-
1
mais ce rsultat nest valable (convergence de lintgrale) que si > 1 Remar-
quons quune v.a. distribue selon la loi de Pareto ne prend que des valeurs
Dunod. La photocopie non autorise est un dlit.
positives ( x0 > 0), ce qui implique que son esprance mathmatique est posi-
tive. Un rsultat correspondant < 1, soit ( 1) < 0, serait absurde.
Plus gnralement, on a :
+1
x x 0k
x k ---- ----0 dx -
E(Xk) =
x0
x 0 x
dx = x 0
x0
----------------
x + 1 k
= -----------
k
-
1. La loi tudie dans ce paragraphe porte le nom de lconomiste italo-suisse Wilfrid Pareto
(1848-1923). Cest lui quon doit lhypothse, quil a suppose universelle , de la dcrois-
sance en x de la proportion des individus dont le revenu dpasse la valeur x.
lue de la pente de la droite (elle peut tre calcule par la mthode des moin-
dres carrs, chapitre 3).
Il faut remarquer que dans cette reprsentation graphique, on trouve en
ordonne les valeurs (sur une chelle logarithmique) de { 1 F ( x ) } , cest--
dire de la proportion rsiduelle au-del de la valeur x. Ceci nous reporte
lintroduction de cette loi par Pareto, et lutilisation trs frquente des
chelles logarithmiques dans ltude des variables de type taille.
Exemple
Lexemple suivant illustre une modlisation par une loi de Pareto du
chiffre daffaire des 25 premiers groupes franais de lindustrie et des
services en 2001. Les donnes sont extraites des Tableaux de
lconomie Franaise 2003-2004.
Dunod. La photocopie non autorise est un dlit.
ln(1 Fi)
Figure 7.23 Srie des valeurs des 25 premiers chiffres daffaires franais
ajuste par une loi de Pareto
Quantile thorique
C. La loi de Weibull
Dfinition
Une v.a. continue X suit une loi de Weibull de paramtres a, b > 0 et
c > 0, si sa densit est donne par :
c x a c 1 -----------
x a c
--- ----------- e b
si x>a
f ( x) = b b
0 si xa
X a suit
Si X suit une loi de Weibull de paramtres a, b et c, alors Y = ------------
-
une loi de Weibull de paramtres 0, 1 et c. En effet : b
c
a + by x a
Xa c x a c 1 -----------
P ( Y < y ) = P ------------- < y = P ( X < a + by ) = --- -----------
b
e b dx
Dunod. La photocopie non autorise est un dlit.
b b
a
2,0
W(5)
1,5
1,0 W(1)
W(2) W(3)
0,5
0
0 1 2 3 4
F(x) = ct c 1 e t c dt
0
xc
e
c
soit en posant u = tc : F( x) = u du = [ e u ] 0x = 1 e x c si x > 0
0
et naturellement F(x) = 0 si x 0
Dans le cas gnral, posant X = a + bY, o Y suit une loi de Weibull stan-
dard, on a :
c
----------- x a
xa
P ( X < x ) = P ( a + bY < x ) = P Y < ----------- = 1 e b
si x > a
b
et P(X < x) = 0 si x a
Ceci nous montre que la mdiane est le point w0,5 tel que :
w 0,5 = b ( ln 2 ) 1 c + a
E ( X ) = a + b 1 + 1---
c
2
2 1
var ( X ) = b2 1 + --- 1 + ---
c c
1,6
Dunod. La photocopie non autorise est un dlit.
W(3)
1,2
W(3,6)
(0,9; 0,278)
0,8
0,4
0
0 1 2 3 4
Il sensuit ( cf. figure 7.26) que pour des valeurs de c proches de 3,6, la
distribution standard de Weibull et la loi de Gauss ont des formes assez pro-
ches. On notera que pour cette valeur c = 3,6, la moyenne de la loi standard
de Weibull est gale 0,9011 et son cart-type 0,278
Il est intressant de noter que pour une loi de Weibull standard de para-
mtre c, lexpression de la fonction de rpartition permet dcrire :
ln ( 1 F W ( y ) ) = y c
soit encore : ln { ln ( 1 F W ( y ) ) } = c ln ( y )
ce qui montre quon peut, comme pour la loi de Pareto, mais avec une chelle
log-log sur laxe vertical, valuer graphiquement si une distribution
observe peut tre reprsente par une loi de Weibull standard.
Lintrt particulier de la loi de Weibull rside dans la proprit suivante.
Proprit
Si Y suit une loi de Weibull standard W(c), alors Yc suit une loi expo-
nentielle de paramtre 1
c
En effet, soit Z = Y . Si z < 0, on aura P(Z < z) = 0 et si z > 0, on peut crire :
z 1/c
P ( Z < z ) = P ( Y c < z ) = P ( Y < z 1/c ) =
ct
0
c 1 e t c dt
et la densit, nulle pour z < 0, sobtenant par drivation pour z > 0, est bien
gale ez
La loi de Weibull 1 doit ainsi senvisager comme une gnralisation du
modle exponentiel, tout particulirement dans les contextes o ltude porte
sur le temps coul jusqu la ralisation dun certain vnement.
D. La loi logistique
Dfinition
Une v.a. X continue suit une loi logistique si sa fonction densit est don-
ne par :
x -
exp -----------
f ( x ) = ---------------------------------------------------2 avec > 0
x
1 + exp ----------- -
1. Nomme ainsi en raison des travaux du statisticien sudois Waloddi Weibull qui en a montr
lintrt (entre 1939 et 1954) pour une trs large gamme dapplications, industrielles notamment.
Un calcul trs simple montre alors que la fonction de rpartition est don-
ne par :
x 1
F ( x ) = 1 + exp -----------
-
e y
----------------------
- =
1 y
e
-------------------------------
- =
1 y
e
-------------------------------------
- = e y ( e y ) 2- = --------------------
-------------------- ey -
( 1 + ey )2 2
(e y + 1) y 2 ( e y + 1 ) 2 ( 1 + e y )2
1 + 1 ey e
3
= 0 et = ------- 0,5513
On observe alors ( cf. figure 7.27) que les deux densits sont assez pro-
ches. En raison de la symtrie, le coefficient dasymtrie 1 est nul, et la
comparaison entre le coefficient daplatissement 2, gal 0 pour la loi de
Gauss centre rduite et 1,2 pour la loi logistique, traduit bien la limite de
leur ressemblance.
1
1. Le calcul passe par le dveloppement en srie de ----------------- et lutilisation des fonctions eul-
riennes. 1 + ey
0,6
Logistique (0; 1)
Normale (0; 1)
Logistique (0; 0,5513)
4 3 2 1 0 1 2 3 4
Figure 7.27 Densits compares de lois logistiques et de la loi normale centre rduite
F( y)
y = ln --------------------
1 F( y)
Elles font ressortir lintrt de la loi logistique dans les situations binaires.
Cette loi est particulirement utile pour modliser des systmes o la rponse
(alatoire) une intervention est du type tout ou rien (ou encore positive
ou ngative). Pour ces situations, on suppose souvent que la proportion de
rponses positives suit une loi logistique et on parle alors danalyse de type
logit . On choisit de prfrence la loi logistique dans ces problmes, mais
certains modlisent par la loi de Gauss et on parle alors danalyse de type
probit . Mais linterprtation mcaniste nest alors pas aussi fine que
celle dcoulant de la loi logistique.
La fonction dfinissant la fonction de rpartition de la loi logistique stan-
dard est utilise intensivement pour reprsenter les phnomnes de crois-
sance (entre deux limites) avec le temps. Dans ce contexte, elle est obtenue
en partant dune quation diffrentielle traduisant la proportionnalit en tout
point entre dune part le taux de croissance, et dautre part le produit des
diffrences avec les valeurs extrmes, soit :
dF
------- = c ( F ( x ) l ) ( L F ( x ) )
dx
V. Bilan
Les modles prsents dans ce chapitre et dans le prcdent sont ceux qui
sont le plus souvent utiliss dans ltude de situations alatoires concrtes. On
noubliera pas cependant que dautres modles prsentent un intrt certain
pour la modlisation. Ils ne peuvent tre prsents ici, mais on se doit de citer :
la loi binomiale ngative ;
la loi log-normale, la loi de Wald, les lois gamma et bta ;
les lois de khi-deux, de Student et de Fisher-Snedecor dcentres.
Dautre part, nous navons envisag que les lois de variables
n
alatoires
valeurs relles. Les distributions de v.a. valeurs dans nont pas t abor-
des. Leur utilisation est cependant frquente.
Lensemble de ce chapitre montre lintrt particulier de la loi de Gauss.
Approximation de lois discrtes ou de lois continues, mais aussi loi approche
des moyennes dchantillonnage, la distribution gaussienne est au centre de
ldifice statistique ds quon cherche modliser des situations alatoires.
Ses proprits (symtrie, stabilit aprs transformation linaire) et son uti-
lisation particulirement simple pour les calculs expliquent le recours trs
frquent cette loi. Cependant, on ne doit pas se laisser abuser, et nous avons
vu que plusieurs problmes spcifiques conduisent dautres lois, soit par
construction (cas des lois du khi-deux, de Student, de Fisher-Snedecor), soit
par ajustement (lois de Pareto, exponentielle, logistique, de Weibull).
Le sens de lhypothse de normalit merge de cette position centrale de la
loi de Gauss, comme aussi de son apparence. La loi de Gauss est celle qui
simpose lorsque le phnomne quon tudie ne prsente pas de dterminant
prdominant. En ce sens, la distribution normale correspond une rpartition
sans caractristique ou individualisation particulire. Elle serait donc presque le
modle utiliser si aucun autre ne simposait. Dailleurs, cest historiquement
ainsi quelle a merg pour reprsenter de faon universelle les phnomnes
Dunod. La photocopie non autorise est un dlit.
1. Dabord par Laplace la fin du 18e sicle, puis par Gauss en 1809, et enfin par Galton en 1889.
On noubliera pas :
1 2
Z1 = X 2i 2 ( 1 ) Z 2= Y 2j 2 ( 2 )
i=1 j=1
khi-deux 1 degrs de libert khi-deux 2 degrs de libert
loi dissymtrique loi dissymtrique
de moyenne 1 et de variance 2 1 de moyenne 2 et de variance 2 2
U (0 ; 1)
U et Z1 indpendantes
Z 1 / 1 Z
U
T = ---------- est une v.a. symtrique, - = ----2- -----1-
F ( 1, 2 ) = -------------
1 Z 2 / 2 1 Z 2
Z
-----1- centre : est une v.a. dissymtrique :
1
loi de Fisher-Snedecor
loi de Student 1 degrs de libert
1 et 2 degrs de libert
( 1 = 1 ) F ( 1 , 2 ) = T 22
8. Pour une population distribue selon une loi (0 ; 1), le pourcentage dindivi-
dus qui sont caractriss par une valeur comprise entre 1,96 et + 1,96 est gal :
a) 75%
b) 90%
c) 95%
d) 99%
12. Si une population est reprsente par une variable alatoire X de loi (m ; ) :
a) 25% des individus scartent de la moyenne de plus dun cart-type
b) 50 % des individus sont au-dessus de la moyenne
c) peu prs 5 % des individus scartent de la moyenne de plus de 2 fois lcart-type
d) Fx(m + x) = 1 Fx(m x)
17. Si la demande hebdomadaire dun produit dans un magasin suit une loi bino-
miale (30 ; 0,45), alors si on suppose les demandes hebdomadaires indpendan-
tes entre elles, la demande annuelle de ce mme produit (1 an = 52 semaines) :
a) suit une loi binomiale (1560 ; 0,45)
b) suit approximativement une loi de Gauss (702 ; 19,65)
c) est une somme de v.a. de Bernoulli indpendantes
d) ne peut pas tre gale 1 600
18. Si la demande quotidienne dun produit dans un magasin suit une loi bino-
miale (40 ; 0,05), alors si on suppose les demandes quotidiennes indpendantes
entre elles, la demande de ce mme produit pour 25 jours de fonctionnement de
ce magasin suit :
a) peu prs une loi de Poisson (50)
b) peu prs une loi normale (50 ; 6,9)
c) une loi binomiale (40 ; 0,2)
d) une loi de Poisson (0,2)
Dunod. La photocopie non autorise est un dlit.
Exercice 7.3
Une usine fabrique des imprimantes laser dont la dure de vie X (exprime en mil-
lions de pages) est une variable alatoire normale (2 ; 0,3).
1. Calculez la probabilit p que la dure de vie dune imprimante tire au hasard dans
la production soit suprieure 2,5 millions de pages. Dans la suite de lexercice,
on arrondira cette probabilit p pour ne conserver que 2 chiffres aprs la virgule.
2. On teste 60 imprimantes tires au hasard dans la production. Dterminez, en la
justifiant, la loi de la variable Y gale au nombre dimprimantes dont la dure de
vie est suprieure 2,5 millions de pages. Donnez, en la justifiant, une loi appro-
che de Y.
3. Calculez la probabilit que parmi les 60 imprimantes testes :
exactement 10 % des imprimantes aient une dure de vie suprieure
2,5 millions de pages,
au moins 5 % des imprimantes aient une dure de vie suprieure 2,5 millions de
pages.
Exercice 7.4
Un groupe de presse dcide de lancer un nouveau quotidien. Une enqute permet de
conclure que, pendant les 30 jours conscutifs la date du lancement, la demande
journalire (exprime en milliers dexemplaires) est une v.a. X dont la loi de proba-
bilit peut tre considre comme une loi normale de paramtres m = 100 et = 25.
1. Calculez la probabilit davoir pendant la priode considre :
une demande journalire comprise entre 75 et 125 ;
une demande journalire de plus de 150.
Exercice 7.5
Un vigneron commercialise des vins de qualit diffrentes quil rpartit en deux
classes : la classe des vins courants dits du terroir , la classe des vins de qualit,
appels grand cru , et vendus 6 la bouteille. Malgr le soin apport lembou-
teillage, il subsiste des erreurs dtiquetage, et on admet quun acheteur de vin
grand cru aura une probabilit p = 0,12 davoir en fait une bouteille de vin ordi-
naire.
1. Un restaurateur achte 200 bouteilles grand cru au vigneron. Soit Y la v.a.
gale au nombre de bouteilles de vin courant parmi les 200 bouteilles achetes.
Dterminez la loi de probabilit de la v.a. Y, ainsi que son esprance et sa variance.
Donnez, en la justifiant, une approximation de la loi de Y.
2. Calculez : P(Y > 20) et P(Y < 30 Y > 20).
3. Au fur et mesure de la consommation des 200 bouteilles, le restaurateur a pu dtec-
ter chacune des bouteilles de type courant. Il dcide alors de ne payer que les bou-
teilles de qualit effectivement livres et de refuser tout paiement pour les
bouteilles de vin ordinaire.
Calculez, dans cette hypothse, la probabilit dun bnfice nanmoins positif pour
le vigneron sachant que chaque bouteille de vin courant lui revient 1,5 et que
chaque bouteille de vin de qualit lui revient 3,5 .
Exercice 7.6
Lors la naissance de jumeaux, on note la probabilit quil sagisse de vrais jumeaux
et on fait les deux hypothses suivantes :
i) deux vrais jumeaux sont toujours de mme sexe, et la probabilit quils soient des
garons est gale 1/2 ;
ii) deux faux jumeaux ont des sexes indpendants et chacun des deux enfants est un
garon avec une probabilit gale 1/2.
Soit A, B et C les vnements suivants relatifs la naissance de deux jumeaux :
A = { 2 garons }
Dunod. La photocopie non autorise est un dlit.
B = { 2 filles }
C = { 1 garon et une fille }
1. Calculez en fonction de les probabilits des vnements A, B et C.
2. Soit Y la variable alatoire gale au nombre de fois o on a eu un garon et une
fille sur 1 000 naissances de jumeaux.
Donnez en fonction de , et en la justifiant, la loi de probabilit de la variable
alatoire Y.
Donnez lesprance et la variance de Y en fonction de .
3. On suppose = 0,35 ; par quelle loi peut-on approximer la loi de Y ? (justifiez
votre rponse).
Dterminez les probabilits des vnements { Y > 300} et {310 Y 350 Y > 300}.
Exercice 7.7
Aprs avoir fait remplir un long questionnaire portant sur laudience de la presse
magazine 200 individus, un institut de sondage a tabli la distribution suivante pour
la dure dinterview (en minutes) concernant ces 200 individus :
Dure
< 25 [25 ; 30[ [30 ; 35[ [35 ; 40[ [40 ; 45[ [45 ; 50[ 50
(min)
Effectif 18 32 36 40 30 24 20
Exercice 7.9
Un appareil lectronique est soumis des impulsions spares par des intervalles de
temps variables, indpendants les uns des autres. On suppose que la dure Y (expri-
me en secondes) sparant deux impulsions successives est une v.a. dfinie ainsi :
Y = 2 + X
o est un paramtre strictement positif et X une v.a. exponentielle de paramtre 1.
1. Dterminez en fonction de :
E(Y) et var(Y) ;
la fonction de rpartition de la variable alatoire Y.
2. On suppose dans cette question le paramtre gal 5.
2.1. Calculez P(Y < 2) et P(2 Y 5).
2.2. Afin dtudier si la loi thorique retenue pour Y reprsente bien le phnomne
tudi, on a mesur de faon indpendante 10 dures sparant 11 impulsions
successives et on a obtenu les rsultats suivants en secondes :
2,3 3,5 3,9 4,7 5,1 6,8 7,9 9,6 13,1 15,5
Tracez le diagramme quantile-quantile pour juger la qualit de lajustement
de cette distribution observe par la loi retenue. Conclusion.
Exercice 7.10
Afin de mieux connatre sa clientle, le grant du cinma Paradiso fait procder un
sondage. Il obtient pour un chantillon alatoire de taille 100 la rpartition par ge
suivante :
ge < 15 ans [15 ; 20[ [20 ; 25[ [25 ; 30[ [30 ; 35[ [35 ; 40[ [40 ; 50[ 50 ans
Effectif 4 13 22 28 15 10 5 3
Exercice 7.11
On considre que la dure du temps dattente T (mesur en minutes) du bus que doit
prendre Valrie pour se rendre lUniversit, est distribue selon une loi exponen-
1 t/5
--- e si t0
fT (T ) = 5
0 sinon
1. Quelle est la fonction de rpartition de la variable alatoire T ?
2. Quelle est la probabilit que le temps dattente T dpasse 8 minutes ? Dans la suite
de lexercice, on arrondira cette probabilit sa premire dcimale.
3. Valrie utilise le mtro avec un seul ticket si elle attend le bus plus de 8 mn. Il
faut deux tickets pour le bus, mais Valrie a une nette prfrence pour le bus quelle
utilise si le temps dattente ne dpasse pas 8 mn. Soit Y, le nombre de trajets allers
effectus en bus en n jours.
3.1. Donnez, en la justifiant, la loi de Y.
3.2. Calculez son esprance et sa variance.
4. Soit Z, la variable alatoire gale au nombre de tickets utiliss par Valrie pour
ses trajets allers en n jours.
4.1. Dterminez la loi de Z.
4.2. Calculez son esprance et sa variance.
Daprs examen de septembre 2002, GEA 1 re anne Paris IX-Dauphine
Exercice 7.12
Le tableau ci-dessous donne les dix meilleurs rsultats nets des grandes entreprises
franaises en 2001 (Source : Tableaux de lconomie Franaise 2003-2004,
INSEE) :
Soit Fi la proportion dentreprises dont les rsultats nets X sont infrieurs xi.
1. Peut-on considrer les 10 points de coordonnes {{ln( xi), ln(l Fi)}, i = 1 10}
approximativement aligns ? (On calculera le coefficient de corrlation linaire et
les coefficients de la droite des moindres des carrs).
Reprsentez graphiquement le nuage de ces 10 points, ainsi que la droite des
moindres carrs.
2. En dduire que lon peut ajuster la distribution de X par une loi de Pareto de
paramtres et x0 quon valuera laide des rsultats prcdents.
Exercice 7.14
Une socit de fabrication de boissons dcide de lancer une nouvelle boisson faible
teneur en sucre. Les tudes effectues montrent que la teneur X dune bouteille dun
litre de cette boisson suit une loi normale de moyenne 70 g et dcart-type 25 g.
1. Calculez la probabilit que la teneur en sucre dune bouteille dun litre diffre de
la teneur moyenne dau plus 10 g.
2. On choisit au hasard 25 bouteilles. Soient X1, X2, ... , X25 les variables alatoires
associes. On les suppose indpendantes et identiquement distribues X.
25
25
1
Que reprsente la variable alatoire X = -----
- X i ? Donnez sa loi (justifier).
i=1
Calculez la probabilit que la teneur moyenne en sucre des 25 bouteilles diffre
de la moyenne m = 70 g dau plus 10 g.
3. La socit dcide de modifier lgrement la fois la composition et le procd de
fabrication. La variable X suit maintenant une loi normale de moyenne m et
dcart-type avec m et inconnus. Les essais conduisent aux observations
suivantes :
Teneur xi 40 50 60 70 80 90 100
Dunod. La photocopie non autorise est un dlit.
Exercice 7.15
On donne la srie statistique ordonne des niveaux de vente d'une revue hebdoma-
daire dans 100 points de distribution pour une semaine donne :
32 40 53 54 59 65 66 72 75 80
105 105 105 106 107 107 108 110 111 111
112 113 113 114 114 115 116 119 119 122
122 122 123 124 124 124 124 126 127 127
127 127 127 129 129 130 130 130 130 130
131 132 132 135 135 138 138 140 141 141
142 143 143 143 144 146 147 150 152 152
153 156 156 158 158 158 158 158 159 160
160 162 166 166 168 170 176 192 195 196
Rponses aux
questionnaires
Testez-vous
Chapitre 1
1. Bonnes rponses : b) et c)
Trois quartiles sparent lintervalle de variation [min( X), max( X)] en quatre intervalles
contenant chacun le quart de leffectif, donc 75 % des observations sont suprieures au
1er quartile.
2. Bonnes rponses : a), b) et d)
La bote de distribution contient 50 % des observations et la mdiane, gale la moyenne,
est le milieu de lintervalle interquartile.
3. Bonnes rponses : c) et d)
On ne peut utiliser dans ce cas que des caractristiques indpendantes des units.
4. Bonnes rponses : a) et b)
La mdiane de la srie des carts absolus la moyenne est une mesure de la dispersion ;
les quartiles Q1 et Q3 sont des indicateurs de position, mais non de tendance centrale.
Dunod. La photocopie non autorise est un dlit.
5. Bonnes rponses : c) et d)
Pour calculer la note moyenne et lcart-type des deux classes runies, il faut utiliser des
formules avec des pondrations ( III.B.1 pour la proprit 4 de la moyenne et III.C.4
pour la proprit 4 de la variance).
Lcart absolu moyen la mdiane est le plus petit cart absolu moyen ( III.C.3), dautre
part, lcart-type est toujours suprieur lcart absolu moyen la moyenne arithmtique
( III.C.4), donc, lcart absolu moyen des notes la mdiane est au plus gal 4 pour
la classe 1.
6. Bonnes rponses : a) et d)
7. Bonne rponse : c)
Se rfrer la moyenne gomtrique ( III.B.2).
8. Bonnes rponses : b) et c)
9. Bonnes rponses : a) et c)
Chapitre 2
1. Bonne rponse : b)
Lindice des prix actuellement calcul par lINSEE est un indice-chane de Laspeyres.
2. Bonne rponse : c)
Un indice de Paasche est souvent un indice des quantits, mais il peut aussi tre un indice
des prix ( II.A).
Lindice de Paasche est souvent infrieur lindice de Laspeyres, mais les pondrations
de ces deux indices ntant pas les mmes, il est possible que cette proprit ne soit pas
vrifie ( II.C).
5. Bonnes rponses : c) et d)
Le taux de croissance pour priode 1999-2001 est gal :
1,029 1,038 1,021 1 9 %
Chapitre 3
1. Bonnes rponses : a) et d)
3. Bonnes rponses : a) et b)
Le nuage de points est form de 2 points, et par 2 points, on peut faire passer une droite,
la reprsentation graphique nous montre que la droite est de pente positive, on a donc
r=+1
4. Bonne rponse : c)
Cette question a pour objectif de sensibiliser lattention qui doit tre ncessairement
porte la signification des variables ( II.E).
5. Bonnes rponses : b), c) et d)
On a un tableau de profils en colonne.
6. Bonnes rponses : a), b) et d)
La moyenne x est une moyenne pondre des moyennes conditionnelles ( I.C) ; en ce qui
concerne les moyennes conditionnelles, elles sobtiennent partir du tableau de con tin-
gence, ou partir du tableau des profils en lignes pour les moyennes conditionnelles de
Y X fix et du tableau des profils en colonnes pour les moyennes conditionnelles de X
Y fix.
7. Bonnes rponses : a), b) et d)
Si a = 20 et b = 5, il y a indpendance puisque les profils en colonnes sont identiques
(r = 0).
Si a = 0 et b = 0, alors on a seulement deux observations diffrentes sur deux variables
et dans ce cas, r = 1 puisque le nuage de points est rduit deux points (ici r = 1).
Si a = 0 et b = 10, il ny a ni indpendance, ni liaison linaire, donc r 1 et r 0 (en
fait r = 0,5).
Si a = 10 et b = 10, il y a indpendance puisque les profils en lignes sont identiques.
8. Bonne rponse : d)
Lorsquon connat les marges, il suffit de connatre ( k 1) ( l 1) effectifs du tableau
de contingencedu fait des liaisons entre les effectifs marginaux et les effectifs du tableau ;
le nombre ( k 1) ( l 1) est appele nombre de degrs de libert .
9. Bonnes rponses : a), c) et d)
26 % des malades ont pris un somnifre et ont bien dormi.
10. Bonnes rponses : a) et d)
Dunod. La photocopie non autorise est un dlit.
Chapitre 4
1. Bonnes rponses : a), c) et d)
Il y a ( T p + 1) moyennes mobiles centres de longueur impaire p et ( T p ) moyennes
mobiles centres de longueur paire p.
2. Bonne rponse : b) et d)
Si le facteur saisonnier est proportionnel la tendance, on choisit le modle multiplicatif,
et dans ce cas, la courbe joignant les maxima est peu prs parallle celle qui joint les
minima sur un graphique ordonne logarithmique ( II).
Des maxima distants de 5 dates peuvent indiquer une composante saisonnire de priode
5, mais cette seule information nest pas suffisante pour choisir le modle adapt.
3. Bonnes rponses : a) et b)
La moyenne mobile centre de longueur p rend constante les sries priodiques de
priode p et de priode sous-multiple de p.
La moyenne mobile centre de longueur 2 p liminent la composante saisonnire de
priode p puisque la somme des coefficients saisonniers sur une priode est nulle.
La somme de p termes successifs divise par p donne une valuation de la tendance pour
la date correspondant celle du terme du milieu des p termes.
On peut calculer (T p) moyennes mobiles centres de longueur p si p est pair, et (T p + 1)
moyennes mobiles centres de longueur p si p est impair, on a donc toujours au moins ( T p)
moyennes mobiles centres.
4. Bonnes rponses : c) et d)
Le lissage exponentiel simple ne peut senvisager que pour une chronique sans saisonna-
lit et sans volution tendancielle ; la prvision tient dautant plus compte des valeurs
rcentes de la srie que la constante de lissage est leve.
Chapitre 5
1. Bonnes rponses : a) et d)
2. Bonnes rponses : a) et b)
3. Bonne rponse : c)
4. Bonnes rponses : b) et d)
Car P(AB) = P(A) + P(B) P(AB) et A et B tant indpendants, P(AB) = P(A) P(B)
5. Bonnes rponses : c) et d)
Soit A lvnement le livre est touch par au moins un des chasseurs , alors
P(A) = 1 P ( A )
6. Bonnes rponses : c) et d)
8. Bonnes rponses : b) et c)
9. Bonnes rponses : a) et d)
Seule la loi de probabilit dune variable alatoire continue est dfinie par une fonction
de densit.
Chapitres 6 et 7
1. Bonnes rponses : a), c) et d)
2. Bonnes rponses : a) et b)
4. Bonnes rponses : a) et b)
5. Bonnes rponses : a) et b)
6. Bonnes rponses : b), c) et d)
La loi (60 ; 0,05) peut tre approche par une loi (3)
P(X 3) = 1 P(X 2) = 0,5768
si n = 4 et p = 0,01 : P(X = 0) = (0,99) 4 0,96
si n = 50 et p = 0,08 : P(3 < X 10) = P(X 10) P(X 3) = 0,573
7. Bonne rponse : a)
8. Bonne rponse : c)
9. Bonnes rponses : b), c) et d)
P(X = 2) = 0, car pour une variable alatoire continue, la probabilit dun point est nulle.
10. Bonnes rponses : a) et b)
11. Bonnes rponses : a), b) et c)
Les v.a. X et Y tant indpendantes, leur coeficient de corrlation linaire est nul.
12. Bonnes rponses : b), c), et d)
13. Bonnes rponses : a), c) et d)
On peut approcher la loi de Y par une loi de Gauss, X et Y tant indpendantes, la v.a.
(X + Y) suit approximativement une loi de Gauss puisque la somme de deux variables
alatoires gaussiennes indpendantes est gaussienne .
14. Bonnes rponses : a), b) et c)
E(X2) = var(X) + (E(X))2 = 10
15. Bonne rponse : a)
Pour une v.a. exponentielle, lesprance est gale lcart-type et ses valeurs possibles
sont suprieures , donc 0.
16. Bonne rponse : b)
Une somme de variables alatoires binomiales indpendantes suit une loi binomiale si
tous les paramtres pi sont gaux.
17. Bonnes rponses : a), b), c) et d)
18. Bonnes rponses : a) et b)
La demande du produit pour 25 jours de fonctionnement suit une loi (1 000 ; 0,05), et on
est dans les conditions dapproximation par la loi normale et aussi par la loi de Poisson.
1
Corrigs
des exercices*
Chapitre 1
Exercice 1.1
1. Population : forme des 5 sous-populations (non disjointes) de lensemble des familles
en France en 1968, 1975, 1982, 1990 et 1999 .
Unit statistique : une famille parmi cet ensemble de familles .
Caractre tudi : nombre denfants de 0 18 ans en milliers, caractre quantitatif discret.
2. Le nombre total de familles, le nombre de familles sans enfant, le nombre de familles
avec 1 enfant, le nombre de familles avec 2 enfants augmentent au cours de la priode
1968-1999, tandis que le nombre de familles de 4 enfants et le nombre de familles de
5 enfants ou plus diminuent. Le nombre total denfants augmente de 1968 1975, et
diminue ensuite.
3. Pour tracer les diagrammes en btons, il est prfrable dutiliser les distributions de
frquences (en %).
1968 1975 1982 1990 1999
Familles avec enfants 6 760 7 340 7 610 7 491 7 418
1 enfant 40,3 42,4 43,4 43,8 44,7
2 enfants 30,4 32,3 35,9 36,8 37,4
3 enfants 15,7 14,8 14,2 14,2 13,6
Dunod. La photocopie non autorise est un dlit.
Exercice 1.2
3.
Niveau moyen 3,6 3,7 3,7 4,1 3,6 3,6 3,7 3,7
Exercice 1.3
1. x G = 9,75 sG = 3,945 x P = 11,1 sP = 3,727
25 10
MeG = 10 MeP = 10 + 2 ------------------ = 11,2
25
Pour une distribution symtrique, la moyenne est gale la mdiane.
Exercice 1.4
1. Population : le personnel ouvrier dun secteur industriel.
Unit statistique : un homme ou une femme de ce personnel.
Caractre tudi : le salaire annuel net en euros, variable statistique continue.
2.
a) On peut en fait proposer 4 indicateurs de tendance centrale :
x H = 15 400 Me = 14 800
(Q1 + Q3)/2 = 15 205 (D1 + D9)/2 = 15 585
3.
11 82 + 13 34 + 15 12 + 18 n4 = 12 (128 + n4)
1 524 1 536
n4 = 2 N = 130
4. sF 1 509 sF / x F 0,125
180 x H + 130 x F
- 13 974
5. x = ---------------------------------------------
310
Exercice 1.5
Appelons x le cot total de la main duvre :
cot total x 1
cot horaire moyen = --------------------------------------------------- - = --------------------- 8, 51
- = ---------------------------
nombre total dheures 0,7x 0,3x 0,7 0,3
---------- + ---------- ------- + -------
8 10 8 10
moyenne harmonique pondre
Exercice 1.6
1.
10 2 4 4
B1 : ( 1,12 ) ( 1,08 ) ( 1,06 ) = 1,0798 1,08
10 3 3 4 10
B2 : ( 1,1 ) ( 1,08 ) ( 1,07 ) = 2,2 = 1,0819 1,082
2. La banque B1 est la moins performante. Soit x son taux durant la 3 e priode. On peut
calculer x pour que le taux moyen de croissance gale celui de la banque B2 :
3.1.
n = 30 P(Me) = 15,5 Me = 23 197 millions d
P(Q) = 8 Q1 = 16 667 millions d et Q3 = 37 200 millions d
11,00 1 . 00111222234
4,00 1 . 6789
2,00 2 . 02
3,00 Extremes (> = 313854)
Stem width : 100 000
Each leaf : 1 case(s)
Exercice 1.8
1. Population : ensemble des mnages en France en 1999 .
Unit statistique : un mnage en France en 1999 .
Caractre tudi : le revenu annuel en euros, hors revenus du patrimoine quantitatif
continu.
10
10
1
2. x = -----
- x 25 255
i
i=1
3. Les moyennes ntant pas gales aux centres des classes, lhypothse dquirparti-
tion nest pas justifie.
4. Indicateurs de tendance centrale : x 25 255 , Me = D5 = 20 631, (D9 + D1)/2 = 26 973
Indicateur de dispersion : D9 D1 = 39 338
Indicateur de dispersion relative : ( D9 D1)D5 1,9
5. Distribution asymtrique tale vers les valeurs leves, car la mdiane est infrieure
la moyenne (et on a aussi Me < ( D9 + D1)/2). Les distributions de revenus (ou de
salaires) sont toujours asymtriques et tales vers les valeurs leves.
6. Indicateur de disparit des revenus : D9/D1 = 6,4
les 10 % les mieux lotis peroivent plus de 6 fois plus que les 10 % les moins bien
lotis.
7. 16 % des revenus sont perus par les 4 diximes des mnages aux revenus les plus
faibles.
8. Courbe de concentration ou courbe de Lorenz
Fi (%) 10 20 30 40 50 60 70 80 90 100
Ri (%) 12 15 10 16 23 32 43 56 72 100
100
90
80
70
60
50
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100
Lindice de Gini mesure ici la concentration des revenus des mnages. Il est gal au
double de laire comprise entre la courbe de concentration et la bissectrice.
Cet indice est compris entre 0 et 1.
La valeur minimum 0 correspond au cas o la courbe est confondue avec la bissec-
trice et au cas de lquirpartition : tous les individus ont une part gale du revenu.
La courbe sloigne de la bissectrice lorsque lingalit saccrot.
A contrario, si un seul mnage dtient la totalit du revenu, tous les autres ayant un
revenu nul, lindice de Gini vaut 1. Dans cette situation, la courbe est confondue avec
les cts du carr : axe des abscisses et segment vertical reliant le point {100 ; 0} au
point {100 ; 100}.
Exercice 1.9
2. Soit c1, c2 et c3 les taux annuels moyens de variation au cours de chacune des
3 priodes :
(1 + c1)9 = 1------------
017
- = (0,80522) 9 c1 2,4 %
1 263
664 = (0,65290) 12 c 3,5 %
(1 + c2)12 = ------------ - 2
1 017
(1 + c3)3 = 545
--------- = (0,96127) 5 c3 3,9 %
664
Le taux annuel moyen de variation c de 1979 2005 est une moyenne gomtrique
26 9 12 5
pondre des 3 taux c1, c2 et c3 : 1 + c = ( 1 + c1 ) ( 1 + c2 ) ( 1 + c3 )
545
1+ c= 26 ------------- 0,96819 c 3,2 %
1 263
3.
Dunod. La photocopie non autorise est un dlit.
Le nombre des exploitations agricoles diminue, la taille moyenne des SAU augmente,
ainsi que la taille moyenne des exploitations de 50 ha ou plus.
4. Le centre de la dernire classe tant par hypothse la SAU moyenne des exploitations
de 200 ha ou plus est gale en 2005 280 (= 4 762/17). On value ainsi la SAU maxi-
mum approximativement 360 ha.
Taille de SAU [0, 5[ [5, 20[ [20, 50[ [50, 100[ [100, 200[ [200, 360[
fi 24,2 19,1 20,0 20,7 12,8 3,1
fi /ai 4,844 1,272 0,667 0,415 0,128 0,019
fi /ai
Chapitre 2
2
Exercice 2.1
Exercice 2.3
Soit c1 le taux trimestriel moyen de croissance entre le 31 dcembre 1998 et le 30 sep-
tembre 2009 :
(1 + c1)43 = 1,4145 (1,0081)43 taux trimestriel moyen de croissance = 0,81 %
Soit c2 le taux annuel moyen de croissance entre le 31 dcembre 1998 et le 30 septembre
2008 :
(1 + c2)10 = 1,3908 = (1,0335) 10 taux annuel moyen de croissance = 3,35 %
Exercice 2.4
Exercice 2.5
2.
Anne Indice 1970 = 100 Anne Indice 1970 = 100 Anne Indice 1970 = 100
1970 100
1971 115,7 1981 545,1 1991 1 346,2
1972 131,9 1982 633,6 1992 1 439,4
1973 151,4 1983 721,4 1993 1 519,2
1974 178,4 1984 800,7 1994 1 568,5
1975 222,5 1985 878,4 1995 1 636,2
1976 258,9 1986 950,2 1996 1 682,2
1977 289,7 1987 997,4 1997 1 710,1
1978 347,2 1988 1 084,7 1998 1 735,8
1979 401,6 1989 1 176,1 1999 1 803,0
1980 465,3 1990 1 261,3 2000 1 902,4
3. et 4.
Indice de la consommation mdicale totale Indice de la consommation mdicale totale
base 100 en 1970 base 100 en 1970
Entre 1982 et 2000, lvolution nest plus exponentielle, mais linaire et on peut cal-
culer laugmentation annuelle moyenne de lindice de volume :
1 CM 2000 CM1982
a' = 100 CM1970
18 5,584 I82 / 70
1 Indice CM 00 / 70 Indice CM 82 / 70
=
18 5,584 I82 / 70
1 1902, 4 633, 6
=
18 5, 584 3,187
(340, 7 198,8 ) 18 7, 9 %
6. En dflatant, on est pass, sur la priode 1970-1982, dun taux annuel moyen de crois-
sance de 16,6 % pour lindice de valeur un taux annuel moyen de croissance de
5,9 % pour lindice de volume, et sur la priode 1982-2000, dune augmentation
annuelle moyenne de 70,5 % pour lindice de valeur une augmentation annuelle
moyenne de 7,9 % pour lindice de volume.
Chapitre 3
Exercice 3.1
2. Distribution marginale de Y
3. La distribution du kilomtrage parcouru par les possesseurs dune voiture dune puis-
sance fiscale dau plus 6 CV est une distribution conditionnelle :
Exercice 3.2
1. Population : les 100 salaries femmes et les 140 salaris homme dune entreprise.
Unit statistique : un homme ou une femme parmi les 240 salaris.
Caractres tudis : le salaire mensuel en euros, variable statistique continue,
Caractres tudis : lanciennet exprime en annes, variable statistique continue.
2. Parmi les 50 femmes ayant moins de 8 ans danciennet, 44 gagnent moins de 2200 :
44 100 / 50 = 88 %
5. Graphe des frquences cumules : ligne brise qui joint les points ( yi , Fi)
3
yi 0 4 8 12 20 28
Fi (%) 0 20 50 70 90 100
Dunod. La photocopie non autorise est un dlit.
6.
s 6,7
7. a = r ----Y- = 0,45 --------- 0,0055 b = y a x = 9,8 0,0055 2000 1,2
s1 548
Point dintersection : ( x , y ) = (2 000 ; 9,8)
Exercice 3.3
1. Indice PIB en 1991 = Indice 1990 (1 + variation 1991/100) = 102,6 (1 + 1/100) = 103,6
2. et 3.
r = COEFFICIENT.CORRELATION(D2:D22;E2:E22)
a = INDEX(DROITEREG(E2:E22;D2:D22);1)
b = INDEX(DROITEREG(E2:E22;D2:D22);2)
La part de variation de Y explique par la relation linaire est gale r2, soit 98 %.
X = variation en volume du PIB
Y = variation en volume de la consommation prive
r2(X,Y) 0,563 = (0,75) 2
Pour obtenir et tracer avec Excel la droite des moindres carrs qui ajuste le nuage de
3
points :
Onglet Graphique , Ajouter une courbe de tendance , type Linaire , option
Afficher lquation sur le graphique , et Afficher le coefficient de dtermination
(R2) sur le graphique
4. Les variables indice de volume du PIB et indice de volume de la consommation prive
sont lies linairement au temps :
r2 (indice PIB, temps) 0,974
r (indice Consommation, temps) 0,964
2
La liaison linaire entre ces deux indices est due leur liaison linaire avec une mme
3e variable qui est le temps.
Ltude des variations relatives permet dliminer la tendance. On dit alors quon a
stationnaris les sries.
Exercice 3.4
1. 810 / 1 000 = 81 %
2. 440 / 810 = 54,3 %
Dunod. La photocopie non autorise est un dlit.
3.
Pas du tout Plutt pas Plutt Trs
Total
satisfait satisfait satisfait satisfait
> 2 ans danciennet 10 50 245 195 500
2 ans danciennet 40 90 205 165 500
4.
500 810
5. n 12 = ---------------------- = 405
1 000
Exercice 3.5
1. r = 0,928 a = 0,018 b = 3,513 (utilisation dune calculatrice)
2. y = 0,018 x + 3,513
Les deux droites des moindres carrs ont des pentes de mme signe.
3. Recette globale = 1 000 x y 18 x2 + 3 513 x
R R
------ = 18 2x + 3 513 ------ = 0 pour xc = 96,3 tonnes
x x
La recette globale est une fonction croissante de x entre [0 , xc] et dcroissante pour
x > xc
la valeur critique que les producteurs ont intrt ne pas dpasser est la valeur :
xc = 96,3 tonnes
Exercice 3.6
1. Population : les n mnages (hors tudiants) interrogs pour lenqute logement 1996
de lINSEE.
Unit statistique : un mnage parmi les n mnages interrogs.
Caractres : niveau de vie en F/uc/mois (quantitatif continu), type socio-conomique
(qualitatif).
2. Profils en ligne et profils en colonne, ou distributions conditionnelles selon le niveau
de vie et selon le type socio-conomique.
Profils en colonne
Niveau de vie
Au moins
(en F/uc/mois) Infrieur du 1er dcile du 3e quartile
gal au
au 1er dcile au 3e quartile au 9e dcile Ensemble
9e dcile
< 3 700 [3 700 ; 9 933[ [9 933 ; 13 900[
13 900
Type socio-conomique
Communes agricoles 22 13 7 5 12
Communes 41 41 31 22 37
et quartiers ouvriers
Communes et quartiers des 28 34 39 32 34
classes moyennes tertiaires
Communes et quartiers 3 5 11 13 7
techniques trs qualifis
Quartiers hupps 6 6 12 28 9
Ensemble 100 100 100 100 100
Profils en ligne
Niveau de vie
Au moins
(en F/uc/mois) Infrieur du 1er dcile du 3e quartile
gal
au 1er dcile au 3e quartile au 9e dcile Ensemble
au 9e dcile
< 3 700 [3 700 ; 9 933[ [9 933 ; 13 900[
13 900
Type socio-conomique
Communes agricoles 18 70 8 4 100
Communes et quartiers 11 71 12 6 100
ouvriers
Communes et quartiers des 8 65 17 9 100
classes moyennes tertiaires
Communes et quartiers 5 51 25 19 100
techniques trs qualifis
Quartiers hupps
Ensemble
6
10
44
65
20
15
30
10
100
100
3
3. Quartiers hupps : Me = 9 933 F/uc/mois
Niveau de vie
< 3 700 [3 700 ; 9 933[ [9 933 ; 13 900[ 13 900 Total
(F/uc/mois)
Frquence (%) 5,56 47,06 22,19 25,19 100
Exercice 3.7
1.
n i
2
X ni yi ( y ij y i )
j=1
y = 11,2
[5 ; 7[ 12 7,17 27,67 Scintra = 656,32
[7 ; 9[ 28 9,00 60,00
Scinter = 782,6
[9 ; 11[ 39 10,00 120,00
SCtot = 1438,92
[11 ; 13[ 54 11,37 206,60
[13 ; 15[ 41 12,58 161,95
[15 ; 17[ 22 14,36 69,10
[17 ; 19] 4 16,50 11,00
782,6
2X/Y = --------------------- = 0,5843
1 438,92
n j
2
Y nj xj ( x ji x j )
i=1
x = 11,65
[5 ; 7[ 10 6,80 17,60 Scintra = 756,24
[7 ; 9[ 32 9,30 108,90
Scinter = 921,24
[9 ; 11[ 59 10,80 312,95
SCtot = 1677,48
[11 ; 13[ 46 12,26 156,87
[13 ; 15[ 36 13,90 127,55
[15 ; 17[ 14 15,14 29,70
[17 ; 19] 3 17,33 2,67
921,24
X/Y
2 = --------------------- = 0,549
1 677,48
2. La courbe de rgression de Y en x est une ligne brise qui joint les points ( xi, ),y i xi
tant le centre de la ie classe de X.
3. Les variables X et Y tant quantitatives, on peut mesurer leur liaison laide du coef-
ficient de corrlation linaire : r2 = 0,542 = (0,736) 2
On retrouve : 0 r2 min(X/Y2 ; 2X/Y ) max(2X/YX; 2X/Y ) 1
Exercice 3.8
1.
Eau minrale XC YC
Arcens 2 3
Arvie 1 4
Badoit 2 2
Beckerich 1 1
Chteauneuf 3 4
Eau de Perrier 1 1
Faustine 3 2
La Salvetat 1 1
Perrier 1 1
Puits St-Georges 1 3
Pyrnes 1 1
Quzac
San Pellegrino
St-Diry
St-Jean
3
1
1
2
2
1
3
2
4
St-Pierre 2 3
St-Yorre 3 4
Vernet 2 2
Vernire 1 2
Vichy-Clestins 3 4
Wattwiller 2 1
2. Distribution conjointe
YC
1 2 3 4
XC
Dunod. La photocopie non autorise est un dlit.
1 6 1 2 1 10
2 1 3 2 0 6
3 0 2 0 3 5
Total 7 6 4 4 21
YC
1 2 3 4
XC
1 60 10 20 10 100
3 10 40 10 60 100
Profil
33,3 28,6 19,1 19 100
moyen
3. Les profils en ligne ntant pas identiques, les deux variables ne sont pas indpen-
dantes.
4. Distribution conditionnelle de XC sachant {Y > 300 mg/l} :
XC Effectif
C1X 3
C2X 2
C3X 3
Exercice 3.9
1. Taux trimestriel moyen : (1 + c)11 = 339/117 2,90 = (1,10) 11 c 10 %
2.
2.1. = 16,52 b = 98,50
2.2. r = 0,90
Part de variation de Y non explique par le modle = 1 r2 = 1 0,81 = 19 %
3.
t2 Nombre de contrats souscrits
111 117
114 178
119 149
116 189
125 145
136 173
149 170
164 223
181 223
100 281
121 285
144 339
Chapitre 4
Exercice 4.1
1 et 2.
4
La moyenne mobile lisse la srie chronologique, et permet dvaluer la tendance.
Exercice 4.2
1.
Dunod. La photocopie non autorise est un dlit.
Erreur
t xt M6 (t) xt M6 (t) st s*t CVS Tendance Prvision
de prvision
22
Prvision
20
16
14 M 6 (t )
12
Jv-Fv 2002 Jv-Fv 2003 Jv-Fv 2004 Jv-Fv 2005 Jv-Fv 2006
4
y t = 0,16 t + 13,82
x 25 = y 25 1,1 = 16,7 x 26 = y 26 0,2 = 17,8 x 27 = y 27 0,1 = 18
Les erreurs de prvision tant toujours positives, lerreur absolue moyenne est
gale lerreur moyenne de prvision : = (0,5 + 0,7 + 0,6)/3 = 0,6
Pour tracer avec Excel la droite des moindres carrs qui ajuste la srie CVS : onglet
Graphique , Ajouter une courbe de tendance , type Linaire . On peut utiliser
ensuite longlet Options pour Afficher l'quation sur le graphique et pour
Afficher le coefficient de dtermination (R 2) sur le graphique .
Exercice 4.4
1. Sur la reprsentation graphique, on remarque une composante saisonnire de priode 4.
2. 6.
Dunod. La photocopie non autorise est un dlit.
Exercice 4.5
1.
2. Une constante de lissage leve jusquau 6 e mois inclus permet un taux de rponse
plus rapide au changement de niveau du dbut de la chronique.
3. Erreur moyenne = 0,56
Erreur absolue moyenne = 1,48
Erreur quadratique moyenne = 3,09
4. Sous lhypothse dune srie sans tendance, la demande est suppose constante. Les
prvisions de la demande pour les mois 16, 17 et 18 sont gales 41,4 units.
Exercice 4.6
1. Cette chronique a une composante saisonnire de priode 4 et une tendance approxi-
mativement constante sur la priode 2002-2005. Les deux schmas de composition
peuvent tre envisags. Nous choisissons le schma additif.
2. Pour une chronique avec une composante saisonnire de priode 4, la moyenne
mobile de longueur 4 limine la saisonnalit et permet dvaluer la tendance.
140
130
5
M4 (t)
120
110
100
Dunod. La photocopie non autorise est un dlit.
90
80
1er trimestre 2003 1er trimestre 2005
3. 5.
La srie CVS pouvant tre considre sans tendance, on peut utiliser le lissage expo-
nentiel simple.
Aprs avoir resaisonnalis les prvisions obtenues avec le LES, on obtient les prvi-
sions de lindice trimestriel pour les deux premiers trimestres 2006 quon peut com-
parer aux observations.
On obtient :
Erreur moyenne de prvision = Erreur absolue moyenne de prvision = 1,55
140
130
CVS
120
110
100
LES
90
Prvision
80
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Chapitre 5
Exercice 5.1
a) 75/120 = 0,625
b) 50/120 0,417
c) 45/120 = 0,375
d) 100/120 0,833
Exercice 5.2
Exercice 5.3
2. a) 0,052 = 0,0025
P(A) = P( A B )) 0,371
5
b) 0,351 0,05 0,018
Exercice 5.4
A et B non indpendants
n = 3 : 8 vnements lmentaires
{P,P,P}, {P,P,F}, {P,F,P}, {P,F,F}, {F,P,P}, {F,P,F}, {F,F,P}, {F,F,F}
P(A) = 1/2 P(B) = 3/4 P( A B ) = 3/8 = P(A) P(B)
A et B indpendants
et si on continue, on peut montrer que A et B ne sont indpendants que pour n = 3
Exercice 5.5
5
nombre de cas favorables 3 10
P(trois filles et deux garons) = ------------------------------------------------------------- = -------- = ------ = 0,3125
nombre de cas possibles 2
5 32
1. E(X) = 5/3 = 1,667 X = 0,943 (utiliser les fonctions statistiques dune calculatrice)
E((X)) = 600 E(X) 800 = 200 (X) = 600 X = 565,68
Signification de lesprance du profit : sur un trs grand nombre de jours, la moyenne
du profit sera voisine de 200 .
valeur de X 0 1 2 3
valeur de 800 200 400 1 000
Probabilit 1/6 1/6 1/2 1/6
F(z)
1
0,8
0,6
0,4
0,2
0 z
1 000 800 600 400 200 0 200 400 600 800 1 000 1 200 1 400
Exercice 5.7
Exercice 5.8
1. E(X) = 1,1 var(X) = 0,69 (utiliser les fonctions statistiques dune calculatrice)
12
2. Y = Xi valeurs possibles de Y : {0, 1, 2, , 24}
i=1
12
E(Y ) = E ( X i ) = 12 1,1 = 13,2
i=1
12
var ( Y ) = var ( X i ) = 12 0,69 = 8,28 car les v.a. Xi sont indpendantes
i=1
12 12
12 7
P(Y = 0) = P { X i = 0 } = P( X i = 0) = 0,3 = 5,3 10
i=1 i=1
car les Xi sont indpendantes
3.1.
Z
0 1 2 3 4
X
5
0 1 0 0 0 0
1 0,1 0,6 0,3 0 0
2 0,12 2 0,6 0,1 2 0,3 0,1 + 0,62 2 0,6 0,3 0,32
}
}
}
}
}
0,01 0,12 0,42 0,36 0,09
3.2.
P(Z = 0) = P({(Z = 0) (X = 0)} {(Z = 0) (X = 1)} {(Z = 0) (X = 2)})
= 1 0,3 + 0,1 0,3 + 0,01 0,4 = 0,334
P(Z = 1) = 0,6 0,3 + 0,12 0,4 = 0,228
Dunod. La photocopie non autorise est un dlit.
Exercice 5.9
Appelons D lvnement :
{une pellicule tire au hasard dans la production est dfectueuse}
P(D) = P({D et machine A} {D et machine B} {D et machine C})
Exercice 5.10
1.
Y
u 0 1 Loi de Y
X
0 1/4 a 1/8 15/40 + a
1 1/5 b 1/10 12/40 + b
Loi de X 18/40 a+b 9/40 27/40 + a + b
13 18 15
a + b = ------ ------ ------ + a = 1---
10 15 13
a = ------ ------ = ------
13
b = ------ a
40 40 40 4 18 40 72 90
2.
X 0 1
15
------ + a = 40
------ = 5--- 12 40 4
------ + b = ------ = ---
P
40 72 9 40 90 9
17 18 9 u 1
E(X) = ------ E(Y) = ------ u + ------ E(X Y) = --- + ------
40 40 40 5 10
Si = 0, alors cov( X, Y) = 0 :
u 1 17 18 9
E(X Y) = --- + ------ = E(X) E(Y) = ------ ------ u + -----
-
5 10 40 40 40
17 18 17 9
2u ---------------- u = ------------- 1 u = 0,5
160 160
Exercice 5.11
1.
Y
0 1 Loi de X
X
0 p 1/2 p 1/2
1 1/3 p 1/6 + p 1/2
Loi de Y 1/3 2/3 1
{
0p1
p 1/2 0 p 1/3
p 1/3
p 5/6
Chapitre 6
Exercice 6.1
Xi =
{
1 si ie individu gaucher p = 0,1
6
Dunod. La photocopie non autorise est un dlit.
0 sinon q = 0,9
Soit Y, le nombre de gauchers parmi les 10 individus :
Y est une somme de 10 v.a. indpendantes de Bernoulli de mme paramtre p = 0,1
10
Y= X i (10 ; 0,1)
i=1
On utilise les tables de la loi Binomiale pour calculer les probabilits :
P(Y 1) = 1 P(Y = 0) = 1 0,3486 = 0,6514 P(Y 3) = 0,9872
2. Pour que chacun des 10 membres du personnel trouve une paire de ciseaux sa con-
venance, il faut que le nombre de gauchers soit au plus gal 3 et au moins gal 1 :
P(1 Y 3) = P(Y 3) P(Y < 1) = P(Y 3) P(Y = 0) = 0,9872 0,3486 = 0,6386
3.
Y 0 1 2 3 4 5 6 7 8 9 10
Z 9 10 10 10 9 8 7 6 5 4 3
Z 7 8 9 10
P 0,0001 0,0015 0,3599 0,6385
Exercice 6.2
Xi =
{
1 si ie assur a un accident de ce type
0 sinon q = 1 p
p = 1/5 000
Exercice 6.3
Xi =
{
1 si ime machine disponible
0 sinon
p = 0,9
Valeurs de Y 0 1 2
Probabilit 0,01 0,18 0,81
2.1.
Z
0 1 2 3
Y
Valeurs de N 0 0 0 0 0
1 0 1 1 1
2 0 1 2 2
2.2.
Valeurs de N 0 1 2
Probabilit 0,109 0,324 0,567
P(N = 2) = P({Y = 2 Z = 2} {Y = 2 Z = 3} )
= P({Y = 2 Z = 2} ) + P({Y = 2 Z = 3 )
= P(Y = 2) ( P(Z = 2) + P(Z = 3)) = 0,81 0,7 = 0,567
P'(N = 1) = 0,18 (0,2 + 0,4 + 0,3) + 0,81 0,2 = 0,324
P'(N = 0) = 1 0,324 0,567 = 0, 109
E(N) = 1,458 Marge brute moyenne = 29,16
Xi =
{1 si ie machine en panne au cours de la 1 re anne p = 0,05
0 sinon
(i = 1, , 60)
Hypothse : les 60 v.a. de Bernoulli sont indpendantes
Y est une somme de 60 v.a. indpendantes de Bernoulli de mme paramtre p = 0,05
60
Y= X i (60 ; 0,05)
n > 50 et p < 0,1
(3)
i=1
i) On a en moyenne 3 pannes puisque E(Y) = 3. En cas de machines non garanties, le
cot moyen est donc gal : 3 200 = 600 .
Le discount tant de 1 200 , on choisit le discount.
ii) La remise est infrieure au cot de rparation si plus de 6 machines tombent en
panne :
P(Y > 6) = 1 P(Y 6) = 1 0,9665 = 0,0335 > 1 %
on choisit la garantie pour chaque machine.
Exercice 6.4
1. chaque essai, on peut associer une v.a. de Bernoulli de paramtre 0,95. Le nombre
dessais Y ncessaires pour se connecter 5 fois suit une loi de Pascal de paramtres
K = 5 et p = 0,95. Appliquons les rsultats du cours :
6
Dunod. La photocopie non autorise est un dlit.
E(Y) = K 5 K ( 1 p -) = 0,277
- = 5,26
---- = --------- var(Y) = -------------------------
p 0,95 p
2
2. Pour avoir {Y = 5}, il faut stre connect les 5 fois avec succs :
P(Y = 5) = (0,95)5 0,774
La v.a. Y peut prendre toutes les valeurs entires au moins gales 5 :
P(Y > 6) = 1 P(Y = 5) P(Y = 6) = 1 0,774 5 (0,95) 5 0,05 = 0,0325
Exercice 6.5
( 1 ) ( ( 1 ) ) k
= e --------------------------------
k!
Yt ((1 ) )
3. = 10 et = 0,2 Yt (8) P(Yt < 8) = 0,4530
P(3 < Yt 10) = P(Yt 10) P(Yt 3) = 0,8159 0,0424 = 0,7735
Exercice 6.6
Xi =
{
1 si vente ie minute p = 0,01
0 sinon q = 0,99
Soit Y, le nombre dunits vendues en 30 min.
Y est une somme de 30 v.a. indpendantes de Bernoulli de mme paramtre p = 0,01
30
Y= X i (30 ; 0,01) P(Y 3) = 1 P(Y 2) = 1 0,9967 = 0,0033
i=1
2. Le magasin est ouvert 7 h 30 par jour, donc 450 min par jour.
450
Z = nombre dunits vendues par jour = X i (450 ; 0,01) E(Z) = 4,5
i=1
1 000
2. Y = X i (1 000 ; 0,0025) (2,5)
i=1
n > 50 p < 0.1
P (3 < Y < 7) = P (Y 6) P (Y 3) = 0,9858 0,7576 = 0,2282
3. P (Y 8) = 0,9989 La capacit du service de maintenance doit au moins
gale 8 autobus pour que la probabilit que toutes les pannes soient traites dans la
journe, soit au moins gale 0,998.
4. P (Y > 6) = 1 P (Y 6) = 1 0,9858 = 0,0142
365
5. Z = X i (365 ; 0,0142) (5,183)
i=1
n > 50 p < 0.1
P (Z = 0) = e 5,183 0,0056
Exercice 6.9
1. X1 (3) X2 (2)
X1 et X2 indpendantes Y = X1 + X2 (5)
2. P (Y = 8) = 0,0653
Dunod. La photocopie non autorise est un dlit.
P ( { X 1 = 5 } { x2 = 3 } )
3. P ( X 1 = 5 Y = 8 ) = ---------------------------------------------------------------
-
P (Y = 8)
P ({ X1 = 5} { X2 = 3}) 0,1008 0,1804
= ------------------------------------------------------------- - = 0,2785
- = ------------------------------------
P (Y = 8) 0,0653
Exercice 6.10
1. x = 0,61
2. Variable discrte :
Var (X) = 0,6079
On a une variable discrte valeurs positives ou nulles avec une moyenne quasi-gale
la variance. On peut envisager une loi de Poisson (0,61). La comparaison des
diagrammes en btons des distributions observe et thorique montre une excellente
adquation.
120
100 Observ
Thorique
80
60
40
20
0
1 2 3 4 5 ou +
Chapitre 7
Exercice 7.1
1. X (45 ; 4)
P(X < 39) = FU((39 45)/4) = FU ( 1,5) = 1 FU (1,5) = 1 0,9332 = 0,0668
P(X 48) = 1 P(X < 48) = 1 FU (0,75) = 1 0,7734 = 0,2266
P(39 < X < 48) = P(X 48) P(X 39) = 0,7734 0,0668 = 0,7066
2. P( X m ) = P(m X m + ) = FU (1) FU( 1) = 2 FU (1) 1 = 0,6826
(en fait, rsultat de cours : II.C)
3. Puisque m = 45 et = 4, on a : {41 X 49} {m X m + }
P(41 X 49 X 39) = P({41 X 49} {X 39})/P(X 39)
= P(41 X 49)/P(X 39)
= 0,6826 / 0,9332 = 0,7315
Exercice 7.2
Exercice 7.3
Xi =
{ 1 si dure de vie > 2,5 millions de pages
0 sinon
Y est une somme de 60 v.a. indpendantes de Bernoulli de mme paramtre p
(les Xi sont considres indpendantes puisque les imprimantes ont t tires au
hasard dans une production suppose suffisamment importante pour avoir un taux de
sondage n/N infrieur 10 %)
60
Y= X i (60 ; 0,05)
n > 50, p < 0,1
(3)
i=1
Exercice 7.4
1. P(75 X 125) = FU (1) FU ( 1) = 0,6826
en fait : P(75 X 125) = P( X m )
P(X > 150) = 1 FU (2) = 1 0,9772 = 0,0228
en fait : P(X > 150) = P(X > 2)
n 1 100
2. P(X > n1) = 0,9 FU -------------------
25
n 2 100
n 1 100
- = 0,1 -------------------
25
n 2 100
- = 1,2816 n1 68
7
P(X < n2) = 0,4 FU -------------------
- = 0,4 -------------------
- = 0,2533 n2 94
25 25
Exercice 7.5
1. Soit Xi la variable alatoire de Bernoulli associe la ie bouteille grand cru achete :
Xi =
{
1 si ie bouteille vin courant p = 0,12
0 q = 0,88 i = 1, , 200
Le nombre Y de bouteilles de vin courant parmi les 200 bouteilles achetes est gal
200
la somme des 200 variables de Bernoulli Xi : Y = Xi
i=1
Les 200 bouteilles tant supposes tires au hasard dans lensemble des bouteilles
grand cru avec un taux de sondage infrieur 10 %, la v.a. Y suit une loi binomiale
B(200 ; 0,12).
E(Y) = np = 24 var(Y) = npq = 21,12
Puisque npq = 21,12 > 18, la loi de Y peut tre approche par la loi normale (24 ; 4,6).
2. Comme on approxime une loi discrte par la loi normale, on fait la correction de
continuit :
P(Y > 20) = 1 P(Y 20) = 1 FU {(20 + 0,5 24)/4,6} = 1 FU ( 0,76) = 0,7764
P ( 20 < Y < 30 ) ( Y < 30 ) P ( Y 20 )
P(Y < 30 Y > 20) = ------------------------------------- = P
--------------------------------------------------------
P ( Y > 20 ) 0,7764
FU ( 1,2 ) FU ( 0,76 )
- = 0,8849 0,2236
P(Y<30 Y>20) = --------------------------------------------------- --------------------------------------- = 0,8517
0,7764 0,7764
3. Les bouteilles de type courant, en nombre Y, occasionnent une perte unitaire de 1,5 .
Les bouteilles rellement grand cru , en nombre (200 Y), crent un bnfice uni-
taire de 2,50 (= 6 3,5). Donc, au total :
Bnfice = 2,5 (200 Y) 1,5Y = 500 4Y P(Bnfice > 0) = P(Y < 125) 1
Exercice 7.6
2. la ie naissance, on associe :
Xi =
{1 si ie naissance avec 1 G et 1 F
0 sinon
p = (1 )/2
300 325
P(Y > 300) = 1 P(Y 300) 1 FU ------------------------ = FU (1,69) 0,9545
14,8
P(310 Y 350) = P(Y 350) P(Y < 310)
= FU (1,69) FU ( 1,01) = 0,9545 (1 0,8438) = 0,7983
P(310 Y 350 Y > 300) = P({310 Y 350} {Y > 300})/P(Y > 300)
= 0,7983/0,9545 0,836
Exercice 7.7
1. Pour une variable statistique continue, on calcule une valeur approche de la mdiane
100 86
par interpolation linaire : Me [35 ; 40[ Me = 35 + 5 --------------------- = 36,75
40
2.
Dunod. La photocopie non autorise est un dlit.
La loi normale (37 ; 10) est adapte puisque le nuage des points (x *i , xi) est approxi-
mativement align le long de la premire bissectrice.
3.1. X n reprsente la dure moyenne des n interviews
n
X i (n m, n ) puisque les v.a. Xi sont iid X
i=1
(iid pour indpendantes et identiquement distribues )
10
X n 37 ; -------
n
3.2. P( X 6 35) = FU ( 0,2 6 ) = FU ( 0,49) = 1 0,6879 = 0,3121
Exercice 7.8
1.1. Soit Y le nombre dactions en hausse parmi les 10 actions
Xi =
{
1 si ie action en hausee p = 0,7
0 sinon q = 0,3
1.2. P(Y 8) = P(Z 2) = 0,3828 P(Y < 4) = P(Z > 6) = 1 0,9894 = 0,0106
100
2. Y = X i (100 ; 0,7)
npq = 21 > 18
(70 ; 21 )
i=1
80 0,5 70
P(Y 80) = 1 P(Y < 80) = 1 FU ------------------------------- = 1 FU (2,07) = 1 0,9808 = 0,192
21
40 0,5 70
P(Y < 40) = FU ------------------------------- = FU ( 6,65) 0
21
Exercice 7.9
y2
FY(y) = P(Y y) = P X ----------- =
{ 1 e (y 2)/
0
si y 2
si y < 2
Exercice 7.10
1. x = 28,1 sX = 9,375
50 39
2. Me = 25 + 5 ------------------ = 26,96
28
Dunod. La photocopie non autorise est un dlit.
35 28 18 28
3.1. P(18 < X < 35) = FU ------------------ FU ------------------
9,5 9,5
= FU (0,74) FU ( 1,05) = 0,7704 1 + 0,8531 = 62,35 %
partir de lchantillon : 2 0,13/5 + 0,22 + 0,28 + 0,15 = 70,2 %
A 28
7
3.2. P(X > A) = 0,75 P(X A) = 0,25 --------------- = u25 % = 0,675
9,5
A = 28 9,5 0,675 = 28 6,4125 21,6
25 17
A' = Q1 = 20 + 5 ------------------ = 21,82 A' est le premier quartile
22
4.
Exercice 7.11
0 si t < 0
t
t
1. FT(t) =
f ( u )du = 1 u 5
--5- e
du = [ e
u 5 t
] = 1e
t5
si t 0
0
0
4.1.
Y 0 k n
Z=Y+n n n+k 2n
Exercice 7.12
1.
7
x x
FX(x) = 1 ----0- 1 FX(x) = ----0- ln(1 FX(x)) = (ln(x0) ln(x))
x x
Les points {ln(xi) ; ln(l Fi)} tant quasi-aligns (r = 0,94), lajustement de la dis-
tribution par une loi de Pareto est justifi, et on peut valuer ses paramtres :
= 1,128 ln(x0) 6,667 x0 = e6,667 786
Exercice 7.13
2
1. y t = 1,3 t + 135,5
Nombre de contrats Rsidus
t2 y t et
souscrits croissants
1 117 136,8 19,8 29,3
4 178 140,7 37,3 23,0
9 149 147,2 1,8 19,8
16 189 156,3 32,7 17,9
25 145 168,0 23,0 9,3
36 173 182,3 9,3 8,0
49 170 199,3 29,3 1,8
64 223 218,8 4,2 4,2
81 223 240,9 17,9 15,3
100 281 265,7 15,3 16,0
121 285 293,0 8,0 32,7
144 339 323,0 16,0 37,3
2.
Les points tant peu loigns de la bissectrice, on ne rejette pas lajustement par la loi
normale (0 ; 22).
Exercice 7.14
25
E ( X 25 ) = E ( X ) var ( X 25 ) = var ( X ) 25 = 25
(cf. loi de la v.a. appele moyenne empirique, chapitre 7, III.A).
X 25 (70 ; 5) P ( X m < 10 ) = P ( X m < 2 X ) = 0,9544
Exercice 7.15
3.
Valeur < x1 [x1 ; x2[ [x2 ; x3[ [x3 ; x4[ [x4 ; x5[
Effectif 12 5 10 10 10
Effectif 16 5 10 14 8
4.
Annexes
I. Formulaire lmentaire de combinatoire
II. Principaux modles de probabilits :
mthodes de calculs
III. Introduction la simulation
des lois de probabilit
IV. Tables
ANNEXES 335
P335-360-9782100549412.fm Page 336 Mercredi, 24. novembre 2010 11:13 11
C. Permutations
Soit un ensemble de N lments, on appelle permutation sur une suite
de N lments de . Ceci revient dire que lon a dispos N objets de
dans un ordre dtermin. Il faut remarquer que dans cette dfinition gnrale,
les objets peuvent ne pas tre distincts. Pour cette raison, on introduit la
notion de permutation sans rptition, dans laquelle les lments de sont
distincts. Cette dernire dfinition revient donc dire quune permutation
(sans rptition) de est un rangement particulier de ses lments.
Pour un ensemble N lments il existe N (N 1) ( N 2) 2 1
permutations sans rptitions distinctes. Ce rsultat est simple montrer par
rcurrence. La valeur ainsi obtenue est appele factorielle N, et elle est note
N!
Plus gnralement, si N1, N2, Nk sont les nombres de rsultats distincts
qui peuvent tre obtenus sur k preuves successives, alors le nombre de rsul-
tats distincts possibles lissue de la srie des k preuves est donn par :
N1 N2 Nk
On peut montrer aisment quil existe NN permutations avec rptitions
de N lments.
Dans ce qui suit on ne parlera que de permutation sans rptition.
ANNEXES 337
P335-360-9782100549412.fm Page 338 Mercredi, 24. novembre 2010 11:13 11
rsultats possibles lissue du tirage (soit 4 ! = 24 fois moins que si les prix
sont diffrents).
Mentionnons quelques formules trs utilises relatives ce nombre de
combinaisons :
N = 1 N = N N = N
0 1 k N k
ainsi que :
N = N 1 + N 1
k k k 1
dont lapplication trs connue est le triangle de Pascal qui est un tableau
triangulaire dont chaque ligne correspond une valeur de N et chaque
colonne une valeur de k (k = 0, 1, 2, ... , N). Sa construction se dduit de la
formule ci-dessus. Ainsi pour les 8 premires lignes :
1
1 1
1 2 =1 +1 1
1 3 =2 +13= 1 +2 1
1 4 =3 +16= 3+3 4= 1+3 1
1 5 =4 + 1 10 = 6+4 10 = 4+6 5= 1+4 1
1 6 =5 + 1 15 = 10 + 5 20 = 10 + 10 15 = 5 + 10 6 = 1 + 5 1
1 7 =6 + 1 21 = 15 + 6 35 = 20 + 15 35 = 15 + 20 21 = 6 + 15 7=1+6
en se rappelant que les extrmes de chaque ligne sont toujours gaux 1.
Citons aussi la formule bien connue du binme de Newton :
N
N
k a
k Nk
(a + b)N = b
k=1
obtenu en prenant a = 1 et b = 1.
Enfin, on citera une formule de rcurrence permettant de calculer les nom-
bres de combinaisons par quelques pas de programme :
Nk+1 N
N = ---------------------
-
k k k 1
On retrouve son application lannexe II.
F. Coefficients multinomiaux
Le nombre total de diffrents partages dun ensemble N lments en k sous-
ensembles disjoints, contenant respectivements n1, n2, , nk lments est
donn par le coefficient multinomial :
N!
---------------------------------------------
n1 ! n2 ! nk !
A. Loi binomiale
La formule donnant les probabilits individuelles dune loi (n, p) permet
de construire une procdure itrative. En effet, si X suit une telle loi :
P( X = k + 1 ) = n pk + 1( 1 p )n k 1
k + 1
Dunod. La photocopie non autorise est un dlit.
n!
= --------------------------------------------- p k + 1 ( 1 p ) n k 1
( k + 1 ) ( n k 1 )!
n! ( n k ) ( 1 p )n k
= ----------------------------------------- p k p -------------------------
k! ( k + 1 ) ( n k )! (1 p)
n! (n k) p
= ------------------------ p k ( 1 p ) n k ----------------------------------
k! ( n k )! (k + 1)(1 p)
(n k) p
= ----------------- ----------------- P ( X = k )
(k + 1) (1 p)
ANNEXES 339
P335-360-9782100549412.fm Page 340 Mercredi, 24. novembre 2010 11:13 11
B. Loi de Poisson
Ici encore, la formule des probabilits individuelles permet dcrire une for-
mule de calcul itratif (formule dj prsente et utilise au chapitre 6, III).
Si Y suit une loi (m), on a la formule :
m
P ( Y = k + 1 ) = ----------------- P ( Y = k )
(k + 1)
qui permet de programmer le calcul des probabilits individuelles, partant de
P(Y = 0) = e m. La programmation du calcul des probabilits cumules se
fait comme pour celles de la loi binomiale, en additionnant la nouvelle pro-
babilit individuelle la somme de ltape prcdente, aprs avoir dbut la
somme par P(Y = 0).
b)
1
F U ( u ) 1 --- ( 1 + 0,196854u + 0,115194u 2 + 0,000344u 3 + 0,019527u 4 ) 4
2
Lerreur commise est au plus gale 0,00025.
D. Loi du khi-deux
On utilise la formule, vue au chapitre 7, III.A, de Wilson-Hilferty :
13
x 2 9n
P ( 2 ( n ) < x ) F U --- 1 + ------ ------
n 9n 2
la dtermination de la valeur de la fonction de rpartition de la loi de
Gauss centre rduite se faisant par lune des formules donnes ci-dessus.
E. Loi de Student
On a vu au chapitre 7, III.B, que la loi de Student 2 ddl possde une fonction
de rpartition simple permettant des calculs exacts. Dans le cas gnral, on
utilise deux formules dapproximation ; lune pour la fonction de rpartition,
lautre pour les fractiles. La premire formule est due Fisher et scrit, pour
t > 0 (pour t < 0, on utilise la symtrie) :
t2
1 e ---2- 1--- ( 2 + 1 ) 1--- -----
1 1
P ( T v < t ) = F U ( t ) ---------- t t + - t ( 3 t 6 7 t 4 5 t 2 3 ) ----2
2 4 v 96 v
Dunod. La photocopie non autorise est un dlit.
1 1
+ --------- t ( t 10 11t 8 + 14t 6 + 6t 4 3t 2 15 ) ----3
384 v
Lerreur commise est au plus gale 0,000005. Cest donc une excellente
approximation.
Dans le cas particulier de la loi de Student 1 ddl, on peut utiliser la for-
mule suivante qui donne un rsultat entach dune erreur au plus gale
0,001, mais qui ne ncessite pas de calcul de fonction de rpartition de la loi
normale.
ANNEXES 341
P335-360-9782100549412.fm Page 342 Mercredi, 24. novembre 2010 11:13 11
F. Loi de Fisher-Snedecor
Pour cette loi, on peut utiliser la formule suivante, due G.W. Cochran, et
qui donne les fractiles dune loi F(1, 2) en fonction des fractiles de la loi
normale centre rduite :
12
1 2
f ( v 1 , v 2 ) d 1 + --- ( u 2 1 ) +u c 1 c---- ( u 2 + 3 )
3 6
1 1 1 1 1 1
o et d = --- ---- ---- c = --- ---- + ----
2 v 2 v 1 2 v 1 v 2
Cette formule est en fait drive de la formule de Wilson-Hilferty pour
chaque loi de khi-deux au numrateur et au dnominateur de la loi de Fisher-
Snedecor. On ne connait pas prcisment de borne suprieure de lerreur
commise avec cette approximation, mme si on peut considrer que cette
approximation est de bonne qualit.
Simuler est une faon dimiter. Simuler le comportement dun systme com-
plexe consiste en reconstituer fictivement des ralisations. On parle de
simulation alatoire lorsque celles-ci sont obtenues laide de ralisations
fictives de variables alatoires de distributions connues.
Pour toute simulation, on part de ralisations artificielles de la distri-
bution uniforme continue sur lintervalle ]0 ; 1[ qui sont fabriques
(simules) au travers de la fonction ALEA(). Lappel de cette fonction dans
K cellules dune feuille de tableur permet dobtenir { x i , i = 1,,K } , K ra-
lisations indpendantes de la distribution uniforme continue sur ]0 ; 1[
ANNEXES 343
P335-360-9782100549412.fm Page 344 Mercredi, 24. novembre 2010 11:13 11
ANNEXES 345
P335-360-9782100549412.fm Page 346 Mercredi, 24. novembre 2010 11:13 11
issues dune loi uniforme continue sur ]0 ; 1[, on obtient deux valeurs indpen-
2 2
dantes u1 et u2 dune loi de Gauss centre rduite telles que u 1 + u 2 = 2 ln x 1
La fonction ALEA() gnre donc une valeur dune distribution du khi-
deux 2 degrs de libert en calculant 2ln(ALEA())
Le lecteur peut trouver ensuite comment simuler facilement des valeurs
dune loi de khi-deux nombre pair de degrs de libert.
Colonnes C et D, E et F, G et H, I et J, K et L, M et N, O et P, Q et R, S
et T, U et V, W et X remplies de manire similaire aux colonnes A et B.
Les colonnes B, D, F, H, J, L, N, P, R, T, V et X contiennent chacune une
suite de 25 valeurs (0 ou 1) ralisations de naissances simules, et modlisent
chacune une classe de CP de 25 enfants dont on obtient le nombre de filles
en faisant la somme de la colonne.
Ce nombre de filles est en thorie la somme de 25 alas de Bernoulli
indpendants de mme paramtre 0,48 ; il est distribu selon une loi bino-
miale (25 ; 0,48)
La moyenne thorique (25 0,48 =12) et la variance thorique (25 0,48
0,52 = 6,24) sont compares la moyenne et la variance des valeurs simu-
les (lignes 30 et 31 du tableau1).
Il est aussi possible de simuler presque instantanment un jeu de pile ou
face rpt 5 000, 10 000 ou mme 100 000 fois pour une pice pipe ou pour
une pice non pipe, et dobserver la convergence des frquences de pile vers
la probabilit thorique impose dans la simulation, ce qui illustre la loi des
grands nombres.
ANNEXES 347
P335-360-9782100549412.fm Page 348 Mercredi, 24. novembre 2010 11:13 11
ANNEXES 349
P335-360-9782100549412.fm Page 350 Mercredi, 24. novembre 2010 11:13 11
IV. Tables
lexception de la table des fractiles de la loi du khi-deux, les tables suivan-
tes sont extraites de l Aide-mmoire statistique (CISIACERESTA, 1999).
Dunod. La photocopie non autorise est un dlit.
ANNEXES 351
P335-360-9782100549412.fm Page 352 Mercredi, 24. novembre 2010 11:13 11
( nk)
ANNEXES 353
P335-360-9782100549412.fm Page 354 Mercredi, 24. novembre 2010 11:13 11
ANNEXES 355
P335-360-9782100549412.fm Page 356 Mercredi, 24. novembre 2010 11:13 11
Cette table donne les valeurs absolues des fractiles, up de la loi normale
rduite tels que :
up u2
1 ----2-
F (up) =
----------e
2
du = P
Pour P < 0,5 (colonne de gauche et ligne suprieure) les fractiles up sont
ngatifs.
Pour P > 0,5 (colonne de droite et ligne infrieure) les fractiles up sont
positifs.
ANNEXES 357
P335-360-9782100549412.fm Page 358 Mercredi, 24. novembre 2010 11:13 11
Cette table donne les valeurs des fractiles tP(v) de la loi de Student pour
P 0,60
Pour les valeurs P 0,40, on a tP(v) = t 1 P (v)
Dunod. La photocopie non autorise est un dlit.
P P
P P
ANNEXES 359
P335-360-9782100549412.fm Page 360 Mercredi, 24. novembre 2010 11:13 11
Bibliographie
Ouvrages de base
ESCOFIER B., PAGES J., Initiation aux traitements statistiques, Mthodes, mtho-
dologie, Presses universitaires de Rennes, 1997.
GIARD V., Statistique applique la gestion , 8 e d., conomica, 2003.
GRAIS B., Statistique descriptive , coll. co sup , 3 e d., Dunod, 2004.
GRAIS B., Mthodes statistiques , coll. co sup , 4 e d., Dunod, 2006.
MORINEAU A., C HATELIN Y.-M. et al. , Lanalyse statistique des donnes :
apprendre, comprendre et raliser avec Excel , Ellipses, 2005.
Ouvrages gnraux
DODGE Y., Statistique, Dictionnaire encyclopdique , Springer Verlag, 2004.
DROESBEKE J.-J., T ASSI P., Histoire de la statistique , Que sais-je n 2527,
2e d., PUF, 1997.
INSEE, Pour comprendre lindice des prix , Insee-Mthodes, n 81-82, 1998.
Ouvrages dapprofondissement
ANTOINE Ch., Les Moyennes, coll. Que sais-je ? , n 3383, PUF, 1998.
DODGE Y., MELFI G., Premiers pas en simulation , Springer Verlag, 2008.
SAPORTA G., Probabilits, analyse des donnes et statistique, 2e d., ditions Technip,
2006.
TENENHAUS M., Statistique, mthodes pour dcrire, expliquer et prvoir , 2e d.,
Dunod, 2007.
Sites Internet
Dunod. La photocopie non autorise est un dlit.
BIBLIOGRAPHIE 361
P361-362-9782100549412.fm Page 362 Jeudi, 18. novembre 2010 12:17 12
P363-374-9782100549412.fm Page 363 Vendredi, 26. novembre 2010 2:56 14
Lexique anglais/franais
A Concentration index Indice de
concentration
Arithmetic mean Moyenne Conditional distribution Distribution
arithmtique conditionnelle
Conditional probability Probabilit
conditionnelle
B Contingency table Tableau de
contingence
Bernoulli trial preuve de Bernoulli Continuous random variable
Binomial distribution Loi binomiale Variable alatoire continue
Box plot Bote de distribution, bote Convergence in distribution
moustache, bote pattes Convergence en loi
Box-and-whisker plot Bote de Convergence in second-order mean
distribution, bote moustaches, Convergence en moyenne
bote pattes quadratique
Convergence in probability
Convergence en probabilit
C Correlation ratio Rapport de
corrlation
Categorical variable Variable Covariance Covariance
qualitative, variable nominale Cumulative function Fonction
cumulative
Centered random variable Variable
alatoire centre Cumulative frequency Effectif
cumul
Central limit theorem Thorme
Cumulative frequency curve Courbe
central-limite
cumulative
Dunod. La photocopie non autorise est un dlit.
E L
Independence Indpendance O
Index number Indice lmentaire
Individual Individu Observation Observation
Interquartile range Intervalle Outlier Valeur loigne, valeur
interquartile extrme
P S
Range tendue
Regression curve Courbe de
rgression V
Relative frequency Frquence
Response category Modalit Variance Variance
Lexique franais/anglais
A Couple de variables alatoires Pair of
random variables
Asymtrie Skewness Courbe cumulative Cumulative
frequency curve
Courbe de rgression Regression
B curve
Covariance Covariance
Bote de distribution Box plot, box-
and-whisker plot
Bote moustaches Box plot, box- D
and-whisker plot
Bote pattes Box plot, box-and- Dcile Decile
whisker plot Degr de libert Degree of freedom
Diagramme branche et feuille
Stem and leaf diagram
C Diagramme circulaire Pie chart
Diagramme en btons Line chart
Centile Percentile Diagramme Quantile-Quantile
Chronique Time series Quantile-Quantile plot
Coefficient daplatissement Distribution conditionnelle
Coefficient of kurtosis Conditional distribution
Coefficient dasymtrie Coefficient Distribution marginale Marginal
of skewness distribution
Coefficient de corrlation Distribution observe Frequency
Correlation coefficient distribution
Coefficient de variation Coefficient Droite des moindres carrs Least-
Dunod. La photocopie non autorise est un dlit.
L
F
Lissage exponentiel Exponential
Fonction cumulative Cumulative smoothing
function Loi binomiale Binomial distribution
Fonction de densit de probabilit Loi de Gauss Gaussian distribution
Probability density function Loi de probabilit Probability
Fonction de rpartition Cumulative distribution
distribution function
Loi des grands nombres Law of large
Fractile Quantile numbers
Frquence Relative frequency Loi gomtrique Geometric
Frquence conditionnelle distribution
Conditional frequency Loi normale Normal distribution
Loi normale centre rduite
Standardized normal distribution,
G
standard normal distribution
Loi uniforme Uniform distribution
Graphique de dispersion Scatter plot
H M
Q
V
Quantile Quantile
Quartile Quartile Valeur loigne Outlier
Valeur extrme Outlier
Variable alatoire Random variable
R
Variable alatoire centre Centered
random variable
Rapport de corrlation Correlation
ratio Variable alatoire centre-rduite
Standardized random variable
Variable alatoire continue
S Continuous random variable
Variable alatoire discrte Discrete
Srie chronologique Time series random variable
Srie corrige des variations Variable indicatrice Dummy variable
saisonnires Seasonally adjusted Variable nominale Categorical
series variable
Variable quantitative Quantitative
Dunod. La photocopie non autorise est un dlit.
T variable
Variable qualitative Categorical
Tableau de contingence Contingency variable
table Variance Variance
Index
A Convergence 166
en loi 166
Algbre de Boole 134 en moyenne quadratique 168
Analyse 270 en probabilit 167
Approximation 203, 236, 239 faible 166
Arrangement avec rptition 335 Couple de variables alatoires 151
Arrangement sans rptition 336 Courbe cumulative 9
Asymtrie 27 Courbe de concentration 30
Courbe de Lorenz 30
Courbe de rgression 89
B Covariance 73, 162
Bayes 139
Binme de Newton 338 D
Bote moustaches 33
Bote de dispersion 33 Dcile 22
Bote de distribution 33, 34 Dflater 56
Bote--pattes 33 Degr de libert 255
Box-plot 33 Densit de probabilit 147
Diagramme branche et feuille 12
C Diagramme en camembert 3
Diagramme en btons 5
Chronique 103 Diagramme quantile-quantile 233
Chronologique 103 Dispersion relative 29
Dunod. La photocopie non autorise est un dlit.
INDEX 371
P363-374-9782100549412.fm Page 372 Mercredi, 24. novembre 2010 11:19 11
F
K
Facteur dexhaustivit 192
Fonction cumulative 9 Kolmogorov 135
Fonction de rpartition 9, 144, 151, 154
Fonction de variable alatoire 149
Fonction gnratrice des moments 163 L
Formule 341
Formule de Hastings 340
Lissage exponentiel double 125
Formule de Wilson-Hilferty 245
Logit 270
Fractile 165
Frquence 4 Loi binomiale 185
Frquence conditionnelle 69 Loi binomiale en proportion 188
Frquence cumule 8 Loi conditionnelle 152
Loi dErlang 218
Loi de Bernoulli 182
H Loi de Cauchy 247
Loi de Fisher-Snedecor 252
Histogramme 6 Loi de Pareto 260
Loi de Pascal 193
Loi de Poisson 199
I Loi de probabilit dune variable
alatoire continue 146
Incompatibilit 133 Loi de probabilit dune variable
Indpendance 153 alatoire discrte 144
INDEX 373
P363-374-9782100549412.fm Page 374 Mercredi, 24. novembre 2010 11:19 11
U W