Vous êtes sur la page 1sur 42

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

Statistique pour ingnieur


Thme 2 : chantillonnage, estimation, estimateurs
et intervalles de confiance
F. Delacroix & M. Lecomte, 7 novembre 2016

Introduction
Dans ce second thme nous abordons la statistique infrentielle, et plus particulirement lestimation. La section 1 traite des notions de population, dchantillon et
dinfrence statistique, tandis que Les outils autour de la notion dchantillon sont
dvelopps dans la section 2 consacre lchantillonnage.
Lestimation statistique, qui fait lobjet de la section 3, consistera alors obtenir des
valeurs approches dun paramtre inconnu partir de valeurs observes sur un chantillon.
Toutefois, plutt que de parier sur une valeur dun paramtre inconnu calcul partir
dun chantillon, on essaie souvent dencadrer cette valeur avec une grande probabilit
de succs entre des bornes calcules partir de lchantillon, en faisant appel certains
modles probabilistes. Il sagit alors dun intervalle de confiance, dont la construction
fait lobjet de la section 4.
Lchantillonnage et lestimation ont galement un cho trs important en entreprise
dans le domaine de la matrise statistique des procds. Nous avons choisi dillustrer ces
pratiques mises en uvre par le biais de normes telles quISO 9000 sous la forme de cartes
de contrle, ou cartes de matrise la section 5.
Comme on la soulign prcdemment, la statistique sappuie sur la thorie des probabilits qui permet de modliser certains phnomnes alatoires. Les principales notions
de probabilits utiles ont t dveloppes dans le thme 1 de ce MOOC.

Table des matires


Introduction

1 Hypothses, caractristiques dun chantillon


1.1 Population, chantillons, infrence statistique . . . . . . . . . . . . . . . . .
1.2 Les hypothses de la statistique classique . . . . . . . . . . . . . . . . . . .
2 chantillonnage
2.1 Statistiques . . . . . . . . . . . . . . . . . . .
2.2 Distribution dchantillonnage des moyennes .
2.2.1 Cas gnral . . . . . . . . . . . . . . .
2.2.2 Cas o n est suffisamment grand . . .
2.2.3 Cas des chantillons gaussiens . . . . .
2.3 Distributions dchantillonnage des variances .
2.3.1 Cas gnral . . . . . . . . . . . . . . .
2.3.2 Loi du 2 . . . . . . . . . . . . . . . .
2.3.3 Intervalle de confiance pour la variance
Institut Mines-Tlcom

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

2
2
4
5
5
7
7
7
8
9
9
10
11
1

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

3 Estimation
12
3.1 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Qualits dun estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3 Mthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . 17
4 Intervalles de confiance
4.1 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 partir dun intervalle de probabilit . . . . . . . . .
4.1.2 laide de statistiques . . . . . . . . . . . . . . . . .
4.1.3 Intervalle bilatral vs intervalle unilatral . . . . . . .
4.2 Intervalle de confiance pour lesprance dune loi normale . .
4.2.1 Cas o la variance est connue . . . . . . . . . . . . .
4.2.2 Cas o la variance est inconnue . . . . . . . . . . . .
4.3 Intervalle de confiance pour la variance 2 dune loi normale
4.4 Intervalle de confiance pour une proportion . . . . . . . . . .
4.4.1 Utilisation de la loi binomiale . . . . . . . . . . . . .
4.4.2 Approximation par la loi normale . . . . . . . . . . .
5 Contrle statistique
5.1 Principe des cartes de contrle . .
5.2 Carte de contrle p . . . . . . . .
5.3 Cartes de contrle aux mesures .
5.3.1 Limites de contrle pour la
5.3.2 Limites de controle pour la
5.4 Efficacit des cartes de contrle .

. . . . .
. . . . .
. . . . .
carte de
carte de
. . . . .

. . . . . . .
. . . . . . .
. . . . . . .
lcart-type
la moyenne
. . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

20
20
20
20
21
22
22
24
27
28
29
29

.
.
.
.
.
.

32
33
33
34
35
37
37

Conclusion

39

Exercices
Exercices sur lestimation . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exercice 1 : Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exercice 2 : Estimateur obtenu par la mthode du maximum de vraisemblance
Exercice 3 : Paramtre dune loi de Poisson . . . . . . . . . . . . . . . . . .
Exercices sur les intervalles de confiance . . . . . . . . . . . . . . . . . . .
Exercice 4 : Intervalle de confiance pour une moyenne et une variance . . .
Exercice 5 : Intervalle de confiance pour une proportion . . . . . . . . . . .
Exercice 6 : Publicit mensongre ? . . . . . . . . . . . . . . . . . . . . . .
Exercice 7 : Paramtre dune loi continue . . . . . . . . . . . . . . . . . . .

39
39
39
39
40
41
41
41
41
41

1
1.1

Vocabulaire et hypothses de la statistique, caractristiques dun chantillon


Population, chantillons, infrence statistique

La population est lensemble des individus sur lesquels porte une tude statistique.
On la dsigne de faon gnrale par la lettre (qui, en probabilit, correspondra lunivers). Pour signifier quun individu appartient la population , on crit : .
2

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

Dans le cas o la population est finie, nous pouvons crire


= {1 ,2 , . . . ,N }
o N = Card dsigne la taille de la population.
Remarque
En statistique infrentielle, les populations tudies sont de grande taille, souvent N
est de lordre de plusieurs milliers, voire plusieurs millions, dindividus.
Nous sommes intresss par une caractristique particulire des individus de la population. Cest par exemple, dans lindustrie automobile, le nombre de dfauts observs sur
les vhicules en sortie de la ligne de production. Le caractre observ est formalis par une
variable X quon appelle variable dintrt. Celle-ci peut tre quantitative (discrte ou
continue) ou qualitative.
En gnral, il nest pas possible de dterminer les valeurs de X pour tous les individus
de la population. On ralise alors un sondage afin dobtenir une estimation des paramtres caractrisant la population. Un sondage exige le prlvement dans la population
dun chantillon, dfini comme tant un n-uplet dlments de . On dsigne souvent
un tel chantillon par la lettre S (sample en anglais). On peut crire
S = (1 ,2 , . . . ,n ).
Gnralement, la taille de lchantillon est note n (en minuscule !), afin de la diffrencier
de la taille N (majuscule !) de la population .
La question suivante se pose naturellement :
Question
Comment faire pour slectionner un bon chantillon dans la population ?
Il existe diffrentes procdures dchantillonnage, appeles aussi mthodes de sondage.
On en distingue deux grandes familles :
les mthodes alatoires ou probabilistes, sappuyant sur le prlvement au
hasard dindividus au sein de la population ;
les mthodes empiriques, ou non alatoires.
La mthode des quotas, largement employe par les instituts de sondage, est la
plus connue des mthodes empiriques. Elle consiste construire un chantillon comme un
modle rduit de la population tudie selon certains critres : rgion, sexe, ge, catgorie
socio-professionnelle, etc.
En statistique, on prfre les mthodes de sondage alatoires, qui contrairement aux
mthodes empiriques permettent de quantifier de manire rigoureuse les estimations faites
et de dterminer les erreurs commises.
Parmi les mthodes alatoires, la plus connue est le sondage alatoire simple, parfois not PESR (pour Probabilits gales et Sans Remise),qui consiste prlever, au
hasard et sans remise, n individus au sein de la population de taille N . Chaque individu
de la population a la mme probabilit que les autres dtre prlev. Cette probabilit est
gale = Nn et appele taux de sondage 1 . Il en rsulte que tous les chantillons de
taille n ont la mme probabilit dtre slectionns.
1. Les lecteurs intresss par la thorie des sondages pourront consulter louvrage de Pascal ARDILLY :
chantillonnage et mthodes denqutes, Dunod 2004.

Institut Mines-Tlcom

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

Une fois lchantillon prlev, on veut tendre les proprits observes sur celui-ci
lensemble de la population. Cest ce quon appelle linfrence statistique. Les caractristiques de lchantillon telle que sa moyenne, sa variance ou une proportion, peuvent
stendre toute la population grce aux mthodes destimation qui seront traites dans
les sections suivantes de ce cours.
Exemple 1
Un industriel commercialise du sucre en paquets, et veut connatre la masse moyenne
de sucre contenue dans les paquets. Pour cela, il prlve un chantillon de n = 20
paquets et dtermine la masse de sucre dans chaque paquet de lchantillon. Il considre
que la moyenne calcule dans lchantillon est une estimation de la moyenne relative
toute la population, qui est lensemble de tous les paquets produits.

1.2

Les hypothses de la statistique classique

Le concept-cl en statistique est la variabilit, qui signifie que les caractres peuvent
prendre des valeurs diffrentes : ainsi, un processus industriel ne fournit jamais des caractristiques parfaitement constantes. En statistique, on modlise les donnes observes
laide de variables alatoires. La thorie des probabilits joue alors un rle fondamental, dune part en modlisant certains phnomnes alatoires, dautre part en permettant
ltude des caractristiques observes sur lchantillon.
Sur une population on dfinit une variable alatoire X lie un caractre observ dans
la population, par exemple la masse de sucre dans un paquet dans le cas de lexemple 1.
On supposera que la variable alatoire X est dfinie sur un espace probabilis (,T ,P)
o :
est la population tudie,
T est la tribu des vnements,
P est une mesure de probabilit sur (,T ).
Dans ces conditions, on peut alors formuler les hypothses de la statistique classique.
Dfinition 1 (Hypothses de la statistique classique)
Les valeurs observes (x1 , . . . ,xn ) constituent une ralisation dun n-uplet, not
(X1 , . . . ,Xn ), de variables alatoires ;
les variables alatoires Xi sont mutuellement indpendantes et suivent la mme
loi que X.
Dans la suite, on admettra que ces hypothses sont vrifies quand les chantillons sont
prlevs de faon non exhaustive, cest--dire avec remise, ou que la taille de la population
est suffisamment importante par rapport celle de lchantillon.
Par extension, on appelle aussi chantillon le n-uplet de variables alatoires (X1 , . . . ,Xn ).
Il convient cependant de bien distinguer Xi (la variable alatoire) de xi (la valeur prise
par la variable alatoire Xi sur un chantillon S donn). On crit parfois
xi = Xi (S).
Remarque 1
Il est souligner que, lorsque n N est fix, les variables alatoires Xi ne sont pas
dfinies sur lespace probabilis initial (,T ,P). En effet, Xi dsigne la valeur observe
4

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

sur le ime individu dun chantillon de taille n. Par consquent, cette variable alatoire
est dfinie sur un espace probabilis correspondant lensemble de tous les chantillons
de taille n possibles. Cet ensemble est
n = {(1 , . . . ,n ) tel que i {1, . . . ,n}, i } .
Pour que la construction de ce nouvel espace probabilis soit complte, il faut munir
cet ensemble dune tribu et dune mesure de probabilit.
La tribu utilise est le produit tensoriel T n = T T . Il sagit de la plus
petite tribu sur n qui contienne les produits cartsiens dvnements A1 An .
Cette considration, ncessaire pour la cohrence de lexpos, peut tre vue comme
thorique et naura pas dincidence sur les questions pratiques poses dans le cadre de
ce cours.
La mesure de probabilit est importante et constitue le reflet de lhypothse dindpendance mentionne dans la dfinition 1 : il sagit l encore dun produit tensoriel
Pn qui peut se comprendre simplement en disant que la probabilit dun vnement de
(n ,T n ) qui est le produit cartsien dvnements de est le produit des probabilits
de ces vnements :
Pn (A1 An ) = P (A1 ) P (A2 ) P (An ) .
La thorie de lchantillonnage consiste tudier les proprits du n-uplet (X1 , . . . ,Xn )
et des caractristiques le rsumant, encore appeles statistiques, partir de la loi suppose connue de la variable parente X.
Un cas particulier important est celui o X suit la loi normale, ou loi de Gauss. On
dit alors que lon est dans le cas dchantillons gaussiens.

chantillonnage

Dans cette section, nous abordons la thorie de lchantillonnage qui consiste, dune
part, dterminer un chantillon partir dune population donne, et dautre part tudier les caractristiques de cet chantillon afin den dduire des proprits de la population
dont il est issu (infrence statistique).
Exemple 2
On prlve au hasard n ampoules lectriques dans une production. On cherche
estimer la dure de vie moyenne des ampoules produites.
Le but de cette partie est dintroduire des modles permettant de mathmatiser ces
questions et de mettre en place les outils classiques autour de la notion dchantillon.

2.1

Statistiques

Soit X une variable alatoire relle dfinie sur une population . Si nous prlevons un
chantillon = (1 , . . . ,n ) de taille n (o n N ), nous observons n rels x1 , . . . ,xn qui
sont les valeurs que prend X sur chacun des individus de lchantillon : X(i ) = xi .
Institut Mines-Tlcom

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

Daprs les hypothses de la statistique classique (cf. section 1.2), ces nombres sont
considrs comme des ralisations de n variables alatoires X1 , . . . ,Xn i.i.d. : indpendantes et identiquement distribues, cest--dire suivant la mme loi de probabilit. On
crira donc
i {1, . . . ,n}, Xi () = xi .
Par extension, on appelle n-chantillon le n-uplet (X1 , . . . ,Xn ).
En pratique, on sintresse des caractristiques simples telles que la moyenne ou la
variance de lchantillon. Celles-ci sont elles-mmes des ralisations de variables alatoires
relles issues de (X1 , . . . ,Xn ) appeles statistiques.
Dfinition 2
Une statistique T est une variable alatoire fonction de X1 , . . . ,Xn :
T = f (X1 , . . . ,Xn ).
La loi de probabilit de la variable alatoire T sappelle distribution dchantillonnage.
En pratique, on sintresse souvent la distribution dchantillonnage des moyennes
et celles des variances.
Exemple 3
Reprenons lexemple 2 de la fabrication en srie dampoules lectriques. Soit X la
variable alatoire relle prenant la valeur 1 si lampoule est dfectueuse et 0 si lampoule
est bonne.
On contrle n ampoules issues de la production. On dfinit ainsi n variables alatoires
X1 ,X2 , . . . ,Xn , supposes indpendantes, qui suivent la loi de Bernoulli de paramtre p.
On crit
Xi B(1,p),
o p dsigne la probabilit quune ampoule de la production soit dfectueuse. Posons
Kn =

n
X

Xi .

i=1

La variable alatoire Kn dsigne donc le nombre dampoules dfectueuses dans lchantillon. Cest une statistique, et on sait que sa loi de probabilit est la loi binomiale B(n,p).
Voici dautres exemples de statistiques :
n
1X
Kn
Xi . Dans le cas de lexemple 3, on a X =
,
la moyenne empirique : X =
n i=1
n
n 
2
1X
la variance empirique : S 2 =
Xi X ,
n i=1
le minimum : min Xi ,
16i6n

le maximum : max Xi .
16i6n

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

2.2
2.2.1

Statistique pour ingnieur

Distribution dchantillonnage des moyennes


Cas gnral

Comme indiqu la section 2.1, tout chantillon on associe une suite de variables
alatoires relles (Xi )i>1 i.i.d.. On suppose de plus que la variable alatoire parente X
admet une esprance et une variance 2 . On a donc
i > 1, E (Xi ) = E (X) = et V (Xi ) = V (X) = 2 .
Dfinition 3
La statistique X, appele moyenne empirique de lchantillon, est dfinie par
X=

n
1X
Xi .
n i=1

On a alors le thorme suivant, essentiel en statistique.


Thorme 1


E X = et V X =

2
.
n

Preuve. La dmonstration de ce thorme repose simplement sur les proprits de lesprance et la variance : lesprance est linaire, la variance est quadratique (cest--dire
V ( Y ) = 2 V (Y )) et additive pour des variables indpendantes. On a donc
n
n
n
1X
1X
1X
Xi =
E (Xi ) =
=
E X =E
n i=1
n i=1
n i=1

n
n
n
1X
1 X
1 X
2
V X =V
Xi = 2
V (Xi ) = 2
2 = .
n i=1
n i=1
n i=1
n


Ce rsultat montre que lcart-type de X est gal n , plus petit que lcart-type
de X. On constate, comme le laissait prvoir la loi faible des grands nombres, quune
observation de X est en gnral plus proche de quune observation de X, et mme
dautant plus proche que n est grand.
2.2.2

Cas o n est suffisamment grand

Par suffisamment grand on entend en gnral n > 30.


La loi de probabilit de X dpend a priori de la loi de X. Le thorme central-limite
tudi dans le thme 1 permet daffirmer que la suite de variables alatoires (Un ), o
Un =

X
,
/ n

converge en loi vers N (0,1). En pratique, cela signifie que,


 pour
 n assez grand, la variable
2
alatoire X suit approximativement la loi normale N , n et ce mme si la loi de la
variable parente nest pas une loi normale.
Institut Mines-Tlcom

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

Or on sait que, si U N (0,1), on a


P (1,96 6 U 6 1,96) = 0,95.
En appliquant ce rsultat la variable
Un =

X
,
/ n

compte tenu de lapproximation gaussienne donne par le thorme central-limite, on


obtient
!

P X 1,96 6 6 X + 1,96
= 0,95.
n
n
On en dduit, si est connu et si n est assez grand, un intervalle de confiance alatoire
pour au niveau de confiance 95% :
"

IC0,95 () = X 1,96 ; X + 1,96 .


n
n
Exemple 4
Soit X la longueur des tiges mtalliques dans une production en srie. On pose E (X) =
et V (X) = 2 et on suppose que = 0,1cm.
Un chantillon de n = 50 tiges a donn une moyenne x gale 15cm. Un intervalle
de confiance rel pour au niveau de confiance 95% est donc
"

1,96 0,1
1,96 0,1

Ic0,95 () = 15
; 15 +
= [14,97; 15,03] .
50
50
Nous pouvons en conclure que lintervalle obtenu contient lesprance avec un niveau
de confiance de 95%.
2.2.3

Cas des chantillons gaussiens

Supposons que la variable alatoire parente X suive une loi normale (ou loi de Gauss)
desprance et de variance 2 . Comme les Xi suivent la mme loi, la variable alatoire X
est une combinaison linaire de variables gaussiennes indpendantes, elle suit donc encore
2
une loi normale, desprance et de variance n .
Dans ce cas, quelle que soit la taille de lchantillon, la variable alatoire
U=

/ n

suit la loi normale centre rduite N (0,1).


Exemple 5
On prlve 25 pices dans une production industrielle. Une tude pralable a montr
que la longueur X des pices produites suivant une loi normale desprance 10mm et
dcart-type 2mm. Entre quelles valeurs a-t-on 90% de chances de trouver le diamtre
moyen de ces 25 pices ?
8

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

Compte tenu des donnes de cet exemple, on a


22
X N 10,
25

et U =

X 10

N (0,1).
2/ 25

Daprs les tables de la loi normale, on a


!

X 10

0,90 = P (1,64 6 U 6 1,64) = P 1,64 6


6 1,64
2/ 25
do lon tire

2
2
6 X 6 10 + 1,64
= 0,90.
5
5
Ainsi, on a 90% de chances de trouver le diamtre moyen dun chantillon de 25 pices
entre 9,34mm et 10,66mm.


P 10 1,64

2.3
2.3.1

Distributions dchantillonnage des variances


Cas gnral

Nous avons dfini la moyenne empirique de lchantillon comme la moyenne arithmtique des variables alatoires Xi . Introduisons de la mme faon la variance empirique de
lchantillon, note S 2 .
Dfinition 4
La statistique

n 
2
1X
S =
Xi X
n i=1
2

sappelle variance empirique de lchantillon.


On utilise souvent la formule suivante, qui se dmontre simplement en dveloppant la
formule de dfinition de S 2 .
Proposition 2
On a
S2 =

n
1X
2
Xi2 X .
n i=1

On retrouve ainsi que la variance de lchantillon est gale la moyenne des carrs
moins le carr de la moyenne.
Thorme 3
Si V (X) = 2 , alors


E S2 =

n1 2
.
n

Preuve. Notons = E (X). Daprs la proposition 2 et par linarit de lesprance, on a :




E S2

Institut Mines-Tlcom

n
n


 2
1X
1X
2
=E
Xi2 X =
E Xi2 E X .
n i=1
n i=1

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

Or, daprs la formule usuelle de calcul de la variance, on a




E Xi2 = V (Xi ) + E (Xi )2 = 2 + 2 .


De la mme faon, daprs le thorme 1 :


E X

=V X +E X

2

2
+ 2 .
n

On obtient donc finalement




E S

n 

1X
2
+ 2
=
2 + 2
n i=1
n

2
n1 2
= +
2 =
.
n
n
2


Remarque 2
On dmontre que


V S2 =


i
n1h
2
(n

1)

(n

3)
4
n3

o 4 = E (X )4 est le moment centr dordre 4 de X (sil existe).


la section 3.1, on dduira du thorme 3 et de la remarque 2 que S 2 est un estimateur
biais de 2 .
Le fait que S 2 ait une esprance qui nest pas gale S 2 est gnrateur dun biais,
qui peut tre corrig en multipliant S 2 par un facteur correcteur.
Dfinition 5
On appelle variance corrige de lchantillon la variable alatoire S 2 dfinie par
S 2 =

n 
n
2
1 X
n
n
1 X
2
Xi2
X .
S2 =
Xi X =
n1
n 1 i=1
n 1 i=1
n1

Daprs la linarit de lesprance, on constate alors que E (S 2 ) = 2 .


2.3.2

Loi du 2

Dans le cas o la variable alatoire parente X suit une loi normale, on peut prciser
la loi de probabilit de la variable alatoire S 2 . Avant cela, introduisons la loi du 2 .
Dfinition 6
On dit quune variable alatoire Z suit la loi du 2 (loi du chi-deux) degrs
de libert (o > 0) si elle admet pour densit de probabilit la fonction f suivante :

1
2/2 (/2)

f (t) =
0

t 2 1 e 2

si t > 0
si t 6 0.

Ce fait sera not Z 2 . Dans ce cas la variable alatoire Z admet une esprance et
E (Z) = .
10

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

Cette loi apparat frquemment comme celle dune somme de carrs de variables alatoires indpendantes suivant toutes la loi normale centre rduite. Cest lobjet de la
proposition suivante, dont la dmonstration consiste en un raisonnement par rcurrence
et produit de convolution.
Proposition 4
Soient Y1 , . . . ,Yn des variables alatoires indpendantes et suivant toutes la loi normale
centre rduite N (0,1). Alors la variable alatoire
Z = Y12 + . . . + Yn2
suit la loi du 2 n degrs de libert.
La loi du 2 est tabule
: si est fix et p [0,1], on peut lire dans les tables la valeur

2
2
p telle que P Z 6 p = p. Ce nombre 2p est le fractile dordre p de la loi 2 .
2.3.3

Intervalle de confiance pour la variance

On suppose nouveau que la variable alatoire X suit une loi normale N (, 2 ). On


a alors le thorme suivant, qui se dmontre laide du Thorme de Cochran.
Thorme 5
Si la variable alatoire X suit une loi normale de variance 2 , alors la variable alatoire
n S2
(n 1) S 2
Z= 2 =

2
suit la loi du 2 n 1 degrs de libert.
Soit un rel strictement positif, par exemple = 0,05 = 5%. Le nombre 1 sera
appel niveau de confiance.
Comme la variable alatoire Z suit la loi 2n1 , on peut dterminer les deux fractiles
2/2 et 21/2 tels que


P Z 6 2/2 =

et P Z > 21/2 =

.
2

Alors


P 2/2 6 Z 6 21/2 = 1 .
Or on a
2/2 6 Z 6 21/2 2/2 6
donc

n S2
n S2
n S2
2
2
6

6
1/2
2
21/2
2/2

n S2
n S2
P 2
6 2 6 2 = 1 .
1/2
/2
On a donc obtenu un intervalle de confiance alatoire pour 2 au niveau de confiance
1 :

2
2
n
S
n
S
.
,
IC1 ( 2 ) = 2
1/2 2/2
Institut Mines-Tlcom

11

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

Estimation

Nous abordons maintenant une problmatique importante en statistique : lestimation. partir de lobservation dun chantillon provenant dune loi inconnue, il sagit de
dterminer des caractristiques de cette loi.
Exemple 6
Le nombre de dfauts observs sur des vhicules en sortie dune ligne de production
suit une loi de Poisson de paramtre . partir dun chantillon de n observations on
veut dterminer une valeur approche fiable de .
En pratique, lestimation consiste dterminer des valeurs approches de paramtres
inconnus relatifs une population laide dchantillons. Les paramtres estimer sont
le plus souvent :
lesprance ,
une proportion p,
la variance 2 ,
un autre paramtre relatif une loi de probabilit.
On distingue deux types destimations :
lestimation ponctuelle qui consiste calculer, partir de lchantillon, une
valeur fiable reprsentant le paramtre inconnu ;
lestimation par intervalle de confiance qui consiste construire un intervalle
(une fourchette) contenant le paramtre inconnu avec un niveau de confiance
lev (par exemple 95%).
Mettre en place ces estimations ncessite un modle mathmatique : lestimateur.

3.1

Estimateurs

Soit X une variable alatoire dfinie sur une population et suivant une certaine loi
dont on cherche estimer un paramtre . On note X1 , . . . ,Xn un chantillon de X. On
rappelle quil sagit de variables alatoires i.i.d. (indpendantes et suivant la mme loi que
X).
Exemple 7
Si le paramtre estimer est = E (Xi ), il est naturel de sappuyer sur la moyenne
empirique de lchantillon
n
1X
X=
Xi
n i=1
pour obtenir une estimation de .
Daprs la loi faible des grands nombres, on sait que X converge en probabilit vers ,
cest--dire





> 0, P X > 0.
n+

On peut donc penser que, pour des grandes valeurs de n, la variable alatoire X prendra
trs probablement des valeurs proches de . On dit que X est un estimateur de .
Donnons la dfinition gnrale dun estimateur. Soit un paramtre de la loi de X, et
X1 , . . . ,Xn un chantillon de X.
12

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

Dfinition 7
b )
Une suite de variables alatoires (
n n>1 est un estimateur de si les deux conditions
suivantes sont remplies.
b est une fonction de X , . . . ,X :
(1) Pour tout n > 1, la variable alatoire
n
1
n
b = f (X , . . . ,X )

n
n
1
n

;
P

(2) la suite (n ) converge en probabilit vers : n , cest--dire




b > 0.
> 0, P
n
n+

En toute rigueur on devrait parler destimateur faiblement consistant de pour


indiquer que la convergence est une convergence en probablit vers . De plus, en pratique,
on oublie quun estimateur est une suite de variables alatoires et on dit simplement
b est un estimateur de .
que
n
Il est souvent difficile de prouver directement la convergence en probabilit, cest pourquoi on utilise en gnral la condition suffisante donne par le thorme 6 suivant.
Thorme 6
b , fonction de X , . . . ,X est tel que
Si
n
1
n


b
E
n
n+

b
et V
n 0
n+

b est un estimateur de .
alors
n

La dmonstration de ce lemme repose sur lingalit de Markov.


Lemme 7 (Ingalit de Markov)
Soit X une variable alatoire valeurs positives admettant une esprance. Alors
a > 0, P (X > a) 6

E (X)
.
a

Preuve. Soit a > 0. On dfinit une nouvelle variable alatoire Y par :

si X > a
Y =
0 si X < a.
Autrement dit, Y est la variable alatoire indicatrice de lvnement {X > a}, et suit
donc la loi de Bernoulli de paramtre p = P (Y = 1) = P (X > a).
Observons que par dfinition de Y et puisque X > 0, on a toujours
Y 6
donc

X
a

X
P (X > a) = p = E (Y ) 6 E
a


Institut Mines-Tlcom

E (X)
a
13

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation


Preuve [du thorme 6]. Soit > 0. On a, daprs lingalit de Markov applique la
h
i
b 2 :
variable alatoire
n
h

b > = P
P
n

avec

h

i2 

h

i2

b
b
=V
n + E n

> 2 6

2

i2 

2
b
b
=V
n + E n .

Par hypothse, ce majorant tend vers 0 lorsque n +, donc



b > 0,
P
n
n+

b .
cest--dire que
n
Reprenons lexemple de la moyenne empirique de lchantillon.

Exemple 8
n
1X
Xi vrifie
La variable alatoire X =
n i=1


E X = et V X =

2
n

donc remplit les conditions du thorme 6. Cest donc bien un estimateur de .


On peut constater sur cet exemple que le thorme 6 gnralise la loi faible des grands
nombres, qui traite du seul cas de X.
Exemple 9
Si, dans une production de pices en srie, on note p la proportion (inconnue) de pices
dfectueuses, cette proportion p sinterprte comme la probabilit qua une pice choisie
au hasard dtre dfectueuse.
Notons K le nombre de pices dfectueuses dans un chantillon de taille n. Alors
la variable alatoire F = Kn est un estimateur de p.
En effet, on sait que la variable alatoire K suit la loi binomiale B(n,p) et donc
E (K) = n p et V (K) = n p(1 p).
On en dduit que
E (F ) =

E (K)
V (K)
p(1 p)
= p et V (F ) =
=
0
n+
n
n2
n

et le thorme 6 sapplique.

3.2

Qualits dun estimateur

Le but de la thorie de lestimation est de dterminer le meilleur estimateur dun


paramtre . On sintresse donc la prcision dun estimateur.
14

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

b est
b , qui peut se
n fix, lerreur commise en estimant par un estimateur
n
n
dcomposer de la faon suivante :
h

b =
b E
b

n
n
n
h

i

b
+ E
n .

i

b E
b
b
Le premier terme
reprsente les fluctuations
n
n
h  de la
i variable alatoire n
b
autour de son esprance, tandis que lautre terme E
n reprsente une erreur
systmatique quon appelle le biais.

Dfinition 8
b un estimateur de .
Soit
n


b la quantit E
b
(1) On appelle biais de lestimateur
n
n .


b
b
(2) Si pour tout on a E
n = , on dit que n est un estimateur sans biais
de .

(3) Si on a, pour tout ,




b
lim E
n = ,

n+

b est asymptotiquement sans biais.


on dit que
n

Exemple 10
X est un estimateur sans biais de . On dit parfois que X est lestimateur classique
de .
Exemple 11
On a introduit la dfinition 4 la variance empirique de lchantillon :
S2 =

n 
2
1X
Xi X
n i=1

On a vu au thorme 3 et la remarque 2 que




E S2 =

n1 2

et V S 2 0.
n+

Ceci prouve que S 2 est un estimateur biais de 2 .


Ce biais se corrige comme on la vu la dfinition 5 en dfinissant la variance corrige
de lchantillon.
Exemple 12
S

n 
2
n
1 X
2
=
S =
Xi X
n1
n 1 i=1

est un estimateur sans biais de 2 .


En effet, daprs les proprits de lesprance et la variance :


E S

 
n
n
n1 2
=
E S2 =

= 2
n1
n1
n

et V S

2
 
n
=
V S 2 0.
n
1 }
|
{z

Institut Mines-Tlcom

15

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

Il est souvent prfrable dutiliser S 2 pour estimer 2 , notamment pour de petits


chantillons, mme sil possde une variance lgrement plus leve que S 2 .
Remarque 3
Il serait faux de dire que S est un estimateur sans biais de . On sait cependant que
S possde un lger biais. Plus prcisment,
s

E (S ) =

2 (n/2)


n 1 n1 n+
2

lorsque X suit une loi normale de variance 2 .


La prcision dun estimateur est gnralement donne laide de lerreur quadratique
moyenne.
Dfinition 9
b un estimateur dun paramtre . On appelle erreur quadratique moyenne
Soit
n
b la quantit
de
n




b
EQM
n = E

i2

Thorme 8
Lerreur quadratique moyenne dun estimateur est gale la somme de sa variance et
du carr du biais :
2
b
b
b
EQM
n = V n + E n .

b . Par dfinition de lerreur quadratique moyenne


Preuve. Notons le biais b() = E
n
et par linarit de lesprance :

EQM

=E
=E
=E

h

h

h

i2 

=E



+ b() + 2 b()

i2 

{z
bn)
=V (


b E
b

n
n

i2

h

+ b()

i2 


i

b E
b
+b()2 + 2 b() E
n
n
|

{z

=0


}

2
b
=V
n + b() .


Par consquent, parmi les estimateurs sans biais de , les plus prcis sont ceux de
variance minimale.
De faon gnrale, on cherche minimiser lerreur quadratique moyenne dun estimateur. Cependant, sous certaines hypothses, lingalit de Cramr-Rao,
que nous nabor 
b
derons pas dans ce cours, fournit une borne infrieure EQM n . Cette ingalit est
dveloppe dans de nombreux ouvrages de statistique.
16

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

En pratique, on se contente souvent de rechercher un estimateur sans biais de variance


minimale. Toutefois, dans certains cas particuliers, on peut trouver des estimateurs biaiss
plus prcis que le meilleur estimateur sans biais.

3.3

Mthode du maximum de vraisemblance

Introduite en 1912 par Fisher, la mthode du maximum de vraisemblance permet


en gnral dobtenir de bons estimateurs. Intuitivement, elle consiste choisir comme
estimateur la valeur qui maximise la probabilit davoir obtenu lchantillon observ.
Pour cela, introduisons la fonction de vraisemblance, gnralement note L 2 .
Considrons une variable alatoire X dfinie sur , et x = (x1 , . . . ,xn ) des observations
issues dun chantillon (X1 , . . . ,Xn ).
Dans un premier temps, supposons que X suive une loi discrte dpendant dun paramtre que lon souhaite estimer et posons, pour tout t X(),
f (t,) = P (X = t).
Par indpendance et quidistribution des variables alatoires Xi constituant lchantillon,
on a :
P ({X1 = x1 } {X2 = x2 } {Xn = xn }) = f (x1 ,) f (x2 ,) f (xn ,).
On dfinit alors la fonction de vraisemblance, note L, par
L(x,) =

n
Y

f (xi ,)

i=1

Supposons maintenant que X admette une densit de probabilit t 7 f (t,) continue


et dpendant dun paramtre que lon souhaite estimer. On ne peut plus procder comme
dans le cas discret puisquici
P ({X1 = x1 } {X2 = x2 } {Xn = xn }) = 0.
Pour > 0, considrons donc lvnement
D = {X1 [x1 ,x1 + ]} {Xn [xn ,xn + ]}.
On a, par indpendance des variables Xi :
P (D ) =

n
Y

P (Xi [xi ,xi + ]) =

i=1

n Z xi +
Y
i=1

f (t,) dt

xi

Par continuit de la densit, on a


1 Z xi +
f (t,) dt f (xi )
0
2 xi
do
P (D ) (2)n f (x1 ,) f (xn ,).
0

2. Likelihood en anglais

Institut Mines-Tlcom

17

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

Cet quivalent, pour fix assez petit, nous conduit donc dfinir la fonction de
vraisemblance comme
n
L(x,) =

f (xi ,).

i=1

En ralit, on utilise cette expression de la fonction de vraisemblance mme lorsque la


densit de probabilit prsente des discontinuits (par exemple pour la loi uniforme ou la
loi exponentielle).
Dfinition 10
Soit x = (x1 , . . . ,xn ) des observations issues dun chantillon (X1 , . . . ,Xn ). On suppose
que la loi de probabilit des variables i.i.d. Xi est discrte ou continue, connue et dpend
dun paramtre estimer. On dfinit la fonction de vraisemblance L de la faon
suivante :
(1) Si X est discrte,
L(x,) =

n
Y

P (Xi = xi )

i=1

(2) Si X est une variable alatoire continue de densit de probabilit t 7 f (t,) :


L(x,) =

n
Y

f (xi ,).

i=1

Lorsque la fonction 7 L(x,) admet un unique maximum atteint en une valeur


b = gn (x1 , . . . ,xn )
on utilise cette valeur b pour construire un estimateur de , en posant
b = g (X , . . . ,X ).

n
n
1
n
b est lestimateur de obtenu par la mthode du maximum de vraiOn dit alors que
n
semblance.
En pratique, la recherche dun tel maximum se fait en drivant par rapport . tant
donne lexpression de L(x,) sous forme dun produit, il est souvent plus commode de
passer au logarithme et donc de chercher maximiser ln L(x,). Le logarithme tant une
fonction strictement croissante, L est maximal si et seulement si ln L lest.

Exemple 13
Que donne la mthode du maximum de vraisemblance pour le paramtre dune loi
de Poisson ?
La loi de Poisson tant une loi discrte, la fonction de vraisemblance scrit
L(x1 , . . . ,xn ,) =

n
Y

P (X = xi ) =

i=1

n
Y
i=1

n
Y
xi
xi
= en
xi !
i=1 xi !

Passons au logarithme :
n
X

xi
ln L(x1 , . . . ,xn ,) = n +
ln
xi !
i=1
18

= n + (ln )

n
X
i=1

xi

n
X

ln(xi !).

i=1

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

Drivons par rapport :


n
L
1X
(x1 , . . . ,xn ,) = n +
xi .

i=1

Le maximum obtenu pour cette fonction est


b=

n
1X
xi
n i=1

n
1X
Xi .
n i=1
Ce rsultat nest gure surprenant puisque, pour une variable alatoire X suivant la
loi de Poisson de paramtre , on a E (X) = : on retrouve donc lestimateur classique
de lesprance.

et donne donc pour estimateur de la variable alatoire X =

Exemple 14
Que donne la mthode du maximum de vraisemblance pour lcart-type dune loi de
Gauss desprance suppose connue ?
Ici il sagit dune variable alatoire continue dont la densit de probabilit est la fonction t 7 f (t,) dfinie par
1
(t )2
f (t,) = exp
2 2
2

et donc la fonction de vraisemblance vaut


L(x1 , . . . ,xn ,) =

n
Y
i=1

"

(x )2
1
exp i 2
2
2

!#

n
1 X
= (2)n/2 n exp 2
(xi )2 .
2 i=1

"

Passons au logarithme :
n
vn
ln [L(x1 , . . . ,xn ,)] = ln(2) n ln n 2
2
2
n
1X
(xi )2 . Drivons maintenant par rapport :
o on a not vn =
n i=1

L
n n vn 2
n vn
(x1 , . . . ,xn ,) =
=
1 .

2 3
2

Lunique maximum est donc atteint pour b = vn . Ainsi lestimateur de obtenu par
la mthode du maximum de vraisemblance est


b =

v
u
n
u1 X
t
(X

n i=1

)2 .

On retrouve une formule similaire la racine carre de lestimateur classique S 2 de la


variance. Toutefois la diffrence de ce dernier, lesprance avait t suppose connue.
Institut Mines-Tlcom

19

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

Intervalles de confiance

Nous avons dj tudi sur des exemples de la section 2 la construction dintervalles


de confiance. Plutt que de calculer une estimation ponctuelle du paramtre inconnu,
on essaie de lencadrer avec une forte probabilit entre des bornes calcules partir de
lchantillon. On parle alors destimation par intervalle de confiance.
Exemple 15
Soit p le pourcentage de voix obtenu par un candidat lors dune lection. Alors que
trs peu de bulletins ont t dpouills, on souhaite obtenir une fourchette 95%
pour p, cest--dire un intervalle ayant 95% de chances de contenir p.

4.1

Gnralits

Soit un paramtre inconnu. Pour construire un intervalle de confiance pour , consib . Choisissons demble un niveau de confiance, not
drons un estimateur de , not
n
1 , par exemple 1 = 0,95. Ici le nombre [0,1] sappelle le risque.
4.1.1

partir dun intervalle de probabilit

tant donne une valeur 0 de , supposons que lon puisse dterminer un intervalle
de probabilit de la forme


b 6 t ( ) = 1 .
P t1 (0 ) 6
n
2 0

Les bornes de cet intervalle dpendent de 0 et peuvent tre calcules par exemple si lon
b . En faisant varier , on obtient ainsi deux fonctions
connat la loi de probabilit de
n
0
7 t1 () et 7 t2 ()
qui reprsentent les bornes de lintervalle de probabilit.
On peut traduire graphiquement cette mthode dans un plan o lon trace les courbes
reprsentatives de ces fonctions, comme illustr la figure 1. Sur cette reprsentation,
lintervalle de probabilit correspondant une valeur 0 du paramtre se lit sur la
verticale.
b , on dfinit deux rels a et b par les relations
Si b est une valeur prise par lestimateur
n
1 b
b
a = t1
2 () et b = t1 (),

antcdents de b respectivement par les fonctions t2 et t1 . Alors lintervalle [a,b] est un


intervalle de confiance rel pour au niveau de confiance 1 obtenu partir de lestib
mation ponctuelle .
4.1.2

laide de statistiques

En pratique, on recherche deux statistiques T1 = f1 (X1 , . . . ,Xn ) et T2 = f2 (X1 , . . . ,Xn )


telles que
P (T1 6 6 T2 ) = 1 .
Dans ce cas, lintervalle [T1 ,T2 ] est un intervalle de confiance alatoire pour au risque
(ou au niveau de confiance 1 ) Il sera not IC1 ().
20

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

t2 (0 )
b

t1 (0 )

Figure 1 Lecture graphique dun intervalle de confiance


Supposons qu la suite du prlvement de lchantillon, la variable alatoire T1 prenne
la valeur tb1 et que T2 prenne la valeur tb2 . Il est alors vraisemblable que lon ait lencadrement
tb1 6 6 tb2 .
Alors [tb1 ,tb2 ] est un intervalle de confiance rel pour au risque (ou au niveau de confiance
1 ). On le notera Ic1 ().
4.1.3

Intervalle bilatral vs intervalle unilatral

La plupart du temps, les statistiques T1 et T2 sont obtenues partir de la loi de


b du paramtre
probabilit dune variable alatoire Z faisant intervenir un estimateur
n
. On identifie alors des valeurs de cette variable alatoire Z comme trs improbables,
aux extrmits de lintervalle des valeurs possibles de Z comme illustr la figure 2. Les

/2

/2

Figure 2 Rpartition du risque pour un intervalle de confiance bilatral


seuils ainsi dtermins permettent alors, en travaillant lencadrement, de dterminer
Institut Mines-Tlcom

21

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

lintervalle de confiance. Eu gard la rpartition du risque aux deux extrmits, un tel


intervalle de confiance pour est qualifi de bilatral
Dans certaines situations bien spcifiques, il peut toutefois tre ncessaire de dterminer un intervalle de confiance unilatral, cest--dire un intervalle pour lequel la totalit
du risque est concentre lune des extrmits de lintervalle des valeurs de Z, comme
illustr la figure 3. La dmarche aboutit alors un intervalle de confiance pour le para-

Figure 3 Rpartition du risque pour un intervalle de confiance unilatral


mtre qui peut tre du type ] ,t2 ] ou [t1 , + [.
En labsence de motivation particulire, on choisit la plupart du temps de construire
un intervalle bilatral. Le choix dun intervalle unilatral peut se justifier par des considrations telles que la matrise dun risque.
Ainsi, dans le cas de lexemple 15, si lide est de mettre en vidence quun candidat
une lection a une forte probabilit dtre lu, on cherchera construire un intervalle de
confiance unilatral droite pour la proportion p inconnue au moment du sondage
de voix quil obtiendra.

4.2

Intervalle de confiance pour lesprance dune loi normale

Si la variable alatoire X suit la loi normale desprance et de variance 2 , on a vu


que la variable alatoire
n
1X
X=
Xi ,
n i=1
qui est un estimateur de , suit encore une loi normale, cette fois desprance et de
2
variance n .
4.2.1

Cas o la variance est connue

Supposons que lcart-type soit connu. On sait que la variable alatoire


U=

/ n

suit la loi normale centre rduite N (0,1).


22

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

laide de tables statistiques, on peut obtenir une valeur u/2 telle que


P U 6 u/2 = 1

ce qui entrane que P u/2 6 U 6 u/2 = 1

(cf. figure 4). Par exemple, si 1 = 0,95 on a u/2 = 1,96.

/2

/2

u/2

u/2

Figure 4 Dtermination des seuils pour lintervalle de confiance avec la loi normale
Or, on a facilement en extrayant :
u/2 6

6 u/2 X u/2 6 6 X + u/2 .


/ n
n
n

On en dduit donc un intervalle de confiance alatoire pour au niveau de confiance


1 :
"
#

IC1 () = X u/2 ,X + u/2


n
n
Si suite au prlvement dun chantillon la variable alatoire X prend la valeur x, on
obtient alors un intervalle de confiance rel pour au niveau de confiance 1 :
"

Ic1 () = x u/2 ,x + u/2


n
n

Exemple 16
On a mesur la capacit, en microfarad, de 25 condensateurs et obtenu une moyenne
x = 2,09. On suppose que la capacit dun condensateur est une variable alatoire
suivant une loi normale desprance et dcart-type = 0,08. On veut obtenir un
intervalle de confiance pour au seuil de 1%.
Pour = 1%, Les tables de la loi normale permettent de dterminer
u/2 = u0,005 = 1 (0,995) = 2,5758
Institut Mines-Tlcom

23

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

(o dsigne la fonction de rpartition de N (0,1)).


Les calculs prcdents permettent donc de donner un intervalle de confiance rel au
niveau de confiance 99% :
#

"

2,5758 0,08
2,5758 0,08

; 2,09 +
= [2.048; 2,132].
Ic0,99 () = 2,09
25
25
Pour un niveau de confiance de 95%, on aurait eu u/2 = 1,96 et donc obtenu pour
intervalle de confiance
"

1,96 0,08
1,96 0,08

Ic0,95 () = 2,09
; 2,09 +
= [2,058; 2,122].
25
25
Il est logique que dans le second cas la longueur de lintervalle soit plus petite que
dans le premier ; en effet la confiance est plus faible donc le risque plus lev.
4.2.2

Cas o la variance est inconnue

Dans le cas o la variance est inconnue, on utilise la loi de Student, introduite par le
statisticien anglais W.S. Gosset (1876-1937). Ce dernier publia en 1908 un article dans
lequel il dcrivit la fonction de densit de probabilit de la variable alatoire dfini par la
diffrence entre la moyenne dun chantillon et la moyenne de la population divise par
lcart-type de lchantillon.
U
Fisher proposa en 1912 dintroduire la variable alatoire T = q
o U suit la loi
Z/
N (0,1) et Z la loi du 2 degrs de libert.
La valeur t prise par la variable T est parfois appele t de Student.
Dfinition 11
Une variable alatoire T suit la loi de Student degrs de libert si elle admet
pour densit de probabilit la fonction f dfinie par


+1
1 2
 
t R, f (t) =

2

t2
1+

!(+1)/2

On notera T () la loi de Student degrs de libert.


Remarques 4
1. Si = 1, il sagit de la loi de Cauchy, dont une densit de probabilit est
f (t) =

1
.
(1 + t2 )

2. Pour de grandes valeurs de ( > 160), on peut considrer avec une bonne
qualit dapproximation que T suit la loi normale centre rduite N (0,1).
Comme on peut le constater sur la figure 5, les courbes sont symtriques par rapport
laxe des ordonnes et ressemblent des courbes Gaussiennes plus vases. On admet
le thorme suivant.
24

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

=1
=2
=5
= 10
= 50

Figure 5 Allure de la densit de la loi de Student


Thorme 9
Soit U une variable alatoire suivant la loi N (0,1) et Z une variable alatoire suivant,
indpendamment de U , une loi du 2 degrs de libert (avec N ).
U
suit la loi de Student degrs de libert.
Alors la variable alatoire T = q
Z/
Considrons la variable alatoire U =

X
. On sait que U suit la loi N (0,1).
/ n

n 
2
1X
Xi X la variance empirique de lchann i=1
n S2
tillon, on a vu au thorme 5 que la variable alatoire Z = 2 suivait la loi du 2

= n 1 degrs de libert.
Le thorme 9 sapplique donc la variable alatoire

Par ailleurs, en notant toujours S 2 =

T =

/ n

n S2
2 (n1)

.
S/ n 1

On a donc dmontr le rsultat suivant.


Corollaire 10
Si X est une variable alatoire qui suit la loi normale N (, 2 ), alors la variable
alatoire
X
T =
S/ n 1
suit la loi de Student T (n 1).
Lintrt du corollaire 10 est que la variable alatoire T ne dpend pas de . Cela va
Institut Mines-Tlcom

25

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

nous permettre de construire un intervalle de confiance pour dans le cas o lcart-type


est inconnu.
Comme prcdemment, on dtermine laide dun logiciel ou de tables statistiques la
valeur t/2 telle que


P T 6 t/2 = 1

ce qui entrane P t/2 6 T 6 t/2 = 1 .

Par exemple, si = 5% et n = 10, on a t/2 = 2,262.

/2

/2

t/2

t/2

Figure 6 Dtermination des seuils pour lintervalle de confiance avec la loi de Student
De cet encadrement, on peut facilement extraire :
X

6 t/2
S/ n 1
S
S
X t/2
6 6 X + t/2
.
n1
n1

t/2 6 T 6 t/2 t/2 6

On obtient ainsi un intervalle de confiance alatoire pour au niveau de confiance


1 :
"
#
S
S
,X + t/2
.
IC1 () = X t/2
n1
n1
Suite au prlvement de lchantillon, la variable alatoire X prend une valeur x et la
variable S une valeur s. Alors on obtient lintervalle de confiance rel pour au niveau
de confiance 1 :
"

s
s
Ic1 () = x t/2
,x + t/2
.
n1
n1
Remarque 5
Si n est assez grand en pratique n > 30 le thorme central limite permet
X
suit approximativement la loi normale N (0,1).
daffirmer que la variable alatoire /
n
Par consquent, le corollaire 10 subsiste et les intervalles de confiance demeurent
valables mme si X ne suit pas une loi normale.
26

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

Exemple 17
La masse dune pice en cuivre produite en srie suit la loi normale desprance et
de variance 2 inconnus. Un chantillon de n = 15 pices a donn les rsultats suivants
(en grammes) :
x = 10,9 et s = 1,16.
X

Daprs les rsultats prcdents, la variable alatoire T = S/


suit la loi de Student
14
T (14). On dtermine laide dun logiciel ou une table statistique la valeur t/2 telle que

P t/2 6 T 6 t/2 = 1 avec = 10% t/2 = 1,761.


On en dduit lintervalle de confiance rel pour au niveau de confiance 1 = 90% :
#

"

1,16
1,16
= [10,35; 11,45].
Ic0,9 () = 10,9 1,761 ; 10,9 + 1,761
14
14

4.3

Intervalle de confiance pour la variance 2 dune loi normale

Supposons que la variable alatoire X suive la loi N (, 2 ), les valeurs de et tant


toutes deux inconnues. On sait que la variance empirique de lchantillon
S2 =

n 
2
1X
Xi X
n i=1

est un estimateur (biais) de 2 et on a admis au thorme 5 que la variable alatoire


n S2
Z = 2 suit la loi du 2 = n 1 degrs de libert.

/2

/2

21

22

Figure 7 Dtermination des seuils pour lintervalle de confiance avec la loi du 2


Pour dterminer un intervalle de confiance au seul pour 2 , considrons les rels 21
et 22 tels que





P Z 6 21 =
et P Z 6 22 = 1 .
2
2
Institut Mines-Tlcom

27

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

Alors, comme illustr la figure 7, ce sont les bornes de lintervalle de probabilit pour
Z:
!
2
n
S
P 21 6 2 6 22 = 1 .

On peut alors extraire un encadrement de 2 :


21 6

n S2
n S2
n S2
2
2
6

6
.
6

2
2
22
21

Oa donc trouv un intervalle de confiance alatoire pour 2 au niveau de confiance 1 :


"

n S2 n S2
IC1 ( 2 ) =
,
.
22 21
Exemple 18
Dans le cadre dun concours, un correcteur a corrig n = 30 copies et observ sur
cet chantillon une variance s2 = 12 des notes obtenues par les candidats. Comment
dterminer un intervalle de confiance pour la variance 2 des notes de lensemble des
copies ?
On admet que les notes suivent une loi normale. Si on se fixe un niveau de confiance
1 = 90%, les tables statistiques permettent de dterminer les valeurs
21 = 17,71 et 22 = 42,56.
Lintervalle de confiance rel pour 2 obtenu est donc
"

30 12 30 12
;
= [8,45; 20,33].
Ic0,9 ( ) =
42,56
17,71
2

On peut aussi en dduire un intervalle de confiance rel pour au niveau de confiance


90% :
Ic0,9 () = [2,9; 4,6].
Remarque 6
cause notamment de lasymtrie de la densit de 2 et contrairement aux intervalles
de confiance pour la moyenne obtenus la section 4.2, lintervalle de confiance obtenu
pour 2 nest pas centr en lestimation ponctuelle s2 .

4.4

Intervalle de confiance pour une proportion

On considre une population infinie, ou finie condition que le tirage seffectue avec
remise, dans laquelle une proportion p (inconnue) des individus possde un certain caractre. On souhaite dterminer un intervalle de confiance pour p partir de la frquence f
observe de ce caractre dans un chantillon de taille n.
Exemple 19
Une entreprise fabrique des cartes lectroniques. On sintresse la proportion p de
cartes non conformes produites pendant une certaine priode.
28

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

La proportion p peut sinterprter comme la probabilit quun individu choisi au hasard


dans la population ait le caractre tudi.
tant donn un chantillon de taille n issu de la population tudie, notons K le
nombre dindividus ayant le caractre tudi dans lchantillon (par exemple une nonconformit). Alors K est une variable alatoire qui suit la loi binomiale B(n,p).
Comme on la vu la section 3.1, la variable alatoire F = Kn est telle que
E (F ) = p et V (F ) =

p(1 p)
0
n+
n

ce qui montre que F est un estimateur (non biais) de p.


La frquence observe du caractre dans lchantillon f est ainsi la valeur prise par F ,
et constitue donc une estimation ponctuelle de p.
Pour obtenir un intervalle de confiance pour p, on procde en gnral de la faon
suivante :
si n est petit (en pratique 5 6 n 6 100), on utilise la loi binomiale, et plus
prcisment les abaques des tables statistiques de cette loi ;
si n est grand et p (ou f ) pas trop petit (en pratique n > 100 et n f (1 f ) > 18),
on utilise une approximation par la loi normale.
4.4.1

Utilisation de la loi binomiale

Notons 1 le niveau de confiance souhait pour lintervalle de confiance. On va


dcliner dans le cas de la proportion p la mthode expose la section 4.1.1. Lune des
diffrences est quici la loi de probabilit est discrte.
Pour tout rel p ]0,1[, on dtermine donc deux nombres entiers c1 (p) et c2 (p) tels que
P (K 6 c1 (p)) =

et P (K > c2 (p)) =

,
2

cest--dire
c1 (p)

X
j=0

n j

p (1 p)nj =
j
2

et

n
X
j=c2 (p)

n j

p (1 p)nj =
j
2

Il est alors possible de construire le graphe de la figure 8 en portant p en abscisse et


et c2n(p) en ordonne.
Sur ce graphique, la droite horizontale dordonne f = nk permet de dterminer lintervalle de confiance rel [p1 ,p2 ] au niveau de confiance 1 .
c1 (p)
n

Remarque
Il sagit dun intervalle de confiance bilatral, cest--dire que le risque est symtriquement rparti aux deux extrmits de lintervalle.
En pratique, on procde souvent par lecture dabaques de tables statistiques.
4.4.2

Approximation par la loi normale

Si n > 100 et n f (1 f ) > 18, on peut affirmer avec une erreur dapproximation
acceptable que la variable alatoire K suit la loi normale desprance n,p et de variance
Institut Mines-Tlcom

29

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

c1 (p)
n

f=

k
n

c2 (p)
n

p1

p2

Figure 8 Intervalle de probabilit pour la loi B(n,p)


n p(1p), consquence du thorme de Moivre-Laplace. Alors, la variable alatoire F =
suit la loi normale desprance p et de variance p(1p)
, et la variable alatoire
n

K
n

F p
U=q

p(1p)
n

suit la loi normale centre rduite N (0,1).


Fixons ]0,1[. On peut alors,
 laide des tables de la loi normale ou dun logiciel,
dterminer le rel u/2 tel que P U 6 u/2 = 2 . On a alors


P u/2 6 U 6 u/2 = 1 .
On peut alors en dduire lintervalle de probabilit symtrique pour F :
s

p u/2

p(1 p)
p(1 p)
6 F 6 p + u/2
.
n
n

Les bornes de lintervalle de probabilit ainsi obtenu sont les solutions de lquation en y
suivante :
p(1 p)
(y p)2 = u2/2
.
n
30

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

p1

p2

Figure 9 Intervalle de probabilit obtenu par le thorme de Moivre-Laplace

Il sagit de lquation dune ellipse passant par lorigine et par le point de coordonnes
(1,1) dans le plan (p,y), comme lillustre la figure 9. tant donne une valeur y = f
observe sur un chantillon donn, les bornes de lintervalle de confiance sobtiennent en
rsolvant en p lquation suivante :
(f p)2 = u2/2

p(1 p)
n

(E).

On obtient
(E) p

u2/2
1+
n

p =

2f +

u2/2
n

u2/2
p 2f +
n
r

u4/2
n2

+ 4f

2 1+

u2/2

+ f2 = 0

u2/2
n

4 f2

u2/2
n

Cette formule tant un peu encombrante, on considre en gnral une approximation


de ces solutions laide dun dveloppement limit au premier ordre en n1 . Ainsi, le premier
terme donne :
2f +


2 1+
Institut Mines-Tlcom

u2/2
u2/2

1
.
n

 

=f +o

31

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

Le second terme se rduit alors


v
u 4
u u/2
t

+ 4 f n u2/2 4 f 2 n u2/2

4n2

8 u2/2 n

4 u4/2

f n u2/2 f 2 n u2/2
n2
s

= u/2

1
n

 

+o

f (1 f )
1
+o
.
n
n
 

On obtient ainsi le thorme suivant.


Thorme 11
Si n > 100 et n f (1 f ) > 18, lintervalle de confiance rel pour p au niveau de
confiance 1 est

Ic1 (p) = f u/2

f (1 f )
f (1 f )
,f + u/2
.
n
n

Exemple 20
On souhaite estimer la proportion p de cyclistes parisiens portant un casque. Sur un
chantillon de 400 cyclistes, on a observ une proportion f = 36%. On souhaite un
intervalle de confiance pour p au niveau de confiance 95%.
On a n f (1 f ) = 92,16 > 18, lapproximation par la loi normale est donc lgitime.
Le thorme 11 donne donc lintervalle de confiance

0,36 0,64
0,36 0,64
; 0,36 + 1,96
= [0,31,0,41].
Ic0,95 (p) = 0,36 1,96
400
400
Il est donc fort probable que la proportion cherche soit comprise entre 31% et 41%.

Contrle statistique

La qualit est au cur des proccupations de lentreprise. Elle est devenue un pointcl de leur comptitivit. Pour un constructeur automobile, par exemple, il est vital de
sassurer que les vhicules livrs sont conformes aux attentes des clients.
Pour matriser un processus de production, les entreprises mettent en place des mthodes statistiques permettant de crer et de fabriquer des produits de qualit. Dans le
cas de fabrication en moyennes et grandes sries, lutilisation de techniques statistiques
permet notamment dviter le contrle de toutes les units produites (contrle 100%)
et de prvenir les effets de drglages au lieu de les subir. Lensemble de ces mthodes et
actions permettant dvaluer de faon statistique les paramtres dun processus de production sappelle la matrise statistique des processus (MSP) ou, en Anglais, statistical
process control (SPC).
Dans cette section, nous allons prsenter une mthode statistique de contrle largement
utilise dans lIndustrie. Il sagit des cartes de contrle, ou cartes de matrise (en
Anglais : control charts).
32

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

5.1

Statistique pour ingnieur

Principe des cartes de contrle

Les cartes de contrle ont t introduites en 1931 par Walter Shewhart 3 pour amliorer
la qualit de la production au sein de lusine Western Electric Chicago. Elles se sont
largement dveloppes en Europe depuis cette date grce la mise en place de normes
qualit (ISO 9000 notamment). Elles sappuient sur la thorie de lchantillonnage et de
lestimation.
Une carte de contrle est un graphique permettant de suivre lvolution dun processus
de production et de savoir si le processus a driv, auquel cas on dit quil est hors
contrle.

5.2

Carte de contrle p

Exemple 21
Dans une ligne de production de semi-conducteurs, on considre quune fabrication de
N units contient une proportion p de pices non conformes. Comme p est en gnral
inconnu, la premire tape consiste lestimer laide de plusieurs chantillons de taille
n suffisante. On obtient ainsi une valeur p0 que lon considre comme une estimation
ponctuelle de p et que lon dsigne parfois comme la valeur cible.
Si K est le nombre de pices non conformes observs dans un chantillon de taille n,
nous avons vu que K est variable alatoire qui suit la loi binomiale B(n,p), desprance np
et de variance n p(1 p), que nous pouvons estimer respectivement par n p0 et n p0 (1 p0 ).
Si on est dans les conditions dapplication du thorme de Moivre-Laplace (en pratique
n p0 (1 p0 ) > 18), nous pouvons considrer que K suit approximativement la loi normale
N (n p0 ,n p0 (1 p0 )). Alors, la variable alatoire
U=q

K n p0
n p0 (1 p0 )

suit approximativement la loi normale centre rduite N (0,1).


Les tables statistiques permettent dcrire P (3 6 U 6 3) = 0,997, cest--dire

p0 (1 p0 )
K
p0 (1 p0 )
6
6 p0 + 3
= 0,997.
P p0 3
n
n
n
On obtient ainsi un intervalle de probabilit 0,997 pour la variable alatoire Kn , qui
reprsente la proportion dunits non conformes observe dans lchantillon.
On peut donc considrer quil est trs peu probable que la proportion dunits non
conformes observe dans un chantillon de taille n nappartienne pas lintervalle

p0 (1 p0 )
p0 (1 p0 )
p0 3
,p0 + 3
.
n
n
Si cest nanmoins le cas, on considrera que le processus est hors contrle.
3. physicien et statisticien amricain, 18911967

Institut Mines-Tlcom

33

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

La carte de contrle p est un diagramme centr sur p0 (proportion estime dunits


non conformes) et born par les limites de contrle
s

Lci (p) = p0 3
s

Lcs (p) = p0 + 3

p0 (1 p0 )
n

(limite infrieure)

p0 (1 p0 )
n

(limite suprieure).

Ceci ncessite bien sr de supposer que la taille n des chantillons prlevs reste constante.
On reporte en ordonne les proportions kni dunits non conformes trouves dans les chantillons successifs. On obtient alors le graphique de la figure 10.

Lcs (p) = 6,63%

cible p0 = 4%

Lci (p) = 1,37%

Figure 10 Exemple de carte de contrle p avec une cible p0 = 4% et un chantillon de


taille n = 500
Sur cette figure 10, on observe notamment que le dernier chantillon est au-del de la
limite de contrle suprieure, donc que le processus de production est hors contrle.
Ltablissement de ce type de carte de contrle peut parfois tre dlicat car lutilisation
de la loi normale pour de petites valeurs de p ncessite des chantillons de taille importante,
donc gnralement des contrles automatiss. Pour des petites valeurs de p, il est parfois
plus judicieux dapprocher la loi binomiale par la loi de Poisson de paramtre np.
Parfois il nest pas possible dassurer une taille dchantillon constante. Dans ce cas,
on peut tre amen faire ajuster les limites de contrle dynamiquement.

5.3

Cartes de contrle aux mesures

Le principe du contrle statistique aux mesure consiste, aprs avoir tabli une rfrence
partir dun nombre suffisant de pices (suprieur 100) pendant une priode stable de
fabrication, prlever rgulirement des chantillons de taille n constante, et comparer
leurs moyennes et carts-types la moyenne et lcart-type de rfrence.
Prenons lexemple dune fabrication de mdicaments.
34

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

Exemple 22
Une caractristique importante lors de la fabrication de mdicaments est la masse, qui
est une variable alatoire note X, dun comprim. Il nest videmment pas possible
de vrifier la masse de chaque comprim produit.
Si le processus de production est bien matris, nous admettons que X suit la loi
normale N (, 2 ) avec = 63 mg et = 0,1 mg.
Afin de vrifier que le processus est sous contrle, on met en place, en sappuyant sur
les moyennes x et carts-types s des chantillons prlevs, deux cartes de contrle :
la carte de la moyenne (cf. figure 11) surveille le rglage du processus de production. Si les points sont tous situs lintrieur des limites de contrle, on ne
peut pas conclure un drglage. Par contre, si un point sort des limites on a une
forte probabilit dun dcentrage, quil faut corriger par un rglage.
La carte de lcart-type (cf. figure 12) surveille la dispersion du processus de
production. Si un point se situe au-del de la limite suprieure de contrle, cela
signifie que la dispersion du processus de production augmente. On arrte alors la
ligne de production et on recherche lorigine de la dtrioration de la qualit de la
production.
Lorsquon analyse des cartes de contrle, on commence gnralement par la carte de
surveillance de lcart-type.
5.3.1

Limites de contrle pour la carte de lcart-type

On fait lhypothse que le processus de production est bien matris et donc que la
variable alatoire X observe (par exemple la cote ou la masse dune pice fabrique en
srie) suit la loi normale desprance et de variance 2 .
2
On rappelle quau terme du thorme 5, la variable alatoire Z = nS2 suit la loi du
2 = n 1 degrs de libert, S 2 dsignant la variance empirique de lchantillon. Soit
> 0 fix. En exploitant la table des fractiles de la loi du 2 , on peut donc dterminer
deux nombres 2/2 et 21/2 tels quon ait lintervalle de probabilit pour Z 1 :
s


2/2

6Z6

21/2

= 1 soit

2/2
n

6S6

21/2
n

On en dduit la proposition suivante.


Proposition 12
Au risque de se tromper, lcart-type de lchantillon doit tre compris entre les
limites de contrle infrieure Lci () et suprieure Lcs () suivantes :
s

Lci () =

2/2
n

Lcs () =

21/2
n

Reprenons la situation lexemple 22. Si on choisit = 0,1%, par lecture de tables, on


obtient
2/2 = 0,972 et 21/2 = 29,666.
Alors, avec des chantillons de taille n = 10, on obtient Lci () = 0,031 mg et Lcs () =
0,172 mg. Si tous les chantillons prlevs ont un cart-type compris entre ces deux valeurs,
Institut Mines-Tlcom

35

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

Lcs () = 63,095 mg

= 63 mg

Lci () = 62,905 mg

Figure 11 Exemple de carte de contrle de la moyenne dans le cadre de lexemple 22

Lcs () = 0,172 mg

= 0,1 mg

Lci () = 0,031 mg

Figure 12 Exemple de carte de contrle de lcart-type dans le cadre de lexemple 22

36

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

on accepte lhypothse de stabilit de la dispersion. Dans le cas contraire, on estime que


le processus est hors contrle (cas du dernier chantillon de la figure 12).
5.3.2

Limites de controle pour la carte de la moyenne

nouveau, on fait lhypothse que le processus de production est bien matris et


donc que la variable alatoire X observe (par exemple la cote ou la masse dune pice
fabrique en srie) suit la loi normale desprance et de variance 2 . En pratique, la
valeur est celle qui a t dsigne comme cible, et a t obtenue aprs tude dune
priode stable du processus.
chaque chantillon de n individus prlevs dans la production, on associe lestimation
ponctuelle x de . Il sagit dune ralisation
 de
 la moyenne empirique X, qui est une
2
variable alatoire suivant la loi normale N , n .
Pour > 0, on peut alors dterminer un intervalle de probabilit

 1 pour la
X

variable alatoire U = / n : laide du fractile u/2 =


1 2 de la loi N (0,1).
On choisit souvent = 0,27%, ce qui donne u/2 = 3. On obtient alors lintervalle de
probabilit pour X 1 = 99,73% :

P 3 6 X 6 + 3
n
n

= 99,73%.

On en dduit la proposition suivante.


Proposition 13
Au risque = 0,27% de se tromper, la moyenne x de lchantillon doit tre comprise
entre les limites infrieure Lci () et Lcs () suivantes :

Lci () = 3
n

Lcs () = + 3 .
n

Dans la situation de lexemple 22, avec des chantillons de taille n = 10, on obtient
Lci () = 62,905 et Lcs () = 63,095
ce qui conduit une carte de contrle du type de celle de la figure 11, sur laquelle on peut
observer deux chantillons diffrents rvlant un processus hors contrle.

5.4

Efficacit des cartes de contrle

Supposons la moyenne et lcart-type connus et considrons une carte de contrle


de la moyenne. Si un point se trouve hors de la plage de contrle [Lci (),Lcs ()] explicite
la proposition 13, on considre que le processus de fabrication est drgl, et sinon on
considre que le processus est bien rgl. Dans ces conditions, il y a deux risques derreur :
le risque de conclure tort un drglage,
le risque de conclure tort labsence de drglage, cest--dire de ne pas dceler un
drglage existant.
Institut Mines-Tlcom

37

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

Lors du calcul des limites de contrle, nous avons fix la valeur de 0,27%. Le risque
est de nature diffrente. En effet, 1 est la probabilit de dtecter un drglage alors
que celui-ci existe. En pratique on a donc intrt maximiser la valeur de 1 puisque
cette probabilit traduit la performance du dispositif de contrle.
Lorsque le processus de fabrication est bien matris, on a X N (, 2 ). Pour calculer
, il faut supposer quil est dcentr dune quantit k, et plus prcisment supposer que
X suit la loi normale N ( + k, 2 ).
Les limites de contrle pour la moyenne empirique tant toujours celles tablies la
proposition 13, on a donc


= P Lci () 6 X 6 Lcs () .

1
n=

n=2
n=3

n=4

n=5

n=10
n=15

n=20

Figure 13 Quelques courbes defficacit pour la carte de contrle de la moyenne


X k

Au vu de la loi de probabilit de X, la variable alatoire U =


suit la loi
/ n
normale centre rduite. On a donc
!

Lci () k
Lcs () k

=P
6U 6
/ n
/ n


= P 3 k n 6 U 6 3 k n = (3 k n) (3 k n)
38

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

o dsigne la fonction de rpartition de N (0,1).


Dfinition 12
taille de lchantillon n fixe, la courbe reprsentative de la fonction k 7 (k) est
la courbe defficacit de la carte de contrle de la moyenne.
Faisant varier n, on obtient, comme sur la figure 13, plusieurs courbes defficacit de
la carte de contrle de la moyenne, permettant, par exemple, de calibrer la taille des
chantillons prlever en fonction du risque souhait pour une valeur du dcentrage k.
En pratique, les valeurs admissibles pour sont comprises entre 5% et 20%.
Exemple 23
Si on souhaite dtecter un dcentrage de 1 avec une probabilit 1 = 80%, on peut
prendre n = 15.

Conclusion
Dans ce thme, nous avons expos les notions de base relatives la thorie de lestimation. Ces notions, ainsi que leurs applications vues dans le cadre du contrle statistique
(cartes de contrle et efficacit) trouveront un prolongement naturel dans les autres thmes
de ce MOOC (tests statistiques et rgression linaire).
Certains concepts tels quexhaustivit, efficacit, information de Fisher, lis la recherche du meilleur estimateur dun paramtre inconnu, nont pas t abords dans ce
thme. De mme, lestimation baysienne, approche qui se rvle trs utile dans certains
domaines (essais de fiabilit par exemple), na pas t traite. Nous renvoyons les lecteurs
intresss par des complments louvrage de Gilbert SAPORTA : Probabilits, Analyse
des donnes et statistique, ditions Technip, 2006.

Exercices
Exercices sur lestimation
Exercice 1 : Estimateurs
Soient X1 ,X2 , . . . ,Xn , . . . une suite de variables alatoires indpendantes suivant la loi
uniforme sur [0,a] o a est un paramtre rel strictement positif estimer. On pose
An = sup Xi

et Bn = 2 X.

16i6n

1. Dterminer la loi de probabilit de An (on pourra utiliser la fonction de rpartition).


2. Calculer lesprance et la variance de An et en dduire que An est un estimateur de a.
3. Montrer que Bn est un estimateur sans biais de a.
4. Comparer les variances de An et de Bn .
Institut Mines-Tlcom

39

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

Exercice 2 : Estimateur obtenu par la mthode du maximum de vraisemblance


Dterminer un estimateur du paramtre dune loi exponentielle. Celle-ci est dfinie
par la densit de probabilit f suivante :

ex

si x > 0
sinon.

x R, f (x) =
0

Exercice 3 : Paramtre dune loi de Poisson


Dans une ville, on a tudi le nombre daccidents de la circulation sur une priode
de 70 jours. En regroupant les jours selon le nombre daccidents, on a obtenu le tableau
suivant
nombre daccidents
nombre de jours

0
34

1
22

2
11

3 4 5
2 0 1

Soit X la variable alatoire dsignant le nombre daccidents quotidien. On admet que


X suit la loi de Poisson de paramtre , cest--dire que
X() = N et n N, P (X = n) = e

n
.
n!

Lobjet de cet exercice est de dterminer une estimation ponctuelle de par deux mthodes
distinctes. Pour cela, on considre un chantillon statistique (X1 , . . . ,Xn ) de X, cest--dire
n variables alatoires relles independantes suivant toutes la loi de Poisson de paramtre
.
1re mthode : maximum de vraisemblance.
1. Construire un estimateur de par la mthode du maximum de vraisemblance. Est-il
sans biais ? En dduire, en utilisant les donnes du tableau, une estimation ponctuelle de
.
2me mthode : on pose n =

n
X

Xi .

i=1

2. Quelle est la loi de probabilit de la variable alatoire n ?


3. Montrer que, pour tout entier naturel j,
n1
P ({X1 = 0}|{n = j}) =
n


j

4. En dduire que la variable alatoire


n1
Tn =
n


n

est un estimateur sans biais de e .


5. Dduire des questions prcdentes un nouvel estimateur de et une nouvelle estimation
ponctuelle de .
6. Comparer les estimateurs obtenus la question 1 et la question 5. Conclure.
40

Institut Mines-Tlcom

Thme 2 : chantillonnage, estimation

Statistique pour ingnieur

Exercices sur les intervalles de confiance


Exercice 4 : Intervalle de confiance pour une moyenne et une variance
Une socit fabrique des billes pour roulements billes. On admet que la masse dune
bille est une variable alatoire suivant la loi normale N (,) o et sont inconnus.
Un chantillon de 30 billes de masses xi a donn les rsultats suivants :
30
X

xi = 69 g

et

i=1

30
X

x2i = 163,1862 g 2 .

i=1

1. Dterminer un intervalle de confiance pour au niveau de confiance de 95 %.


2. Dterminer un intervalle de confiance pour au niveau de confiance de 95 %.
Exercice 5 : Intervalle de confiance pour une proportion
On appelle p la proportion de billes dfectueuses dans une production de billes. Dterminer un intervalle de confiance pour p au seuil 5 % dans les deux cas suivants.
1. Dans un chantillon de 100 billes, on a observ 11 billes dfectueuses.
2. Dans un chantillon de 500 billes, on a observ 48 billes dfectueuses.
Exercice 6 : Publicit mensongre ?
Un fabricant de piles lectriques indique sur ses produits que la dure de vie moyenne
de ses piles est de 200 heures. Une association de consommateurs prlve un chantillon
de 25 piles et observe une dure de vie moyenne de 185 heures avec un cart-type (calcul
partir de lestimateur biais de la variance) de 30 heures.
1. Sagit-il de publicit mensongre ? On prcisera la dmarche utilise (hypothses, raisonnements, calculs, etc.).
2. Que faudrait-il faire pour rpondre ngativement la question pose ?
Exercice 7 : Paramtre dune loi continue
Pour > 0, on dfinit la fonction
f : R R

x 7

ex
0

si x >
sinon.

Lobjet de ce problme est de construire des estimations de .


1. Dmontrer que f est une densit de probabilit.
2. Soit X une variable alatoire admettant f pour densit de probabilit. Dmontrer que
la variable X admet une esprance et une variance et que
E[X] = + 1 et
Institut Mines-Tlcom

Var(X) = 1.
41

Statistique pour ingnieur

Thme 2 : chantillonnage, estimation

Dans toute la suite de lexercice, on considre des variables alatoires X1 , . . . ,Xn indpendantes admettant f pour densit de probabilit.
n
1X
3. On pose Un =
(Xi 1).
n i=1
3.1 Calculer lesprance et la variance de Un .
3.2 Que peut-on en dduire ?
4. Justifier que, si n est assez grand, la variable alatoire

Tn = n (Un )
suit approximativement la loi normale centre rduite.
5. On suppose que n = 100 et x = 2,0706. laide de la question prcdente, dterminer
un intervalle de confiance pour au niveau de confiance 95%.
6. On admet le rsultat suivant :
Thorme (Ingalit de Bienaym-Tchebychev)
Si Y est une variable alatoire admettant une esprance et une variance 2 , alors
k > 0,

P (|Y | > k) 6

2
.
k2

6.1 En appliquant ce thorme la variable alatoire X, dterminer un intervalle de


confiance alatoire pour avec un niveau de confiance suprieur ou gal 1 = 95%.
6.2 Donner lintervalle rel ainsi obtenu lorsque n = 100 et x = 2,0706.
7. Comparer les intervalles de confiance obtenus aux questions 6.2 et 5. Quel serait le
niveau de confiance permettant dobtenir lintervalle de confiance de la question 6.2 avec
la mthode de la question 5 ?

42

Institut Mines-Tlcom