Vous êtes sur la page 1sur 13

Chapitre 14

Introduction aux statistiques : Estimation

I) Échantillons d’une loi de probabilité


Soit (Ω, A , P) un espace probabilisé et soit X une variable aléatoire définie sur (Ω, A , P).
Remarque 1. X est une variable aléatoire définie sur l’espace probabilisable (Ω, A ), mais sa loi dépend de la probabilité P.
Si on considère deux probabilités P et Q, alors la loi de X n’est pas la même sur (Ω, A , P) ou sur (Ω, A , Q).
Si X et Y sont deux variables aléatoires définies sur (Ω, A ), la loi du couple (X,Y ) dépend donc de la probabilité choisie :
en particulier (X,Y ) peuvent être indépendantes sur (Ω, A , P) mais non indépendantes sur (Ω, A , Q).
Ainsi, on pourra parler de variables aléatoires P-indépendantes.
Définition 1. On appelle modèle statistique tout espace probabilisable (Ω, A ) munit d’une famille de probabilités Pθ θ ∈Θ


tel que pour tout θ ∈ Θ, (Ω, A , Pθ ) est un espace probabilisé.


Θ est appelé l’ensemble des paramètres. En général Θ ⊂ R ou Θ ⊂ R p .
Remarque 2. En fait, ici on devrait parler de modèle statistique paramétrique lorsque Θ est inclus dans R p . Si Θ n’est pas
inclus dans un espace vectoriel de dimension finie, on parle plutôt de modèle statistique non paramétrique (largement hors
programme !).
Exemple 1. On considère l’univers Ω = {ω1 , ω2 } et A = P(Ω) = {0,
/ {ω1 }, {ω2 }, Ω}. Pour tout θ ∈ [0, 1], on considère
l’application Pθ définie sur A à valeurs dans [0, 1] telle que

Pθ (0)
/ = 0, Pθ ({ω1 }) = θ , Pθ ({ω2 }) = 1 − θ , Pθ (Ω) = 1

On vérifie qu’il s’agit d’une famille de probabilités. Soit X la variable aléatoire définie sur (Ω, A ) par
(
1 si ω = ω1
X : ω 7→
0 si ω = ω2

Alors Ω, A , Pθ : θ ∈ [0, 1] est un modèle statistique tel que pour tout θ ∈ [0, 1], la variable X suit la loi de Bernoulli de


paramètre θ sur (Ω, A , Pθ ).


Définition 2. Soit Ω, A , Pθ θ ∈Θ un modèle statistique et soit X une variable aléatoire définie sur (Ω, A ) et soit n ∈ N∗ .


— On appelle n-échantillon de loi X, un vecteur aléatoire (X1 , . . . , Xn ) tel que, pour tout θ ∈ Θ, pour tout i ∈ J1, nK, Xi a
la même loi que X. On dit que l’échantillon est identiquement distribué.
— On appelle n-échantillon indépendant et identiquement distribué (i.i.d.) de loi X, tout vecteur (X1 , . . . , Xn ) tel que
pour tout θ ∈ Θ, le vecteur est mutuellement Pθ indépendant et tel que pour tout i ∈ J1, nK, Xi a la même loi que X.

II) Estimation ponctuelle


II-1) Exemples et problématiques
II-1-a Exemple du sondage :
Le gouvernement d’un pays souhaite savoir si son peuple est favorable à un nouveau projet de loi. Pour cela, on interroge
n individus dans la population et on note Xi = 1 lorsque le i-ième individu est pour et Xi = 0 s’il est contre. On suppose que
les sondés répondent indépendamment les uns des autres et sont tous choisis au hasard. Si θ ∈ Θ = [0, 1] représente la
proportion de la population en faveur de la loi, chaque Xi est une variable de Bernoulli de paramètre θ , et le n-échantillon

1
(X1 , . . . , Xn ) est i.i.d. de loi X où X est une variable de Bernoulli de paramètre θ . Le paramètre θ est inconnu et le but est de
le déterminer à partir d’une réalisation du n-échantillon (X1 , . . . , Xn ).
Le modèle statistique  que l’on propose est donc de se munir d’un espace probabilisable (Ω, A ) ainsi que d’une famille de
probabilité Pθ θ ∈[0,1] telle que pour tout θ ∈ Θ, Pθ (X = 1) = θ .

II-1-b Autre exemple :

Chaque soir, 10 000 ampoules 1 brillent sur la tour Eiffel, et bien entendu chaque soir, et certains nombres d’ampoules
grillent. La mairie de Paris fait l’hypothèse que le nombre d’ampoules qui grillent un soir donné suit une loi de Poisson dont
elle aimerait connaitre le paramètre. Pour cela, on comptabilise chaque soir, sur n soirs, le nombre d’ampoules qui ont grillé.
On note Xi le nombre d’ampoules qui ont grillé le i-ième soir. On suppose que chaque soir est indépendant des autres et que
les conditions sont les mêmes chaque soir de telle sorte que (X1 , . . . , Xn ) peut être vu comme un n-échantillon i.i.d. de loi X
où X suit une loi de Poisson de paramètre inconnu θ .
Le modèle statistique que l’on propose est donc de se munir d’un espace probabilisable (Ω, A ) ainsi que d’une famille de
probabilité Pθ θ ∈]0,+∞[ tel que pour tout θ ∈ Θ =]0, +∞[, X ,→ P(θ ) sous la probabilité Pθ .


Remarque 3. Cette hypothèse est tout à fait raisonnable : elle provient de l’approximation de la loi binomiale par la loi de
Poisson dans le cas d’événements rares.

II-2) Définitions
Soit Θ ⊂ R p . On suppose l’existence d’un modèle statistique (Ω, A , Pθ )θ ∈Θ sur lequel on considère un n-échantillon
(X1 , . . . , Xn ) i.i.d. de même loi que X (variable aléatoire réelle sur (Ω, A ).
Soit une fonction g : Θ → R. Le but va être d’estimer la valeur g(θ ), qui sera en général une grandeur caractéristique de la
loi qu’on recherche comme son espérance, sa variance ou encore son étendue.

Exemple 2. — La loi d’une variable aléatoire de Bernoulli est entièrement déterminée par son espérance.
— La loi d’une variable aléatoire suivant une loi normale est entièrement déterminée par son espérance et sa variance.
— La loi d’une variable aléatoire suivant une loi uniforme sur un segment est entièrement déterminée par sa valeur
maximale et sa valeur minimale.

Définition 3. On appelle statistique d’un n-échantillon i.i.d. (X1 , . . . , Xn ), toute variable aléatoire de la forme Tn = ϕn (X1 , . . . , Xn )
où ϕn est une fonction continue de Rn dans R.

Remarque 4. L’hypothèse “continue” pour ϕn n’est pas nécessaire. On a seulement besoin que Tn soit effectivement une
variable aléatoire sur (Ω, A ).

1 n
Exemple 3. — La moyenne empirique est une statistique : ϕn (X1 , . . . , Xn ) =∑ Xk .
n k=1
1 n 1 n 2
— La variance empirique est une statistique : ϕn (X1 , . . . , Xn ) = ∑ Xk2 − ∑ Xk .
n k=1 n k=1
— Autres exemples de statistique : max(X1 , . . . , Xn ), min(X1 , . . . , Xn ).

Définition 4. On appelle estimateur de g(θ ) toute statistique Tn = ϕ( X1 , . . . , Xn ) tel que la fonction ϕn ne dépendent pas de
θ.

Remarque 5. Dans la pratique, on a accès à une réalisation de Tn notée tn = ϕn (x1 , . . . , xn ) qui nous donnera une estimation
de g(θ ).

Remarque 6. Le paramètre θ est inconnu, il est donc indispensable que la fonction ϕn ne dépende pas de θ .

Exemple 4. 1. Si (X1 , . . . , Xn ) est un n-échantillon i.i.d. de loi B(θ ) de paramètre θ inconnu, alors

1 n X1 − X2
Tn = ∑ Xk , Un =
n k=1 3

sont des estimateurs de θ . Cependant Tn semble plus pertinent que Un .

1. c’est vrai !

2
2. Si (X1 , . . . , Xn ) est un n-échantillon i.i.d. de loi P(θ ) de paramètre θ inconnu, alors

1 n 2 1 n 2
Tn = ∑ Xk − ∑ Xk
n k=1 n k=1

est un estimateur de θ .
3. Si (X1 , . . . , Xn ) est un n-échantillon i.i.d. de loi U ([a, b]) de paramètres (a, b) ∈ R2 , a < b inconnus, alors

Tn = max(X1 , . . . , Xn ) − min(X1 , . . . , Xn )

est un estimateur de b − a.

Remarque 7. On ne donne aucune condition sur la statistique ϕn (X1 , . . . , Xn ) (autre que de ne pas dépendre de θ ) pour être
un estimateur de g(θ ). On verra dans la suite des critères pour pouvoir dire si un estimateur est oui ou non pertinent.

II-3) Biais d’un estimateur


On considère un modèle statistique Ω, A , Pθ θ ∈Θ ainsi que (X1 , . . . , Xn ) un n-échantillon i.i.d.. On considère alors la


variable aléatoire Tn = ϕn (X1 , . . . , Xn ), estimateur de g(θ ).

Remarque 8. On a déjà vu que la loi d’une variable aléatoire dépend de la probabilité choisie. Il en va de même pour
l’existence des moments pour une variable aléatoire (une variable peut admettre une espérance pour une probabilité P mais
ne pas en admettre pour une autre probabilité Q.) Pour la suite, nous noterons

Eθ (X) et Vθ (X)

l’espérance et la variance de la variable X selon la probabilité Pθ (sous réserve d’existence).

Définition 5 (Biais). On suppose que l’estimateur de Tn admet une espérance selon chaque probabilité Pθ pour θ ∈ Θ.
On appelle biais de l’estimateur de Tn la fonction définie sur Θ par

Θ → R,
b(Tn ) :
θ 7→ bθ (Tn ) = Eθ (Tn ) − g(θ )

On dit que l’estimateur Tn est sans biais si pour tout θ ∈ Θ, bθ (Tn ) = 0. Sinon, l’estimateur est dit biaisé.
a
! Lorsqu’on parle d’un estimateur, on précisera toujours estimateur de quoi.

Exemple 5. On reprend l’exemple précédent :


1. Si (X1 , . . . , Xn ) est un n-échantillon i.i.d. de loi B(θ ) de paramètre θ inconnu, alors
!
1 n
bθ (Tn ) = Eθ ∑ Xk − θ = θ − θ = 0.
n k=1

Tn est donc un estimateur de θ sans biais.


 
X1 − X2
bθ (Un ) = Eθ − θ = −θ .
3

Un est donc un estimateur de θ biaisé.


2. Si (X1 , . . . , Xn ) est un n-échantillon i.i.d. de loi P(θ ) de paramètre θ inconnu, alors
" #
1 n 2 1 n 2 1 1
−θ = θ +θ2 − θ +θ2 −θ = − θ

bθ (Tn ) = Eθ ∑ Xk − ∑ Xk
n k=1 n k=1 n n

Tn est donc un estimateur de θ biaisé.

Remarque 9. Le biais est un premier critère pour la pertinence d’un estimateur (ce qui confirme par exemple que Un n’est a
priori pas un bon estimateur). Cependant il n’est pas indispensable qu’un estimateur soit sans biais pour un bon estimateur.
Par exemple, pour l’exemple 2, on constate que le biais est d’autant plus petit que la taille d’échantillon est grande.

3
Exercice 1. Si (X1 , . . . , Xn ) est un n-échantillon i.i.d. de loi U ([a, b]) de paramètres (a, b) ∈ R2 , a < b inconnus, alors
calculer le biais de l’estimateur de b − a

Tn = max(X1 , . . . , Xn ) − min(X1 , . . . , Xn ).

Correction. On pose Zn = max(X1 , . . . , Xn ). Déterminons une densité de Zn pour ensuite calculer son espérance. Soit F la
fonction de répartition de Zn , comme Zn est à valeurs dans [a, b], on a que pour tout x ≥ b, F(a,b) (x) = 1 et pour tout x ≤ a,
F(a,b) (x) = 0. De plus, pour tout x ∈ [a, b]

F(a,b) (x) = P(a,b) (Zn ≤ x)


n
\ 
= P(a,b) [Xk ≤ x]
k=1
n
par P(a,b) -indépendance = ∏ P(a,b) (Xk ≤ x)
k=1
x − a n
=
b−a
finalement 

0 si x ≤ a,
x − a n

F(a,b) (x) = si x ∈ [a, b],

 b−a
1 si x ≥ b.

On pose alors 
0 si x 6∈ [a, b],
f(a,b) (x) = n x − a n−1
 si x ∈ [a, b].
b−a b−a
qui est une densité de Zn . Alors
Z b Z b Z b
n x − a n−1 n x − a n−1 n x − a n−1
E(a,b) (Zn ) = x dx = (x − a) dx + a dx
a b−a b−a a b−a b−a a b−a b−a
n
= (b − a) + a
n+1
Par un calcul analogue pour le minimum Wn = min(X1 , . . . , Xn ), on trouve
n
E(a,b) (Wn ) = b − (b − a)
n+1
alors
n n b−a
b(a,b) (Tn ) = E(a,b) (Zn −Wn ) − (b − a) = a + (b − a) − b + (b − a) − (b − a) = −2
n+1 n+1 n+1

II-4) Convergence d’un estimateur


Pour tout n ∈ N∗ , on considère un estimateur Tn = ϕn (X1 , . . . , Xn ) tel que pour tout x ∈ N∗ , ϕn : Rn → R et tel que pour
tout n ∈ N∗ , Tn admet une espérance selon toutes les probabilités Pθ .

Remarque 10. Encore une fois, on rappelle que la notion de convergence en probabilité ou de convergence en loi dépendra
de la probabilité choisie.

Définition 6. On dit que Tn n∈N∗ est une suite d’estimateurs asymptotiquement sans biais de g(θ ) si

∀θ ∈ Θ, lim Eθ (Tn ) = g(θ ).


n→+∞

Autrement dit, si pour tout θ ∈ Θ, lim bθ (Tn ) = 0.


n→+∞

Remarque 11. Pour abus de langage, on parlera souvent de Tn pour parler de la suite Tn n∈N∗
. Ainsi, on dira souvent qu’un
estimateur Tn est asymptotiquement sans biais.

4
Exemple 6. On reprend l’exemple d’un n-échantillon (X1 , . . . , Xn ) de loi de Poisson de paramètre θ inconnu. On a vu que
θ
bθ (Tn ) = −
n
On dira donc que Tn est un estimateur est asymptotiquement sans biais de θ .

Définition 7. On dit que Tn est un estimateur convergent si pour tout θ ∈ Θ, la suite Tn n∈N∗
converge en probabilité selon
la probabilité Pθ vers g(θ ). Autrement dit,

∀ε > 0, lim Pθ |Tn − g(θ )| ≥ ε = 0.
n→+∞

Remarque 12. On parle parfois d’estimateurs consistants au lieu de convergents.


Remarque 13. La loi faible des grands nombre nous dit que pour un n-échantillon i.i.d. d’espérance m et admettant un
moment d’ordre 2, la moyenne empirique est un estimateur sans biais, convergent, de m.

Proposition 1 (Composition par une fonction continue). Soit Tn n∈N∗ une suite convergente d’estimateurs de g(θ ) et soit

f une fonction continue R → R. Alors, f (Tn ) n est une suite convergente d’estimateurs de f (g(θ )).

Démonstration. On a déjà vu que si une suite de variables aléatoires Xn n∈N∗ converge en probabilité vers une variables
P
aléatoire X, alors f (Xn ) −→ f (X).
n→+∞

Exercice 2. On considère un modèle statistique (Ω, A , Pσ : σ ∈]0, +∞[) et soit X ∈ (Ω, A ) tel que pour tout σ ∈]0, +∞[

X ,→ N (0, σ 2 )

selon la probabilité Pσ . On admettra qu’une variable aléatoire suivant une loi normale admet des moments à tout ordre. Soit
(X1 , . . . , Xn ) un n-échantillon i.i.d. de loi X et soit
1 n 2
Tn = ∑ Xk .
n k=1

Montrer que Tn est un estimateur convergent de σ 2 (on utilisera la loi faible des grands nombres) puis en déduire un estima-
teur convergent de σ .
Correction. Les variables (X1 , . . . , Xn ) sont de même loi et mutuellement indépendantes, on en déduit que (X12 , . . . , Xn2 ) sont
aussi de même loi et mutuellement indépendantes. Par la loi faible des grands nombres (les variables admettant toutes une
espérance et une variance car X admet un moment d’ordre 4), on a que pour tout σ > 0
1 n 2 Pσ
∑ Xk −→ E(X 2 ) = σ 2
n k=1

Par composition, on en déduit que Un = Tn est un estimateur convergent de σ .

II-5) Risque quadratique d’un estimateur


On considère toujours Tn , estimateur de g(θ ).
Définition 8 (Risque quadratique). On suppose que l’estimateur admet un moment d’ordre 2 selon chaque probabilité Pθ
pour θ ∈ Θ. On appelle risque quadratique de Tn la fonction définie sur Θ par

Θ → R,
r(Tn ) :
7→ rθ (Tn ) = E (Tn − g(θ ))2 .

θ

Exemple 7. On reprend l’exemple précédent :


Si (X1 , . . . , Xn ) est un n-échantillon i.i.d. de loi B(θ ) de paramètre θ inconnu, alors
h 1 n 2 i θ (1 − θ )
rθ (Tn ) = Eθ ∑ Xk − θ = .
n k=1 n
et  
X1 − X2 2 1
rθ (Un ) = Eθ −θ = (2θ − θ 2 )
3 9

5
Proposition 2 (Décomposition biais/variance du risque quadratique). Si Tn est un estimateur admettant un moment d’ordre
2 selon chaque Pθ (θ ∈ Θ), alors
∀θ ∈ Θ, rθ (Tn ) = Vθ (Tn ) + bθ (Tn )2 .
En particulier, si Tn est un estimateur sans biais

∀θ ∈ Θ, rθ (Tn ) = Vθ (Tn ).

Démonstration. On utilise la formule de Koenig Huygens et le fait que Tn et Tn − g(θ ) ont la même variance.
2
Vθ (Tn ) = Vθ (Tn − g(θ )) = Eθ (Tn − g(θ ))2 − Eθ (Tn − g(θ )) = rθ (Tn ) − bθ (Tn )2
  

Remarque 14. Pour obtenir un bon estimateur, on cherchera à obtenir un risque quadratique faible. On se dit alors que plus
le biais est petit, plus le risque est faible : c’est faux ! en général, réduire le biais d’un estimateur aura tendance à augmenter
la variance. Ainsi, il faut plutôt trouver un bon compromis biais/variance.

Théorème 1. Soit Tn n∈N∗ une suite d’estimateurs de g(θ ). Alors si

∀θ ∈ Θ, lim rθ (Tn ) = 0
n→+∞

alors Tn est un estimateur convergent de g(θ ).

Démonstration. Soit θ ∈ Θ. Supposons que lim rθ (Tn ) = 0, alors la variable aléatoire (Tn − g(θ ))2 étant positive et ad-
n→+∞
mettant une espérance, on a par l’inégalité de Markov que pour tout ε > 0

E((Tn − g(θ )2 ) rθ (Tn )


P |Tn − g(θ )| ≥ ε) = P( (Tn − g(θ ))2 ≥ ε 2 ) ≤ = −→ 0
ε2 ε2
donc
θP
Tn −→ g(θ ).

Remarque 15. Bien entendu, un estimateur Tn convergent de g(θ ) n’a pas forcément son risque quadratique qui converge
vers 0. Cependant, dans le cas où le risque quadratique tend vers 0, cela donne une bonne idée de la vitesse de convergence
de l’estimateur et donc de son efficacité à n fixé (suffisamment grand). Ainsi, lorsqu’on compare deux estimateurs, on choisit
celui qui a le risque quadratique qui converge le plus vite vers 0.

III) Estimation par intervalle de confiance


S’il existe des critères pour juger des qualités d’un estimateur ponctuel Tn de g(θ ) (biais, risque, convergence), aucune
certitude ne peut jamais être apportée quand au fait que l’estimation donne effectivement une bonne approximation de la
vraie valeur à estimer g(θ ). Cependant, on va être capable d’estimer la probabilité de se tromper : l’estimation par intervalle
de confiance va consister à trouver un intervalle (aléatoire) contenant g(θ ) avec avec une probabilité.

III-1) Intervalle de confiance


On considère un modèle statistique Ω, A , Pθ

θ ∈Θ
et pour tout n ≥ 1, on considère un n-échantillon (X1 , . . . , Xn ) i.i.d.

Définition 9. Soient Un = ϕn (X1 , . . . , Xn ) et Vn = ψn (X1 , . . . , Xn ) deux statistiques, (telles que φn et ψn ne dépendent pas de
θ ), telles que Un ≤ Vn , Pθ -presque sûrement pour tout θ ∈ Θ.
Soit α ∈ [0, 1], indépendant de θ . On dit que l’intervalle [Un ,Vn ] est un intervalle de confiance de g(θ ) au niveau de confiance
1 − α si pour tout θ ∈ Θ,  
Pθ g(θ ) ∈ [Un ,Vn ] = Pθ Un ≤ g(θ ) ≤ Vn ≥ 1 − α.

Remarque 16. Le réel α est parfois appelé risque de l’intervalle de confiance.

Remarque 17. Dire que [Un ,Vn ] est un intervalle de confiance de g(θ ) au niveau de confiance 1 − α signifie que l’on peut
affirmer que un ≤ g(θ ) ≤ vn avec un risque de se tromper de α (où un et vn sont les réalisations de Un et Vn ).

6
Remarque 18. Construire un intervalle de confiance de g(θ ) au niveau de confiance 1 − α revient à prendre une réalisation
(x1 , . . . , xn ) du n-échantillon (X1 , . . . , Xn ) pour obtenir une réalisation un de Un et vn de Vn , et ainsi obtenir l’intervalle [un , vn ].

Remarque 19. Il faut être vigilant avec l’écriture Pθ (g(θ ) ∈ [Un ,Vn ]) : g(θ ) n’est pas une variable aléatoire mais ce sont Un
et Vn qui en sont.

Remarque 20. La plupart du temps, les variables Un et Vn sont de la forme Un = Tn − εn et Vn = Tn + εn où εn est suite
déterministe de réels positifs et Tn est un estimateur de g(θ ).

Exemple 8 (Intervalle de confiance obtenu par l’inégalité de Bienaymé-Tchebychev). Si (X1 , . . . , Xn ) est un n-échantillon
i.i.d. de loi B(θ ) de paramètre θ inconnu, alors on sait que

1 n
Tn = ∑ Xk
n k=1

est un estimateur sans biais du paramètre θ . De plus, pour tout ε > 0, on a


 
P |Tn − θ | ≥ ε = P |Tn − Eθ (Tn )| ≥ ε
Vθ (Tn ) θ (1 − θ )
par l’inégalité de Bienaymé-Tchebychev ≤ 2
=
ε ε 2n

θ (1 − θ )
Ainsi, la probabilité que g(θ ) appartienne à l’intervalle [Tn − ε, Tn + ε] est plus grande que 1 − . Cependant, on ne
n
connait pas θ , on ne peut donc pas donner un intervalle de confiance avec un risque dépendant de θ . On utilise alors le fait
que pour tout x ∈ [0, 1], x(1 − x) ≤ 14 (étude rapide de fonction) donc

 1
P |Tn − θ | ≥ ε ≤
4nε 2

Ainsi, pour tout n ∈ N∗ et pour tout ε > 0, Tn − ε, Tn + ε est un intervalle de confiance de θ au niveau de confiance
 
1
1− . Donc, pour tout α ∈]0, 1[, si on veut un risque valant α, on a
4nε 2
1 1
α= 2
⇔ ε= √ √
4nε 2 α n

donc l’intervalle h 1 1 i
Tn − √ √ , Tn + √ √
2 α n 2 α n
est un intervalle de confiance de θ au niveau de confiance 1 − α.

III-2) Un cas particulier : n-échantillon de loi normale


Soit Ω, A , Pθ θ ∈Θ un modèle statistique tel que Θ = R et soit σ 2 > 0, et soit X une variable aléatoire définie sur


(Ω, A ) tel que pour tout θ ∈ Θ


X ,→ N (θ , σ 2 ).

Pour tout n ≥ 1, on considère un n-échantillon (X1 , . . . , Xn ) i.i.d. de même loi que X. On considère la statistique

X1 + · · · + Xn 1 n
Tn = = ∑ Xk
n n k=1

On rappelle que Φ désigne la fonction de répartition de la loi normale centrée réduite.

Proposition 3. Pour tout α ∈]0, 1[, l’intervalle


h σ α σ α i
Tn − √ Φ−1 1 − , Tn + √ Φ−1 1 −
n 2 n 2

est un intervalle de confiance de θ au niveau de confiance 1 − α.

7
Démonstration. Soit θ ∈ Θ. Par les propriétés de la loi normale (stabilité par somme indépendante et multiplication par un
scalaire), on en déduit Tn suit une loi normale. Or
1 n
E Tn = ∑ E(Xk ) = θ
n k=1
et
1 n σ2
V(Tn ) = ∑ V(Xk ) =
n2 k=1 n
On en déduit que Tn ,→ N (θ , σ 2 /n), donc
Tn − θ
√ ,→ N (0, 1)
σ/ n
Pour simplifier les notations, on notera z1−α/2 = Φ−1 (1 − α/2). Alors
  σ σ 
Pθ θ ∈ Tn − √ z1−α/2 , Tn + √ z1−α/2
n n
 σ σ 
= P θ − √ z1−α/2 ≤ Tn ≤ θ + √ z1−α/2
n n
 Tn − θ 
= P − z1−α/2 ≤ √ ≤ z1−α/2
σ/ n
 
= Φ z1−α/2 − Φ − z1−α/2
 α
= 2Φ z1−α/2 − 1 = 2(1 − ) − 1 = 1 − α
2

Remarque 21. Ce résultat doit être redémontré à chaque utilisation.


Remarque 22. On pourra voir parfois −Φ−1 (−α/2) au lieu de Φ−1 (1 − α/2) : en effet comme ∀x ∈ R, 1 − Φ(x) = Φ(−x)
alors
α
1 − = 1 − Φ Φ−1 (α/2) = Φ(−Φ−1 (α/2))

2
donc
Φ−1 (1 − α/2) = Φ−1 Φ(−Φ−1 (α/2)) = −Φ−1 (α/2)


Exemple 9 (Intervalle de confiance obtenu par l’approximation d’une variable binomiale par loi normale). Si (X1 , . . . , Xn )
est un n-échantillon i.i.d. de loi B(θ ) de paramètre θ inconnu. On reprend l’exemple de l’estimateur

1 n
Tn = ∑ Xk
n k=1

Pour n suffisamment grand, on sait qu’on peut approximer Tn à une variable aléatoire Zn suivant une loi normale de même
espérance et de même variance que Tn
θ (1 − θ )
Zn ,→ N (θ , )
n
En utilisant que le fait que Tn ' Zn et en utilisant la même idée que précédemment, on a que
r r !
h θ (1 − θ ) −1 θ (1 − θ ) −1 i
Pθ θ ∈ Tn − Φ (1 − α/2), Tn + Φ (1 − α/2) ' 1 − α
n n

donc r r
h θ (1 − θ ) −1 θ (1 − θ ) −1 i
Tn − Φ (1 − α/2), Tn + Φ (1 − α/2)
n n
pourrait un intervalle de confiance de θ de niveau de confiance 1 − α, cependant les bornes de l’intervalle dépendent de θ !
Donc, on utilise à nouveau
1
θ (1 − θ ) ≤
4
pour dire que
r r
h θ (1 − θ ) −1 θ (1 − θ ) −1 i h 1 1 i
Tn − Φ (1 − α/2), Tn + Φ (1 − α/2) ⊂ Tn − √ Φ−1 (1 − α/2), Tn + √ Φ−1 (1 − α/2)
n n 2 n 2 n

8
donc  h 1 1 i
Pθ θ ∈ Tn − √ Φ−1 (1 − α/2), Tn + √ Φ−1 (1 − α/2) ≥ 1 − α
2 n 2 n
h 1 1 i
Finalement, on peut dire que Tn − √ Φ−1 (1 − α/2), Tn + √ Φ−1 (1 − α/2) est un intervalle de confiance de θ de
2 n 2 n
niveau de confiance 1 − α.

Remarque 23. On obtient ainsi deux intervalles de confiances de niveau 1 − α différents pour estimer le paramètre d’une
loi de Bernoulli.
h 1 1 i h 1 1 i
Tn − √ √ , Tn + √ √ et Tn − √ Φ−1 (1 − α/2), Tn + √ Φ−1 (1 − α/2)
2 α n 2 α n 2 n 2 n

1
On donne ici un tableau comparatif des valeurs √ et Φ−1 (1 − α/2)
α
α 10% 5% 2% 1%

1/ α 3.16 4.47 7.07 10
Φ−1 (1 − α/2) 1.64 1.96 2.33 2.58
Un intervalle de confiance obtenu avec l’inégalité de Bienaymé Tchebychev est moins précis.

Exercice 3. Un institut de sondage a observé, sur un échantillon de 1600 personnes prises au hasard, 836 intentions de vote
en faveur d’un candidat A face à un candidat B lors d’un second tour d’élection présidentielle. On note θ la proportion de
votant pour A dans la population.
1. Estimer la valeur de θ à l’aide d’un intervalle de confiance à 90%, puis 95%.
2. Peut-on affirmer, avec confiance, qui de A ou de B est en tête dans les intentions de vote ?
x 1.64 1.96
Si Φ est la fonction de répartition de la loi normale centrée réduite, alors
Φ(x) 0.95 0.975

Correction. Pour tout k ∈ J1, nK, on note Xk = 1 si la k-ième personne interrogée se déclare en faveur de A et Xk = 0 sinon.
On suppose alors que (X1 , . . . , Xn ) est un n-échantillon i.i.d. de loi B(θ ) et on pose

1 n
Tn = ∑ Xk
n k=1

D’après l’exemple précédent, on trouve comme intervalle de confiance de θ


h 1 1 i
Tn − √ Φ−1 (1 − α/2), Tn + √ Φ−1 (1 − α/2)
2 n 2 n

Donc pour 1 − α = 90%, on trouve Φ−1 (1 − α/2) = Φ−1 (1 − 0.05) = Φ−1 (0.95) = 1.64 et ici n = 1600 donc 2 1600 = 80.
Ici, l’énoncé nous donne une réalisation de l’intervalle de confiance

836
Tn (ω) = = 0.5225
1600
On construit donc l’intervalle de confiance suivant
 1.64 1.64   
0.5225 − , 0.5225 + = 0.5020, 0.5430
80 80

Et pour 1 − α = 95%, i.e. α = 0.05, on a Φ−1 (1 − 0.025) = Φ−1 (0.975) = 1.96. On trouve alors

 1.96 1.96   
0.5225 − , 0.5225 + = 0.4980, 0.5470
80 80
Avec un risque d’erreur à 10%, on peut affirmer que θ > 0.5 donc que A va gagner. Mais avec un risque de 5%, on ne peut
a priori rien affirmer.

9
III-3) Intervalle de confiance asymptotique
On considère un modèle statistique Ω, A , Pθ

θ ∈Θ
et pour tout n ≥ 1, on considère un n-échantillon (X1 , . . . , Xn ) i.i.d.

Définition 10. Pour tout n ≥ 1, soient Un = ϕn (X1 , . . . , Xn ) et Vn = ψn (X1 , . . . , Xn ) deux statistiques, (telles que φn et ψn ne
dépendent pas de θ ), telles que Un ≤ Vn , Pθ -presque sûrement pour tout θ ∈ Θ. Soit α ∈ [0, 1], indépendant de θ .
On dit que la suite ([Un ,Vn ])n≥1 est un intervalle
 de confiance asymptotique de g(θ ) au niveau de confiance 1 − α si pour
tout θ ∈ Θ, il existe une suite de réels αn n∈N∗ à valeurs dans [0, 1], de limite α, et telle que pour tout n ≥ 1,

Pθ (Un ≤ g(θ ) ≤ Vn ) ≥ 1 − αn

Remarque 24. Par abus de langage, on dira que [Un ,Vn ] est un intervalle de confiance asymptotique.

Proposition 4. Soit Ω, A , Pθ θ ∈Θ un modèle statistique soit X une variable aléatoire définie sur (Ω, A ) tel que pour tout


θ ∈ Θ, X admet un moment d’ordre 4 et telle que son espérance et sa variance sont des fonctions de θ : m(θ ) et σ 2 (θ ). Soit
(X1 , . . . , Xn ) est n-échantillon i.i.d. de même loi que X. Alors, l’écart-type empirique
s
1 n 2 1 n 2
Sn = ∑ Xk − ∑ Xk
n k=1 n k=1

est un estimateur convergent de l’écart-type σ (θ ).

Démonstration. Soit θ ∈ Θ. Tout d’abord, par la formule de Koenig Huygens, on a

E(X 2 ) = σ 2 (θ ) + (m(θ ))2

On sait que par la loi faible des grands nombres (X 2 admet bien un moment d’ordre 2)

1 n Pθ
∑ Xk −→
n k=1
m(θ )

1 n 2 Pθ
∑ Xk −→ E(X 2 ) = σ 2 (θ ) + (m(θ ))2
n k=1

Donc par le théorème de Slutsky et le théorème de composition par une fonction continue pour la convergence en probabilité,
on a
1 n 2 Pθ
∑ Xk −→ (m(θ ))2
n k=1
1 n 2 1 n 2 Pθ
∑ Xk − ∑ Xk −→ σ 2 (θ )
n k=1 n k=1
s
1 n 2 1 n 2 Pθ
Sn = ∑ Xk − ∑ Xk −→ σ (θ )
n k=1 n k=1

On en déduit que Sn est un estimateur convergent de σ (θ ).


s
n
1 1
Remarque 25. Autre expression de l’écart-type empirique Sn = ∑
n k=1
(Xk −
n ∑ X j )2
j=1

Théorème 2. Soit Ω, A , Pθ θ ∈Θ un modèle statistique soit X une variable aléatoire définie sur (Ω, A ) tel que pour tout


θ ∈ Θ, X admet un moment d’ordre 2 et telle que son espérance et sa variance sont des fonctions de θ : m(θ ) et σ 2 (θ ). Soit
(X1 , . . . , Xn ) est n-échantillon i.i.d. de même loi que X.
Soit Sn un estimateur convergent de l’écart-type σ (θ ) alors pour tout α ∈]0, 1[.
h Sn Sn i
Tn − Φ−1 (1 − α/2) √ , Tn + Φ−1 (1 − α/2) √
n n

1 n
est un intervalle de confiance asymptotique de m(θ ) de niveau 1 − α, où Tn = ∑ Xk .
n k=1

10
Démonstration. Pour démontrer que
h Sn Sn i
Tn − Φ−1 (1 − α/2) √ , Tn + Φ−1 (1 − α/2) √
n n

est un intervalle de confiance asymptotique de niveau 1 − α, on montre que


 
−1 Sn −1 Sn
lim Pθ Tn − Φ (1 − α/2) √ ≤ m(θ ) ≤ Tn + Φ (1 − α/2) √
n→+∞ n n

existe et vaut 1 − α. Or
 
−1 Sn −1 Sn
Pθ Tn − Φ (1 − α/2) √ ≤ m(θ ) ≤ Tn + Φ (1 − α/2) √
n n
 
Sn Sn
= Pθ −Φ−1 (1 − α/2) √ ≤ Tn − m(θ ) ≤ Φ−1 (1 − α/2) √
n n
 
Sn Tn − m(θ ) Sn
= Pθ −Φ−1 (1 − α/2) ≤ √ ≤ Φ−1 (1 − α/2)
σ σ/ n σ
 
−1 Tn − m(θ ) −1
= Pθ −Φ (1 − α/2) − εn ≤ √ ≤ Φ (1 − α/2) + εn
σ/ n

Sn
où εn = Φ−1 (1 − α/2)

− 1 . D’une part, on sait par le théorème central limite que
σ
Tn − m(θ ) L
√ −→ Z
σ (θ )/ n n→+∞

où Z ,→ N (0, 1). D’autre part, Sn −→ σ donc par composition


P
n→+∞

P
εn −→ 0
n→+∞

On en déduit par le théorème de Slutsky que

Tn − m(θ ) L
√ + εn −→ Z
σ (θ )/ n n→+∞
Tn − m(θ ) L
√ − εn −→ Z
σ (θ )/ n n→+∞

Donc
 
Tn − m(θ ) −1
lim Pθ √ − εn ≤ Φ (1 − α/2) = P(Z ≤ Φ−1 (1 − α/2))
n→+∞ σ/ n
= 1 − α/2
 
Tn − m(θ )
lim Pθ √ + εn ≤ −Φ−1 (1 − α/2) = P(Z ≤ −Φ−1 (1 − α/2))
n→+∞ σ/ n
= 1 − (1 − α/2) = α/2

Donc
 
−1 Tn − m(θ ) −1
lim Pθ −Φ (1 − α/2) − εn ≤ √ ≤ Φ (1 − α/2) + εn
n→+∞ σ/ n
   
 Tn − m(θ ) −1 Tn − m(θ ) −1

= lim Pθ √ − εn ≤ Φ (1 − α/2) − Pθ √ + εn ≤ −Φ (1 − α/2)
n→+∞ σ/ n σ/ n
= 1 − α/2 − (α/2) = 1 − α

11
Remarque 26. En particulier, si X admet un moment d’ordre 4, on connait un estimateur convergent de l’écart-type. Cela
permet d’obtenir des intervalles de confiance en remplaçant les σ par son estimateur.

Exemple 10. Si (X1 , . . . , Xn ) est un n-échantillon i.i.d de loi de Bernoulli (θ ) de paramètre inconnu θ , alors
r r
h Tn (1 − Tn ) −1  Tn (1 − Tn ) −1 i
Tn − Φ 1 − α/2 , Tn + Φ 1 − α/2
n n
est un intervalle de confiance asymptotique de θ au niveau 1 − α où

1 n
Tn = ∑ Xk .
n k=1

En effet, si Xi est une variable de Bernoulli, Xi2 = Xi donc


s s
1 n 2 1 1 n 1
2 2 q
Sn = ∑ Xk − ∑ Xk = ∑ Xk − ∑ Xk = Tn − Tn2
n k=1 n k=1 n k=1 n k=1

Exercice 4. Soit (Ω, A , P) un espace probabilisé et n un entier ≥ 1. On considère un n-échantillon (X1 , . . . , Xn ) défini sur
(Ω, A , P), i.i.d. de loi normale N (µ, σ 2 ). On suppose que les paramètres µ et σ 2 sont inconnus et l’objectif est d’estimer
µ à l’aide d’un intervalle de confiance.
1. Donner un estimateur Sn convergent de σ .
2. Montrer que P(Sn = 0) = 0.
3. Soit α ∈]0, 1[. Donner un intervalle de confiance asymptotique de µ à un niveau de confiance 1 − α. On notera
z1−α/2 = Φ−1 (1 − α/2) où Φ désigne la fonction de répartition de la loi normale centrée réduite.

Correction. 1. On a bien entendu envie de considérer l’écart-type empirique comme estimateur. On pose
v !2
u
u1 n 1 n
2
Sn = t
∑ Xk − n ∑ Xk
n k=1 k=1

D’une part, les variables (X12 , . . . , Xn2 ) sont i.i.d., admettent un moment d’ordre 2 (il faut savoir justifier qu’une
variable aléatoire suivant une loi normale admet un moment d’ordre 4) et ont pour espérance commune E(X12 ) =
V(X1 ) + E(X1 )2 = σ 2 + µ 2 donc par la loi faible des grands nombres

1 n 2 P
−→ σ 2 + µ 2
∑ Xk n→+∞
n k=1

De plus, par la loi faible des grands nombres,

1 n P
−→ µ
∑ Xk n→+∞
n k=1

donc par composition avec une fonction continue


!
1 n
−→ µ 2
P
∑ Xk
n k=1 n→+∞

On en déduit par le théorème de Slutsky que


!2
1 n 2 1 n
−→ σ 2 + µ 2 − µ 2 = σ 2
P
∑ Xk −
n k=1 ∑ Xk
n k=1 n→+∞

et donc par composition par une fonction continue

P
Sn −→ σ
n→+∞

12
2. On remarque que v
u !2 s
u1 n 1 n 1 n 1 n 2
Sn = t ∑ Xk2 − ∑ Xk = ∑ Xk − ∑ Xi )
n k=1 n k=1 n k=1 n i=1

On en déduit que
n n
1 n 2 \ 1 n
[Sn = 0] = [ ∑ Xk − ( ∑ i X ) = 0] = [Xk − ( ∑ Xi ] ⊂ [X1 = X2 = · · · = Xn ] ⊂ [X1 = X2 ]
k=1 n i=1 k=1
n i=1

Or X1 et X2 sont deux variables aléatoires de loi normale indépendantes donc X1 − X2 est aussi une variable de loi
normale, donc X1 − X2 est une variable à densité. On en déduit que l’événement

[X1 = X2 ] = [X1 − X2 = 0]

est négligeable. Donc [Sn = 0] est aussi négligeable.


1 n
3. On se donne Tn = ∑ Xk comme estimateur de µ. Par propriété de la loi normale
n k=1

σ2
Tn ,→ N (µ, )
n
donc
√ Tn − µ
n ,→ N (0, 1)
σ
On en déduit qu’il existe Z ,→ N (0, 1) tel que
√ Tn − µ L
n −→ Z
σ n→+∞

P σ P
Or Sn −→ σ donc −→
Sn n→+∞ 1 (car Sn > 0 p.s.) et par le théorème de Slutsky
n→+∞

√ Tn − µ √ Tn − µ σ L
n = n × −→ Z
Sn σ Sn n→+∞
Ainsi, pour n assez grand
√ Tn − µ
 
P −z1−α/2 ≤ n ≤ z1−α/2 ' Φ(z1−α/2 ) − Φ(−z1−α/2 ) = 2Φ(z1−α/2 ) − 1 = 1 − α
Sn

donc  
Sn Sn
P Tn − √ z1−α/2 ≤ µ ≤ Tn + √ z1−α/2 ' 1 − α
n n
On en déduit que l’intervalle Tn − √Snn z1−α/2 , Tn + √Snn z1−α/2 est un intervalle asymptotique de confiance de µ à un
 

niveau 1 − α.

13

Vous aimerez peut-être aussi