Cours-Estimation 1

Estimation Statistique
L3
Siméon FOTSO
Département de Mathématiques
Ecole Normale Supérieure
Université de Yaoundé 1
e-mail : simeonfotso@yahoo.fr
Yaoundé, le 5 octobre 2021

Table des matières
1 Rappels de probabilité 3
1.1 Lois de probabilité continues . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Loi continue uniforme sur [a; b]; U[a;b] . . . . . . . . . . . . . . . . . 3
1.1.2 Loi normale ou loi de Laplace-Gauss N ( ; ) . . . . . . . . . . . . . 3
1.1.3 La loi lognormale LN ( ; ) . . . . . . . . . . . . . . . . . . . . . . 6
1.1.4 Loi exponentielle; E( ) . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.5 Loi gamma (r; ) . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.6 Loi béta Béta( ; ) . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.7 Loi du Chi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.8 Loi de Student à n dégrés de liberté, T (n) . . . . . . . . . . . . . . 11
1.1.9 Loi de Fisher-Snedecor à p et q dégrés de liberté, F (p; q) . . . . . . 11
1.1.10 Famille exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2 Convergence des v.a.r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.1 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.2 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.4 Convergence en moyenne quadratique . . . . . . . . . . . . . . . . . 15
1.3 Théorème de Radon-Nikodym et densité . . . . . . . . . . . . . . . . . . . 16
2 Estimation ponctuelle 18
2.1 Les problèmes en statistique mathématique . . . . . . . . . . . . . . . . . . 18
2.1.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.2 Estimation par intervalle . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.3 Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Exemple de mise en place d’un modèle . . . . . . . . . . . . . . . . . . . . 19
2.3 Structure statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.1 Produit de structures . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4 Vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.1 Vraisemblance du produit de structures . . . . . . . . . . . . . . . . 21
2.5 Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6 Notions de base sur les estimateurs . . . . . . . . . . . . . . . . . . . . . . 24
2.6.1 Dé…nition d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . 24
2.6.2 Biais d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6.3 Convergence d’un estimateur . . . . . . . . . . . . . . . . . . . . . . 25
2.6.4 Comparaison des estimateurs . . . . . . . . . . . . . . . . . . . . . 25
2.6.5 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.6.6 Cas des échantillons gaussiens . . . . . . . . . . . . . . . . . . . . . 29
1
ESSFAR, L3 Estimation Statistique
3 Exhaustivité et information 30
3.1 Exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.1 Dé…nition et interprétation . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.2 Théorème de factorisation (Fisher-Neyman) . . . . . . . . . . . . . 31
3.1.3 Statistique exhaustive minimale . . . . . . . . . . . . . . . . . . . . 32
3.2 Eléments de la théorie de l’information . . . . . . . . . . . . . . . . . . . . 33
3.2.1 Information au sens de Fisher . . . . . . . . . . . . . . . . . . . . . 33
3.2.2 Propriétés de I( ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3 Information et exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4 Inégalité de Frechet-Darmois-Cramer-Rao 36
4.1 Inégalité de FDCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.1.1 Estimateur é¢ cace . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1.2 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2 Resumés exhaustifs et estimateurs e¢ caces . . . . . . . . . . . . . . . . . . 38
4.3 Amélioration d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . 39
5 Le maximum de vraisemblance 41
5.1 Généralités sur le maximum de vraisemblance . . . . . . . . . . . . . . . . 41
5.2 Recherche de l’EMV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2.1 Equation de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . 42
5.2.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.3 Propriétés des emv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.3.1 Propriété d’invariance . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.4 Les deux propriétés asymptotiques des emv . . . . . . . . . . . . . . . . . . 44
6 Estimation par intervalles 45

6.1 Exemple preliminaire et dé…nitions . . . . . . . . . . . . . . . . . . . . . . 45
6.1.1 Estimation de la moyenne d’une v.a X # N ( ; ); connu . . . . 45
6.1.2 Dé…nitions générales . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.2 Méthode de construction d’un intervalle de con…ance . . . . . . . . . . . . 46
6.2.1 Exemples de fonctions pivotales . . . . . . . . . . . . . . . . . . . . 47
6.3 Intervalles de con…ance classiques . . . . . . . . . . . . . . . . . . . . . . . 48
6.3.1 Cas des échantillons gaussiens . . . . . . . . . . . . . . . . . . . . . 48
6.3.2 Cas des échantillons non gaussiens . . . . . . . . . . . . . . . . . . 49
Page 2
Chapitre 1
Rappels de probabilité
1.1 Lois de probabilité continues

1.1.1 Loi continue uniforme sur [a; b]; U[a;b]
Dé…nition 1.1 Soient a et b 2 réels tels que a < b: Une v.a.r X suit la loi uniforme
sur l’intervalle [a; b] si sa densité f est constante sur [a; b] et nulle à l’extérieur de cet
intervalle, soit
1
b a
si a x b
f (x) =
0 sinon.
1
Remarque 1.1 Nous noterons encore f (x) = 1 (x)
b a [a;b]
où 1A est la fonction indicatrice
de A, A R ; 1A est dé…nie par
1 si x 2 A
1A (x) =
0 sinon.
Fonction de répartition de X
Elle est dé…nie par 8
< 0 si x < a
x a
F (x) = si a x b
: b a
1 si x > b:
Les moments
On peut aisement véri…er que
a+b (b a)2
E(X) = et V (X) = :
2 12
Remarque 1.2 La loi uniforme de réference est la loi U[0;1] : Si X # U[a;b] alors Y =
X a
b a
# U[0;1] et réciproquement si Y # U[0;1] alors X = (b a)Y + a # U[a;b] :
1.1.2 Loi normale ou loi de Laplace-Gauss N ( ; )

Dé…nition 1.2 Une v.a.r X suit une loi normale de paramètres et ; si sa densité g a
pour expression " #
2
1 1 x
g(x) = p exp ; x 2 R:
2 2
Les paramètres sont notés et du fait qu’ils correspondent respectivement à la

moyenne et à l’écart-type de X:
3
Loi normale centrée reduite N (0; 1):

Pour = 0 et = 1; on a la loi normale centrée reduite.
Dé…nition 1.3 Une v.a.r T suit la loi normale centrée reduite si sa densité de probabilité
est
1 t2
f (t) = p exp ; t 2 R:
2 2
La variable est centrée car sa moyenne est nulle et reduite car sa variance est 1.
Proposition 1.1 Si X # N ( ; ) alors T = X

# N (0; 1):
Preuve 1.1 Soient FX et FT les fonctions de répartition de X et T respectivement, alors

X
FT (t) = P (T t) = P ( t) = P (X + t) = FX ( + t)
En dérivant FX et FT on obtient
" #
2
1 1 + t 1 t2
fT (t) = fX ( + t) = p exp = p exp :
2 2 2 2
Réciproquement, on montre que si T # N (0; 1) alors X = + T # N ( ; ) et plus

généralement, ceci implique que toute fonction linéaire d’une v.a.r gaussienne est une v.a.r
gaussienne.
Représentation graphique de f
Ce graphique est appelé courbe de gauss ou courbe en cloche.
0.5
y
0.4
0.3
0.2
0.1
-3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.5 1.0 1.5 2.0 2.5 3.0 3.5
x
-0.1
-0.2
Courbe en cloche ; densité de la loi N(0,1).-…gure 1 -
Donc pour une loi N (0; 1); la quasi-totalité des observations sont dans un intervalle
de longueur 6 autour de l’origine. Il s’ensuit que pour une loi N ( ; ) la quasi-totalité des
observations sont dans un intervalle de longueur 6 autour de :
Fonction de répartition
Page 4
Elle est souvent notée et est dé…nie par

Z t
1 x2
8t 2 R; (t) = P (T t) = p e 2 dx:
2 1
C’est l’aire de la partie hachurée
Pout tout réel t; on a ( t) = 1 (t):

Table de (t)
Elle donne la valeur de (t) pour t 0: Comme ( t) = 1 (t); on calcule facilement
(t) quand t < 0:
Quelques valeurs particulières
A partir de la table de la fonction de répartition de N (0; 1) (donc celle de ); on peut
obtenir les quantiles d’ordre 0.95, 0.975, 0.99 et 0.995. On a
(1:645) = 0.95
(1:96) = 0.975
(2:326) = 0.99
(2:57) = 0.995
On en deduit que si X # N ( ; ); alors
P( 1:645 X + 1:645 ) = 0:9

P( 1:96 X + 1:96 ) = 0:95
P( 2:326 X + 2:326 ) = 0:98
P( 2:57 X + 2:57 ) = 0:99
Cas de N ( ; )
X
Soit X une v.a.r qui suit la loi N ( ; ): Posons T = ; T suit la loi N (0; 1).
Notons FX la fonction de répartition de X: On a
x x
FX (x) = P (X x) = P (T )= :
On en déduit que si x est le quantile d’ordre de N ( ; ); alors x = + t où t est

le quantile d’ordre de N (0; 1):
Nous donnons maintenant une propriété importante pour les développements statis-
tiques.
Proposition 1.2 Toute combinaison linéaire de v.a.r gaussiennes indépendantes est une
v.a.r gaussienne.
Remarque 1.3 La proposition précedente n’est pas vraie si les v.a.r sont dépendantes.
Ainsi X1 et X2 peuvent avoir des lois marginales gaussiennes, sans pour au tant que toute
combinaison linéaire de celle-ci soit gaussienne, car cela depend de la nature de leur loi
conjointe.
Page 5
Corollaire 1.1 Soient X1 ; X2 ; :::; Xn n v.a.r indépendantes de loi N ( ; ): Alors X n =

1
P
n
n
Xi suit la loi N ( ; pn ):
i=1
Conditions d’application
- Si une variable X est la résultante d’un très grand nombre de causes indépendantes
se composant de manière additive, chacune de ces causes ayant un e¤et négligeable devant
l’e¤et global, alors X est distribué suivant une loi normale.
- La loi normale peut être obtenue comme limite des autres lois de probabilité. On
peut citer la loi binomiale, la loi de Poisson, la loi de Student, la loi du Chi-deux etc....
- la loi normale est également obtenue comme loi limite de la moyenne d’un gros
échantillon : c’est le théorème central limite.
Proposition 1.3 (Théorème central limite) Soient X1 ; X2 ; :::; Xn n v.a.r indépendantes

et de même loi (on note encore iid) de moyenne et de variance 2 : On pose X n =
P
n
1
n
Xi : Alors X np converge en loi vers N (0; 1):
i=1 n
Interprétation : Quelle que soit la loi de probabilité des v.a.r i.i.d X1 ; X2 ; :::; Xn ; la
v.a.r Yn = X np est centrée reduite.
n
– Si la loi des Xi est gaussienne, la loi de Yn est gaussienne centrée reduite et X n #

N ( ; pn ):
– Si la loi des Xi n’est pas gaussienne, le TCL a¢ rme que la loi de Yn tend à devenir
gaussienne centrée reduite lorsque n tend vers +1: Ainsi si n est grand (souvent
n 30); on approxime la loi de Yn par N (0; 1); de sorte que X n # N ( ; pn ):
Quelques approximations par la loi normale

Approximation de la loi binomiale par la loi normale
Théorème 1.1 Soit une loi B(n; p) telle que :
n ! +1:
p n’est pas très voisin de 0, ni de 1.
p
Alors B(n; p) t N (np; npq)
Approximation de la loi de Poisson par la loi normale
Théorème
p 1.2 Soit une loi de Poisson P( ) telle que ! +1: Alors P( ) t
N( ; ):
1.1.3 La loi lognormale LN ( ; )

Dé…nition 1.4 Soit X une v.a.r à valeurs strictement positives. On dit que X suit une
loi lognormale de paramètres et si ln X suit une loi N ( ; ):
Fonction de répartition et densité de X:

Posons Y = ln X: On a
ln x
F (x) = P (X x) = P (eY x) = P (Y ln x) =
Page 6
et en dérivant on obtient la densité

1
p exp 2
1
2 (ln x )2 si x > 0
f (x) = x 2
0 si x 0:
Moments
k+ 12 2 k2
E(X k ) = E(ek ln X ) = E(ekY ) = MY (k) = e :
Pour k = 1 puis k = 2; on obtient :

2
E(X) = e + 2
2
E(X 2 ) = e2 +2
d’où
2 2
V (X) = e2 +
(e 1):
Conditions d’application
1) Par analogie à la loi normale, si X est la resultante d’un très grand nombre de
causes indépendantes, à e¤ets positifs, se composant de manière multiplicative, chacune
de ces causes ayant un e¤et négligeable devant l’e¤et global, alors X est distribuée suivant
la loi lognormale.
2) La loi lognormale est souvent un bon modèle pour les v.a.r strictement positives
ayant une distribution asymétrique avec allongement vers les valeurs elevées. En particu-
lier on rencontre ce type de variable dans les domaines biologique (poids des personnes par
exemple), économique (distribution de salaires, de revenus, de chi¤res d’a¤aire), physique
(les caractéristiques d’un matériel : résistance, conductiblité, dureté,...), télécommunica-
tion (durée d’un appel téléphonique) et assurance (montant d’un sinistre).
1.1.4 Loi exponentielle; E( )

Dé…nition 1.5 Une v.a.r X suit la loi exponentielle de paramètre ; si sa densité est
x
e si x 0
f (x) =
0 sinon.
x
ou encore f (x) = e :1R+ (x):
Elle est dé…nie par
x
1 e si x 0
F (x) =
0 si x < 0:
Moments
On a
1 2
E(X) = ; E(X 2 ) = 2
donc
2 1 1
V (X) = E(X 2 ) (E(X))2 = 2 2 = 2:
Condition d’application
I Un processus de Poisson compte le nombre d’occurrences d’un évènement dans
l’intervalle ]0; t]; la loi de Poisson est le nombre d’occurrences dans une unité de temps.
Page 7
La loi exponentielle est celle du temps X s’écoulant entre 2 occurences successives lors
d’un tel precssus.
Le paramètre de E( ) est le nombre moyen d’occurrences par unité de temps, 1 est
donc la durée moyenne entre 2 occurrences successives. On reparamétrise souvent E( ) en
posant = 1 ; d’où
1 x
f (x) = e ; x 0
qui met en évidence sa moyenne E(X) = et sa variance devient alors V (X) = 2 :

I La loi E( ) est également le modèle de durée de vie pour un système (idéal) sans
usure, 1 étant l’espérance de vie du sytème. En e¤et par un calcul simple, on montre que
P (X > t+h = X > t) = P (X > h); ce qui signi…e que l’âge du système ne joue aucun rôle
quant aux chances de survie à un horizon, puisque la probabilité précédente ne dépend
pas de t: On dit encore que la loi exponentielle est sans mémoire.
1.1.5 Loi gamma (r; )

P
r
Dé…nition 1.6 Soient X1 ; X2 ; :::; Xr r v.a.r i.i.d, de loi E( ); et T = Xi : Alors T suit
i=1
une loi appelée loi gamma de paramètres r et ; notée (r; ); de densité de probabilité
r
(r 1)!
xr 1 e x
si x 0
f (x) =
0 sinon.
Des propriétés des sommes des v.a.r i.i.d, on déduit immédiatement

r r
E(T ) = et V (T ) = 2:
Généralisation
On généralise la loi (r; ) à une valeur de r non entière mais strictement positive, en
remplaçant dans la densité, l’expression (r 1)! par la fonction gamma d’Euler dé…nie
par Z +1
8r > 0; (r) = xr 1 e x dx:
0
Ainsi cette loi de probabilité doit son nom à cette fonction.
Dé…nition 1.7 Soient r et 2 paramètres strictement positifs. On dit qu’une v.a.r X

suit la loi (r; ); si sa densité de probabilité est dé…nie par :
( r
R +1
x r 1 e x dx
xr 1 e x si x 0
f (x) = 0
0 si x < 0:
La fonction de répartition de cette loi n’est pas explicite et nécessite le recours à un

logiciel.
Le moment d’ordre k a pour expression
(r + k)
E(T k ) = k
:
(r)
p de (r)
Propriétés
1
- 2
= p
3
- 2
= 2
Page 8
- 8r > 0; (r + 1) = r (r)
- Si r 2 N ; (r) = (r 1)!
- (r) ' 1r si r ! 0:
Conditions d’application de (r; ); r 2 N
(r; ) modélise en particulier le temps séparant une occurrence de la rieme suivante
dans un processus de Poisson. Elle joue un rôle similaire à celui de la loi binomiale négative
dans le processus de Bernouilli.
1.1.6 Loi béta Béta( ; )

Dé…nition 1.8 Soient et 2 paramètres strictement positifs. Une v.a.r X suit la loi
béta de paramètres et ; Béta( ; ); si sa densité de probabilité est donnée par
(
( + )
( ) ( )
x 1 (1 x) 1 si x 2]0; 1[
f (x) =
0 sinon.
Remarque 1.4 Pour = = 1; Béta( ; ) est la loi uniforme sur ]0; 1[:
Sachant que pour > 0 et > 0; on a

Z 1
1 1 ( ) ( )
x (1 x) dx =
0 ( + )
on calcule aisément pour une v.a.r X qui suit la loi Béta( ; ) :
B( + k; )
E(X) = ; E(X k ) = et V (X) = :
+ B( ; ) ( + )2 ( + + 1)
R1 ( ) ( )
Dé…nition 1.9 La fonction B( ; ) = 0 x 1 (1 x) 1 dx = ( + )
est appelée intégrale
eulérienne de 1ère espèce (ou fonction béta) de type I.
On a
B( ; ) = B( ; )
B( 12 ; 12 ) = :
B( 32 ; 12 ) = 2
R1 1 1
Remarque 1.5 Nous savons que B( ; ) = 0
x (1 x) dx. En faisant le change-
u
ment de variable x = u+1 , il vient :
Z +1
u 1
B( ; ) = du:
0 (1 + u) +
C’est l’intégrale eulérienne de 1ère espèce du type II. On en déduit :
Dé…nition 1.10 Une v.a.r U suit une loi béta du type II, de paramètres et ; si sa
densité de probabilité est donnée par
(
1 x 1
B( ; ) (1+x) + si x > 0
f (x) =
0 sinon.
Ou encore
Page 9
X
Dé…nition 1.11 Si X suit la loi Beta( ; ) du type I, alors U = 1 X
suit la loi Beta( ; ) du
type II.
On a alors E(U ) = q p 1 (q > 1) et V (U ) = (q(p+q 1)p
1)2 (q 2)
(q > 2):
La première loi béta est parfois appelée loi béta du type I. C’est celle qu’on rencontre
fréquemment en pratique. Elle permet de modéliser les mesures comprises entre 0 et 1; en
particulier des taux ou des proportions.
Proposition 1 (i) Si X # ( ; 1) et Y # ( ; 1); X et Y indépendantes, alors Z =
X
Y
# Beta( ; ) type II.
(ii) Si X # ( ; 1) et Y # ( ; 1); X et Y indépendantes, alors Z = X+Y
X
# Beta( ; )
type I.
1.1.7 Loi du Chi-deux

Dé…nition 1.12 Si X suit une loi N (0; 1), alors Y = X 2 suit une loi appelée loi du Chi
deux à 1 dégré de liberté. Elle est notée X 2 (1) et sa densité est
1 y 1
f (y) = p e 2 :y 2 :1R+ (y):
2
P
n
Dé…nition 1.13 Soient X1 ; X2 ; :::; Xn n v.a.r i.i.d de loi N (0; 1): Alors Y = Xi2 suit
i=1
une loi du Chi deux à n dégrés de liberté. Elle est notée X 2 (n) et sa densité a pour
expression ( n y
1 1
n n
y 2 e 2 si y > 0
f (y) = 22 (2)
0 si y 0
Remarque 1.6 La loi X 2 (n) est identique à la loi ( n2 ; 12 ) qui est encore égale à la loi
2 ( n2 ; 1): Donc une v.a.r chi-deux à n dégrés de liberté est le double d’une v.a.r gamma
de paramètres r = n2 et = 1: Donc
n n 1
X 2 (n) = 2 ( ; 1) = ( ; ):
2 2 2
Moments
Si X # X 2 (n) alors E(X) = n et V (X) = 2n:
Théorème 1.3 Si X # X 2 (n) et Y # X 2 (m); X et Y indépendantes, alors X + Y #
X 2 (n + m):
Page 10
1.1.8 Loi de Student à n dégrés de liberté, T (n)

Dé…nition 1.14 Si X # N (0; 1) et Y # X 2 (n); X et Y indépendantes, alors pXY #
n
T (n):
La densité de T (n) est donnée par
1 x2 1
(n+1)
f (x) = p (1 + ) 2 :1R (x):
nB( n2 ; 21 ) n
c’est donc une loi symétrique comme la loi normale. L’allure de cette loi est similaire
à celle d’une loi N (0; 1) avec une queue plus épaisse. Cette di¤érence s’estompe lorsque
n augmente.
Si X # T (n) alors E(X) = 0 si n 2 et V (X) = n

n 2
si n 3:
Si n = 1; T (1) est la loi de cauchy.
Remarque 1.7 Lorsque n ! +1; T (n) se comporte comme une loi N (0; 1): En pra-
tique si n 30; on approxime T (n) par N (0; 1):
1.1.9 Loi de Fisher-Snedecor à p et q dégrés de liberté, F (p; q)

X
Dé…nition 1.15 Si X # X 2 (p) et Y # X 2 (q); X et Y indépendantes, alors p
Y #
q
F (p; q):
La densité de F (p; q) est donnée par

p q p
p2 q2 x2 1
f (x) = : :1R+ (x):
B( p2 ; 2q ) (q + px) p+q
2
Page 11
q
Si q 3; la moyenne de F (p; q) existe et est égale à q 2
: Si q 5; la variance existe
2q 2 (p+q 2)
et est égale à p(q 2)2 (q 4)
:
Proposition 1.4 Si X # F (p; q) alors Y = 1

X
# F (q; p):
Une conséquence de ce résultat est que le quantile d’ordre de F (p; q) est l’inverse
du quantile d’ordre 1 de F (q; p) f (p; q) = f1 1(q;p) :
Remarque 1.8 Si X # T (n); alors X 2 # F (1; n):
1.1.10 Famille exponentielle

Dé…nition 1.16 Une loi de probabilité de densité f (x; ); 2 Rp ; est dite appartenir à
la famille exponentielle, s’il existe des fonctions h(x); c( ); qj ( ) et dj (x) telles que
" p #
X
f (x; ) = c( )h(x) exp qj ( )dj (x) :
j=1
Le nombre de fonctions qj ou dj est donc égal à la dimension de :

En particulier, si est de dimension 1, on a
f (x; ) = c( )h(x) exp [q( )d(x)] :
Page 12
Nous verrons plus tard que les fonctions dj (x) jouent un rôle important dans la recherche
des meilleurs estimateurs.
La loi binomiale B(n; p) (n connu et p inconnu), la loi de Poisson P( ), la loi géo-
métrique G(p), la loi normale N ( ; 2 ) ( et 2 inconnus), la loi gamma (r; ) (r et
inconnus) et la loi béta Beta( ; ) ( et inconnus) appartiennent à la famille expo-
nentielle. Cette famille possède des bonnes propriétés dans la théorie de l’estimation et
des tests.
1.2 Convergence des v.a.r

Toutes le v.a.r considérées sont dé…nies sur le même espace probabilisé ( ; A; P ):
Soit (Xn )n2N une suite de v.a.r. Nous voulons donner un sens à : Xn converge vers X:
Il existe 2 principes de convergence
– celui basé sur la proximité de la suite Xn avec X et
– celui utilisant la proximité de la suite des lois de Xn avec la loi de X:
Quatre modes de convergence sont le plus souvent utilisés : la convergence en proba-
bilité, la convergence presque sûre, la convergence en moyenne quadratique (toutes trois
basées sur le 1er principe) et la convergence en loi (basée sur le 2ème principe).
1.2.1 Convergence en probabilité

Dé…nition 1.17 On dit que la suite de v.a.r (Xn )n2N converge en probabilité vers la v.a.r
P
X, et on note Xn ! X si :8" > 0, lim P (jXn Xj ") = 0: Ceci équivaut à : 8" > 0;
n!+1
lim P (jXn Xj < ") = 1:
n!+1
P
Remarque 1.9 Si Xn ! X; X est presque sûrement unique ; en d’autres termes si
P P 0 0
Xn ! X et Xn ! X alors X = X P-pp.
P
Théorème 1.4 1- Soit Xn ! X et une fonction continue de R vers R; alors
P
(Xn ) ! (X):
P P P
2- Soit Xn ! X , Yn ! Y et une fonction continue de R2 vers R. Alors (Xn ; Yn ) !
(X; Y ):
P P P
Corollaire 1.2 1- Si Xn ! X, alors : (i) jXn j ! jXj (ii) Xn2 ! X 2 :
P P
2- Si Xn ! X et Yn ! Y alors :
P
(i) 8 2 R; Xn + Yn ! X + Y:
P
(ii) Xn :Yn ! X:Y:
P
(iii) XYnn ! XY
si P (Y = 0) = 0:
Remarque 1.10 La convergence en probabilité n’entraine pas la convergence des mo-
ments, en particulier pas celle des espérances mathématiques.
Exemple 1.1 Considérons la suite de v.a.r (Xn )n2N dé…nies par : Xn prend les valeurs
P
0 et n avec les probabilités respectives 1 n1 et n1 : Il est évident que Xn ! 0 8 n et
E(Xn ) = nn : On a
p
Pour n = n E(Xn ) = p1n ! 0 = E(0):
Pour n = n E(Xn ) = 1 6= E(0):
Pour n = ( 1)n n E(Xn ) = ( 1)n la suite oscille.
Pour n = n2 E(Xn ) = n ! +1:
Page 13
Théorème (Loi faible des grands nombres) Soit (Xn )n2N une suite de v.a.r indépen-
dantes et identiquement distribuées (iid), de moyenne : Alors
1X
n
P
Xn = Xi ! :
n i=1
1.2.2 Convergence presque sûre

Dé…nition 1.18 On dit que la suite de v.a.r (Xn )n2N converge presque sûrement vers la
p:s
v.a.r X, et on note Xn ! X si : 9A 2 A; P (A) = 1 tel que 8! 2 A; lim Xn (!) =
n!+1
X(!):
p:s
Remarque 1.11 Si Xn ! X; X est unique presque sûrement.
p:s p:s
Théorème 1.5 Soit Xn ! X et Yn ! Y; alors :
p:s
(i) 8 2 R; Xn + Yn ! X + Y:
p:s
(ii) Xn :Yn ! X:Y:
p:s
(iii) XYnn ! X Y
si P (Y = 0) = 0:
p:s P
Théorème 1.6 Si Xn ! X alors Xn ! X:
Remarque 1.12 La reciproque de ce théorème est fausse.
Un critère simple de convergence presque sûre P

S’il exite p 1 tel que 8n 2 N; Xn 2 Lp ( ; A; P ) et E (jXn jp ) < +1 alors
n2N
p:s
Xn ! 0:
Théorème 1.7 (Loi forte des grands nombres) Si les Xn sont des v.a.r iid de L2 ( ; A; P );
de moyenne ; alors
1X
n
p:s
Xn = Xi ! :
n i=1
1.2.3 Convergence en loi

Dé…nition 1.19 On dit que la suite de v.a.r (Xn )n2N ; de fonction de répartition Fn tend
en loi vers la v.a.r X de fonction de répartition F lorsque n tend vers +1; si en tout
point de continuité x de F; on a : lim Fn (x) = F (x):
n!+1
L
L’on note alors Xn ! X:
Remarque 1.13 On ne suppose la convergence réalisée qu’aux points de continuité de F .

En un point de discontinuité x0 de F; Fn (x0 ) peut ne tendre vers aucune limite ou tendre
vers une limite di¤érente de F (x0 ):
Exemple 1.2 Soit (Xn )n2N une suite de v.a.r de loi N (0; n1 ): Posons
0 si x < 0
Fn (x) = P (Xn x) et F (x) =
1 si x 0:
1 L
On a lim Fn (x) = F (x) 8x 6= 0: Mais 8n 2 N ; Fn (0) = 2
6= F (0) = 1: Donc Xn ! 0:
n!+1
Page 14
P L
Théorème 1.8 Si Xn ! X alors Xn ! X:
Remarque 1.14 La reciproque est en général inexacte. Toute fois, lorsque X se reduit à
L P
une v.a.r presque certaine, elle est vraie. Donc Xn ! a implique Xn ! a (a 2 R):
L P
Théorème 1.9 1- Si Xn ! X et Yn ! a (a 2 R) alors
L
(i) Xn + Yn ! X + a:
L
(ii) Xn Yn ! aX:
P
(iii) Si a = 0; Xn :Yn ! 0:
Xn L X
2- Si f est une application continue de R vers R telle que f (a) 6= 0; f (Yn )
! f (a)
:
Remarque 1.15 Pour montrer qu’une suite de v.a.r converge en loi vers une loi de
probabilité, il existe des citères permettant de le faire. Par exemple pour une suite de v.a.r
(Xn )n2N à valeurs dans N; Xn converge vers une loi de probabilité Q si lim P (X = k) =
n!+1
Q(fkg) 8k 2 N:
Théorème 1.10 (central limite ou de la limite centrale) Soit (Xn )n2N une suite
de v.a.r iid de moyenne et de variance 2 : Alors
1
P
n
n
Xi
i=1 L
Yn = ! N (0; 1):
p
n
Corollaire 1.3 Si (An )n2N est une suite d’évènements indépendants de même probabilité
p,
Pn
1Ai np
i=1 L
Zn = p ! N (0; 1):
np(1 p)
Corollaire 1.4 Soit (Xn )n2N une suite de v.a.r telles que Xn # B(n; p); alors
X np L
p n ! N (0; 1):
np(1 p)
Ce corollaire permet d’approcher une loi binomiale par une loi normale.
1.2.4 Convergence en moyenne quadratique

Dé…nition 1.20 Soit (Xn )n2N une suite de v.a.r de L2 ( ; A; P ): On dit que Xn converge
m:q
en moyenne quadratique vers X; et on note Xn ! X; si Xn converge vers X dans
L2 ( ; A; P ):
Ainsi
m:q L2
Xn ! X () Xn ! X () (kXn XkL2 ! 0) () E(jXn Xj2 ) ! 0 :
La convergence en moyenne quadratique est un mode de convergence facile à manipuler

car elle repose sur la convergence de la suite numérique E(jXn Xj2 )
Page 15
m:q m:q m:q

Théorème 1.11 Si Xn ! X et Yn ! Y; alors Xn + Yn ! X + Y:
m:q P
Théorème 1.12 Si Xn ! X; alors Xn ! X:
Un critère simple de convergence en moyenne quadratique

X 2 L2 ( ; A; P ) ) X 2 L1 ( ; A; P ); donc E(X) existe. De la relation V arX =
E (X E(X))2 = E(X 2 ) E(X)2 ; on déduit E (Xn X)2 = V ar(Xn X)+(E(Xn
X))2 : Ainsi
m:q
Xn ! X , V ar(Xn X) ! 0 et E(Xn X) ! 0
, E(Xn ) ! E(X) et V ar(Xn X) ! 0
Remarque 1.16 1- Les modes de convergence que nous venons de dé…nir satisfont donc
aux implications suivantes :
p:s m:q
& .
P
#
L
2- Le théorème central limite, la loi faible des grands nombres et la loi forte des grands
nombres sont les résultats les plus utilisés.
1.3 Théorème de Radon-Nikodym et densité

Soit ( ; A; P ) un espace probabilisé et une mesure positive et …nie sur A.
Dé…nition 1.21 On dit que la probabilité P sur ( ; A) est absolument continue par rap-
port à la mesure si : 8A 2 A; (A) = 0 ) P (A) = 0:
On note alors P :
Exemple 1.3 Sur (R; BR ); on considère la mesure de Borel-Lebesgue ; est h…nie. i

R (x )2
Soit P une loi N ( ; ); alors 8B 2 BR ; P (B) = R 1B (x)f (x)dx où f (x) = p12 exp 2 2 : On
a (B) = 0 ) P (B) = 0; donc N ( ; ) est absolument continue par rapport à :
Exemple 1.4 On considère la loi de Poisson P( ): Sur (N; P (N)); 8k 2 N; P (fkg) =

k k
e
k!
: Sur (R; BR ); on considère P tel que P (R N) = 0 et 8k 2 N; P (fkg) = e k! :
On appelle mesure de dénombrement sur (R; BR ) de N, une mesure sur (R; BR ) telle
que :
(R N) = 0
8k 2 N; (fkg) = 1
Soit la mesure de dénombrement de N; 8B 2 BR tel que (B) = 0; on a B \N = ;; d’où
P (B) = 0: Donc P ; c’est à dire la loi de Poisson est absolument continue par rapport
à la mesure de dénombrement de N:
Théorème de Radon Nikodym
Page 16
Théorème 1.13 Avec les hypothèses et les notations précédentes, P ) il existe

une
R fonction R numérique f : ! R pp dé…nie, pp …nie telle que : 8A 2 A; P (A) =
A
fd = 1A :f d : De plus f est unique à une équivalence près. La classe d’équiva-
lence dont un représentant est f est appelée densité de P par rapport à la mesure et
notée dP
d
(dP = f d ): Un représentant de cette classe est une détermination de la den-
sité. Pratiquement, on choisit un représentant partout …ni et ayant de bonnes propriétés
de regularité. Ce réprésentant est appelé la densité de P:
Proposition 1.5 Soit P une probabilité et une mesure positive f inie sur ( ; A):
P 0 une probabilité et 0 une mesure positive f inie sur ( 0 ; A0 )
P et P 0 0
P 0) dP 0
Alors P P 0 0
et d(P
d(
0 dP 0
0 ) (!; ! ) = d (!): d 0 (! ):
Page 17
Chapitre 2
Estimation ponctuelle
Avant d’aborder l’objet de ce chapitre, nous présentons d’abord les 3 problèmes fon-
damentaux de la statistique mathématique.
2.1 Les problèmes en statistique mathématique

2.1.1 Estimation ponctuelle
On voudrait connaitre la proportion 0 des camerounais âgés de 20 ans au moins au
1er janvier 2018.
1ère solution
Le cameroun compte N = 25 millions d’habitants. Une façon naturelle de calculer 0
est d’interroger les 25 millions de camerounais. On aura alors
N ombre de camerounais verif iant le critere
0 =
N
Cette solution a priori la plus certaine n’est cependant pas réaliste. En e¤et, elle necessite
des gros moyens humains, …nanciers et logistiques. Ceci conduit à l’écarter d’emblée.
2ième solution
On interroge au hasard et indépendamment n camerounais ; pour cela on fait un son-
dage. Soit a le nombre de camerounais interrogés et âgés de 20 ans au moins au 1er
janvier 2018. bn = na est une valeur approchée a priori raisonnable de 0 : On dit que
bn est une estimation de 0 :
On souhaiterait que lim bn = 0 : On est donc confronté à un problème de convergence.
n!N
Ici on fait une estimation de 0 par une valeur : on dit qu’on a fait une estimation
ponctuelle.
2.1.2 Estimation par intervalle

On peut également se poser le problème suivant : au vue de l’échantillon de came-
rounais retenu, trouver un intervalle [a; b] tel que 0 2 [a; b] avec un risque …xé de se
tromper.
1 est le niveau de con…ance et

[a; b] est l’intervalle de con…ance ou région de con…ance.
Cette dernière méthode est l’estimation par intervalle de con…ance. Elle s’interprête de
la manière suivante : au vue de l’échantillon de camerounais retenu, P ( 0 2 [a; b]) = 1 :
18
2.1.3 Tests d’hypothèses

Un expert démographe estime que 32 des camerounais seront âgés de 20 ans au moins
au 1er janvier 2018. Pour contrôler cette a¢ rmation, on interroge au hasard et indé-
pendamment 600 camerounais ; 59% d’entre eux véri…ent le critère. L’observation faite
con…rme ou in…rme-t-elle l’a¢ rmation de l’expert ?
Traduisons l’a¢ rmation de l’expert par l’hypothèse H0 : 0 = 23 : A H0 ; on peut
associer l’hypothèse alternative H1 : 0 6= 32 : Le problème est donc de confronter H0 et
H1 à la vue des observations sur les 600 camerounais. Il se pose donc un problème de
décision (test) ; H0 est-elle la bonne hypothèse ou pas ? on peut alors commettre certaines
erreurs :
rejeter H0 alors que H0 est vraie ou
accepter H0 alors que H0 est fausse.
2.2 Exemple de mise en place d’un modèle

Soit l’ensemble de la population camerounaise, P l’équiprobabilité sur (on choisit
l’équiprobabilité sur car tous les individus ont la même chance d’être choisis ; ils sont
interrogés au hasard). On considère l’espace probabilisé ( ; P( ); P ): On dé…nit la v.a.r
X par :
X : ( ; P( ); P ) ! (f0; 1g; P(f0; 1g))

1 si ! véri…e le critère
! 7 !
0 sinon
La loi de probabilité de X est : P (X = 1) = 0 et P (X = 0) = 1 0: Donc

X # B(1; 0 ) et on a :
X : ( ; P( ); P ) ! ( 0 ; P( 0 ); P 0 ) avec 0
= f0; 1g et P 0 = B(1; 0 ):
( 0 ; P( 0 ); P 0 ) modelise la reponse d’un camerounais.

Modelisation pour la reponse de n camerounais. On considère pour cela l’espace
n n n
probabilisé ( 0 ; P( 0 ); P 0 ) = ( 0n ; P( 0n ); P 0 ): On choisit P 0 car les individus
i=1 i=1 i=1
sont interrogés indépendamment. Cet espace probabilisé modelise l’échantillon de taille
n ; il modelise la reponse de n camerounais interrogés au hasard et indépendamment.
Soit
Xi : 0n ! 0
0 0 0 0 0
! = (! 1 ; :::; ! i ; :::; ! n ) 7 ! ! i
Xi est la ième projection ou la ième application coordonnée. On dé…nit ainsi n appli-
cations coordonnées pour un échantillon de taille n et on a :
n
0n 0n
Xi : ( ; P( ); P 0 ) ! ( 0 ; P( 0 ); P 0 ) i = 1; :::; n:
i=1
8i = 1; :::; n; PXi = P 0 = B(1; 0 ): Donc les Xi sont indépendantes et ont même loi de
probabilité que X, la loi B(1; 0 ):
P
n
Soit Yn = Xi alors Yn # B(n; 0 ): Posons bn = Ynn : 8! 0 2 0n ; ! 0 = (! 01 ; :::; ! 0i ; :::; ! 0n ); ! 0i 2
i=1
P
n
f0; 1g 8i = 1; :::; n: Yn (! 0 ) = Xi (! 0 ) donne le nombre de camerounais sur l’observa-
i=1
0
tion ! 0 qui véri…ent le critère. Donc bn (! 0 ) = Ynn(! ) est une estimation de 0 au vue de
l’observation ! 0 : bn est un estimateur de la proportion. E(bn ) = E(Yn n ) = nn0 = 0 :
Page 19
n
0n 0n
Remarque 2.1 0 etant inconnu, au lieu de travailler sur ( ; P( ); P 0 ); nous tra-
i=1
n
0n 0n
vaillerons sur ( ; P( ); P; 2 = [0; 1]) où est appelé paramètre et l’ensemble
i=1
des paramètres.
2.3 Structure statistique

Soit X une v.a.r à valeurs dans l’espace probabilisé ( ; A; PX ); de loi de probabilité PX :
Le problème est que l’on ne connait pas PX et on veut le déterminer le mieux possible. Une
première étape consiste à supposer que PX appartient à une famille de lois de probabilité
P:
Dé…nition 2.1 Soit P une famille de lois de probabilité sur ( ; A): Le triplet ( ; A; P) est
appelé structure statistique ou modèle statistique.
Une structure statistique est donc la donnée d’une famille de lois de probabilité P à
laquelle on contraint PX à appartenir. La connaissance du phénomène étudié permet
d’avoir une idée pour le choix de la famille de lois de probabilité P:
Modèle d’échantillonnage parametré
C’est un modèle dans lequel la famille de lois de probabilité P est indicée par un
paramètre : On note alors
P = fP ; 2 Rg
– P est la loi de probabilité correspondant à la valeur du paramètre.
– est l’espace des paramètres (dans lequel prend sa valeur)
– Si Rp ; p 2; on parle de paramètre multidimensionnel ou vectoriel.
La structure statistique est alors notée
( ; A; fP ; 2 Rg)
Exemple 2.1 1- On pose 0 = f0; 1g (voir exemple introductif) ( 0n ; P( 0n ); fP n ; 2

[0; 1]g) où P = B(1; );est une structure statistique adaptée aux problèmes concernant les
proportions.
2- (N; P(N); fP ; 2 R+ g) où P est la loi de Poisson de paramètre :
3- (R; BR ; fN ( ; 2 ); = ( ; 2 ) 2 R R+ g): Remarquer qu’ici R2 avec =
R R+ : Considérons une machine fabriquant des pièces de diamètres aléatoires. S’il est
raisonnable de considérer que la distribution soit N ( ; 2 ); la structure statistique précé-
dente est adaptée.
4- Considérons une machine fabriquant des pièces de diamètres aléatoires, de loi ab-
solument continue par rapport à mesure de Borel-Lebesgue. Soit PC l’ensemble des
probabilités sur (R; BR ) absolument continues par rapport à : On a alors la structure
(R; BR ; PC ); adaptée au problème, qu’on ne peut décrire par un paramètre. Ici le modèle
d’échantillonnage est non parametré.
2.3.1 Produit de structures

Dé…nition 2.2 On appelle produit des structures ( ; A; P) et ( 0 ; A0 ; P 0 ) et on note
( ; A; P) ( 0 ; A0 ; P 0 ), la structure ( 0
; A A0 ; P P 0 ) où P P 0 = fP P 0 ; P 2 P et
0 0
P 2 P g:
Page 20
Dé…nition 2.3 On appelle produit restreint des structures
( ; A; fP ; 2 g) et ( 0 ; A0 ; fP 0 ; 2 g);
0
la structure ( ;A A0 ; fP P 0; 2 g):
Dé…nition 2.4 On appelle échantillon empirique de taille n, le produit restreint de n

structures identiques ( ; A; P) noté ( ; A; P)n :
On a ( ; A; P)n = ( n
;A n
;P n
) où P n
= fP n
; P 2 Pg:
2.4 Vraisemblance
Dé…nition 2.5 On dit que la structure ( ; A; P) est dominée s’il existe une mesure po-
sitive …nie sur ( ; A) telle que 8P 2 P; P :
est appelée mesure dominante de la structure.

Si la structure est dominée et parametrée, elle s’écrit ( ; A; fP ; 2 g) et 8 ; on
peut avoir dP
d
: On dé…nit ainsi une fonction
L: ! R
dP
(!; ) 7 ! d
(!)
L est la fonction de vraisemblance (ou simplement vraisemblance) de la structure

statistique (L comme likelihood en anglais).
Exemple 2.2 Considerons la structure (N; P(N); fP ; 2 R+ g) où P est la loi de Pois-

son de paramètre : Elle est dominée par la mesure de dénombrement de N: Sa vraisem-
blance est dé…nie par
L : N R+ ! R
k
e
(k; ) 7 ! P (fkg) = k!
:
Exemple 2.3 Soit la structure (R; BR ; fN ( ; 2 ); = ( ; 2 ) 2 R R+ g): Elle est do-

minée par la mesure de Lebesgue. Sa vraisemblance est dé…nie par
L:R R R+ ! R h i
(x )2
(x; ; 2
) 7 ! p1 exp 2 :
2 2
2.4.1 Vraisemblance du produit de structures

0
Si P = fP ; 2 g; P 0 = fP 00 ; 2 0
g et si les structures sont dominées respective-
ment par et par 0 , on note
L: ! R
(!; ) 7 ! L(!; )
la vraisemblance de la 1ère structure ;
L0 : 0
! 0
R
0
0
(! ; ) 7 ! L0 (! 0 ; 0 )
la vraisemblance de la 2ème structure.
La vraisemblance du produit des 2 structures est :
Page 21
0 0
L1 : ! R
0
0
(!; ! ; ; ) 7 ! L(!; ) L0 (! 0 ; 0 )
Exemple 2.4 Considerons l’échantillon empirique

n
(N; P(N); fP ; 2 R+ g)n = (Nn ; P(Nn ); fP ; 2 R+ g);
où P est la loi de Poisson de paramètre : Sa vraisemblance est
L : Nn R+ ! R
n
P
Q
n
e n i=1
ki
(k1 ; :::; kn ; ) 7 ! P (fki g) = k1 !:::kn !

i=1
Exemple 2.5 Soit l’échantillon empirique
(R; BR ; fN ( ; ); ( ; ) 2 R R+ g)n = (Rn ; BRn ; N n

):
Sa vraisemblance est dé…nie par
L : Rn R R+ ! R
n n
Q h io P
n
(xi )2
(x1 ; :::; xn ; ; ) 7 ! p1 exp 2 = p1 n exp 1
2 (xi )2 :
i=1
2 2 ( 2 ) 2
i=1
Remarque 2.2 Souvent, il est commode d’utiliser le logarithme de la vraisemblance.
Dans l’exemple 2.4 si ! = (k1 ; k2 ; :::; kn );

!
X
n
ln L(!; ) = n + ki ln( ) ln (k1 !:::kn !) :
i=1
Dans l’exemple 2.5 on a
1 X
n
p
ln L(x1 ; :::; xn ; ; ) = n ln( 2 ) 2
(xi )2 :
2 i=1
2.5 Statistique
Dé…nition 2.6 Soit ( ; A; P) une structure statistique. On appelle statistique, toute fonc-
tion mesurable de ( ; A) dans ( 0 ; A0 ):
Une statistique est donc une v.a dé…nie sur une structure statistique. Si ( 0 ; A0 ) =
(R; BR ); on dit que la statistique est réelle.
Exemple 2.6 Soit la structure (R; BR ; fN ( ; 1); 2 Rg)n : Dé…nissons
Tn : (Rn ; BRn ) ! (R; BR )

Pn
(x1; x2 ; :::; xn ) 7 ! xi
i=1
Tn est une statistique.
Exemple 2.7 (Statistiques concernant le produit de structures). On considère les struc-

tures statistiques ( ; A; P) et ( 0 ; A0 ; P 0 ) et leur produit ( 0
; A A0 ; P P 0 ): Soient
Page 22
0 0 0
X: ! Y : !
0 et 0
(!; ! ) 7 ! ! (!; ! ) 7 ! !0
X et Y sont des statistiques (car X et Y sont mesurables). 8P 2 P et 8P 0 2 P 0 ; X a

pour loi L(X) = P et Y pour loi L(Y ) = P 0 :
Exemple 2.8 (Statistiques concernant le produit restreint de structures statistiques). On

considère le produit restreint ( ; A; P)n et on dé…nit pour i = 1; :::; n
Xi : n !
! = (! 1 ; :::; ! n ) 7 ! !i
Les Xi sont des statistiques et 8P 2 P; L(Xi ) = P .
Remarque 2.3 Si on a un échantillon empirique dominé ( ; A; fP ; 2 g)n et f la

densité de P ; la vraisemblance L(!; ) s’écrit
Y
n Y
n
n
8! 2 ; 8 2 ; L(!; ) = f (! i ) = f (Xi (!))
i=1 i=1
Q
n
donc L(:; ) = f Xi :
i=1
Dé…nition 2.7 Soient X et Y 2 statistiques dé…nies sur ( ; A; P) à valeurs respecti-

vement dans ( 0 ; A0 ) et ( 00 ; A00 ): X et Y sont des statistiques indépendantes si : 8P 2
P; X et Y sont des v.a indépendantes pour P .
Exemple 2.9 1- Les statistiques X et Y de l’exemple 2.7 ci-déssus sont indépendantes.

2- Les statistiques Xi ; i = 1; :::; n de l’exemple 2.8 sont également indépendantes. Ainsi,
les n applications coordonées d’un échantillon empirique de taille n sont indépendantes et
de même loi.
Dé…nition 2.8 On appelle échantillon de taille n d’une loi, une famille X1 ; X2 ; :::; Xn de
v.a.r indépendantes de même loi.
Les n applications coordonnées d’un échantillon empirique de taille n constituent un

échantillon de taille n.
Dé…nition 2.9 Soit ( ; A; P) une structure statistique. X une statistique sur ( ; A; P) et

à valeurs dans ( 0 ; A0 ): 8P 2 P; on note PX la loi de probabilité de X: On appelle structure
induite par la statistique X; la structure statistique ( 0 ; A0 ; fPX ; P 2 Pg):
Exemple 2.10 Si on se place dans le cadre d’un échantillon empirique, la structure in-
duite par Xi est ( ; A; P):
Dé…nition 2.10 Soit X une statistique réelle sur ( ; A; P):

1- On dit que la statistique
R X est sommable si : 8P 2 P; la v.a.r X est P intégrable. On
note alors EP (X) = XdP 8P 2 P:
2- On appelle image de la statistique (sommable) X; l’application
X :P ! R
P 7 ! EP (X)
Page 23
Dé…nition 2.11 Soit X : ( ; A; P) ! ( 0 ; A0 ) une statistique. X est complète si : pour

toute fonction mesurable h : ( 0 ; A0 ) ! (R; BR ) telle que h X soit P intégrable 8P 2 P;
on a EP (h X) = 0 8P 2 P ) h = 0 PX pp:
Ceci signi…e que X est complète si la seule fonction de X qui a une moyenne nulle est
la fonction nulle.
Exemple 2.11 Considérons les structures statistiques ( ; A; P) et ( 0 ; P( 0 ); fB(n; p); p 2

]0; 1[g) où 0 = f0; 1; :::; ng: Soit X une statistique dé…nie sur ( ; A) à valeurs dans
( 0 ; P( 0 )): Montrons que X est complète. Soit h : 0 ! R une fonction mesurable et
telle que h X est P intégrable 8P 2 P:
8P 2 P; EP (h X) = 0
, EP (h(X)) = 0 8P 2 P
Z
, h(X)dP = 0 8P 2 P
Z
, h(u)dPX (u) = 0 8P 2 P
0
X
n
, h(k)Cnk pk (1 p)n k
= 0 8p 2]0; 1[
k=0
, 8k = 0; 1; :::; n h(k) = 0
donc h = 0 et X est une statistique complète.
Remarque 2.4 Dans la suite, EP (X) sera noté simplement E(X):
2.6 Notions de base sur les estimateurs

2.6.1 Dé…nition d’un estimateur
Dé…nition 2.12 On considère l’échantillon empirique ( ; A; fP ; 2 g)n (c’est une
structure statistique), T une tribu de parties de et g une application mesurable de
( ; T ) dans (F; F):
1- On appelle estimateur de ; toute statistique à valeurs dans ( ; T ):
2- On appelle estimateur de g( ); toute statistique à valeurs dans (F; F):
3- Si Tn est un estimateur de g( ); alors Tn (! 1 ; ! 2 ; :::; ! n ) est une estimation de g( ):
2.6.2 Biais d’un estimateur

Dé…nition 2.13 1- On appelle biais de l’estimateur Tn du paramètre g( ); la quantité
B(Tn ; ) = E(Tn ) g( ): C’est une fonction de :
2- Tn est un estimateur sans biais de g( ) si B(Tn ; ) = 0; c’est à dire E(Tn ) = g( ): Dans
le cas contraire, Tn est un estimateur biaisé de g( ):
3- Si Tn est un estimateur biaisé de g( ) tel que lim B(Tn ; ) = 0 (ce qui est équivalent
n!+1
à lim E(Tn ) = g( )), on dit que Tn est asymptotiquement sans biais pour g( ):
n!+1
Page 24
2.6.3 Convergence d’un estimateur

Dé…nition 2.14 Tn est un estimateur convergent de g( ) s’il converge en probabilité vers
g( ) : 8" > 0 lim P (jTn g( )j < ") = 1:
n!+1
Un critère de convergence
Si Tn est un estimateur sans biais (resp. asymptotiquement sans biais) de g( ) et si
lim V ar(Tn ) = 0; alors Tn est un estimateur convergent.
n!+1
2.6.4 Comparaison des estimateurs

Fonction de perte
Soit T un estimateur du paramètre g( ):
Dé…nition 2.15 On appelle fonction de perte toute fonction positive
l:F F ! R+
(t; ) 7 ! l(t; )
convexe en t:
La fonction de perte mesure la qualité d’une estimation. Ainsi la valeur l(t; ) de

l(T (x1 ; x2 ; :::; xn ); ) représente la perte pour chaque lorsqu’on utilise t:
On utilise souvent la fonction de perte quadratique l(t; ) = (t g( ))2 :
Autre fonctions de perte :
2
t t t
l(t; ) = jt g( )j ; l(t; ) = 1 ; l(t; ) = ln 1:
g( ) g( ) g( )
La fonction de perte est aléatoire ; pour mesurer la précision d’un estimateur, on utilise
la fonction de risque.
Fonction de risque
Dé…nition 2.16 On appelle fonction de risque ou risque de l’estimateur T par rapport
à la fonction de perte l, l’esperance mathématique de la fonction de perte : R(T; ) =
E [l(T; )] ; 2 :
Le risque R(T; ) est donc la perte moyenne lorsqu’on utilise l’estimateur T quand la
vraie valeur est :
Cette dé…nition permet de dé…nir une relation d’ordre partiel sur les estimateurs de
g( ) : T1 est préférable à T2 (on note T1 % T2 ) ssi R(T1 ; ) R(T2 ; ) 8 2 :
Dé…nition 2.17 T1 est strictement préférable à T2 (on note T1 T2 ) si R(T1 ; )

R(T2 ; ) 8 2 :et 9 0 2 tel que R(T1 ; 0 ) < R(T2 ; 0 ):
Dé…nition 2.18 Un estimateur T est admissible s’il n’existe aucun estimateur qui lui est
strictement préférable.
Dé…nition 2.19 Un estimateur T est minimax si supR(T ; ) = inf supR(T; )

2 T 2
Page 25
En utilisant la fonction de perte quadratique, de la relation
V ar(T ) = E(T 2 ) (E(T ))2
on obtient :
R(T; ) = E (T g( ))2
= V ar(T ) + (E(T ) g( ))2
= V ar(T ) + (B(T; ))2
L’idéal serait de trouver un estimateur T qui minimise R(T; ): Cependant minimiser

E (T g( ))2 est un problème mathématique très di¢ cile. On travaille alors dans la
classe des estimateurs sans biais de g( ) ; dans cette classe, le risque d’un estimateur est
mesuré par sa variance.
Dé…nition 2.20 On appelle erreur quadratique moyenne de l’estimateur T, la quantité

E (T g( ))2 :
2.6.5 Exemples
Soit X une v.a.r à valeurs dans (R; BR ) de loi de probabilité inconnue PX : On se
propose d’estimer la moyenne E(X) et la variance 2 (X) de la v.a.r X:
Considérons l’échantillon empirique (R; BR ; P2 )n où P2 est l’ensemble des probabili-
tés sur (R; BR ) qui ont une espérance mathématique et une variance. 8P 2 P2 ; on pose
EP (X) et 2P (X) respectivement l’espérance mathématique et la variance de X selon la
probabilité P: Aucune confusion n’étant possible, EP (X) et 2P (X) seront notés simple-
ment E(X) et 2 (X): On dé…nit : 8i = 1; :::; n
Xi : (R; BR ; P2 )n ! (R; BR )
! = (x1 ; :::; xn ) 7 ! xi
Xi ; i = 1; :::; n est une famille de v.a indépendantes de même loi que X : elle forme
un échantillon de taille n de la v.a.r X:
Estimation de la moyenne
1
P
n
1
P
n
A !; on associe n
xi = n
Xi (!): Considérons alors :
i=1 i=1
X n : Rn ! R
1
P
n
! 7 ! n
Xi (!)
i=1
1
P
n
donc X n = n
Xi :
i=1
Dé…nition 2.21 X n est appelée MOYENNE EMPIRIQUE.
Propriétés de l’estimateur X n
Remarquons d’abord que 8i = 1; :::; n; on a E(Xi ) = E(X) et 2 (Xi ) = 2
(X):
– X n est un estimateur sans biais de E(X):
Pn Pn
En e¤et E(X n ) = E n1 Xi = n1 E (Xi ) = nE(X) n
= E(X):
i=1 i=1
Page 26
p:s
– X n ! E(X):
8P 2 P2 ; les Xi sont des v.a.r indépendantes de L2 ; de même loi , de moyenne
E(X): On applique alors la loi forte des grands nombres.
m:q
– X n ! E(X):
2
En e¤et E(X n ) = E(X) donc lim E(X n ) = E(X): De plus V ar(X n ) = n(X) ,
n!+1
donc lim V arX n = 0:
n!+1
p
n(X n E(X)) L
– (X)
! N (0; 1) par le théorème central limite.
Cas particulier : Estimation d’une proportion
Pour cela on considère l’échantillon empirique
( = f0; 1g; P( ); fP ; 2 [0; 1]g)n = n

; P( n
); fP n
; 2 [0; 1]g
1
P
n
Etant donné fk1 ; k2 ; :::; kn g un échantillon de taille n; un estimateur de est b = n
ki :
i=1
Estimation de la variance
a) Cas où la moyenne = E(X) est connue
Au vue de ! = (x1 ; :::; xn ); on est tenté de proposer :
1
P
n
2 1
P
n
2 2 2 1
P
n
n
(x i ) = n
(X i (!) ) = S n (!) où S n = n
(Xi )2 .
i=1 i=1 i=1
Propriétés de l’estimateur Sn2
– Sn2 est un estimateur sans biais de 2
(X):
– L’étude de la convergence en moyenne quadratique dépend du type de loi. Montrer

m:q
que si X # N ( ; ); alors Sn2 ! 2 :
b) Cas où la moyenne = E(X) est inconnue
P
n
Au vue de ! = (x1 ; :::; xn ); est d’abord estimé par X n = n1 Xi : Soit alors 2n =
i=1
1
P
n
2
n
(Xi X n ) : Un estimateur de la variance de X qu’il serait naturel de proposer ici est
i=1
2 2
n : Calculons E( n ):
On a
1X
n
2
n = (Xi X n )2
n i=1
1X 2
n
= X X n2
n i=1 i
d’où
1X
n
2 2
E( n) = E(Xi2 ) E(X n )
n i=1
2
2 2 (X) 2
= (X) + +
n
2
2 (X)
= (X) :
n
n 2 2
Ceci implique E n 1 n = (X):
Page 27
1
P
n
Sn2 = n 1
(Xi X n )2 est appelé variance empirique. C’est un estimateur sans biais
i=1
de la variance lorsque la moyenne de la variable est inconnue.
Propriétés de Sn2
– Sn2 est un estimateur sans biais de 2 (X):
p:s
– Sn2 ! 2 (X)
Pn P
n 2 p:s
En e¤et 2n = n1 (Xi X n )2 = n1 Xi2 X n ! E(X 2 ) E(X)2 = 2
(X): On
i=1 i=1
p:s
en deduit que Sn = n n 1
22
n !
2
(X):
– L’étude de la convergence en moyenne quadratique dépend du type de loi. Montrer
m:q
que si X # N ( ; ); alors Sn2 ! 2 :
Corrélation entre Sn2 et X n

Nous supposons que E (jXj) < +1 ; cov(X n ; Sn2 ) est indépendant de l’origine de
X ; nous pouvons donc supposer E(X) = 0: De plus
n
cov(X n ; Sn2 ) = cov(X n ; 2
n ):
n 1
On a
2
cov(X n ; n) = E(X n 2n )
" ! !#
1X 1X 2 2
= E Xi X Xn
n i n j j
1X 3
= 2
E(Xi Xj2 ) E Xn :
n i;j
Or
1X 1X
E(X X
i j
2
) = E(Xj3 ) = 3
n2 i;j n2 j n
où 3 est le moment centré (ou non centré) d’ordre 3 de X: On a aussi
3 1
E Xn = E(X 3 ) = 23 ;
n2 n
d’où
2 3 3
cov(X n ; n) =
n n2
3 1
= 1
n n
et
3 1 3
cov(X n ; Sn2 ) = 1 :
n 1 n n 1
Il en resulte que cov(X n ; Sn2 ) tend vers 0 lorsque n tend vers +1; c’est à dire qu’asymp-
totiquement, le couple (X n ; Sn2 ) est non corrélé.
Si X a une distribution symétrique (alors 3 = 0); cov(X n ; Sn2 ) = 0 8n 1: Cela
ne veut pas dire que X n et Sn2 sont indépendants. Cependant si X suit une loi normale,
X n et Sn2 sont de plus indépendants et c’est le seul cas où il en est ainsi.
Page 28
2.6.6 Cas des échantillons gaussiens

2
Théorème 2.1 Soit X1 ; X2 ; :::; Xn un échantillon de taille n de la loi N ( ; ):
1- X n # N ; n :
2
2- X n et Sn2 sont indépendants.

2
3- (n 1)S
2
n
# X 2 (n 1):
Page 29
Chapitre 3
Exhaustivité et information
3.1 Exhaustivité
Nous considérons toujours la structure statistique ( ; A; fP ; 2 g): Pour estimer le
paramètre ; on a besoin d’un échantillon x1 ; x2 ; :::; xn de réalisations de ( ; A; fP ; 2
g): Pour cela on travaille avec la structure statistique ( ; A; fP ; 2 g) n encore
appelée échantillon empirique.
Soit T un estimateur (ou statistique) du paramètre ; T est une fonction de l’échan-
tillon de taille n; x1 ; x2 ; :::; xn : Au vue de ! = (x1 ; x2 ; :::; xn ); est estimé par T (!): La
statistique T opère donc une reduction des données de l’échantillon : elle remplace les
n données par une seule. Cet échantillon a au départ une certaine ”quantité d’informa-
tion” sur le paramètre ; comment savoir si la reduction des données opérée par la
statistique T n’a pas fait perdre une partie de cette information ?
Certaines statistiques peuvent être exclues du fait qu’elles n’utilisent pas de façon
exhaustive toute l’information contenue dans l’échantillon x1 ; x2 ; :::; xn : En revanche on
peut s’attendre à ce qu’un "bon" estimateur soit une statistique qui ne retienne que ce qui
est utile de l’échantillon. Les notions d’exhaustivité et d’exhaustivité minimale repondent
à ces questions.
3.1.1 Dé…nition et interprétation

Soient ( ; A; fP ; 2 g) une structure statistique, X1 ; X2 ; :::; Xn un échantillon de
taille n issu de cette structure, T une statistique dé…nie sur ( ; A; fP ; 2 g)n :
Dé…nition 3.1 T est exhaustive si la loi conditionnelle de (X1 ; X2 ; :::; Xn ) sachant que
T (X1 ; X2 ; :::; Xn ) = s est indépendante de : En d’autres termes, T est exhaustive si
P [(X1 ; X2 ; :::; Xn ) =T (X1 ; X2 ; :::; Xn ) = s] non fonction de :
Interprétation
Géometriquement, la notion de statistique exhaustive signi…e que la seule surface
T (X1 ; X2 ; :::; Xn ) = s nous renseigne sur ; et que la position de (X1 ; X2 ; :::; Xn ) sur
la dite surface ne nous apporte aucune ”information”supplementaire (sur bien sûr).
En général, la démonstration de l’exhaustivité d’une statistique est penible à cause
des longs calculs que demandent les probabilités conditionnelles. Il existe un théorème
d’utilisation facile.
30
3.1.2 Théorème de factorisation (Fisher-Neyman)

Théorème 3.1 Sous les conditions de la dé…nition précedente, si L est la vraisemblance
de la structure statistique dominée ( ; A; fP ; 2 g) n et T une statistique dé…nie sur
cette structure à valeurs dans (A; A); T est exhaustive ssi il existe des fonctions h et
g telles que 8 2 ; on ait L(!; ) = h(!)g(T (!); ) pour presque tout !:
On dit alors que la vraisemblance L se factorise au travers de la statistique T:
Ce théorème indique que si, dans l’expression de la densité conjointe (ou vraisem-
blance), entre uniquement dans un facteur contenant une certaine fonction de ! =
(x1 ; x2 ; :::; xn ), alors cette fonction dé…nit une statistique exhaustive.
Exemple 3.1 On considère la structure (N n ; P(N n ); fP n ; 2]0; 1[g) où P = G( ) la
loi géometrique de paramètre : La vraisemblance de cette structure est :
Q
n
L(!; ) = L(x1 ; x2 ; :::; xn ; ) = P (fxi g):
i=1
Y
n Y
n
P (fxi g) = (1 )xi 1
i=1 i=1
P
n
(xi 1)
n
= (1 )i=1
n P
n
xi
= (1 )i=1
1
n P
n
Xi (!)
= (1 )i=1
1
" ! #
X
n
= h(!)g Xi (!);
i=1
n P
n
avec h(!) = 1 et g(t; ) = 1
(1 )t : Donc T = Xi est une statistique exhaustive
i=1
pour : On peut déduire de ce qui précède que X n est également une statistique exhaustive
pour :
Exemple 3.2 Soit la structure (Nn ; P(Nn ); fP n ; 2 R+ g) où P = P( ) la loi de
Poisson de paramètre : La vraisemblance de cette structure est
Q
n
L(!; ) = L(x1 ; x2 ; :::; xn ; ) = P (fxi g)
i=1
Y
n Y
n
e xi
P (fxi g) =
i=1 i=1
xi !
P
n
xi
n
e i=1
=
x1 !:::xn !
P
n
1 n
Xi (!)
= e i=1
x1 !:::xn !
" ! #
X
n
= h(!)g Xi (!) ;
i=1
1 n t P
n
avec h(x1 ; :::; xn ) = x1 !:::xn !
et g(t; ) = e : Ceci prouve que Xi est exhaustive pour
i=1
: De même X n est exhaustive pour :
Page 31
Exemple 3.3 Soit (Rn ; BRn ; fN n

( ; 2
); = ( ; 2
) 2 R R+ g): La vraisemblance est :
Pn
L(!; ) = L(x1 ; x2 ; :::; xn ; ( ; 2
)) = p1 exp 1
2 (Xi )2 (!) :
( 2 )n 2
i=1
X
n X
n
2
(Xi )2 = Xi X n + (X n )
i=1 i=1
X
n
2 Xn
= Xi Xn + 2(X n ) Xi X n + n(X n )2
i=1 i=1
= (n 1)Sn2 + n(X n 2
)
d’où L(!; ( ; 2
)) = p1 exp 1
2 (n 1)Sn2 + n(X n )2 (!) : Donc si nous dé…-
( 2 )n 2
nissons
h(x1 ; :::; xn ) = 1
et
1 1
g (u; v) ; ; 2
= p exp 2
((n 1)v + n(u )2
( 2 )n 2
alors L(!; ( ; 2 )) = h(!)g (X n ; Sn2 )(!); ( ; 2
) : Donc (X n ; Sn2 ) est une statistique
exhaustive pour = ( ; 2 ):
3.1.3 Statistique exhaustive minimale

P
n
Considerons l’exemple 3.2 ; nous avons montré que T (X1 ; X2 ; :::; Xn ) = Xi est ex-
i=1
haustive pour :
On a également
P
n
1 n (X1 +X2 )(!)
Xi (!)
L(!; ) = e i=3
x1 !:::xn !
donc en appliquant le théorème de factorisation, la statistique T = (X1 + X2 ; X3 + ::: +
Xn ) est exhaustive, ainsi que T = (X1 ; X2 ; X3 + ::: + Xn ) etc.... De plus il est évident
que l’échantillon lui-même est une statistique exhaustive Tn = (X1 ; X2 ; :::; Xn ) appelée
statistique exhaustive triviale.
Dé…nition 3.2 On dit que Tn est exhaustive minimale si elle est exhaustive et si, pour
toute statistique exhaustive T, on peut touver une fonction u telle que Tn = u(T ):
Il apparait de façon intuitive que si 2 Rp ; une statistique exhaustive à valeurs
dans Rp sera en général minimale.
Pour la famille exponentielle, une telle statistique existe toujours.
Proposition 3.1 Si la loi de X appartient à la famille exponentielle avec un paramètre
de dimension p, avec les notations de la dé…nition 1.16, la statistique de dimension p
!
Xn X
n X
n
d1 (Xi ); d2 (Xi ); :::; dp (Xi )
i=1 i=1 i=1
est exhaustive minimale pour :

Ce resultat découle directement du théorème de factorisation.
Remarque 3.1 L’interêt pratique d’une statistique exhaustive minimale est que les esti-
mateurs pertinents du paramètre sont à rechercher parmi les fonctions de cette statistique.
Théorème 3.2 Soit T une statistique exhausive et complète. Alors T est minimale.
Page 32
3.2 Eléments de la théorie de l’information

Nous voulons donner un sens au mot ”information”fournie par un échantillon.
3.2.1 Information au sens de Fisher

Ici on suppose que est un paramètre réel.
Soit X une v.a.r à valeurs dans ( ; A; fP ; 2 Rg); de loi de probabilité P : Soit
f (x; ) la densité de P :
Nous faisons les hypothèses suivantes, appelées parfois "conditions de régularité" (hy-
pothèses de Cramer-Rao) :
– H1 : est un ouvert de R et est le support de f (x; ); c’est à dire 8(x; ) 2
; f (x; ) > 0:
– H2 : 8x 2 ; 8 2 ; f (x; ) est dérivable R au moins 2 fois par rapport à :
– H3 : On peut dériver au moins 2 fois A f (x; )dx par rapport à sous le signe
d’intégration, 8A 2 A: Autrement dit, on peut échanger les symboles de dérivation
et d’intégration (à l’ordre 1 et 2 en ce qui concerne la dérivation).
Remarque 3.2 1- Nous pouvons noter que, si par exemple depend de ; ces hypothèses
ne sont pas toutes véri…ées (H3 par exemple). C’est ainsi le cas de la loi uniforme U[0; ] :
2- Les lois de la famille exponentielle véri…ent H1 ; H2 et H3 :
Dé…nition 3.3 On appelle score (ou fonction score) la fonction S dé…nie par
S: ! R
@ ln(f (x; ))
(x; ) 7 ! S(x; ) = @
:
Dé…nition 3.4 On appelle information de Fisher au point la fonction
I: ! R+
7 ! I( ) = E (S(X; ))2
On a encore
! !
2 2
f 0 (X; ) @
I( ) = E =E ln f (X; ) :
f (X; ) @
Remarque 3.3 L’espérance mathématique est prise par rapport à P ; à …xé.
Ainsi nous avons donc I( ) = E(S 2 ):

Dans le cas d’un échantillon de réalisations (x1 ; x2 ; :::; xn ); la vraisemblance est
Y
n
L(x1 ; x2 ; :::; xn ; ) = f (xi ; )
i=1
Le score de l’échantillon est alors dé…ni par

X
n
Sn (x1 ; x2 ; :::; xn ; ) = S(xi ; )
i=1
et l’information de Fisher
In ( ) = E Sn (X1 ; X2 ; :::; Xn ; )2 :
Page 33
L’information de Fisher ne depend que de et du modèle. C’est une information

contenue dans le modèle sur le paramètre : I( ) est l’information apportée par une
réalisation et In ( ) l’information apportée par un échantillon.
L’expression de I( ) n’étant pas facile à manipuler, nous allons établir maintenant une
nouvelle formule de calcul de I( ):
Proposition 3.2 On a E(S(X; )) = 0 et E(Sn (X1 ; X2 ; :::; Xn ; )) = 0
Preuve 3.1 Les hypothèses H2 et H3 permettent d’écrire

Z
E(S(X; )) = S(x; )f (x; )dx
Z
@
= ln(f (x; )) f (x; )dx
@
Z @
@
f (x; )
= f (x; )dx
f (x; )
Z
@
= f (x; )dx
@
@
= (1)
@
= 0:
Remarque 3.4 De ce qui précède, nous déduisons que I( ) = V ar (S(X; )) et In ( ) =

V ar (Sn (X; )) 8 2 :
@2 @
Théorème 3.3 8 2 ; I( ) = E @ 2
ln f (X; ) = E @
S(X; )
Preuve 3.2 En dérivant l’égalité

Z
@
0= ln(f (x; )) f (x; )dx
@
il vient (en utilisant H3 )
Z Z
@2 @ @
0 = ln(f (x; )) f (x; )dx + ln(f (x; )) f (x; ) dx
@ 2 @ @
Z Z 2
@2 @
= ln(f (x; )) f (x; )dx + ln(f (x; )) f (x; )dx
@ 2 @
c’est à dire
I( ) = E(S(X; )2 )
Z 2
@
= ln(f (x; )) f (x; )dx
@
Z
@2
= ln(f (x; )) f (x; )dx
@ 2
@2
= E ln f (X; ) :
@ 2
Remarque 3.5 De même, pour un échantillon, on a
@2
In ( ) = E ln L(X1 ; X2 ; :::; Xn ; )
@ 2
Page 34
3.2.2 Propriétés de I( )
– Positivité 8 2 ; I( ) > 0:
– Additivité Soient X et Y 2 v.a.r indépendantes, de structures statistiques associées
( ; A; fP ; 2 g) et ( 0 ; A0 ; fQ ; 2 g) respectivement. Soient IX ( ); IY ( ) et
I( ) les informations au point fournies par X; Y et (X; Y ) respectivement ; alors :
I( ) = IX ( ) + IY ( ):
Preuve 3.3 Soient f (x; ); g(y; ) et h(x; y; ) les densités respectives de X; Y et

2 2 2
(X; Y ): On a h(x; y; ) = f (x; )g(y; ): D’où @@ 2 ln h(x; y; ) = @@ 2 ln f (x; )+ @@ 2 ln g(y; ): Le
resultat en découle en prenant les esperances mathématiques (faire attention aux bornes
d’intégration dans le calcul de l’esperance).
Corollaire 3.1 Si (X1 ; X2 ; :::; Xn ) est un échantillon de taille n de la structure statistique

( ; A; fP ; 2 g); alors In ( ) = nI( ) 8 2 :
En d’autres termes, l’information fournie par un échantillon de n données est égale à

la somme des informations fournies par chaque donnée.
3.3 Information et exhaustivité

Théorème 3.4 Sous les hypothèses H1 ; H2 et H3 ; on note In ( ) l’information au point
fournie par l’échantillon et IT ( ) l’information au point fournie par la statistique
T ; on a :
1- IT ( ) In ( ): Autrement dit, l’information ne peut que diminuer lorsqu’on reduit les
données par une statistique.
2- IT ( ) = In ( ) , T est exhaustive pour : Ce dernier resultat est vrai sans H3 :
Donc si T est exhaustive pour ; T fournit sur une quantité d’information égale à
celle fournie par l’échantillon ; de plus c’est le seul cas où l’égalité a lieu. Ainsi, en terme
d’information, la notion d’exhaustivité en statistique rejoint celle du langage courant.
Remarque 3.6 IT ( ) l’information sur fournie par la statistique T est calculée en

utilisant la loi de probabilité de T (donc la structure induite par T ):
Page 35
Chapitre 4
Inégalité de
Frechet-Darmois-Cramer-Rao
4.1 Inégalité de FDCR

Soit (X1 ; X2 ; :::; Xn ) un échantillon indépendant de taille n tiré de la structure sta-
Qn
tistique ( ; A; fP ; 2 g); f (x; ) la densité de P ; h(x1 ; x2 ; :::; xn ; ) = f (xi ; ) la
i=1
densité de (X1 ; X2 ; :::; Xn ) pour …xé dans :
En plus des hypothèses H1 ; H2 et H3 ci-dessous, Cramer et Rao supposent
H4 : 8 2 ; 0 < I( ) < +1:
Théorème 4.1 Sous les hypothèses H1 ; H2 ; H3 et H4 , si Tn est un estimateur tel que

E(Tn ) = g( ); de variance …nie, véri…ant
R
H5 : 8A 2 A n ; A Tn (x1 ; :::; xnR)h(x1 ; :::; xn ; )dx1 :::dxn est dérivable par rapport à sous
le signe d’intégration et n Tn (x1 ; :::; xn ) @h @
(x1 ; :::; xn ; ) dx1 :::dxn < +1 8 2
alors
(i) g est dérivable et
02
(ii) V arTn gIn (( )) 8 2 :
Preuve 4.1 (i) Existence de g 0 ( ).

Z
E(Tn ) = Tn (x1 ; :::; xn )h(x1 ; :::; xn ; )dx1 :::dxn = g( )
n
car T est un stimateur sans biais. D’après H5 ;

Z
@
Tn (x1 ; :::; xn )h(x1 ; :::; xn ; )dx1 :::dxn
@ n
existe et est égale à

Z
@
Tn (x1 ; :::; xn ) h(x1 ; :::; xn ; )dx1 :::dxn
n @
qui est …ni. Donc g 0 ( ) existe.
36
g 02 ( )
(ii) Montrons que V arTn In ( )
Z
0 @
g( ) = h(x1 ; :::; xn ; )dx1 :::dxn
Tn (x1 ; :::; xn )
n @
Z @
@
h(x1 ; :::; xn ; )
= Tn (x1 ; :::; xn ) h(x1 ; :::; xn ; )dx1 :::dxn
n h(x1 ; :::; xn ; )
Z
@ ln h(x1 ; :::; xn ; )
= Tn (x1 ; :::; xn ) h(x1 ; :::; xn ; )dx1 :::dxn
n @
Z
= Tn (x1 ; :::; xn )Sn (x1 ; :::; xn ; )h(x1 ; :::; xn ; )dx1 :::dxn
n
= E(Tn Sn )
Or cov(Tn ; Sn ) = E(Tn Sn ) E(Tn )E(Sn ) = E(Tn Sn ) car E(Sn ) = 0; d’où g 0 ( ) =

cov(Tn ; Sn ): Mais g 02 ( ) = cov 2 (Tn ; Sn ) V ar(Tn ) V ar(Sn ) d’après l’inégalité de
Cauchy-Shwartz. Donc g 02 ( ) V ar(Tn ) V ar(Sn ); or V ar(Sn ) = In ( ); il s’en suit
02
que V ar(Tn ) gIn (( )) 8 2 :
L’inégalité précedente fournit donc une borne inférieure de la variance des estimateurs
sans biais de g( ): Dans la suite, nous noterons B0 la classe des estimateurs sans biais de
g( ):
Remarque 4.1 1- Si nous voulons estimer le paramètre lui-même, alors g( ) = et

l’inégalité s’écrit simplement V arTn In1( ) :
02
2- La quantité notée BF et dé…nie par BF = gIn (( )) est appelée borne de FRECHET.
3- Rien ne nous permet d’a¢ rmer l’existence dans B0 ; d’un estimateur dont la variance
est égale à BF :
4- Si Tn est un estimateur biaisé de g( ); nous avons vu que R(Tn ; ) = E[(Tn g( ))2 ] =
V ar(Tn ) + B 2 (Tn ; ) où B(Tn ; ) est le biais de Tn : Tn est sans biais pour u( ) = g( ) +
B(Tn ; ) et l’inégalité de FDCR entraîne
u02 ( )
E[(Tn g( ))2 ] B 2 (Tn ; ) + :
In ( )
4.1.1 Estimateur é¢ cace

Dé…nition 4.1 Un estimateur Tn sans biais de g( ) est dit é¢ cace si sa variance est
égale à la borne de FRECHET.
Donc
g 02 ( )
Tn é¢ cace () E(Tn ) = g( ) et V ar(Tn ) = :
In ( )
BF
Le rapport V arTn
mesure en pourcentage l’é¢ cacité absolue de Tn :
Dé…nition 4.2 Un estimateur Tn sans biais de g( ) est asymptotiquement é¢ cace si :

lim V B F
arTn
= 1:
n!+1
Page 37
4.1.2 Estimateur optimal

On se place dans B0 et on suppose que 8T 2 B0 ; V ar(T ) < +1:
Dé…nition 4.3 On appelle estimateur optimal dans B0 ; l’estimateur T préferable à tout

autre estimateur au sens de la variance (ou risque).
Donc
T optimal () T 2 B0 et 8T1 2 B0 ; V ar(T ) V ar(T1 ):
Il n’y a aucune raison pour que l’estimateur optimal soit é¢ cace. Ainsi s’il n’existe
pas d’estimateur é¢ cace, on peut rechercher un estimateur optimal.
Unicité de l’estimateur optimal

Lemme 4.1 Soit : n ! R une statistique véri…ant E( ) = 0: Une condition néces-
saire et su¢ sante pour qu’un estimateur T soit optimal est que l’on ait Cov(T; ) = 0:
Preuve 4.2 - Supposons T optimal. 8 2 R; T + 2 B0 ; donc V ar(T ) V ar(T +

2
) , V ar + 2 cov(T; ) 0 8 ; d’où cov(T; ) = 0:
- Reciproquement, supposons que 8 : n ! R une statistique véri…ant E( ) = 0 on a
cov(T; ) = 0: Montrons que T est optimal. Soit T1 2 B0 ; alors E(T1 T ) = 0: Prenons
= T1 T; alors par hypothèse, on a cov(T1 T; T ) = 0: D’où V ar(T1 ) = V ar(T1 T +
T ) = V ar(T1 T ) + V ar(T ); ce qui entraîne V ar(T1 ) V ar(T ) = V ar(T1 T ) 0; donc
V ar(T1 ) V ar(T ):
n
Théorème 4.2 S’il existe un estimateur T sans biais optimal, il est unique P p:s:
Preuve 4.3 Soit S 2 B0 un autre estimateur optimal. Alors on a : V ar(S) = V ar(S

T ) + V arT + 2cov(S T; T ): Comme E(S T ) = 0; le lemme précedent entraîne cov(S
T; T ) = 0: Donc V ar(S) = V ar(S T ) + V ar(T ) ) V ar(S T ) = 0 car V ar(S) =
V ar(T ): Ce qui implique S T E(S T ) = 0 P n p:s; c’est à dire S T =
n
E(S T ) = 0 P p:s:
4.2 Resumés exhaustifs et estimateurs e¢ caces

Lemme 4.2 Soit T un estimateur sans biais de g( ): Sous les conditions de Cramar-Rao
g 02 ( )
sur la densité h(t; ) de T; on a V arT IT ( )
:
Preuve 4.4 En suivant le schéma de la démonstration de l’inégalité de FDCR, il vient :

- g 0 ( ) existe et
Z Z
0 @h
g ( ) = T (x) (T (x); )dx = T (x)S(T (x); )h(T (x); )dx = E(T S)
@
avec S(t; ) = @@ ln h(t; ):
- De plus d’après l’inégalité de Schwartz : g 02 ( ) = cov 2 (T; S) V arT:V arS donc V arT
g 02 ( ) g 02 ( )
V arS
= IT ( )
:
Théorème 4.3 Soit T = T (X1 ; X2 ; :::; Xn ) un estimateur sans biais de g( ): On note

h(t; ) la densité de T: Alors :
1- T est e¢ cace , @@ ln L(X1 ; X2 ; :::; Xn ; ) = S( ) = ( )(T g( )) P p:s:
(i) T est exhaustif pour :
2- T est e¢ cace )
(ii) @@ ln h(t; ) = ( )(t g( ))
Page 38
Preuve 4.5 1- T e¢ cace , cov(T; S) = V arT:V arS; c’est à dire (T; S) = 1 où

(T; S) est le coé¢ cient de corrélation linéaire de T et S: Donc T e¢ cace , 9 ( ) tel
que S( ) = ( )(T g( )) P n p:s car E(S) = 0 et E(T ) = g( ):
02
2-Supposons T e¢ cace. Ceci équivaut à V ar(T ) = gIn (( )) :
02
g ( )
(i) Or V ar(T ) IT ( )
et on a IT ( ) In ( ): Donc IT ( ) = In ( ) c’est à dire T est
exhaustif pour :
02
(ii) Comme IT ( ) = In ( ); nous pouvons écrire V ar(T ) = gIT (( )) : Cela signi…e que
nous avons l’égalité dans l’inégalité de Schwartz qui démontre le lemme précedent. Donc
@
@
ln h(t; ) = ( )(t g( )):
4.3 Amélioration d’un estimateur

L’idée est la suivante : possédant par une méthode quelconque un estimateur sans biais
de g( ); est-il possible de l’améliorer en utilisant les propriétés statistiques éventuelles de
P = fP ; 2 g pour obtenir l’estimateur sans biais de variance minimale ?
Théorème 4.4 (Rao-Blackwell) Soit T un estimateur sans biais de g( ); U une statis-

tique exhaustive pour : L’estimateur h(U ) dé…ni par h(u) = E(T =U = u) est sans biais
pour g( ) et préférable à T:
Ce resultat dit que si l’on projette un estimateur sans biais sur une statistique exhaus-
tive, on obtient un estimateur meilleur.
Preuve 4.6 (i) Montrons que h(U ) est un estimateur sans biais de g( ): La statistique
U étant exhaustive, la loi
R conditionnelle de P sachant U = u est indépendante de : Donc
n
h(u) = E(T =U = u) = T dP (X=U = u) ne dépend pas de : De plus, par la décompo-
sition de l’espérance mathématique :
g( ) = E(T ) = EU (E(T =U = u)) = EU (h(u)) = E(h(U )):
Donc h(U ) est sans biais pour g( ):

(ii) Montrons que V ar(h(U )) V arT:
EU (E(T =U = u)) = EU (h(u)) = E(h(U )):
or d’après l’inégalité de Jensen
E[(T g( ))2 =U = u] E 2 [(T g( ))=U = u]
et
E 2 [(T g( ))=U = u] = E 2 [(T =U =u g( ))] = (h(u) g( ))2
d’où
V ar(T ) EU (h(u) g( ))2 = V ar(h(U )):
Le théorème de Rao-Blackwell ne conduit pas à l’estimateur de variance minimale ;

il permet simplement d’améliorer l’estimateur initial. Le théorème de Lehmann-Sche¤e
prouve alors que, si la statistique exhaustive U est complète, h(U ) est un estimateur
optimal de g( ); c’est à dire de variance minimale.
Théorème 4.5 (Lehmann-Sche¤e) Dans les conditions du théorème de Rao-Blackwell,

si U est complète, alors h(U ) est un estimateur optimal de g( ):
Page 39
Preuve 4.7 Posons TR = h(U ) = E(T =U ): Soit T 0 2 B0 et TR0 = E(T 0 =U ): Nous devons
montrer que V ar(T 0 ) V ar(TR ): On a
E(TR ) = EU (E(T =U = u)) = g( )
et
E(TR0 ) = EU (E(T 0 =U = u)) = g( )
donc
EU (E(T =U = u) E(T 0 =U = u)) = 0:
U étant complète, E(T =U = u) = E(T 0 =U = u) p:s; c’est à dire TR = TR0 p:s; donc
V ar(TR ) = V ar(TR0 ); d’où V ar(T 0 ) V ar(TR0 ) = V arTR :
Page 40
Chapitre 5
Le maximum de vraisemblance
Jusque là, nous avons étudié les propriétés générales des estimateurs sans toute fois
nous préoccuper de la façon dont on peut les construire. L’objet de ce chapitre est de
présenter une méthode d’estimation ponctuelle d’un paramètre : le maximum de vrai-
semblance. Cette méthode a été développée par Ronald Fisher en 1922.
5.1 Généralités sur le maximum de vraisemblance

Dans ce qui suit, x désigne indi¤éremment une observation de la v.a.r X ou les réali-
sations d’un échantillon x = (x1 ; x2 ; :::; xn ) de X: Soit L(x; ) la vraisemblance au point
; 2 ; quelconque.
Dé…nition 5.1 On appelle estimateur du maximum de vraisemblance (emv) de ; la
statistique
b: n !
(x1 ; x2 ; :::; xn ) 7 ! b(x1 ; x2 ; :::; xn )
telle que L(x; b) L(x; ); 8 2 :
Remarque 5.1 Le principe de vraisemblance que nous venons de dé…nir est à la base
de la procédure d’estimation du maximun de vraisemblance. Il consiste à rechercher la
valeur de fonction des observations (x1 ; x2 ; :::; xn ); qui assure la plus grande probabilité
d’obtenir ces observations. C’est donc un principe bien fondé.
Exemple 5.1 Soit X # U[0; ] ; > 0: On considère un échantillon X1 ; X2 ; :::; Xn de la
v.a X: Trouvons un emv pour : Soit x1 ; x2 ; :::; xn une réalisation de l’échantillon. La
vraisemblance s’écrit
1
L(x1 ; x2 ; :::; xn ; ) = n ; x1 ; x2 ; :::; xn 2 [0; ]
1
= n 1[0 minXi maxXi ] (x1 ; x2 ; :::; xn )
i i
Maximiser L lorsque x1 ; x2 ; :::; xn sont …xés revient à minimiser dans les mêmes condi-
tions. Comme est l’extremité droite de l’intervalle de variation de x; prend sa valeur
minimale pour b(x1 ; x2 ; :::; xn ) = maxxi : Donc b(X1 ; X2 ; :::; Xn ) = maxXi est un estima-
i i
teur de par le maximum de vraisemblance.
Quelques propriétés négatives de l’emv
– Il n’y a aucune raison pour que L(x; ) soit di¤érentiable en :
– Il n’y a aucune raison pour que l’EMV soit sans biais ; il n’est donc pas nécessaire-
ment é¢ cace ou optimal.
– L’emv n’est pas nécessairement unique.
41
5.2 Recherche de l’EMV

5.2.1 Equation de vraisemblance
L’exemple que nous venons de traiter nous a permis de constater que la recherche d’un
maximum de la vraisemblance n’est pas forcément reduit à un simple calcul des zéros de
la dérivée de L: Cependant, ce cas étant le plus fréquent, nous allons supposer :
(i) ne depend pas de :
(ii) L est de classe C 2 en ; 8x:
Dans ces conditions, b emv est solution du système
( @L(x; )
@
=0 (1)
(I) @ 2 L(x; ) (5.1a)
@ 2
< 0 (2)
=b
Mais vu la forme des densités des lois usuelles de probabilité, il est surtout aisé d’utiliser
le logarithme de la vraisemblance ln L(x1 ; :::; xn ; ): Dans ce cas, on a :
L’équation (1) de 5.1a est équivalente à @ ln @L(x; ) = 0:
@ 2 ln L @ L0 L00 L L02 L00
De plus @ 2
= @ L =b
= L2
= L =b
:
=b =b
2
Donc (2) de 5.1a est équivalent à @ @ln2 L < 0: Le système (I) est donc équivalent
=b
au système
( @ ln L(x; )
@
=0
@ 2 ln L(x; )
@ 2
< 0:
=b
@ ln L(x; )
Dé…nition 5.2 L’équation @
= 0 est appelée équation de vraisemblance.
@ ln L(x; )
Rappelons que @
= Sn (x; ) la fonction score.
5.2.2 Exemples
Emv du paramètre d’une loi de Poisson P( ) : Pour un échantillon de réalisations
x1 ; x2 ; :::; xn de P( ); la vraisemblance s’écrit :
P
n
xi
Y
n Y
n
e xi
e n i=1
L(x1 ; x2 ; :::; xn ; ) = P (X = xi ) = = Q
n
xi !
i=1 i=1 xi !
i=1
P
n
ln L(x; ) = n + xi ln + Cte: L’équation de vraisemblance est :
i=1
P
n
xi
@ ln L(x; ) i=1
= n+ = 0;
@
donc
P
n
xi
= xn b= i=1
n
Montrons que b est e¤ectivement un maximum :
@ 2 ln L
@ 2
= n xn2 @ 2 ln L
@ 2
= xnn < 0: Donc l’emv de est b(X1 ; X2 ; :::; Xn ) =
b=xn
P
n
Xi
i=1
n
= X n:
Page 42
Emv de la moyenne d’une loi normale N ( ; )

Soit x1 ; x2 ; :::; xn un échantillon de réalisations de N ( ; ): La vraisemblance est :
2 n 3
" # P 2
Yn
1 (xi )2 1 n 6 i=1(xi ) 7
L(x1 ; x2 ; :::; xn ; ) = p exp = n (2 ) exp 4
2 6 7
2 2 2 2 2 5
i=1
On a
P
n
(xi )2
i=1
ln L(x1 ; x2 ; :::; xn ; ) = n ln 2
+ Cte
2
et
P
n
1
P
n
(xi
xi ) n n
@ ln L i=1 i=1
(x1 ; x2 ; :::; xn ; ) = 2
= 2
:
@
@ ln L
P n
Donc @
= 0 ) b = n1 xi et b est bien un maximum de ln L: Donc l’Emv de est
i=1
b(X1 ; X2 ; :::; Xn ) = X n :
Emv du paramètre d’une loi binomiale B(n; p)

Soit x une réalisation de cette loi. L(x; p) = P (X = x) = Cnx px (1 p)n x :
ln L(x; p) = ln Cnx + x ln p + (n x) ln(1 p):
@ ln L x n x x
= = 0 , pb =
@p p 1 p n
@ 2 ln L x n x
: @p2
= p2 (1 p)2
:
@ 2 ln L n3 X
@p2 x
= x(n x)
< 0: Donc pb(X) = n
est l’emv de p:
pb= n
Avant d’étudier les propriétés des emv, rappelons que la vraisemblance L admet une
borne supérieure en tant que probabilité (cas discret) mais aussi, généralement, en tant que
densité de probabilité (cas continu), et qu’elle est le plus souvent concave. L’équation de
vraisemblance admettra donc, en général une solution unique qui sera alors nécessairement
un maximum. Pour cette raison, dans la détermination de l’emv, on véri…e pas souvent la
condition de second ordre.
5.3 Propriétés des emv

Soit b l’emv de :
Théorème 5.1 Si T est une statistique exhaustive pour ; b est fonction de T:
Preuve 5.1 T exhaustive ) L(x; ) = h(x) (T; ): Donc maxL(x; ) est équivalent à
2
max (T; ): Donc b est tel que (T; b) (T; ) 8 2 : Ceci implique que b n’est
2
fonction que de T:
Remarque 5.2 L’Emv n’est pas forcément exhaustif.
Page 43
n
Théorème 5.2 S’il existe un estimateur é¢ cace T du paramètre ; il est identique P
p:s à l’unique estimateur du maximum de vraisemblance.
Preuve 5.2 T é¢ cace ) @ @ln L = ( )(T ) P n
p:s avec ( ) 6= 0: b l’EMV véri…e
@ ln L
@ =b
= 0; c’est à dire (b)(T b) = 0 P n
p:s. Ceci implique T = b presque
sûrement.
5.3.1 Propriété d’invariance

Soit g( ) une fonction de que nous voulons estimer. Sous certaines conditions de
regularité, on montre que si b est l’EMV de ; g(b) est l’EMV de g( ): Cette propriété
est connue sous le nom de théorème de Zehma, mais nous la présentons ici comme une
dé…nition.
Dé…nition 5.3 On suppose quelconque ( R ou Rp ): Si b est l’emv de ; on
d) = g(b):
appelle emv de g( ); la fonction g(
5.4 Les deux propriétés asymptotiques des emv

Les deux propriétés de convergence que nous allons énoncer dans ce paragraphe sont
à l’origine de l’utilisation fréquente des emv.
Théorème 5.3 Sous les hypothèses suivantes :
1) est un ouvert de R:
2) 6= 0 ) P 6= P 0 :
3) @f
@
(x; ) existe 8x; 8 :
Si 0 est la vraie valeur du paramètre, il existe une suite bn de solutions de l’équation de
vraisemblance qui converge presque sûrement vers 0 :
Remarque 5.3 Le théorème a¢ rme la convergence de toute racine de l’équation de vrai-
semblance vers la vraie valeur du paramètre. Cette racine peut être un maximum local de
la vraisemblance.
Théorème4 :
Sous les hypothèses du théorème3 et d’autres conditions de regularité, si bn est une
p:s
suite de racines de l’équation de vraisemblance telle que bn ! 0 , alors :
!
p L 1
n(bn 0) ! N 0; p
I( 0 )
p b
Remarque 5.4 Le théorème précedent a¢ rme que pour n ! +1; L n( n 0) t
N 0; p 1
donc L bn t N 0; p 1
: Or nI( 0 ) = In ( 0 ) donc L bn t
IX ( 0) nIX ( 0)
p 1
N 0; ; ce qui montre que :
In ( 0)
- E(bn ) t 0 ; bn est asymptotiquement sans biais pour 0:

- V ar(bn ) t In (1 0 ) :
1
Remarque 5.5 Pour l’estimation de g( 0 ) = est la borne de Frechet. Il resulte
0 ; In ( 0 )
b
alors de la remarque précédente qu’asymptotiquement, n est un estimateur sans biais,
e¢ cace (donc exhaustif) de 0 :
Page 44
Chapitre 6
Estimation par intervalles
Dans l’estimation ponctuelle, nous avons associé à un échantillon X1 ; X2 ; :::; Xn d’une

v.a.r X dont la loi de probabilité dépend d’un paramètre 2 ; une statistique T =
T (X1 ; X2 ; :::; Xn ) qui est appelée estimateur du paramètre inconnu : Dans l’estimation
par intervalle, nous allons associer à cet échantillon un intervalle (aléatoire) I de l’espace
; cet intervalle sera choisi de sorte que la probabilité pour qu’il contienne la valeur
inconnue du paramètre soit égale à un nombre donné appartenant à [0; 1]: Un exemple va
nous permettre de comprendre les fondements de la théorie.
6.1 Exemple preliminaire et dé…nitions

6.1.1 Estimation de la moyenne d’une v.a X # N ( ; ); connu
Soit X1 ; X2 ; :::; Xn un échantillon de X: Un estimateur sans biais et convergent de
Pn
est X n = n1 Xi : Mais X n # N ( ; pn ); donc Xpn # N (0; 1): Pour 2]0; 1[; soit
i=1 n
t1 2
le quantile d’ordre 1 2
de la loi N (0; 1): On a
" #
Xn
P t1 2
t1 2
=1 ;
p
n
donc
P Xn p t1 X n + p t1 2 = 1 :
n 2
n
h i
Ainsi au vue de l’échantillon X1 ; X2 ; :::; Xn ; X n p t
n 1 2
; X n + n t1 2 est un inter-
p
valle ayant la probabilité 1 de recouvrir la vraie valeur du paramètre :

h i
I = X n pn t1 2 ; X n + pn t1 2 est l’intervalle de con…ance.
Xn p t
n 1
et X n + pn t1 2 sont les limites de con…ance
2
1 est le niveau de con…ance
6.1.2 Dé…nitions générales

Soit ( ; A; fP ; 2 Rg) une structure statistique et 2]0; 1[: X1 ; X2 ; :::; Xn un
échantillon de taille n de cette structure.
45
Dé…nition 6.1 1- On appelle intervalle de con…ance bilatéral (ou bilatère) de niveau

de con…ance 1 ; tout intervalle [An ; Bn ] où An et Bn sont des statistiques réelles
indépendantes de ; telles que
P [An Bn ] = 1 :
2- On appelle intervalle de con…ance unilatéral (ou unilatère) du type ] 1; a], de niveau

de con…ance 1 ; tout intervalle de la forme ] 1; Cn ] où Cn est une statistique réelle
ne dépendant pas de ; telle que
P[ Cn ] = 1 :
3- On appelle intervalle de con…ance unilatéral (ou unilatère) du type [b; +1[, de niveau
de con…ance 1 ; tout intervalle de la forme [Dn ; +1[ où Dn est une statistique réelle
ne dépendant pas de ; telle que
P[ Dn ] = 1 :
Dans les intervalles du type ] 1; Cn ]; on cherche une valeur maximale au paramètre

. Par exemple si l’on désire avoir une concentration en sucre inférieure à un certain
pourcentage …xé dans un aliment.
Dans le type [Dn ; +1[; on cherche une valeur minimale au paramètre . Par exemple
le cas lorsque l’on s’intéresse à la durée de vie minimum d’un composant électronique.
Pour le type [An ; Bn ]; on cherche à encadrer la valeur du paramètre . C’est le cas le
plus fréquent.
Remarque 6.1 Dans l’exemple introductif, l’intervalle de con…ance I a été obtenu en

utilisant le fait que la v.a.r
Xn
Q(X1 ; X2 ; :::; Xn ) =
p
n
suit une loi de probabilité indépendante de : Cette remarque conduit à une méthode
générale de construction des intervalles de con…ance qui sera développée au paragraphe
suivant.
Remarque 6.2 Nous constatons sur cet exemple que lorsque la taille de l’échantillon
augmente, la longueur de l’intervalle de con…ance (longueur qui, ici, n’est pas aléatoire)
tend vers 0 quel que soit le coe¢ cient de con…ance. Il sera raisonnable, dans le cas gé-
néral, d’imposer une condition analogue aux régions de con…ance qui seront alors dites
convergentes.
Remarque 6.3 S’il est possible de dé…nir plusieurs intervalles de con…ance correspon-
dants à une même valeur de ; il sera évidemment indiqué de choisir celui dont la longueur
est minimale.
6.2 Méthode de construction d’un intervalle de con…ance

Comme nous l’avons déjà dit, l’intervalle de con…ance I a été obtenu en utilisant le
fait que la v.a.r Q(X1 ; X2 ; :::; Xn ) = Xpn suit une loi de probabilité indépendante de
n
; Q est alors appelée fonction pivotale pour :
Page 46
Dé…nition 6.2 On appelle fonction pivotale pour ; une application mesurable

n
Q: ! (R; BR )
dont la loi de probabilité est …xe 8 ; c’est à dire indépendante de :
Donc une fonction pivotale n’est autre chose qu’une fonction de l’échantillon X1 ; X2 ; :::; Xn et
du paramètre ; dont la loi ne dépend d’aucun paramètre.
Dé…nition 6.3 On appelle fonction asymptotiquement pivotale pour , une application

mesurable
Qn : n ! (R; BR )
convergeant en loi vers une loi de probabilité …xe, 8 :
Les fonctions pivotales sont donc telles que, étant donné, il existe 2 quantiles de
; a d’ordre 1 et b d’ordre 1 2 ( 1 + 2 = ) tels que
P (a Q(X1 ; X2 ; :::; Xn ; ) b) = 1 :
Il su¢ t alors de resoudre en les inéquations
a Q(X1 ; X2 ; :::; Xn ; )
(6.1)
Q(X1 ; X2 ; :::; Xn ; ) b
pour déterminer l’intervalle de con…ance de :

Dans le cas des fonctions asymptotiquement pivotales, en supposant n su¢ sament
grand, on assimile la loi de Qn à la loi limite : a et b sont alors déterminés comme dans
6.1.
Remarque 6.4 Si est une loi symétrique, on montre que pour …xé, l’intervalle
de longueur minimale est obtenu pour 1 = 2 = 2 : C’est la raison pour laquelle dans
l’exemple, nous avons choisi t1 2 le quantile d’odre 1 2 de N (0; 1):
6.2.1 Exemples de fonctions pivotales

Cas des échantillons gaussiens
Soit X1 ; X2 ; :::; Xn un échantillon de taille n de la loi N
p
( ; ):
n(X n )
– Si est connu : la fonction Q(X1 ; X2 ; :::; Xn ; ) = est pivotale pour ; de
loi N (0; 1):
– Si est inconnu : la fonction précedente n’est plus pivotale pour p
car elle dépend
n(X n )
du paramètre inconnu : La fonction Q(X1 ; X2 ; :::; Xn ; ) = Sn
est pivotale
pour ; de loi T (n 1):
P
n
– Si est connu : la fonction Q(X1 ; X2 ; :::; Xn ; 2 ) = 12 (Xi )2 est pivotale
i=1
pour 2 ; de loi X 2 (n):
2
– Si est inconnu : la fonction Q(X1 ; X2 ; :::; Xn ; 2
) = (n 1) Sn2 est pivotale pour
2
; de loi X 2 (n 1):
Page 47
Echantillons non gaussiens

– Soit X # B(n; p): La fonction Qn (X; p) = pX np
est asymptotiquement pivotale
np(1 p)
L
pour p; Qn ! N (0; 1):
– Soit
p
X1 ; X2 ; :::; Xn un échantillon de taille n de la loi de Poisson P( ): Qn (X1 ; X2 ; :::; Xn ; ) =
n(X n ) L
p est asymptotiquement pivotale pour : Qn ! N (0; 1) (théorème central
limite):
6.3 Intervalles de con…ance classiques

6.3.1 Cas des échantillons gaussiens
Dans ce paragraphe, on considère la structure statistique (R; BR ; fN ( ; ); ( ; ) 2
R R+ g) et X1 ; X2 ; :::; Xn un échantillon de taille n de cette structure.
Intervalle de con…ance de la moyenne

Cas
p
où est connu C’est l’exemple introductif. Nous avons vu que Q(X1 ; X2 ; :::; Xn ; ) =
n(X n )
est une fonction pivotale pour qui suit la loi N (0; 1): Soit t1 2 le quantile
d’ordre 1 2 de N (0; 1): Alors
p
n(X n )
P t1 2 t1 2 = 1 , P X n p t1 2 X n + p t1 2 = 1 :
n n
La valeur t1 2
est lue dans la table de la loi normale centrée reduite.
p
Cas où est inconnu On a n(X n
Sn
)
# T (n 1): Soit zn 1;1 2
le quantile d’ordre
1 2 de T (n 1): Alors
p
n(X n )
P zn 1;1 zn 1;1 =1
2
Sn 2
ce qui est équivalent à

S Sn
P Xn pn zn 1;1 X n + p zn 1;1 =1 :
n 2
n 2
Remarque 6.5 Lorsque n 30; la loi de Student-Fisher T (n) est approximée par la loi
normale centrée reduite N (0; 1): Dans ces condiions, on peut utiliser les quantiles de la
loi N (0; 1) pour les calculs numériques.
Intervalle de con…ance de la variance

Pn 2
Cas où est connu Soit 2n = n1 (Xi )2 : Nous savons que n n
2 # X 2 (n): Soient
i=1
xn; 1 et xn;1 2 les quantiles respectifs d’ordre 1 et 1 2 (avec 1 + 2 = ) de la loi
X 2 (n): Alors
2 2
n n n 2 n 2n
P xn; 1 n 2
xn;1 2 =1 () P =1 :
xn;1 2 xn; 1
Les valeurs xn; 1 et xn;1 2 sont lues dans la table de la loi du X 2 (n):
Page 48
P
n 2
Cas où est inconnu Soit Sn2 = n 1
1
(Xi X n )2 : (n 1) Sn2 # X 2 (n 1): De même
i=1
que précedemment, on trouve
(n 1)Sn2 2 (n 1)Sn2
P =1
xn 1;1 2 xn 1; 1
Les valeurs xn 1; 1 et xn 1;1 2 sont lues dans la table de la loi du X 2 (n 1):
Intervalle de con…ance de l’écart-type

r n
P p L
L’emv de est : bn = n1 (Xi X n )2 : Asymptotiquement, on a : n(bn ) !
p i=1 p
2n(bn ) L
N (0; p2 ) ou encore ! N (0; 1): 2n(bn ) est donc une fonction asymptotique-
ment pivotale pour : Soit t1 2 le quantile d’ordre 1 2 de N (0; 1); on obtient :
0 1
bn bn A
P@ t1 t1 =1 :
1 + p2n2 1 p2n2
6.3.2 Cas des échantillons non gaussiens

Intervalle de con…ance d’une proportion
Soit X # B(n; p); x une réalisation de X: Nous nous plaçons dans le cadre asymp-
totique, c’est à dire n ! +1: pbn = Xn est le meilleur estimateur sans biais de p:
X np L pbn p L
p ! N (0; 1); donc q ! N (0; 1):
np(1 p) p(1 p)
n
On a donc une fonction asymptotiquement pivotale pour p: Soit 2]0; 1[ donné et u le

fractile d’ordre 1 2 de N (0; 1): On a :
0 1
pbn p
P@ u q uA = 1 :
p(1 p)
n
La resolution en p peut se faire de 2 façons :

1ère méthode
On a
2
u qpbn p u , qpbn p u2
p(1 p)
n
p(1 p)
n
(6.2)
2 u2 u2
, p (1 + n
) 2p(b
pn + 2n
) + pbn 0
0 u2 u2
Le discriminant reduit est : = n
( + pbn (1 pbn )) > 0: Le polynôme en p admet donc
2 p 4n 2 p
pbn + u 0 pbn + u + 0
2 racines distinctes : p1 = 2n
2 et p2 = 2n
2 et l’inégalité 6.2 est véri…ée
1+ un 1+ un
ssi p 2 [p1 ; p2 ]: Donc [p1 ; p2 ] est un intervalle de con…ance de p; de niveau asymptotique
1 :
Remarque 6.6 Les graphes de p1 (b pn ; ; n) en fonction de pbn ont donné

pn ; ; n) et p2 (b
lieu à la construction d’abaques pour diverses valeurs de n et :
Page 49
2ième méthode
p:s
On remplace p par pbn : En e¤et cela est justi…é par : pbn est l’EMV de p; donc pbn !
P
p; d’où pbn ! p: On a alors
p P
p
pbn (1 pbn ) ! p(1 p)
d’où
qpbn p
pb p p(1 p)
L
qn = q
n
bn (1 p
p bn )
! N (0; 1)
pbn (1 pbn ) n
n q
p(1 p)
n
Nous avons donc

r r !
pbn (1 pbn ) pbn (1 pbn )
P pbn u p pbn + u =1 :
n n
Intervalle de con…ance d’une moyenne

Soit X une v.a.r de moyenne et de variance 2 ; X1 ; X2 ; :::; Xn un échantillon de taille
n de X: Par le théorème central limite, la distribution de la moyenne X n de l’échantillon
peut être assimilée à une loi normale N ( ; pn ) dès que n dépasse une trentaine d’unités.
p
a) Si est connu, la fonction asymptotiquement pivotale n(X n ) de loi N (0; 1) permet
de construire un intervalle de con…ance pour ; de niveau asymptotique 1 :
1
Pn
b) Si est inconnu, on remplace par Sn Sn2 = n 1 (Xi X n )2 et la distri-
p i=1
n(X n )
bution de Sn
est encore assimilable à une loi N (0; 1): Ce remplacement est justi…é
par le fait que : )
p p
n(X n ) L p n(X n )
! N (0; 1) n(X n ) L
p:s donc Sn
= Sn ! N (0; 1):
Sn !
Page 50

Cours-Estimation 1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours-Estimation 1

Transféré par

Droits d'auteur :

Formats disponibles

Estimation Statistique

Yaoundé, le 5 octobre 2021

6 Estimation par intervalles 45

1.1 Lois de probabilité continues

1.1.2 Loi normale ou loi de Laplace-Gauss N ( ; )

Les paramètres sont notés et du fait qu’ils correspondent respectivement à la

Loi normale centrée reduite N (0; 1):

Proposition 1.1 Si X # N ( ; ) alors T = X

Preuve 1.1 Soient FX et FT les fonctions de répartition de X et T respectivement, alors

Réciproquement, on montre que si T # N (0; 1) alors X = + T # N ( ; ) et plus

Courbe en cloche ; densité de la loi N(0,1).-…gure 1 -

Elle est souvent notée et est dé…nie par

C’est l’aire de la partie hachurée

Pout tout réel t; on a ( t) = 1 (t):

On en deduit que si X # N ( ; ); alors

P( 1:645 X + 1:645 ) = 0:9

On en déduit que si x est le quantile d’ordre de N ( ; ); alors x = + t où t est

Corollaire 1.1 Soient X1 ; X2 ; :::; Xn n v.a.r indépendantes de loi N ( ; ): Alors X n =

Proposition 1.3 (Théorème central limite) Soient X1 ; X2 ; :::; Xn n v.a.r indépendantes

– Si la loi des Xi est gaussienne, la loi de Yn est gaussienne centrée reduite et X n #

Quelques approximations par la loi normale

Théorème 1.1 Soit une loi B(n; p) telle que :

Approximation de la loi de Poisson par la loi normale

1.1.3 La loi lognormale LN ( ; )

Fonction de répartition et densité de X:

et en dérivant on obtient la densité

Pour k = 1 puis k = 2; on obtient :

1.1.4 Loi exponentielle; E( )

qui met en évidence sa moyenne E(X) = et sa variance devient alors V (X) = 2 :

1.1.5 Loi gamma (r; )

Des propriétés des sommes des v.a.r i.i.d, on déduit immédiatement

Dé…nition 1.7 Soient r et 2 paramètres strictement positifs. On dit qu’une v.a.r X

La fonction de répartition de cette loi n’est pas explicite et nécessite le recours à un

1.1.6 Loi béta Béta( ; )

Sachant que pour > 0 et > 0; on a

on calcule aisément pour une v.a.r X qui suit la loi Béta( ; ) :

C’est l’intégrale eulérienne de 1ère espèce du type II. On en déduit :

1.1.7 Loi du Chi-deux

1.1.8 Loi de Student à n dégrés de liberté, T (n)

La densité de T (n) est donnée par

Si X # T (n) alors E(X) = 0 si n 2 et V (X) = n

1.1.9 Loi de Fisher-Snedecor à p et q dégrés de liberté, F (p; q)

La densité de F (p; q) est donnée par

Proposition 1.4 Si X # F (p; q) alors Y = 1

Remarque 1.8 Si X # T (n); alors X 2 # F (1; n):

1.1.10 Famille exponentielle

Le nombre de fonctions qj ou dj est donc égal à la dimension de :

f (x; ) = c( )h(x) exp [q( )d(x)] :

1.2 Convergence des v.a.r

1.2.1 Convergence en probabilité

1.2.2 Convergence presque sûre

Remarque 1.12 La reciproque de ce théorème est fausse.

Un critère simple de convergence presque sûre P

1.2.3 Convergence en loi

Remarque 1.13 On ne suppose la convergence réalisée qu’aux points de continuité de F .

1.2.4 Convergence en moyenne quadratique

La convergence en moyenne quadratique est un mode de convergence facile à manipuler

m:q m:q m:q

Un critère simple de convergence en moyenne quadratique

1.3 Théorème de Radon-Nikodym et densité

Exemple 1.3 Sur (R; BR ); on considère la mesure de Borel-Lebesgue ; est h…nie. i

Exemple 1.4 On considère la loi de Poisson P( ): Sur (N; P (N)); 8k 2 N; P (fkg) =

Théorème de Radon Nikodym