Inference 1 2 PDF

Statistique inférentielle
Fadoua BADAOUI
18 février 2019
Fadoua BADAOUI (INSEA) Inférence 18 février 2019 1 / 194

Overview
1 Statistiques d'Échantillonnage
Introduction
Loi de la moyenne d'un échantillon
2 Estimation ponctuelle et par intervalles
Méthodes d'estimation
Qualités d'un estimateur
Estimation par intervalles
3 Tests d'hypothèses
Introduction et méthodes
Exemples de tests usuels
Tests uniformément plus puissants

Chap 1 :Introduction
Un aspect important de l'inférence statistique consiste à obtenir des
estimations ables des caractéristiques d'une population à partir d'un
échantillon extrait de cette population. C'est un problème de décision
concernant des paramètres tels que :
l'espérance mathématique notée m ou µ (pour un caractère
mesurable),
la variance ou l'écart-type notée s,
la proportion p (pour un caractère dénombrable).

Introduction
Par exemple, pour évaluer la proportion de consommateurs favorables à un
nouveau produit on devrait interroger tous les consommateurs. Cela
pourrait s'avérer très coûteux voire impossible. Grâce aux méthodes
statistiques il est possible d'avoir une idée assez précise sur cette proportion
en interrogeant seulement une partie de la population des consommateurs.

Cette partie de la population est appelée échantillon.

Introduction
Figure échantillonnage

Dénition
Faire de l'inférence statistique sur un paramètre θ consiste à :
Estimer θ, c'est donner une valeur approchée de ce paramètre, à partir
des résultats obtenus sur un échantillon aléatoire extrait de la
population. Ces estimations peuvent revêtir deux formes :
soit une valeur unique, l'estimation ponctuelle, ou valeur la plus

probable que prendra θ,
soit un ensemble de valeurs appartenant à un intervalle, l'estimation
par intervalle de conance. Un intervalle de conance doit avoir de
grandes chances de contenir la vraie valeur de θ, il est toujours
associé à un risque d'erreur α.
Eectuer des tests d'hypothèses sur θ.
Introduction
Dénition
Une population est l'ensemble des éléments qui forme le champs d'analyse
d'une étude particulière.
Dans l'exemple de la population des consommateurs ci-dessus, l'attitude
d'un individu envers le nouveau produit est une variable aléatoire (v.a.) qui
peut être modélisée par

1

si l'individu est en faveur du nouveau produit
X =

0 sinon.

Échantillonnage
Notons au passage que la proportion p de consommateurs favorables au
nouveau produit est égale à P{X = 1}. D'une manière générale, chaque
individu de la population peut être associé à une v.a. décrivant la
caractéristique objet de l'étude.
Du fait que ces individus appartiennent à la même population, les v.a.
associées sont identiquement distribuées selon une loi de probabilité
dépendant d'un paramètre θ∈R (ou Rd ) que l'étude cherche à déterminer.

Échantillonnage
Dénition
Les v.a. X1 , . . . , Xn constituent un échantillon aléatoire de taille n (ou un
n-échantillon) si elles sont indépendantes et identiquement distribuées.
On dit que x1 , . . . , xn est un n-échantillon observé si, pour tout 1 ≤ i ≤ n,

xi est une réalisation de Xi .
Grâce à l'indépendance de X1 , . . . , Xn , la fonction densité (ou masse) de
probabilité fX du vecteur X = (X1 , . . . , Xn ) est donnée par
n
Y
∀(x1 , . . . , xn ) ∈ Rn , fX (x1 , . . . , xn ) = f (xi ).
i=1

Dénition
Soit X1 , . . . , Xn un échantillon aléatoire et soit T : Rn −−−−→ R (ou Rd )
une fonction qui ne dépend pas du paramètre θ. La v.a. aléatoire
Y = T (X) est appelée statistique.
Exemple
les quantités
X1 + . . . + Xn 1
et S2 = (Xi − X )2
X
X =
n n−1
sont deux statistiques. Les quantités

x1 + . . . + xn 1
et s2 = (xi − x)2
X
x=
n n−1
sont des valeurs observées de ces statistiques. M

Dénition
Les statistiques X et S2 s'appellent respectivement la moyenne et la
variance de l'échantillon.
Voici quelques propriétés de ces statistiques.
Proposition
Soient x1 , . . . , xn des nombres réels et x leur moyenne. Alors
n n
(xi − x)2 = (xi − x)2 .
X X
min
x∈R
i=1 i=1
n n
(n − 1)s 2 = (xi − x)2 = xi2 − nx 2 .
X X
(1)
i=1 i=1

Démonstration.
Pour la première assertion, on a
n n
(xi − x)2 = (xi − x + x − x)2
X X
i=1 i=1
n n n
2
(x − x)2
X X X
= (xi − x) + 2(x − x) (xi − x) +
i=1 i=1 i=1
| {z }
=0
n
(xi − x)2 + n(x − x)2
X
=
i=1
Pour montrer la deuxième assertion, il sut de développer
− x)2
Pn Pn
i=1 (x et de remarquer que i=1 xi = nx .
Proposition
Soit X1 , . . . , Xn un échantillon issu d'une loi de moyenne µ et de variance
σ 2 < ∞. Alors
σ2
1- E[X ] = µ, 2- Var (X ) = , et 3- E[S 2 ] = σ 2 .
n

Table of Content
Introduction

Considérons un échantillon X1 , . . . , Xn issu d'une loi de moyenne µ et de

σ
variance σ2. Nous savons que µX = µ et σX = √ .
n
Théorème
Si l'échantillon X1 , . . . , Xn est issu d'une loi normale N (µ, σ 2 ), alors
σ2
1- La v. a. X suit la loi normale N (µ, ).
n
S2
n
1 X
2- La v. a. (n − 1) = (Xi − X )2 suit la loi de khi-deux à n−1
σ2 σ2
i=1
degrés de liberté.
√ X −µ
3- La v. a. T = n suit une loi de student à n−1 degrés de
S
liberté. On note : T ∼ t(n − 1).

Remarque
En particulier, si l'échantillon X1 , . . . , Xn est issu d'une loi normale
N (µ, σ 2 ), alors
X −µ
σ = Z ∼ N (0, 1).
√
n

Le théorème central limite (TCL)
En pratique, la loi mère de l'échantillon X1 , . . . , Xn n'est pas totalement
connue. Le résultat suivant permet d'approcher la loi de X.

Théorème
[TCL] Soit (Xn )n une suite de v.a. indépendantes et de même loi de
σ 2 < ∞.
Pn
moyenne µ et de variance Posons Sn = i=1 Xi , alors
n√ X − µ o
∀x ∈ R, lim P n ≤ x = P{Z ≤ x}.
n→∞ σ

Remarque
Sous les hypothèses du Théorème 2, le TCL conduit souvent à faire,
pour n assez grand, l'approximation suivante :
n√ X − µ √ x − µ o
∀x ∈ R, P{X1 + . . . + Xn ≤ x} = P n ≤ n n
σ σ
n √ xn − µ o
'P Z ≤ n .
σ
En pratique on considère souvent que n est assez grand dès que

n ≥ 30 .

Exemple
Soit X une v.a. qui suit une loi Binômiale(n, p). Nous savons que X
peut s'écrire comme somme de n v.a. indépendantes et de même loi de
B ernoulli(P ), i.e. X = X1 + . . . + Xn . D'où, si n ≥ 30,
n X − np x − np o
∀x ∈ R, P{X ≤ x} = P p ≤p
np(1 − p) np(1 − p)
n x − np o
'P Z ≤ p .
np(1 − p) M

Remarque
Si on connaît σ et on observe X , on peut utiliser Z pour faire de
l'inférence concernant µ car ce paramètre est le seul inconnu dans ce
cas. Cependant, lorsque σ est inconnu, l'utilisation de Z devient
impossible. Student (W.S Gosset, 1900) a proposé dans ce cas d'utiliser
plutôt la statistique T suivante :
√
n
(X −µ) √
T = √ σ
= n (X S−µ) ∼ t(n − 1)
S 2 /σ 2
qui est le rapport de deux v.a. indépendantes, la première étant la v.a.

Z de loi N (0, 1) et la seconde est la racine carrée de la v.a. S 2 /σ 2 et qui
est distribuée comme la variable χ2n−1 /(n − 1).
Table of Content
Introduction

Estimation ponctuelle et par intervalles
Ce chapitre comporte trois parties. Dans la première partie nous présentons
les deux méthodes classiques d'estimation, à savoir la méthode des
moments ( MM) et la méthode du maximum de vraisemblance (MMV).

Les qualités des estimateurs feront l'objet de la deuxième partie du
chapitre, la dernière partie est consacrée à l'estimation ensembliste.

Estimation paramétrique
Dans de nombreuses situations, un estimateur peut être trouvé d'une
manière naturelle. Il en est ainsi lorsque le paramètre est, par exemple, une
moyenne ou une proportion. Notons toutefois, que dans des cas compliqués,
l'intuition ne sut pas pour trouver des estimateurs. Deux méthodes
classiques d'estimation, à savoir la méthode des moments ( MM) et la

méthode du maximum de vraisemblance ( MMV) sont les plus utilisées.
Ces méthodes, comme toute autre méthode d'estimation, ne garantissent
rien en ce qui concerne l'ecacité des estimateurs qu'elles fournissent.

Introduction
Comme nous l'avons mentionné ci-dessus, il est parfois facile de trouver un
estimateur en se ant à l'intuition. Par exemple la moyenne de l'échantillon
est intuitivement un raisonnable estimateur pour la moyenne de la
population. Mais une méthodologie, permettant de trouver des estimateurs,
reste nécessaire pour faire face à des situations plus complexes.
Notations : Lorsqu'une loi de probabilité dépend d'un paramètre θ, on

notera f (x; θ) au lieu de fX (x). On notera également Pθ {.}, Eθ [.],
Varθ (.) . . . etc. pour souligner que la loi de probabilité utilisée dépend de θ.

Méthode des moments
Les origines de cette méthode remontent à Karl Pearson (1894). Elle est
essentiellement basée sur la loi des grands nombres :
Dénition
Considérons l'échantillon X1 , . . . , Xn , On appelle estimateur de θ obtenu
par la méthode des moments la solution θbp du système :
Pn
Xik
i=1
n = E[X k ] pour tout k ∈ {1, . . . , p}
On remplace ensuite les moments E[X k ] par leur estimateurs respectifs

Pn
i=1 Xik
Mk = n . Les p solutions su système, constituent les estimateurs des
moments des p paramètres.
où p = dim(θ).
Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi de probabilité dont la
densité est donnée par
f (x; θ) = θ x θ−1 I]0,1[ (x), avec θ > 0.
On a Z 1 Z 1
θ
E[X1 ] = x f (x; θ)dx = x θx θ−1 dx = .
0 0 θ+1
Ainsi θ = g (µ) = µ/(1 − µ) et donc son estimateur par la MM est
θb = X /(1 − X ) M

Exemple
Soit X1 , . . . , Xn un échantillon issu de la loi normale N (µ, σ 2 ). On a
E[X1 ] = µ et E[X12 ] = σ 2 + µ2 . Posons θ = (θ1 , θ2 ) = (µ, σ 2 ) et
considérons la fonction g : (x1 , x2 ) 7→ (x1 , x22 − x12 ). Selon les notations
ci-dessus, puisque θ = g (E[X1 ], E[X12 ]), son estimateur par la MM est
donné par θb = g (M1 , M2 ), i.e.

θb1

=X
1
Xi2 − (X )2 .

θb Pn
2 = n i=1 M

Exemple
Si X1 , . . . , Xn sont indépendantes et de même loi exponentielle exp(λ),
1
E[X1 ] = 1/λ. Donc l'estimateur de λ par la MM est λ = X
. M
Exemple
Si X1 , . . . , Xn sont indépendantes et de même loi gamma Γ(α, β),
E[X ] = α/β et Var [X ] = α/β 2 . On en déduit facilement que :
[E[X ]]2
β= E[X ]
Var [X ] et α = Var [X ]
Donc EMM de α et β sont :

2
βb = X
S2
et αb = X
S2 M

La méthode du maximum de vraisemblance
La méthode du maximum de vraisemblance (MMV) est de loin la méthode
la plus utilisée pour exhiber des estimateurs. Rappelons qu'étant donné un
échantillon issu d'une loi dont la pdf (ou pmf ) est f (x, θ), on appelle
fonction de vraisemblance la quantité
Qn
L(x1 , . . . , xn , θ) = i=1 f (xi ; θ).
On appelle estimateur du maximum de vraisemblance la statistique
θMV = T (X1 , . . . , Xn ), telle que :
L(θMV ) = maxθ L(θ)

An de bien comprendre la motivation derrière la MMV, considérons un
échantillon X1 , . . . , Xn issu d'une loi de probabilité discrète de fmp
f (x; θ) = Pθ {X1 = x} où θ est un paramètre inconnu. L'idée qui est à
l'origine de cette méthode est la suivante : Si l'on observe (x1 , . . . , xn ) c'est
que la Pθ {(X1 , . . . , Xn ) = (x1 , . . . , xn )} doit être assez grande.
On prend alors comme estimateur de θ celui qui maximise cette probabilité.

Dénition
On cherche la valeur de fonction des observations (x1 , . . . , xn ) qui assure
la plus grande probabilité d'avoir ces observations.
Dénition
Si la fonction de vraisemblance est continue et deux fois dérivable par
rapport au paramètre θ, alors l'estimateur du maximum de vraisemblance
θMV est solution du système :
( ∂L
∂θ )θMV = 0
2
( ∂∂ 2Lθ )θMV < 0

Exemple
Soit θ ∈]0, 1[ la probabilité de succès d'une expérience à deux issues
possibles. On répète cette expérience n fois de manière à obtenir un
échantillon x1 , . . . , xn . On a f (x; θ) = P{X1 = x} = θx (1 − θ)1−x , avec
x = 0 ou 1. L'estimateur θb de θ par la MMV est obtenu en maximisant,
par rapport à θ, la quantité
n
L(x , θ) = P{(X1 , . . . , Xn ) = (x1 , . . . , xn )} = θxi (1−θ)1−xi = θnx (1−θ)n(1−
Y
i=1
où x = (x1 , . . . , xn ). En dérivant L(x , θ) par rapport à θ on obtient

dL(x , θ)
L0 (x , θ) = = nxθnx−1 (1 − θ)n(1−x) − n(1 − x)θnx (1 − θ)n(1−x)−1 .
dθ M

Exemple
En posant L0 (x , θ) = 0 on obtient
nx n(1 − x)
θnx (1 − θ)n(1−x) − = 0,
θ 1−θ
et puisque 0 < θ < 1, on en déduit

nx n(1 − x)
− = 0,
θ 1−θ
ce qui donne θ = x . L'estimateur de θ par la MMV est alors θb = X . M

Dénition
Soient X = (X1 , . . . , Xn ) un échantillon issu d'une loi dont la fdp (fmp) est
f (x; θ) et x = (x1 , . . . , xn ) une valeur observée de X. Pour x xé, on note
b x)
θ( la valeur de θ qui maximise, la fonction de θ, L(x , θ) =
Qn
f (xi , θ).
i=1
La statistique θ(X)
b est appelée l'estimateur de maximum de vraisemblance
(EMV) de θ.
Remarque
Lorsque le paramètre θ est un élément de Rd , i.e. θ = (θ1 , . . . , θd ) ∈ Rd ,
la MMV consiste à résoudre le système
∂ ln L(x , θ)
= 0, pour i = 1 . . . d.
∂θi

Exemple
Soit X1 , . . . , Xn un échantillon issu de la loi de probabilité N (µ, σ 2 ).
Posons θ = (µ, σ 2 ), l'EMV de θ s'obtient en résolvant le système
∂ ln L(x , θ)


 =0
∂µ





 ∂ ln L(x , θ)




=0
∂σ 2
1
On obtient, θb = (X , − X )2 ).
Pn
i=1 (Xi M
n

Exemple
Soit X1 , . . . , Xn un échantillon dont la densité est donnée par :
1
f (x; θ) = I]0,θ[ (x), θ > 0.
θ
La fonction de vraisemblance est donnée par

n
1 1 n n
L(x , θ) =
Y
I]0,θ[ (xi ) = I]0,θ[ (max xi ) I]0,∞[ (min xi ).
θn θn i=1 i=
i=1
1 n n
L(x , θ) = I]0,θ[ (max xi ) I]0,∞[ (min xi ) n'est pas dérivable au point
θn i=1 i=
n
max xi . Il n'est donc pas possible d'utiliser la dérivée pour trouver le
i=1
1
point qui maximise la fonction. Mais comme θ 7−→ est décroissante
θn
sur ]0, ∞[, la fonction de vraisemblance est maximale en θ = maxni= xi .
n
Donc l'estimateur du MMV pour θ est θb = max Xi .
i= M
Table of Content
Introduction

Comme un échantillon ne peut donner qu'une information partielle sur la
population, les estimations ainsi obtenues seront inévitablement entachées
d'erreurs que l'on doit minimiser autant que possible

Il est évident qu'un estimateur θb de θ n'est pas unique. En approximant θ

par θb, on commet une erreur aléatoire qui vaut θb − θ. L'idéal serait que
cette v.a. ait une moyenne nulle et une variance nulle. On aimerait donc
disposer de critères pour choisir le meilleur estimateur.

C1- La moyenne de l'erreur est nulle, i.e. E θb − θ = 0.
C2- La variance de l'erreur est minimale, i.e. si θb0 est un autre estimateur
de θ alors

Var θb0 − θ ≥ Var θb − θ .

Dénition
Soit θb un estimateur de θ, on appelle biais de θb la quantité
b θb = E θb − θ .

sans biais si E b(θ)

On dit que θb est un estimateur b = 0.
Dénition
Un estimateur θbn est dit asymptotiquement sans biais pour de θ si
limn→+∞ E(θbn ) = θ

Estimateur Sans Biais
Exemple : contrôle de qualité

Une machine fabrique une proportion θ inconnue de pièces défectueuses
que l'on désire estimer. Pour cela, on prélève d'une façon indépendante n
pièces et on observe un échantillon X1 , . . . , Xn où chaque xi prend la valeur
1 si la pièce est défectueuse et 0 sinon.
Les v.a. sont i.i.d. de loi B ernoulli(p). L'Estimateur de Maximum de
Vraisemblance de θ est X et E[X ] = θ, d'où X est un ESB de θ.

Exemple
Soient X1 , . . . , Xn n v.a. i.i.d.∼N(µ, σ 2 )
Pn
X = i=1
N
Xi
est un estimateur sans biais de µ.
(Xi −X )2
Pn
S2 = i=1
(n−1) est un estimateur sans biais de σ 2 .
n'est pas un estimateur sans biais de µ.
Pn
i=1 Xi
(Xi − X )2 n'est pas un estimateur sans biais de σ 2 .

Pn
i=1 M

Nous sommes donc à la recherche d'estimateurs sans biais et de variance
minimale.
Comme nous l'avons mentionné auparavant, si l'on a à choisir entre deux
estimateurs θb1 et θb2 d'un paramètre θ, on choisira celui qui est sans biais et
si les deux sont sans biais on choisira celui dont la variance est la plus
petite.

La question qui se pose alors est la suivante : existe t-il un meilleur
estimateur et, si oui, comment le trouver ?
Dénition
Soit θb un estimateur de θ, on dit que c'est l'Estimateur Sans Biais de
Variance Minimale (ESBVM) s'il est sans biais et tel que pour tout autre
estimateur θb0 de θ on a b ≤ Var (θb0 ).

Var (θ)

Estimateur Sans Biais de Variance Minimale
Dénition
Soit θb un estimateur de θ, on dit que θb est un Estimateur Sans Biais de
Variance Minimale (ESBVM) s'il est sans biais et tel que pour tout autre
estimateur θb0 de θ on a b ≤ Var (θb0 ).

Var (θ)
Proposition
Si un ESBVM existe, il est unique (p.s.)

Démonstration.
Si θb1θb2 sont deux ESBVM de θ, alors Var (θb1 ) = Var (θb2 ) = v . D'autre
et
b3 = θ1 + θ2 est un ESB de θ et Var (θb3 ) = v (1 + ρ), où

b b
part θ
2 2
Cov (θb1 , θb2 )
ρ= . Si ρ < 1 alors Var (θ
b3 ) < v , ce qui est impossible. Donc
v
ρ = 1 et par conséquent Var (θb1 − θb2 ) = 0. D'où θb1 = θb2 p.s.
Le résultat suivant est un premier pas dans la recherche d'un ESBVM.

Exercice
Soit X1 , . . . , Xn un échantillon issu de la loi U niforme[0, θ] où θ0
inconnue.
1 Donner l'estimateur T de θ par la méthode des moments.
2 Calculer Var (T )
3 L'estimateur S = S(X1 , . . . , Xn ) = max(X1 , . . . , Xn )
1 S est-il sans biais ?
2 En déduire un ESB de θ, qu'on note U .
3 Calculer Var (U)
4 Comparer T et U .
Dénitions & concepts
Dénition :Modèle statistique paramétrique
On appelle modèle statistique paramétrique de paramètre θ∈Θ pour un
certain espace de dimension ni Θ le couple (X , Pθ ), où X est l'espace des
valeurs de x, v.a. du modèle, et Pθ la loi de probabilité de x.
Exemple
Une expérience consiste à recueillir les durées de vie de n ampoules
X = (x1 , . . . , xn ) supposées i.i.d de loi exponentielle de paramètre λ 0.
∀i, xi ∈ R+ : l'espace des observations.
Chaque xi ∼ exp(λ) tel que {Pθ = exp(λ), λ 0}
Le modèle (X , {Pθ = exp(λ), λ 0}) est appelé modèle statistique.

Statistique
On considère un échantillon de taille n de la variable X = (x1 , . . . , xn ). Une
statistique est une fonction mesurable T des variables aléatoires Xi :
T (x1 , . . . , xn )
Exemple : Modèle des ampoules
Soit le modèle statistique (R , {exp(λ), λ 0}) .
+
Pn
t(x) = i=1 (xi ) est une statistique, avec xi ∼ exp(λ), λ 0
Donc t ∼ Γ(n, λ)
Le modèle image (R+ , {Γ(n, λ), λ 0})
Rq : Il existe des statistiques qui résument les observation tout en
conservant l'intégralite de l'information sur θ : la statistique exhaustive.

Statistique exhaustive
Dénition
Soit T (X) une statistique. On dit que c'est une statistique exhaustive
pour θ si la loi conditionnelle de X sachant T (X) ne dépend pas de θ.

Exemple :
Une chaîne de production produit des pièces qui peuvent être défectueuses
avec probabilité θ ∈]0, 1[ inconnue. Chaque pièce peut donc être
représentée par une v.a. de Bernoulli qui prend la valeur 1 si la pièce est
défectueuse et 0 sinon avec les probabilités respectives θ et 1 − θ.

Un contrôleur de qualité prélève n pièces, et obtient un échantillon
X1 , . . . , Xn . Notons que pour tout i , Xi ∼ B ernoulli(θ).

Pn
Montrer que la statistique T = i=1 Xi est une statistique exhaustive
pour θ.

Solution :
En utilisant l'indépendance et le fait que la somme de k v.a. de Bernoulli
indépendantes est une v.a. Binômiale, on a
P{X1 = x1 , . . . , Xn = xn , T = t}
P{X = (x1 , . . . , xn )| T = t} =
P{T = t}
t 6= ni=1 xi . Supposons que
P
Le numérateur est nul pour tout
Pn
t= i=1 xi , alors
Qn
= xi }
Qn xi 1−xi
i=1 P{Xi 1 i=1 θ (1 − θ)
P{X = (x1 , . . . , xn )| T = t} = = t
P{T = t} {n θt (1 − θ)n−t
1
= ,
{tn
Proposition
Soient fX et fT les fdp de X et T respectivement. La statistique T est
exhaustive pour θ si, et seulement si, pour tout x ∈ Rn , le rapport

fX (x )
( quand il est bien déni) ne dépend pas de θ.
fT (T (x ))

Démonstration.
Pour des raisons de clarté nous démontrons la proposition dans le cas de
lois discrètes. Remarquons que, pour tout x ∈ Rn , on a

{X = x } ⊂ {T (X) = T (x )}. D'où
P{X = x , T (X) = T (x )}
P{X = x | T (X) = T (x )} =
P{T (X) = T (x )}
P{X = x }
=
P{T (X) = T (x )}
f (x )
= X .
fT (T (x ))

Théorème
[Théorème de Factorisation] Supposons que fX , la fdp de X existe. Alors la
statistique T = T (X) est exhaustive si, et seulement si, il existe une
fonction h qui ne dépend pas de θ et une fonction g telles que
∀x ∈ Rn fX (x ) = g (T (x )) h(x ) (2)
Remarque
Les fonctions g et h qui interviennent dans l'équation ( 2) ne sont pas
uniques.

Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi normale N (µ, σ 2 ), avec σ 2
connue.
− µ)2
Pn
1 i=1 (xi
fX (x ) = √ exp − (Par indépendance)
(σ 2π)n 2σ 2
nµ2 xi2
Pn Pn
1 µ i=1 xi i=1
= √ exp exp − 2 exp −
(σ 2π)n σ2 2σ 2σ 2
nµ2
Pn
µ i=1 xi
En choisissant g (T (x )) = exp − 2 exp , on constate que
2σ σ2
T (X) = i=1 Xi est une statistique exhaustive pour µ.
Pn
M

Exemple
Soit X1 , . . . , Xn un échantillon issu de la loi U niforme[0, θ], i.e.
1
fX1 (x) = I[0,θ] (x). La fdp de X = (X1 , . . . , Xn ) est alors donnée par
θ
n
1 1 n n
fX (x ) =
Y
I[0,θ] (xi ) = I]−∞,θ] (max xi ) I[0,∞[ (min xi ).
θn θn i=1 i=1
i=1
La statistique T (X) = maxni=1 Xi est alors une statistique exhaustive

pour θ. M

Remarque :
Dans tous ces exemples, les statistiques exhaustives sont des fonctions
réelles de l'échantillon. Toute l'information sur θ est résumée dans
T (X) ∈ R. Dans d'autres situations, au lieu d'une seule fonction réelle,
plusieurs sont nécessaires pour résumer toute l'information sur le paramètre
θ. Dans un tel cas, une statistique exhaustive est un vecteur
T(X) = (T1 (X), . . . , Tp (X)) ∈ Rp . Il en est souvent ainsi lorsque le

paramètre est un vecteur θ = (θ1 , . . . , θq ), le cas de la loi normale
N (µ, σ 2 ), avec µ et σ2 inconnues.

Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi normale N (µ, σ 2 ) avec µ
et σ 2 inconnues. Dans ce cas, on a θ = (µ, σ 2 ) et
− µ)2
Pn
1 i=1 (xi
fX (x ) = √ exp −
(σ 2π)n 2σ 2
xi2 − 2µ ni=1 xi − nµ2

P Pn
1 i=1
= √ exp −
(σ 2π)n 2σ 2
nµ2 h µ X n n
1 1 X
xi2
i
= √ exp − 2 exp − 2 xi − 2
(σ 2π)n 2σ σ 2σ
i=1 i=1
En choisissant T(X) = (T1 (X), T2 (X)) = ( Xi2 ), on a

Pn Pn
i=1 Xi , i=1
bien une statistique exhaustive pour θ. M

Remarque
Si T est une statistique exhaustive pour θ, alors pour toute fonction
bijective g , g (T ) est aussi une statistique exhaustive pour θ.
En eet, si T est une statistique exhaustive pour θ, alors
P{X = (x1 , . . . , xn )| g (T ) = t 0 } = P{X = (x1 , . . . , xn )| T = g −1 (t 0 )}
est indépendante de θ.
Remarque
x y − x 2 /n
Pour tout entier n > 1, la fonction g : (x, y ) 7→ , est une
n n−1
bijection. La statistique g (T(X)) = (X , S 2 ) est exhaustive pour θ.
Famille exponentielle
Dénition
Un ensemble de fdp ou fpm de paramètre θ est une famille exponentielle
si ses éléments s'écrivent
k
X
f (x) = h(x) c(θ) exp wi (θ) ti (x) ,
i=1
où h et c sont des fonctions réelles positives, les fonctions ti ne dépendent
pas de θ et les fonctions wi ne dépendent pas de x.

Famille exponentielle
Théorème
SoitX1 , . . . , Xn un échantillon dont f est la fdp commune. Si f est un
élément d'une famille exponentielle, i.e.
k
X
f (x) = h(x) c(θ) exp wi (θ) ti (x) .
i=1
Alors
n
X n
X
T (X) = t1 (Xj ), . . . , tk (Xj )
j=1 j=1
est une statistique exhaustive pour θ.

Exercice
Exercice :
Montrez que X appartient à la famille exponentielle et donnez une
statistique exhaustive pour θ, dans les cas suivants :
1 x ∼ B ernoulli(p), θ = p
2 x ∼ exp(λ), θ = λ 0
3 x ∼ N (µ, σ 2 ), θ = (µ, σ)

Théorème
[Rao-Blackwell] Soient T une statistique exhaustive et W un estimateur
sans biais pour θ. Alors, quand ça existe, E[W |T ] est un estimateur sans
biais pour θ et on a Var (E[W |T ]) ≤ Var (W ).

Démonstration :
Il est évident que E[W |T ] est un ESB pour θ. Avant de prouver l'inégalité
rappelons les propriétés suivantes. Pr tte v.a. X1 et X2 on a

h i
E E[X2 |X1 ] = E[X2 ]. "th de l'espérance totale"
Var (X2 ) = E[Var (X2 |X1 )] + Var [E(X2 |X1 )] "th de la variance totale"
 X


 x2 P(X2 = x2 |X1 = x1 ), pr le cas discret.

x2 ∈X2 (Ω)
E[X2 |X1 = x1 ] = Z (3)

x2 f (x2 |x1 ), pr

le cas continue.



T ∗ = E W |T et µ = E[W ].

Posons
D'après le "th de l'espérance totale"
E[T ∗ ] = E[E W |T ] = E W = µ, W

est un ESB.
D'après le "th de la variance totale"

Var (W )=Var (E W |T ) + E Var (W |T )]
∗) + E Var (W |T )] Var (T ∗ )

=Var (T

Remarque :
Nous pouvons donc nous restreindre, dans la recherche du meilleur
estimateur, aux estimateurs sans biais qui sont fonctions de statistiques
exhaustives. Autrement dit, lorsqu'on a un estimateur sans biais il est
toujours possible de l'améliorer en le conditionnant par rapport à une
statistique exhaustive.

Statistique complète
Dénition
Une statistique T est dite complète si, pour toute fonction g
Eθ [g (T )] = 0, ∀θ =⇒ Pθ {g (T ) = 0} = 1, ∀θ.

Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi uniforme sur ]0, θ[. D'après
le théorème de factorisation, la statistique T = X(n) est exhaustive pour
θ. Sa fdp est donnée par

nt n−1 θ−n

si 0 < t < θ
fT (θ) =
sinon.

0
Soit g une fonction telle que Eθ [g (T )] = 0, pour tout θ > 0. M

Suite exemple
En dérivant par rapport à θ, on a
d d θ
Z
0 = E [g (T )] = g (t)) nt n−1 θ−n dt
dθ θ dθ 0
d d
Z θ Z θ
= θ−n n g (t) t n−1 dt + θ−n n g (t) t n−1 d
dθ 0 dθ 0
d
n−1

−n −n n
= θ n g (θ) θ + θ θ Eθ [g (T )]
dθ | {z }
=0
−1
=θ n g (θ).
Comme nθ−1 6= 0, on déduit que
Eθ [g (T )] = 0, ∀θ =⇒ g (θ) = 0, ∀θ,
et donc que T est complète.

Exercice :
Soit X = (x1 , . . . , xn ) un échantillon i.i.d de B ernoulli(θ).
T = ni=1 Xi est une statistique exhaustive pour θ = p .
P
Soit
Montrer que T est une statistique complète.

Statistique exhaustive et complète
Théorème
Soit X1 , . . . , Xn un échantillon issu d'une famille exponentielle dont la fdp
est de la forme
p
X
f (x) = h(x) c(θ) exp wi (θ) ti (x) , θ ∈ Θ.
i=1
P
T (X) =
P
Alors, la statistique i t1 (Xi ), . . . , i tp (Xi ) est exhaustive et
complète.

Statistique exhaustive et complète
Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi N (µ, σ 2 ). Nous avons déjà
montré que la statistique T(X) = (T1 (X), T2 (X)) = (X , S 2 ) est
exhaustive pour θ = (µ, σ 2 ). D'après le théorème ci-dessus, elle est
également complète. M

Théorème
[Lehmann-Scheé] Soit T une statistique exhaustive et complète pour θ, et
soit U un estimateur sans biais pour θ. Alors, E[U|T ] est l'ESBVM pour θ.
Démonstration.
Soit V un estimateur sans biais pour θ. On a alors E[U] = E[V ] = θ et
h i
donc E E[U|T ] − E[V |T ] = 0. Comme T est une statistique complète,
on a E[U|T ] − E[V |T ] = 0 p.s. D'après le théorème de Rao-Balckwell, on

a Var (V ) ≥ Var E[V |T ] = Var E[U|T ] .

Corollaire :
Pour trouver un estimateur optimal, il sut de trouver un estimateur sans
biais fonction d'une statistique exhaustive et complète.
Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi de Bernoulli(θ). On sait
n
que T = Xi est une statistique exhaustive et complète pour θ.
X
i=1
D'après le Corollaire, X est l'ESBVM pour θ. M

Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi de P oisson(λ). On désire
n
trouver, s'il existe, l'ESBVM pour θ = e−λ . On sait que T = Xi est
X
i=1
une statistique exhaustive et complète pour λ et que U = I{0} (X1 ) est
un estimateur sans biais pour θ qui n'est pas fonction de T . Pour
obtenir l'ESBVM pour θ, on calculera E[U|T ]. Soit t ∈ {0, 1, 2, . . . , n},
P{X1 =0, ni=2 Xi =t}
P
E[U|T = t] = P{X1 = 0|T = t} = P{T =t}
(n−1)t λt
× e e−ntλ = (1 − n1 )t .
−(n−1)λ
=θ n t λt
1
Ainsi E[U|T ] = 1 − T est l'ESBVM pour θ.
n M

Remarque :
Il n'est pas facile de trouver directement l'ESBVM quand il existe. Le
résultat suivant nous donne une borne inférieure pour l'ensemble des
variances des estimateurs sans biais. Ainsi , si l'ESBVM existe, c'est celui
dont la variance et égale à cette borne inférieure.

Borne de Cramer-Rao et estimateurs ecaces
Sous certaines conditions de régularité, à la fois pour la famille étudiée et
pour l'estimateur sans biais considéré, on peut montrer que sa variance ne
peut descendre au-dessous d'un certain seuil qui est fonction de θ. Ce seuil,
appelé borne de Cramer-Rao, est intrinsèque à la forme de la densité (ou de
la fonction de probabilité) f (x; θ). L'intéret de ce résultat est que, si l'on
trouve un estimateur sans biais dont la variance atteint ce seuil, alors il est
le meilleur possible parmi les estimateurs sans biais réguliers.

Théorème
[Cramér-Rao]
Soit X1 , . . . , Xn un échantillon issu d'une loi dont la fdp est
f (x ; θ) = f (x1 , . . . , xn ; θ), et soit T un estimateur sans biais pour θ de

X
dimension 1. Sous certaines conditions de régularité on a nécessairement,
pour tout θ∈Θ :

1

Var T ≥ .
I (θ)
h
∂
2 i
La quantité I (θ) = E ∂θ ln f (X; θ) s'appelle l'Information de Fisher
de l'échantillon.

Note :
Les conditions de régularité, dans le cas continu, sont les suivantes :
a- I (θ) existe pour tout θ ∈ Θ.
b- la dérivée par rapport à θ d'une intégrale sur la densité conjointe
d
Z Z Z Z
∂
··· f (x ; θ) dx = ··· f (x ; θ) dx ,
dθ ∂θ
peut s'obtenir en dérivant à l'intérieur de l'intégrale.
c- la dérivée par rapport à θ de Eθ [T ] peut s'obtenir en dérivant à
l'intérieur de l'intégrale correspondante.
d- le support de f (x; θ) est indépendant de θ.

Remarque
a- Si un estimateur sans biais pour θ atteint la borne de Cramer-Rao,

on dit qu'il est ecace.
b- Comme les v.a. X1 , . . . , Xn sont de même loi, on a
h 2 i h 2 i
∂ ∂
E ∂θ ln f (X; θ) = nE ∂θ ln f (X1 ; θ) .
c- Le résultat est énoncé dans le cas de v.a. continues mais il est

également valable pour le cas de v.a. discrètes en remplaçant les
signes intégrales par les signes sommes.

Le résultat suivant simplie les calculs.
Proposition
Si f (x; θ) est telle que
d ∂
Z
i ∂ h ∂ i
E ln f (X; θ) = ln f (x ; θ) f (x ; θ) dx ,
dθ ∂θ ∂θ ∂θ
alors
h ∂ 2 i h ∂2 i
E ln f (X1 ; θ) = −E ln f (X1 ; θ)
∂θ ∂θ2
On montre que ce résultat s'applique lorsqu'il s'agit de fdp appartenant à
une famille exponentielle.

Démonstration.
∂
∂ f (X ;θ)
Posons : U= ∂θ ln f (X ; θ) = ∂θ
f (X ;θ)
∂
R f (x;θ) R ∂ ∂
R
On a : E[U] = ∂θ
f (x;θ) f (x; θ)dx = ∂θ f (x; θ)dx = ∂θ f (x; θ)dx = 0
puisque cette intégrale est égale à la constante 1. De plus :
∂2 ∂2
∂2
∂
f (X ;θ)f (X ;θ)−[ ∂θ f (X ;θ)]2 f (X ;θ) ∂
f (X ;θ)
∂θ2
ln f (X ; θ) = ∂θ 2
[f (X ;θ)]2
= ∂θ 2
f (X ;θ) − [ ∂θf (X ;θ) ]2
∂2
2 f (X ;θ)2
∂ ∂θ 2
d'où : E[ ∂θ 2 ln f (X ; θ)] = E[ f (X ;θ) ] − E[U ]
∂2
f (X ;θ) R ∂2 ∂2
E[ ∂θf2(X ;θ) ] = ∂θ
R
Or : 2 f (x; θ)dx = ∂θ 2 f (x; θ)dx = 0.
ce qui démontre la relation.

Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi de Poisson de paramètre λ.
D'après la proposition (loi de Poisson est famille exponentielle), on a :
h ∂ Yn 2 i h ∂2 i h ∂2 e−λ λX1 i
E ln f (Xi , λ) = −nE ln f (X1 , λ) = −nE ln
∂λ ∂λ2 ∂λ2 X1 !
i=1
h ∂2 i
= −nE (−λ + X 1 ln λ − ln X 1 !)
∂λ2
h X i n
1
= −nE − 2 = .
λ λ
Ainsi tout estimateur sans biais W de λ est tel que Var (W ) ≥ λn . Or X

est un estimateur sans biais pour λ avec Var (X ) = λn , donc c'est
l'ESBVM. M
Exemple
Dans le cas d'une loi normale N (µ, σ 2 ), nous avons déjà vu que µb = X
et σc2 = S sont des estimateurs sans biais. Sont-ils de variances
minimales ?
h ∂ n 2 i h ∂2 i
avec θ = (µ, σ 2 )
Y
E ln f (Xi ; θ) = −nE ln f (X1 ; θ)
∂µ ∂µ2
i=1
h ∂2 1 (X1 − µ)2 i n
= −nE 2
ln √ − 2
= 2
∂µ σ 2π 2σ σ
σ2
Ainsi la variance de tout estimateur sans biais de µ est ≥ n . Or X est
2
un estimateur sans biais pour µ de variance σ
n , donc c'est l'ESBVM. M
Table of Content
Introduction

La notion d'estimation par intervalle est aussi connue sous le nom de
méthode d'intervalles de conance. Il s'agit de déterminer, à partir d'un
estimateur du paramètre, un ensemble aléatoire dont la probabilité de
contenir le paramètre est xée d'avance.
Dans ce qui suit, X = (X1 , . . . , Xn ) est un échantillon aléatoire issu d'une
loi dépendant du paramètre θ∈R dont nous cherchons à établir une région
de conance.

Dénition
Soit b(θ) une fonction de θ. On appelle région de conance pour b(θ) de
niveau de conance 1 − α, α ∈]0, 1[, tout ensemble aléatoire C(X) ⊆ R tel

que
Pθ b(θ) ∈ C(X) = 1 − α.

En pratique on choisit souvent pour le coecient de conance
1 − α = 0.90 ou 0.95, ou 0.99, ce qui correspond à α égale à 0.1, 0.05 ou
0.01 respectivement.
Dans ce qui suit nous allons établir des intervalles de conance dans les
cas les plus fréquemment rencontrés dans la pratique.

Intervalle de conance pour la moyenne d'une loi normale
Soit X = (X1 , ..., Xn ) un échantillon issu de la loi normale N (µ, σ 2 ).

Considérons le problème d'estimation par intervalle du paramètre µ.
La Dénition précédente peut être formulée comme suit :

Soient l(X) et L(X) deux statistiques. L'intervalle aléatoire l(X), L(X)
est un intervalle de conance, de niveau (1 − α), pour la moyenne µ si
n o
P l(X) ≤ µ ≤ L(X) = 1 − α.
Les statistiques l(X) et L(X) sont respectivement les limites de conance

inférieure et supérieure pour µ. Notre objectif est donc de les déterminer.

Nous savons que la variable aléatoire
√ X −µ
n = Z ∼ N (0, 1).
σ
La loi normale standard étant tabulée, il est alors possible de déterminer
pour tout α ∈ [0, 1], le réel zα (appelé le (1 − α)−quantile de la loi
normale standard) vériant

P Z ≥ zα = α.
Il est ainsi clair que

P z1−α/2 ≤ Z ≤ zα/2 = 1 − α.
Comme la loi de Z est symétrique, on a z1−α/2 = −zα/2 .

Ainsi on a
n √ X −µ o
P −zα/2 ≤ Z ≤ zα/2 = P −zα/2 ≤ n ≤ zα/2
σ
n σ σ o
= P X − zα/2 √ ≤ µ ≤ X + zα/2 √
n n
= 1 − α.
On en déduit que
h σ σ i
X − √ zα/2 , X + √ zα/2
n n
est un intervalle de conance, de niveau 1 − α, pour µ lorsque σ2 est
connue.

Exemple
On suppose que la durée de vie, en heures, d'une lampe électrique est
une v.a. normale de moyenne µ inconnue et de variance σ 2 = 152 . Un
échantillon de n = 20 ampoules a révélé une durée de vie moyenne de
15 heures. Construire un intervalle de conance de niveau 0.95 pour µ.M

Cas où la variance σ 2 est inconnue
Considérons maintenant le problème d'estimation par intervalle du
paramètre µ σ 2 est inconnue.

lorsque
√ X −µ S2
Nous savons que n ∼ N (0, 1), (n − 1) 2 ∼ χ2n−1 et que X et S 2
σ σ
√ X −µ
sont indépendantes. Ainsi la variable aléatoire tn−1 = n suit la loi
S
de Student à n − 1 degrés de liberté.
Les lois de Student étant tabulées, il est possible de trouver pour tout
α ∈]0, 1[, les valeurs tn−1, α où le réel tn−1, α est tel que
P{tn−1 ≥ tn−1, α } = α.

Le réel tn−1, α est appelé le (1 − α)−quantile de la loi de Student à n−1

degrés de liberté. On a
P{tn−1, 1−α/2 ≤ tn−1 ≤ tn−1, α/2 } = 1 − α. (4)
Comme la loi de Student est symétrique, on a tn−1, α = −tn−1, 1−α , et
donc (4) devient
P{−tn−1, α/2 ≤ tn−1 ≤ tn−1, α/2 } = 1 − α.
Notre objectif ici est donc de déterminer les statistiques l(X) et L(X) telles
que
P{l(X) ≤ µ ≤ L(X)} = 1 − α.
Ainsi pour α ∈ [0, 1] xé, on a
√ X −µ

P −tn−1, α/2 ≤ n ≤ tn−1, α/2 = 1 − α,
S
ou encore

S S
P X − √ tn−1, α/2 ≤ µ ≤ X + √ tn−1, α/2 = 1 − α.
n n
Donc l'intervalle aléatoire

S S
X − √ tn−1, α/2 , X + √ tn−1, α/2
n n
est un intervalle de conance de niveau (1 − α) pour µ.

Exemple
On suppose que la durée de vie, en heures, d'une lampe électrique est
une v.a. normale de moyenne µ et de variance σ 2 inconnues. Un
échantillon de n = 20 ampoules a révélé une durée de vie moyenne de
x = 643 heures avec un écart type s = 16.
Construire un intervalle de conance de niveau 0.95 pour µ. M

Intervalle de conance pour la variance d'une loi normale
Soit X = (X1 , ..., Xn ) un échantillon issu de la loi normale N (µ, σ 2 ).

Supposons dans un premier temps que la moyenne µ est connue. La
statistique
n
1
S̃ 2 = (Xi − µ)2
X
n
i=1
est un estimateur sans biais pour σ2. Comme X1 , ..., Xn sont indépendantes
et comme (Xi − µ)/σ suit la loi normale standard N (0, 1), on a bien
S̃ 2
n = χ2n . (5)
σ2

Pour tout α ∈ [0, 1], on note χ2n, α le (1 − α)−quantile de χ2n , i.e.
P χ2n ≥ χ2n, α = α.

Avec ces notations nous avons donc
P{χ2n, 1−α/2 ≤ χ2n ≤ χ2n, α/2 } = 1 − α. (6)
De (5) et (6) on peut déduire que
nS̃ 2
P{χ2n, 1−α/2 ≤ ≤ χ2n, α/2 } = 1 − α,
σ2
et donc
nS̃ 2 nS̃ 2
( )
P 2 ≤ σ2 ≤ 2 = 1 − α.
χn, α/2 χn, 1−α/2

Ainsi l'intervalle aléatoire
h nS̃ 2 nS̃ 2 i
,
χ2n, α/2 χ2n, 1−α/2
est un intervalle de conance, de niveau 1 − α, pour σ2 quand µ est
connue.
En pratique, on est souvent devant une situation où µ et σ2 sont
inconnues. Dans ce cas, par un raisonnement analogue à celui ci-dessus, on
montre que l'intervalle aléatoire
h (n − 1)S 2 (n − 1)S 2 i
,
χ2n−1, α/2 χ2n−1, 1−α/2
est un intervalle de conance, de niveau 1 − α, pour σ2 lorsque µ est
inconnue.
I. C. pour la moyenne d'une loi quelconque
Soit X = (X1 , . . . , Xn ) un échantillon issu d'une loi de probabilité de
moyenne µ et de variance σ2. Supposons dans un premier temps que σ2 est
connue. D'après le TCL, pour n assez grand, on a
√ X −µ
∀x ∈ R, P{ n ≤ x} ' P{Z ≤ x}. (7)
σ

Remarque
- En pratique, n ≥ 30 est souvent susamment grand pour que

l'expression 7 soit valide.
- De l'expression 7, on peut déduire que l'on a
√ X −µ
P{a ≤ n ≤ b} ' P{a ≤ Z ≤ b}.
σ

Ainsi, lorsque n ≥ 30, un intervalle de conance approximatif de niveau
(1 − α) pour µ est donné par

h σ σ i
X − √ zα/2 , X + √ zα/2 .
n n
Si σ2 est inconnue, on l'approche par son estimateur sans biais S 2. On
montre que,
√ X −µ
∀x ∈ R, P{ n ≤ x} ' P{Z ≤ x}.
s
Ainsi pour n ≥ 30, un intervalle de conance approximatif de niveau
(1 − α), pour µ, est donné par
h S S i
X − √ zα/2 , X + √ zα/2 .
n n
Exemple
Un manufacturier produit une nouvelle peinture dont il veut déterminer
le temps moyen de séchage µ. Un échantillon de 36 surfaces de tailles
égales a révélé un temps moyen de séchage x = 66.3 mn avec un
écart-type s = 8.4 mn. Construire un intervalle de conance de niveau
1 − α = 0.90 pour µ. M

Ici α = 0.10 et d'après la table de la loi normale on a zα/2 ' 1.64. Un
intervalle de conance approximatif de niveau 0.90 pour µ est donné par
8.4 8.4
h i
66.3 −√ 1.64 , 66.3 +√ 1.64 = [64.0, 68.6]
36 36

Intervalle de conance pour une proportion
Soit X = (X1 , . . . , Xn ) un échantillon issu d'une loi de B ernoulli(p). Nous
savons que pb = X est un estimateur sans biais pour p. Le TCL permet de
construire l'intervalle de conance approximatif de niveau (1 − α), pour p,

donné par
p p
h pb(1 − pb) pb(1 − pb) i
pb − √ zα/2 , pb + √ zα/2 .
n n

Exemple
Avant de décider de commercialiser un nouveau produit, le directeur de
marketing décide de conduire une étude pour estimer la proportion p de
consommateurs qui seraient favorables à ce nouveau produit. L'étude a
montré que sur les 400 personnes interrogées, 140 se sont déclarées
favorables au nouveau produit.
Construire un intervalle de conance de niveau de conance 0.80 pour pM.

140
Nous avons α = 0.20, n = 400 et pb = = 0.35. D'après la table de la
400
loi normale on a zα/2 ' 1.28. Un intervalle approximatif de niveau de
conance 0.80 pour p est donné par

p p
h 0.35(1 − 0.35) 0.35(1 − 0.35) i
0.35− √ 1.28 , 0.35+ √ 1.28 = [0.32, 0.38].
400 400

IC pour la diérence de deux moyennes
Soient X = (X1 , ..., Xm ) un échantillon issu d'une loi de moyenne µX et de
variance σX2 , et Y = (Y1 , ..., Yn ) un échantillon issu d'une loi de moyenne
µY et de variance σY2 . On suppose que les deux échantillons sont
indépendants.
Cas de deux lois normales

Supposons ici que les deux échantillons sont respectivement issus des lois
N (µX , σX2 ) et N (µY , σY2 ).
Fadoua BADAOUI (INSEA) Inférence 3 mai 2019 108 / 194

Cas où les variances σX2 et σY2 sont connues
Il est clair que, la statistique X −Y est un estimateur sans biais pour
µX − µY et que
σX2 σY2

X − Y ∼ N µ X − µY , + .
m n
Il s'ensuit que la variable aléatoire
X − Y − (µX − µY )
Z= q ∼ N (0, 1), d'où
σX2 σY2
m + n
 
 
X −Y −(µX −µY )
P −zα/2 ≤ r ≤ zα/2 = 1 − α,
σ2 σ2
X Y
 
m
+ n

Cas où les variances σX2 et σY2 sont connues
ou encore,
 s s 
 2
σX σ 2 2
σX σ 2 
P X −Y − + Y zα/2 ≤ µX − µY ≤ X − Y + + Y zα/2 =
 m n m n 
Ainsi le plus court intervalle de conance de niveau (1 − α) pour la
diérence µX − µY quand les variances σX2 et σY2 sont connues est donné
par
s s
h σX2 σ2 σX2 σ2 i
(X − Y ) − + Y zα/2 , (X − Y ) + + Y zα/2 .
m n m n

Cas où les variances sont inconnues mais égales
(Échantillons de petites tailles)
On suppose ici que σY2 = σX2 = σ 2 , où σ2 est aussi inconnue. Dans ce cas
1
σ2 SX2 = − X )2
Pm
possède au moins deux estimateurs : i=1 (Xi et
m−1
1
SY2 = − Y )2 .
Pn
i=1 (Yi En combinant les deux échantillons on
n−1
obtient un meilleur estimateur appelé l'estimateur unié sans biais de σ 2 ,
noté
2
Suni et donné par
é
2 (m − 1)SX2 + (n − 1)SY2
Sunié = .
n+m−2

Cas où les variances sont inconnues mais égales
(Échantillons de petites tailles)
Remarque
On a
n+m−2 2
Sunié ∼ χ2m+n−2 ,
σ2
2σ 4
d'où E[ S2unié ] = σ 2 et 2
Var (Sunié )= m+n−2 .
2
D'où Var (Sunié ) ≤ min(VarSX2 , VarSY2 ).
Cela exprime que, en tant qu'estimateur sans biais de σ 2 , Sunié

2 est
meilleur que SX2 et SY2 .

D'autre part X −Y est le meilleur estimateur sans biais pour µX − µY . De
plus la diérence
σ2 σ2

X − Y ∼ N µX − µY , + ,
m n
et est indépendante de
2
Sunié. Par conséquent, la v.a.
(X − Y ) − (µX − µY )
q = tn+m−2 suit la loi de Student à m+n−2 degrés
Sunié m1 + n1
de liberté. D'où
( r )
1 1

P (µX − µY ) − (X − Y ) ≤ tm+n−2, α/2 + Sunié = 1 − α.

m n
Ainsi
r
1 1
h i
(X − Y ) ± Sunié + tm+n−2, α/2 .
m n

Exemple
La contenance en nicotine d'une cigarette est supposée suivre une loi
normale de moyenne µ et de variance σ 2 . Une étude a été conduite pour
comparer la contenance en nicotine des cigarettes de marque A et celle
des cigarettes de marque B. Un échantillon de m = 10 cigarettes de
marque A a révélé une moyenne de 3.1 mg avec un écart type de 0.5
mg, alors q'un échantillon de n = 8 cigarettes de marque B a révélé une
moyenne de 2.7 mg avec un écart type de 0.7 mg. En supposant
l'égalité des variances des deux populations, construire un intervalle de
niveau de conance 0.95 pour la diérence µA − µB des contenances
moyennes des deux marques. M

On a α = 0.05 et tm+n−2,α/2 = 2.119. d'autre part, l'estimateur unié est
donné par :
s
(10 − 1)(0.5)2 + (8 − 1)(0.7)2
Sunié = = 0.596,
10 + 8 − 2
Un intervalle de niveau de conance 0.95 pour la diérence µA − µ B est
alors donné par :

r r
1 1 1 1
h i
(3.1 − 2.7) − 0.596 + 2.119 , (3.1 − 2.7) + 0.596 + 2.119
10 8 10 8
=[-0.199,0.999].

Cas où les variances sont inconnues et diérentes (Éch. de
grandes tailles)
Supposons que σX2 et σY2 sont inconnues, diérentes et que
min(n, m) ≥ 30. On a σX2 ' SX2 et σY2 ' SY2 . D'où, par le TCL on a
(X − Y ) − (µX − µY )
q ' Z.
SX2 /m + SY2 /n
Ainsi un intervalle de conance de niveau (1 − α) pour la diérence
µX − µY de deux moyennes des lois normales, lorsque σX2 et σY2 ne sont
pas proportionnelles et lorsque min(m, n) ≥ 30 , est donné par
s s
h S2
X S2
Y SX2 S2 i
(X − Y ) − + zα/2 , (X − Y ) + + Y zα/2 .
m n m n
Cas de deux lois qlcq (Éch. de grandes tailles)
Dans ce cas, on doit faire appel aux théorèmes limites. On supposera alors
que m et n sont assez grands pour que les approximations soient justiées.
Cas où les variances σX2 et σY2 sont connues : D'après le TCL on a

(X − Y ) − (µX − µY )
q ' Z.
σX2 /m + σY2 /n
Ainsi un intervalle de conance de niveau 1 −α pour (µX − µY ), lorsque
min(m, n) ≥ 30 , est donné par
s s
h σX2 σ2 σX2 σ2 i
(X − Y ) − + Y zα/2 , (X − Y ) + + Y zα/2 .
m n m n

Cas de deux lois qlcq (Éch. de grandes tailles)
Cas où les variances sont inconnues : Pour min(m, n) assez grand on
a σX2 ' SX2 et σY2 ' SY2 et par le TCL
(X − Y ) − (µX − µY )
q ' Z.
SX2 /m + SY2 /n
Ainsi un intervalle de conance approximatif de niveau 1 −α pour
(µX − µY ), lorsque ≥ 30 , est donné par
s s
h S2
X S2
Y SX2 SY2 i
(X − Y ) − + zα/2 , (X − Y ) + + z .
m n m n α/2

IC pour la diérence de deux proportions
Soient X = (X1 , ..., Xm ) un échantillon issu d'une loi de B ernoulli(pX ) et
Y = (Y1 , ..., Yn ) un échantillon issu d'une loi de B ernoulli(pY ). On suppose
que les deux échantillons sont indépendants.
On montre que pour n assez grand, on a
(X − Y ) − (pX − pY )
q ' Z.
X (1 − X )/m + Y (1 − Y )/n
Ainsi un intervalle de conance approximatif de niveau 1 −α pour
(pX − pY ), lorsque min(m, n) ≥ 30 , est donné par
s
h X (1 − X ) Y (1 − Y ) i
(X − Y ) ± + zα/2 .
m n
Exemple
Un sondage a montré que 132 des 200 électeurs et 90 des 150 électrices
interrogés préfèrent le candidat A. Notons pH et pF les proportions des
électeurs respectivement chez les hommes et chez les femmes qui sont
favorables au candidat A. Construire un intervalle de conance de
niveau 0.99 pour pH − pF . M

132 90
Nous avons pc
H = = 0.66, pc
F = = 0.60, α = 0.01 et
200 150
Zα/2 = 2.575. D'où un intervalle de conance approximatif de niveau 0.99
pour pH − pF donné par
r
h (0.66)(0.34) (0.60)(0.40) i
(0.66 − 0.60) ± + 2.575
200 150
Après calcul on obtient, [−0.074, 0.194]

IC pour le quotient des variances de deux lois normales.
Avec les notations et les conditions précédentes, la variable aléatoire

SX2 /σX2
= Fm−1,n−1 suit la loi de Fisher à m − 1 et n−1 degrés de liberté.
SY2 /σY2
Son (1 − α)−quantile Fm−1,n−1, α est tel que
P{Fm−1,n−1 ≥ Fm−1,n−1, α } = α
σY2 SX2

Il s'ensuit que P Fm−1,n−1, 1−α/2 ≤ 2 2 ≤ Fm−1,n−1, α/2 = 1−α.
σX SY
σY2
On en déduit un intervalle de conance de niveau (1 − α) pour est
σX2
donné par
h S2 S2 i
Fm−1,n−1, 1−α/2 Y2 , Fm−1,n−1, α/2 Y2 .
SX SX
IC pour une diérence de moyennes : Échantillons appariés
Dans ce paragraphe nous nous intéressons aux diérences de moyennes
lorsque les échantillons ne sont pas indépendants. Nous illustrons cette
situation par l'exemple suivant.

Exemple
Pour tester l'ecacité d'un programme de formation visant à réduire le
temps d'accomplissement d'une certaine tâche, on a choisi six ouvriers au
hasard puis on a relevé les temps (en mn) qu'ils ont mis pour accomplir
cette tâche. Les six ouvriers ont ensuite suivi le programme de formation
puis on a relevé les temps mis pour accomplir la même tâche.
Notons µ1 et µ2 les temps moyens mis par un ouvrier pour accomplir la
tâche en question respectivement avant et après le programme de
formation.

Les résultats de cette expérience sont donnés dans le tableau suivant :
Ouvrier N
◦ 1 2 3 4 5 6
Temps avant la formation (en mn) :X 6.0 5.0 7.0 6.2 6.0 6.4
Temps après la formation (en mn) :Y 5.4 5.2 6.5 5.9 6.0 5.8
(D = X −Y) 0.6 -0.2 0.5 0.3 0.0 0.6
Les échantillons X1 , . . . , X6 et Y1 , . . . , Y6 ne sont pas indépendants, et par
conséquent les techniques des paragraphes précédents ne s'appliquent pas.
On considère plutôt l'échantillon D1 , . . . , D6 , où Di = Xi − Yi , pour
construire un intervalle de conance pour µD = µ1 − µ2 et on applique
alors les techniques que nous avons déjà développées dans le cas d'un seul
échantillon.
IC pour une diérence de moyennes : Échantillons appariés
Pour les données du tableau ci-dessus, étant donnée la taille de
l'échantillon, nous avons besoin de supposer que l'échantillon D1 , . . . , D6

est issu d'une loi
2 ).
N (µD , σD Ainsi un intervalle de conance de niveau
(1 − α) est donné par
6
SD SD 1
SD2 = (Di − D)2 .
X
D − √ t5,α/2 , D + √ t5,α/2 , où
6 6 5
i=1
Remarque
Dans le cas d'échantillons de grandes tailles (n ≥ 30), le TCL permet de
passer à l'hypothèse de normalité pour l'échantillon D1 , . . . , Dn .

Table of Content
Introduction

Tests d'hypothèses
Aux chapitres précédents nous avons vu comment un échantillon peut être
utilisé pour estimer un paramètre. Dans ce chapitre nous allons voir
comment un échantillon peut aider à prendre une décision concernant la
valeur d'un paramètre. Pour illustrer cela, nous introduisons l'exemple
suivant

Exemple
La durée de vie d'une ampoule est une v.a. de loi N (µ, σ 2 ). Les
ampoules fabriquées selon un certain procédé ont une durée de vie
moyenne de 600 heures avec un écart type de 10 heures. Un nouveau
procédé est sensé allonger la durée de vie moyenne. Ci-dessous sont les
durées de vie de 10 ampoules fabriquées selon le nouveau procédé :
510; 614; 780; 603; 512; 501; 534; 603; 788; 650.
À partir de ces données peut-on conclure que le nouveau procédé

améliore la durée de vie moyenne des ampoules ? L'objectif d'un test
d'hypothèse est de répondre à ce genre de question.

Dénition
Soit θ∈Θ un paramètre d'une loi de probabilité et Θ0 et Θ1 deux
sous-ensembles disjoints de Θ tels que Θ0 ∪ Θ1 = Θ. Les assertions
H0 : θ ∈ Θ0 et H1 : θ ∈ Θ1 sont appelées respectivement l' hypothèse

nulle et l'hypothèse alternative.
Un test d'hypothèse ou test statistique est une démarche conduisant à
élaborer une règle de décision permettant de faire un choix entre les deux
hypothèses statistiques H0 et H1 .
• L'hypothèse nulle H0 . C'est l'hypothèse selon laquelle on xe a priori la
valeur d'un paramètre.
• L'hypothèse alternative H1 . On peut choisir pour cette hypothèse
n'importe quelle hypothèse compatible avec le problème étudié, mais
diérente de H0 .
Reconsidérons l'exemple de la durée de vie des ampoules fabriquées selon
un nouveau procédé.
On cherche à tester l'hypothèse H0 : µ ≤ 600 versus H1 : µ > 600.

L'échantillon fournit la statistique X qui est un estimateur sans biais pour
µ. Une procédure naturelle de décision consisterait à rejeter H0 lorsque
X > C, où C est une constante à déterminer.
La décision qui sera prise dépend donc de l'échantillon observé. Elle est
donc assujettie à l'erreur.Le tableau ci-dessous résume la situation
H0 vraie H0 fausse
Rejeter H0 Mauvaise décision Bonne décision
Accepter H0 Bonne décision Mauvaise décision

Dénition
On appelle erreur de première espèce ou erreur de type 1 la décision de
rejeter H0 alors qu'elle est vraie. La décision de ne pas rejeter H0
alors qu'elle est fausse s'appelle l'appelle erreur de deuxième espèce ou
erreur de type 2.
Dénition
Les probabilités des erreurs de première et deuxième espèce sont notées
• α = P{Rejeter H0 |H0 est vraie} > 0, et
• β = P{Ne pas rejeter H0 |H0 est fausse} > 0.
Elles s'appellent respectivement risque de première espèce et risque de
deuxième espèce.

La décision idéale est celle où ces deux risques seraient nuls, i.e.
α = β = 0. Mais cela est, sauf dans des situations triviales, impossible.
Comme il est impossible de contrôler en même temps α et β, on xe α et
on cherche la décision pour laquelle β est minimum. C'est cette approche
que nous allons développer dans ce chapitre.

Méthodes
La situation générale est celle où l'échantillon est issu d'une population
dont la loi dépend d'un paramètre θ ∈ Θ ⊂ Rd , d ∈ N, et on cherche à
conclure que θ ∈ Θ0 ou θ ∈ Θ1 , où Θ0 ⊂ Θ et Θ1 ⊂ Θ sont
complémentaires.
Dénition
Les hypothèses H0 : θ ∈ Θ0 et H1 : θ ∈ Θ1 , où Θ0 et Θ1 sont deux
sous-ensembles complémentaires de Θ, s'appellent respectivement
l'hypothèses nulle et l'hypothèses alternative.
Lorsque Θi est réduit à un seul élément, on dit que Hi est une hypothèse
simple, sinon Hi est une hypothèse composite (pour i = 0, 1).

Méthodes
C'est l'utilisateur qui dénit l'hypothèse nulle et l'alternative, l'approche
que nous adoptons ici consiste à convenir que l'erreur de première espèce
est plus grave que l'erreur de deuxième espèce et donc il est préférable de
contrôler α (la probabilité de l'erreur de première espèce).
En pratique, les valeurs les plus courantes de α sont 0.10, 0.05 et 0.01. La
valeur de α représente le risque d'erreur de première espèce que l'utilisateur
est prêt à courir.

Critères pour choisir H0
Le choix de H0 peut être dicté par des raisons telles que :
1- On ne veut pas abandonner trop souvent l'hypothèse H0 qui est
solidement établie et n'a jamais été contredite auparavant.
2- H0 est une hypothèse à laquelle on tient particulièrement (pour des
raisons qui peuvent être subjectives.)
3- H0 correspond à une hypothèse de prudence : Pour tester l'ecacité
d'un nouveau vaccin, il est prudent de choisir une hypothèse H0

défavorable au nouveau produit.
4- H0 est la seule hypothèse facile à formuler. Par exemple, pour tester
µ = µ0 contre µ 6= µ0 il est clair que seule H0 : µ = µ0 permet
d'eectuer des calculs.

Méthodes
Après avoir xé α et déni l'hypothèse nulle H0 et l'alternative H1 , on
dénit un procédé selon lequel on rejette ou accepte l'hypothèse nulle. On
dit qu'on a construit un test d'hypothèses.

Dénition
Un test d'hypothèses est une procédure, basée sur l'échantillon observé
x1 , . . . , xn , qui permet de déterminer un sous ensemble R de Rn tel que
Si (x1 , . . . , xn ) ∈ R alors on décide de rejeter H0 et d'accepter H1 , et
Si /R
(x1 , . . . , xn ) ∈ alors on décide de rejeter H1 et d'accepter H0 .
L'ensemble R est appelé région critique ou région de rejet .

Exemple
Considérons des lampes à incandescence dont la durée de vie est une
variable aléatoire gaussienne de moyenne m = 1000h et d'écart-type
s = 100h. Un ingénieur propose un nouveau procédé de fabrication qui
doit améliorer cette durée de vie moyenne et la rendre égale à 1075h.
Deux hypothèses sont en présence :
soit m = 1000 h est une hypothèse encore vraie et le nouveau
procédé n'a pas modié de façon signicative la durée de vie des
lampes,
soit m = 1075 et le nouveau procédé a apporté une réelle
amélioration.

suite de l'exemple
On suppose que la durée de vie des lampes suit une loi normale de même
écart-type s, égal à 100, sous les deux hypothèses. Le meilleur estimateur
de l'espérance mathématique est la statistique X , moyenne d'un
échantillon de taille n. C'est la variable de décision utilisée pour construire
le test. On décide de contrôler un échantillon de taille n = 25 lampes
fabriquées suivant le nouveau procédé.
Les deux hypothèses en présence sont :
H0 : m = m0 = 1000heures
H1 : m = m1 = 1075heures

Suite exemple
Si le risque de première espèce α est égal à 5%, la région critique, de rejet
de H0 , est dénie par : Pr (R/H0 ) = 0.05 c'est-à-dire P(X > d) = 0.05

Soit Z la variable aléatoire centrée réduite associée à X :
d−1000
P(X > d) = p(Z 20 ) = 0.05
d−1000
20 = 1.6449 =⇒ d = 1033h
Règles de décision :
X ≥ 1033 heures, on rejette H0

X ≺ 1033 heures, on garde H0 .
L'échantillon a donné pour la statistique X la valeur 1 050 heures. On
doit donc rejeter l'hypothèse H0 , et accepter l'hypothèse H1 .

Méthodes
Notations
La fonction φ(x) = IR (x), dénie à partir de la région critique d'un test,
s'appelle la fonction test. Par abus de langage on notera par φ le test et sa
fonction test.

Dénition
Considérons le test d'hypothèses H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1 dont la
région critique est R, et soit α ∈ [0, 1].

On dit que c'est un test de niveau α si
sup Pθ {(X1 , . . . , Xn ) ∈ R} ≤ α.
θ∈Θ0
Lorsqu'il y a égalité, on dit que c'est un test de taille α.

Élaboration d'un test et démarche à suivre
Pour élaborer un test statistique, il faut :
Formuler de façon précise les hypothèses H0 et H1 ,
Fixer, avant l'expérience, le risque α de première espèce, c'est-à-dire le
risque de rejeter l'hypothèse H0 alors qu'elle est vraie,
Préciser les conditions d'application du test : forme de la loi de
probabilité de la population étudiée, taille de l'échantillon, variance
connue ou inconnue...
Choisir la statistique la mieux adaptée en fonction des caractéristiques
de la population étudiée et donner sa loi de probabilité sous les deux
l'hypothèses, ces lois doivent être diérentes,

Déterminer la région critique ou région de rejet de l'hypothèse H0 au
prot de l'hypothèse H1 et en déduire la règle de décision :
•R région critique conduisant au rejet de H0 : Pr (R/H0 ) = α,

•R région de non-rejet donc d'acceptation de H0 :
Pr (R/H0 ) = (1 − α).
On en déduit la valeur du risque de deuxième espèce β :
Pr (R/H1 ) = (1 − β)
Calculer eectivement la valeur numérique t de la variable de décision
en utilisant les résultats apportés par l'échantillon,

donner les conclusions du test :
• si t ∈ R, on rejette l'hypothèse H0 au prot de l'hypothèse H1 sans
conclure que l'hypothèse H0 est fausse, mais elle a une forte
probabilité de l'être, le test est signicatif,
• si t ∈ R, on ne peut pas rejeter l'hypothèse H0 donc on garde cette
hypothèse, le test n'est pas signicatif.

Table of Content
Introduction

Tests sur les moyennes : Dans ce paragraphe nous présentons les tests
les plus usuels concernant la moyenne d'une population.
Supposons que nous voulons tester, au niveau α ∈]0, 1[, l'hypothèse nulle
µ = µ0 contre l'une des alternatives µ 6= µ0 , µ > µ0 ou µ < µ0 en nous
basant sur un échantillon X1 , . . . , Xn .

Cas d'un échantillon issu d'une loi N (µ, σ 2 ) où la variance
σ 2 est connue
Le TRV conduit à une région critique basée sur la statistique test

√ X − µ0
n . Le tableau suivant résume les diérents cas de gures que
σ
nous venons d'évoquer :
H0 H1 Rejeter H0 lorsque
√ |x − µ0 |
µ = µ0 µ 6= µ0 n > zα/2
σ
√ x − µ0
µ = µ0 µ > µ0 n > zα
σ
√ x − µ0
µ = µ0 µ < µ0 n < −zα
σ

σ 2 est inconnue
Dans ce cas, comme d'habitude, on remplace σ2 par son estimateur dans la
statistique test. Si la taille de l'échantillon est petite n < 30, on remplace
zα par tn−1,α . Sinon, on garde zα .
√ |x − µ0 |
µ = µ0 µ 6= µ0 n > tn−1,α/2
s
√ x − µ0
µ = µ0 µ > µ0 n > tn−1,α
s
√ x − µ0
µ = µ0 µ < µ0 n < −tn−1,α
s

σ 2 est inconnue
Remarque
Il est possible de remplacer µ = µ0 par µ ≤ µ0 de l'hypothèse nulle
dans la deuxième ligne du tableau ( ou par µ ≥ µ0 dans la troisième
ligne du tableau) sans rien changer à la décision. Cette remarque reste
valable pour tous les tableaux de ce genre qui vont suivre.

Exemple
On suppose que la durée de vie d'un pneu d'une certaine marque est
une v.a. qui suit une loi N (µ, σ 2 ). Un échantillon de 100 pneus de ladite
marque a révélé une durée de vie moyenne de x = 21431 km avec un
écart-type de s = 1295 km.
Tester au niveau α = 0.05 les hypothèse H0 : µ ≥ 22000 contre
H1 : µ < 22000. M

√ x − µ0
On rejette H0 si 100 < −z0.05 . Or z0.05 ' 1.64, et
s
√ x − µ0 √ 21431 − 22000
100 = 100 = −4.39.
s 1295
Conclusion : On rejette l'hypothèse H0 : µ ≥ 22000.

Cas d'un échantillon de grande taille issu d'une loi qlcq
Lorsque la taille de l'échantillon est assez grande (n ≥ 30), on n'a pas
besoin de supposer que l'échantillon provient d'une loi normale. En eet,

√ X − µ0
grâce au TCL, on a n ' Z, où σ
e désigne σ ou son estimateur S
σ
e
selon que la variance est connue ou inconnue. Le tableau suivant résume les
diérents cas de gures :
√ |x − µ0 |
µ = µ0 µ 6= µ0 n > zα/2
σ̃
√ x − µ0
µ = µ0 µ > µ0 n > zα
σ̃
√ x − µ0
µ = µ0 µ < µ0 n < −zα
σ̃

Tests de comparaison de moyennes de deux populations de
lois normales
Pour comparer les moyennes de deux populations, on dispose d'un
échantillon X1 , . . . , Xm issu d'une première population de loi N (µ1 , σ12 ) et
d'un échantillon Y1 , . . . , Yn issu d'une deuxième population de loi
N (µ2 , σ22 ). On supposera en plus que les deux échantillons sont
indépendants. Supposons que nous voulons tester, au niveau α ∈]0, 1[,

l'hypothèse nulle µ1 − µ2 = 0 contre l'une des alternatives µ1 − µ2 6= 0,
µ1 − µ2 > 0 ou µ1 − µ2 < 0. Les tableaux suivants résument les diérents
cas de gure :

lois normales
Cas où σ12 et σ22 sont connues :
|x − y |
µ1 − µ 2 = 0 µ1 − µ2 6= 0 q > zα/2
σ12 /m + σ22 /n
x −y
µ1 − µ 2 = 0 µ1 − µ 2 > 0 q > zα
σ12 /m + σ22 /n
x −y
µ1 − µ 2 = 0 µ1 − µ 2 < 0 q < −zα
σ12 /m + σ22 /n

lois normales
Cas où σ12 = σ22 = σ 2 inconnue :
|x − y |
µ1 − µ2 = 0 µ1 − µ2 6= 0 p > tm+n−2,α/2
Sunié 1/m + 1/n
x −y
µ1 − µ2 = 0 µ1 − µ2 > 0 p > tm+n−2,α
Sunié 1/m + 1/n
x −y
µ1 − µ2 = 0 µ1 − µ2 < 0 p < −tm+n−2,α
Sunié 1/m + 1/n
(m − 1)SX2 + (n − 1)SY2
r
où Sunié = est l'écart-type unié.
m+n−2
Cas de deux populations de lois qlcq : Éch. de grandes tailles
Pour comparer les moyennes de deux populations de lois quelconques, on
dispose d'un échantillon X1 , . . . , Xm issu d'une première population de
moyenne µ1 et de variance σ12 et d'un échantillon Y1 , . . . , Yn issu d'une
deuxième population de moyenne µ2 et de variance σ22 . On supposera en
plus que les deux échantillons sont indépendants.
µ1 − µ2 = 0 contre l'une des alternatives µ1 − µ2 6= 0, µ1 − µ2 > 0 ou
µ1 − µ2 < 0. D'après le TCL, sous l'hypothèse nulle, on a

x −y
q ' Z , avec σ̃i qui dénote l'écart-type de la i ème
σ˜1 2 /m + σ˜2 2 /n
population, de l'échantillon associé ou encore l'écart-type unié.

Cas de deux populations de lois qlcq : Éch. de grandes tailles
Le tableau suivant résume les diérents cas de gure :
|x − y |
µ1 − µ2 = 0 µ1 − µ2 6= 0 q > zα/2
σ˜1 2 /m + σ˜2 2 /n
x −y
µ1 − µ2 = 0 µ1 − µ 2 > 0 q > zα
σ˜1 2 /m + σ˜2 2 /n
x −y
µ1 − µ2 = 0 µ1 − µ 2 < 0 q < −zα
2
σ˜1 /m + σ˜2 /n 2

Exemple
Supposons que l'on s'intéresse à la contenance en nicotine pour deux
marques de cigarettes. Un échantillon de 50 cigarettes de marque A a
révélé une moyenne x A = 2.61 mg avec un écart-type sA = 0.12 mg,
alors qu'un échantillon de 40 cigarettes de marque B a révélé une
moyenne x B = 2.38 mg avec un écart-type sB = 0.14 mg. Tester, au
niveau de signication α = 0.05, les hypothèses H0 : µA − µB = 0 contre
H1 : µA − µB 6= 0. M

|x − x B |
On rejette H0 si q A > z0.05/2 = 1.96. Or le terme gauche de
sA2 /50 + sB2 /40
cette inégalité est égal à 1.08. Donc on ne doit pas rejeter H0 .

Tests sur les variances
σ = σ0 contre l'une des alternatives σ 6= σ0 , σ > σ0 ou σ < σ0 et que pour
cela, nous disposons d'un échantillon X1 , . . . , Xn issu d'une loi N (µ, σ 2 ).

(n − 1)S 2
σ = σ0 σ 6= σ0 > χ2n−1,α/2 ou < χ2n−1,1−α/2
σ02
(n − 1)S 2
σ = σ0 σ > σ0 > χ2n−1,α
σ02
(n − 1)S 2
σ = σ0 σ < σ0 < χ2n−1,1−α
σ02

Remarque
Ici on a supposé que µ est inconnue. Dans le cas où µ est connue, on
remplace (n − 1)S 2 par (Xi − µ)2 et χ2n−1 par χ2n .
Pn
i=1

Exemple
L'épaisseur d'une composante, d'un semi-conducteur est une dimension
très importante que l'on suppose suivre une loi N (µ, σ 2 ). Elle est
considérée acceptable si sa variation reste inférieure à 0.36. Un
échantillon de 18 composantes a révélé une variance s 2 = 0.68. Tester,
au niveau de signication α = 0.05, les hypothèses H0 : σ 2 ≤ 0.36 contre
H1 : σ 2 > 0.36. M

(n − 1)s 2
On rejette H0 si > χ2n−1,α = 27.587. Or le premier terme de
σ0 )2
17(0.68)
cette inégalité est égal à = 32.1, donc on rejette H0 .
0.36

Comparaison de deux variances
Nous avons vu, lors des tests de comparaison de deux moyennes, comment
l'égalité ou l'inégalité des variances intervient dans la détermination de la
statistique test. Dans ce paragraphe nous allons développer les tests de
comparaison de deux variances.
σ1 = σ2 contre l'une des alternatives σ1 6= σ2 , σ1 > σ2 ou σ1 < σ2 et que
pour cela, nous disposons d'un échantillon X1 , . . . , Xm issu d'une loi
N (µ1 , σ12 ) et d'un échantillon Y1 , . . . , Yn issu d'une loi N (µ2 , σ22 ) que l'on
suppose indépendants.

Comparaison de deux variances
S12
σ1 = σ2 σ1 6= σ2 > Fm−1,n−1,α/2 ou < Fm−1,n−1,1−α/2
S22
S12
σ1 = σ2 σ1 > σ2 > Fm−1,n−1,α
S22
S12
σ1 = σ2 σ1 < σ2 < Fm−1,n−1,1−α
S22

Tests sur les proportions
Dans ce paragraphe nous présentons les tests les plus usuels concernant p
la probabilité de succès dans une expérience à deux issues possibles :
Succès et échec.
p = p0 contre l'une des alternatives p 6= p0 , p > p0 ou p < p0 en nous
basant sur un échantillon X1 , . . . , Xn issu d'une loi de B ernoulli(p ).

Tests sur les proportions
Le tableau suivant résume les diérents cas de gures :
√ |b
p − p0 |
p = p0 p 6= p0 n p > Zα/2
p0 (1 − p0 )
√ pb − p0
p = p0 p > p0 n p > Zα
p0 (1 − p0 )
√ pb − p0
p = p0 p < p0 n p < −Zα
p0 (1 − p0 )

Exemple
Une compagnie de fabrication de détergent arme qu'au moins 20% de
la population des consommateurs achètent le détergent de marque A.
Tester cette armation au niveau α = 0.01 sachant que parmi les 200
personnes choisies au hasard, 30 ont déclaré acheter la marque A.
Soit p la vraie proportion des consommateurs qui achètent le détergent
de marque A. Pour vérier les dires de la compagnie, on va tester
l'hypothèse H0 : p ≥ 0.20 contre l'alternative H1 : p < 0.20. M

√pb − p0 58
On rejette H0 n p
si < −Zα avec n = 200, pb = ,
p0 (1 − p0 ) 200
p0 = 0.20, α = 0.01 et Zα = 2.33. Les calculs montrent que
√ pb − p0
n p = −1.77 > −Zα et donc on ne rejette pas H0 .
p0 (1 − p0 )

Comparaison de deux proportions
Dans ce paragraphe nous allons construire des tests qui permettent de
comparer deux proportions.
Supposons que l'on dispose de deux échantillons indépendants X1 , . . . , Xm

issu d'une loi de B ernoulli(p1 ) et Y1 , . . . , Yn issu d'une loi de B ernoulli(p2 )
pour tester, au niveau α ∈]0, 1[, l'hypothèse nulle p1 = p2 contre l'une des
alternatives p1 6= p2 , p1 > p2 ou p1 < p2 .

Comparaison de deux proportions
Le tableau suivant résume les diérents cas de gures :
|pb1 − pb2 |
p1 = p2 p1 6= p2 p > Zα/2
pb12 (1 − pb12 )(1/n + 1/m)
pb1 − pb2 ,
p1 = p2 p1 > p2 p > Zα
pb12 (1 − pb12 )(1/n + 1/m)
pb1 − pb2
p1 = p2 p1 < p2 p < −Zα
pb12 (1 − pb12 )(1/n + 1/m)
mpb1 + npb2
où pb12 = .
m+n

Exemple
Un organisme de prévention des accidents de la circulation mène une
étude dans le but de montrer que l'utilisation de la ceinture de sécurité
est plus fréquente chez les femmes que chez les hommes. Un échantillon
de 792 automobilistes choisis au hasard a révélé les données suivantes :
Homme Femme
Met la ceinture 131 148
Ne met pas la ceinture 283 230
Notons p1 et p2 les proportions d'hommes et de femmes qui mettent
leur ceinture de sécurité en conduisant. M

On teste alors l'hypothèse H0 : pH − pF ≤ 0 contre H0 : pH − pF > 0 au
niveau α = 0.05.
pb − pb2
On rejette l'hypothèse H0 si p 1 > Zα . Or on a
pb12 (1 − pb12 )
131 148 279 pb − pb2

pb1 = , pb2 = , pc
12 = , d'où p 1 = −0.16.
414 378 792 pb12 (1 − pb12 )
Comme Zα = 1.64, On ne rejette pas H0 .

Cas des échantillons appariés
Remarque
Dans le cas de deux échantillons appariés, on se ramène au cas d'un
seul échantillon en considérant l'échantillon des diérences.

Table of Content
Introduction

Puissance de test
Il est usuel de noter :
Le risque de première espèce la valeur α (la probabilité de rejeter H0

alors qu'elle est vraie) telle que : P(X ∈ R|H0 )
Le risque de deuxième espèce la valeur β (la probabilité d'accepter H0

alors que H1 est vraie) telle que : P(X ∈ R|H1 )
Dénition
On appelle puissance d'un test la probabilité de rejeter H0 alors qu'elle est
eectivement fausse soit, dans les notations précédentes : P(X ∈ R|H1 ) .
La puissance, qui est la capacité à détecter qu'une hypothèse nulle est
fausse, n'est rien d'autre que 1 − β.

Exemple
Considérons des lampes à incandescence dont la durée de vie est une
variable aléatoire gaussienne de moyenne m = 1000h et d'écart-type
s = 100h. Un ingénieur propose un nouveau procédé de fabrication qui
doit améliorer cette durée de vie moyenne et la rendre égale à 1075h.
On décide de contrôler un échantillon de n = 25 lampes fabriquées
suivant le nouveau procédé. Deux hypothèses sont en présence :
soit m = 1000 h est une hypothèse encore vraie et le nouveau
procédé n'a pas modié de façon signicative la durée de vie des
lampes,
soit m = 1075 et le nouveau procédé a apporté une réelle
amélioration.
Suite exemple
Si le risque de première espèce α est égal à 5%, la région critique, de rejet
de H0 , est dénie par : Pr (R/H0 ) = 0.05 c'est-à-dire P(X > d) = 0.05

Soit Z la variable aléatoire centrée réduite associée à X :
d−1000
P(X > d) = p(Z 20 ) = 0.05
d−1000
20 = 1.6449 =⇒ d = 1033h
Règles de décision :
X ≥ 1033 heures, on rejette H0

X ≺ 1033 heures, on garde H0 .
L'échantillon a donné pour la statistique X la valeur 1 050 heures. On
doit donc rejeter l'hypothèse H0 , et accepter l'hypothèse H1 .

Suite exemple
Le risque β de deuxième espèce est déni par :
β = P(X < d|H1 )

1033−1075
β = P(X < 1033) = p(Z < 20 = −2.10)
D'où β = 0, 0179.
La probabilité de refuser H1 alors que cette hypothèse est vraie est donc
égale à 0, 0179, elle est assez faible ; la puissance du test est égale à 0, 9821.

Dénition
Un test est dit sans biais si sa puissance est supérieure ou égale à son
risque α, telle que
1 − β ≥ α.
Dénition
Soit C une classe de tests pour tester H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1 . Et
soient φ1 , φ2 ∈ C deux tests et π1 et π2 leurs fonctions puissance
respectives, π : θ ∈ Θ 7→ Pθ {(X1 , . . . , Xn ) ∈ R} ∈ [0, 1].

On dit que φ1 est plus puissant que φ2 si ∀θ ∈ Θ1 , π1 (θ) ≥ π2 (θ).
Un test φ∈C est uniformément le plus puissant (UPP) dans C s'il est plus
puissant que tout autre élément de C.

Exemple
On veut vérier que le pourcentage p de pièces défectueuses dans un lot de
plusieurs milliers de pièces n'excède pas 3%. On prélève un échantillon de
n = 200 pièces et on adopte la règle de décision suivante, en désignant par
K le nombre de pièces défectueuses dans l'échantillon prélevé :
si K ≤ 10 le lot est accepté,
si K ≥ 11 le lot est refusé.

Suite exemple
Risque de première espèce associé à cette règle de décision :
α = P(refuserH0 |H0 vraie) = P(K ≥ 11|p0 = 0, 03)
La variable K suit la loi binomiale B(n; p) avec n = 200 et p = p0 = 0, 03

sous H0 et p = p1 > 0, 03 sous H1 .
On peut utiliser l'approximation normale, en eet :
E (K ) = 6 et Var (K ) = 200 × 0, 03 × 0, 97 = 5, 82 = (2, 41)2
α = P(11 ≤ K ≤ 200) = Pr (10, 5 < K < 200, 5) (avec la correction de
continuité)
P( 102,,541−6 < Z < 20,5−6

2,41 ) = 0, 031 = α
Suite exemple
Risque de deuxième espèce :
β = P(refuserH1 |H1 vraie) = P(0 ≤ K ≤ 10|p > 0, 03)

p
La loi limite de la variable K est la loi normale N(200p; 200p(1 − p)).
β = P( √ 0,5−np < Z < √10,5−np )

200p(1−p) 200p(1−p)
(avec la correction de continuité).

Suite exemple
On remarque que le test est d'autant plus puissant que p 0, 03.

Si on observe un pourcentage de pièces défectueuses p = 0, 08, on trouve
β = 0, 076 (risque d'accepter le lot) et donc 1 − β = 0, 924.

Théorème ( Lemme de Neyman-Pearson)
Pour tester les hypothèses simples H0 : θ = θ 0 contre H1 : θ = θ 1 ,
considérons le test de taille α et dont la région critique R vérie

x ∈ R

si f (x , θ1 ) > k f (x , θ0 )
(8)
/R
x ∈ f (x , θ1 ) < k f (x , θ0 )

si
où k ≥0 est une constante et f (x , θ) est la fdp. Alors,
a- (Susance) Tout test de taille α dont la région critique vérie (8) est
UPP dans l'ensemble des tests de niveau α.
b- (Nécessité) S'il existe un test de taille α dont la région critique vérie

(8) avec k > 0, alors tout test UPP de niveau α est de taille α et
admet une région critique qui vérie (8) sauf sur un négligeable.

Corollaire
Consiérons les hypothèses simples du théorème précédent, et soit
T = T (X) une statistique exhaustive pour θ et g (t, θ) sa fdp. Alors tout
test de taille α qui est basé sur T et de région critique S est UPP de
niveau α si 
t ∈ S

si g (t, θ1 ) > k g (t, θ0 )
(9)
t ∈

/S si g (t, θ1 ) < k g (t, θ0 )
où k ≥0 est une constante.

Exemple
Soit X1 , . . . , Xn un échantillon issu d'une loi normale N (µ, σ 2 ), avec σ
connu. Soient les hypothèses H0 : µ = µ0 versus H1 : µ = µ1 , avec
µ1 > µ0 .
Le test φ = IR , de région critique R = {(x1 , . . . , xn ) ∈ Rn : x > c}, est
UPP au niveau α. M

Familles à rapport de vraisemblance monotone
Dénition
Une famille de f.d.p. {g (t, θ) : t ∈ R, θ ∈ Θ ⊂ R} est dite à rapport de
vraisemblance monotone (RVM) si, pour tout θ1 < θ2 , la fonction
g (t, θ2 )
est croissante en t sur ∪2i=1 {t ∈ R : g (t, θi ) > 0}.
g (t, θ1 )

Familles à rapport de vraisemblance monotone
Exemple
Soient X1 , . . . , Xn un échantillon issu d'une loi de Poisson de paramètre
θ et θ1 θ.
x
θ i exp(−θ1 )
1
Qn
i=1
Pn
f (X1 ,...,Xn ;θ1 )
f (X1 ,...,Xn ;θ) = xi !
Qn θxi exp(−θ) = exp −(θ1 − θ)( θθ1 ) i=1 xi =T (X )=λ
i=1 xi !
On calcule la dérivée par rapport à λ qui est croissante en T (X )

D'où la loi de poisson est une famille à RVM. M

Théorème
Si Θ⊂R et si ω(θ) est croissante en θ alors toute famille exponentielle de
la forme f (x, θ) = C (θ)h(x) exp(ω(θ)T (x)) est a rapport de vraisemblance
monotone en T (x).
Exemple
Soient X1 , . . . , Xn un échantillon issu d'une loi de Bernoulli de
paramètre θ = p .
θ
P(X = x) = exp(x ln( 1−θ ) + ln(1 − θ))
On sait que T (X ) est une statistique exhaustive pour θ.

1
On a ω(θ) = ln( 1−θ
θ 0
) ⇒ ω (θ) = θ(1−θ) >0
Donc ω(θ) est monotone et B(θ = p) est une famille à RVM. M
Théorème
Soient les hypothèses H0 : θ ≤ θ0 contre H1 : θ > θ 0 , et soit T une
statistique exhaustive pour θ de fdp g (t, θ) et telle que la famille
{g (t, θ) : θ ∈ Θ} est à RVM. Alors pour tout t0 , le test dont la région
critique est donnée par R={T> t0 } est UPP au niveau α = Pθ0 {T > t0 }.
Remarque
Il est clair que par raisonnement analogue, on peut montrer que pour
tout t0 , le test de région critique R={T< t0 } est UPP au niveau
α = Pθ0 {T < t0 } pour tester H0 : θ ≥ θ0 contre H1 : θ < θ0 .

Exemple
Soit X = (X1 , ..., Xn ) un échantillon issu de la loi normale N (µ, σ 2 ),
avec σ est inconnue.
La loi N (µ, σ 2 ) est à RVM et = T (X ) est exhaustive pour
Pn
i=1 xi
θ = µ. On considére le test H0 : µ ≤ µ0 contre H1 : µ > µ0 .

D'aprés le Th de N.P ⇒ ∃ un test UPP de région critique
W = {T (X )>k}.
√
n k
α = Pθ0 {T > k} = Pθ0 {X > kn } = Pθ0 {Z > σ (n − µ0 )} = α
√
où Z = n
σ (X − µ0 ) ∼ N ( 0 , 1 )
√
n k
P{Z ≤ σ (n − µ0 )} = 1 − α
√ √
n k
σ (n − µ0 ) = U1−α ⇔ k = nσU1−α + nµ0
Donc W = {X ≥ µ0 + σU√1n−α }. M
Exemple
Soit X1 , . . . , Xn un échantillon issu de la loi exponentielle de moyenne µ
1
(i.e. f (x, θ) = θe−θx I[0,∞[ (x), où θ =
> 0). Déterminer, s'il existe, le
µ
test UPP au niveau α pour tester H0 : µ ≥ µ0 vs H1 : µ < µ0 . Notons
que cela reviens à tester H0 : θ ≤ θ0 vs H1 : θ > θ0 . La fonction de
vraisemblance est f (x1 , . . . , xn , θ) = θn I[0,∞[ (xi ) e−θ xi . La loi de
Y P
l'échantillon appartient donc à une famille à rapport de vraisemblance

monotone. De plus la statistique T (x1 , . . . , xn ) = xi est exhaustive
X
pour θ. D'après le théorème précédent le test dont la région critique est

R = {(x1 , . . . , xn ) ∈ Rn : T = T (x1 , . . . , xn ) > t0 }, où t0 est un réel tel
que Pθ0 {T > t0 } = α, est UPP au niveau α. M

Inference 1 2 PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Inference 1 2 PDF

Transféré par

Droits d'auteur :

Formats disponibles

Statistique inférentielle

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 1 / 194

Loi de la moyenne d'un échantillon

2 Estimation ponctuelle et par intervalles

Qualités d'un estimateur

Estimation par intervalles

Exemples de tests usuels

Tests uniformément plus puissants

Un aspect important de l'inférence statistique consiste à obtenir des

estimations ables des caractéristiques d'une population à partir d'un

échantillon extrait de cette population. C'est un problème de décision

concernant des paramètres tels que :

l'espérance mathématique notée m ou µ (pour un caractère

la variance ou l'écart-type notée s,

la proportion p (pour un caractère dénombrable).

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 3 / 194

Par exemple, pour évaluer la proportion de consommateurs favorables à un

nouveau produit on devrait interroger tous les consommateurs. Cela

pourrait s'avérer très coûteux voire impossible. Grâce aux méthodes

en interrogeant seulement une partie de la population des consommateurs.

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 4 / 194

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 5 / 194

Faire de l'inférence statistique sur un paramètre θ consiste à :

Estimer θ, c'est donner une valeur approchée de ce paramètre, à partir

des résultats obtenus sur un échantillon aléatoire extrait de la

population. Ces estimations peuvent revêtir deux formes :

soit une valeur unique, l'estimation ponctuelle, ou valeur la plus

d'une étude particulière.

Dans l'exemple de la population des consommateurs ci-dessus, l'attitude

peut être modélisée par

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 7 / 194

Notons au passage que la proportion p de consommateurs favorables au

individu de la population peut être associé à une v.a. décrivant la

caractéristique objet de l'étude.

Du fait que ces individus appartiennent à la même population, les v.a.

associées sont identiquement distribuées selon une loi de probabilité

dépendant d'un paramètre θ∈R (ou Rd ) que l'étude cherche à déterminer.

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 8 / 194

n-échantillon) si elles sont indépendantes et identiquement distribuées.

On dit que x1 , . . . , xn est un n-échantillon observé si, pour tout 1 ≤ i ≤ n,

Grâce à l'indépendance de X1 , . . . , Xn , la fonction densité (ou masse) de

probabilité fX du vecteur X = (X1 , . . . , Xn ) est donnée par

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 9 / 194

Y = T (X) est appelée statistique.

sont deux statistiques. Les quantités

sont des valeurs observées de ces statistiques. M

Voici quelques propriétés de ces statistiques.

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 11 / 194

Pour la première assertion, on a

Pour montrer la deuxième assertion, il sut de développer

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 13 / 194

Loi de la moyenne d'un échantillon

2 Estimation ponctuelle et par intervalles

Qualités d'un estimateur

Estimation par intervalles

Exemples de tests usuels

Tests uniformément plus puissants

Considérons un échantillon X1 , . . . , Xn issu d'une loi de moyenne µ et de

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 15 / 194

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 16 / 194

En pratique, la loi mère de l'échantillon X1 , . . . , Xn n'est pas totalement

connue. Le résultat suivant permet d'approcher la loi de X.

Fadoua BADAOUI (INSEA) Inférence 18 février 2019 17 / 194

estimations ables des caractéristiques d'une population à partir d'un

Pour montrer la deuxième assertion, il sut de développer

les deux méthodes classiques d'estimation, à savoir la méthode des

moments ( MM) et la méthode du maximum de vraisemblance (MMV).

l'intuition ne sut pas pour trouver des estimateurs. Deux méthodes

classiques d'estimation, à savoir la méthode des moments ( MM) et la

rien en ce qui concerne l'ecacité des estimateurs qu'elles fournissent.

estimateur en se ant à l'intuition. Par exemple la moyenne de l'échantillon

fonction de vraisemblance la quantité

An de bien comprendre la motivation derrière la MMV, considérons un

f (x; θ) et x = (x1 , . . . , xn ) une valeur observée de X. Pour x xé, on note