Vous êtes sur la page 1sur 153

Statistique Inférentielle

Anne Philippe

Université de Nantes, LMJL 2021

1
Programme
1. Estimation ponctuelle dans un modèle paramétrique : Méthode
des moments, Maximum de vraisemblance, delta-méthode,
propriétés asymptotiques.

2. Région de confiance : Fonction pivotale Approche


asymptotique

3. Efficacité : Borne de Cramer Rao, Théorème de Rao Blackwell.

4. Tests paramétriques : tests de Neymann Pearson, tests


asymptotiques

5. Tests non paramétrique : test de Kolmogorov-Smirnov et test


du Chi-Deux

2
Introduction
chapitre 1

3
Problème de mesures
Pour mesurer une quantité inconnue θ
Exemple : une distance, un poids ou une température etc…

On effectue n mesures : x1, . . . , xn

Remarque :

Si θ peut être mesuré sans erreur, alors xi = θ ∀ i

Sinon On suppose que x1, . . . , xn est la réalisation d’un vecteur aléatoire


(X1, . . . , Xn)
Quelles hypothèses peut on faire sur la loi du vecteur (X1, . . . , Xn) ?
Problème de choix du modèle

4
Définitions
1) x1, . . . , xn sont les données ou les observations d’une expérience
dont le résultat est aléatoire.

2)Le vecteur aléatoire X = (X1, . . . , Xn) est appelé un échantillon et n


est la taille de l'échantillon.

On dit aussi que X est un n-échantillon

3) Les variables aléatoires Xi sont à valeurs dans E muni de sa tribu


ℰ (tribu borélienne si E= ℝ)

4)Modèle stochastique : On considère une famille de lois ℱ et on


suppose que la loi de X appartient à ℱ : PX ∈ ℱ
5
Modèle paramétrique
On dit que le modèle est paramétrique si la famille de lois ℱ est indexée par un
paramètre θ∈Θ
(n)
ℱn = {Pθ , θ ∈ Θ}

Exemples :

famille des vecteurs gaussiens ℱn = { n(μ, Σ) , θ = (μ, Σ)}


(n)
Pθ est la loi de n variables aléatoires indépendantes et identiquement
distribuées (iid) suivant Pθ avec θ ∈ Θ

ℱ = {Pθ , θ ∈ Θ}
2 2 +
ℱ = { (μ, σ ) , θ = (μ, σ ) ∈ ℝ × ℝ } modèle gaussien
+
ℱ = { (θ) , θ ∈ ℝ } modèle de 6Poisson
𝒫
𝒩
𝒩
Problème de mesures : Modèle 1
Toutes les mesures sont réalisées de façon indépendante
dans les mêmes conditions

X = (X1, . . . , Xn) sont des variables aléatoires iid.

Construction de la famille de lois ℱ:

Pour tout i=1,…,n Xi = θ + ϵi


2
➤ ϵi représente l’erreur de mesure ϵi ∼ (0,σ )
2
Modèle : X = (X1, . . . , Xn) iid suivant la loi gaussienne (θ, σ )
ps
Propriétés de X̄n: X̄n θ et (X̄n) = θ
n→∞
𝔼
𝒩
𝒩
7
Modèle 2
Si toutes les mesures sont effectuées avec la même appareil alors
l’hypothèse d’indépendance des X1, . . . , Xn est fausse

On doit ajouter une erreur commune liée à l’appareil

Xi = θ + ϵi + ϵ0 pour tout i=1,..,n

2
Si (ϵ1, . . . , ϵn) ⊥ ϵ0 et ϵ0 ∼ (0,τ ) alors

2 2


T τ + σ si i=j
X∼ n((θ, . . . , θ) , Σ) avec Σi,j = 2
si i≠j
ps
Propriétés de X̄n: (X̄n) = θ attention X̄n
n→∞
θ + ϵ0 📝
𝔼
𝒩
𝒩
8
Estimateur ponctuel
n
Soit X = (X1, . . . , Xn) un n-échantillon à valeurs dans (E , ℰn)
(n)
On suppose que la loi de X appartient à ℱn = {Pθ , θ ∈ Θ}
(n)
c’est à dire il existe θ0 ∈ Θ tel que PX = P
θ 0

Définition : un estimateur est une variable aléatoire de la


forme h(X1, . . . , Xn) avec
n
h:E ↦Θ
h est connue elle ne dépend pas du paramètre θ
̂
Notation : h(X1, . . . , Xn) := θn est une variable aléatoire

9
Espace probabilisé
(Ω, , ℙ) espace probabilisé, la loi de X est définie


−1
par PX(A) = ℙ(X (A)) et (g(X)) = g(X)dℙ si
1
g(X) ∈ L
Dans un modèle paramétrique on introduit une
famille d’espaces probabilisés (Ω, , ℙθ)θ∈Θ

(n) −1
À θ fixé, la loi de X est P (A) = ℙθ(X (A)) = ℙθ(X ∈ A)
θ


et g(X)dℙθ = θ(g(X))
𝔼
𝔼
𝒜
𝒜
10
Cas continu

Si la loi de X est continue, on définit le modèle par une


(n)
famille de densités ℱn = {f , θ ∈ Θ}
θ

∫A
(n)
ℙθ(X ∈ A) = fθ (x) dx
On a

∫En
(n)
θ (g(X)) = g(x) fθ (x) dx
𝔼
11
Cas discret
Si la loi de X est discrète, on définit le modèle par une
(n)
famille ℱn = {p , θ ∈ Θ}
θ

On a
(n) (n)
ℙθ(X = x) = ℙθ(X1 = x1, . . . , Xn = xn) = pθ (x1, . . . , xn) = pθ (x)
(n)

ℙθ(X ∈ A) = pθ (x)
x∈A
𝔼
(n)
∑n
θ (g(X)) = g(x) pθ (x)
x∈E

12
Les qualités d’un estimateur : le biais
(n)
ℱn = {Pθ , θ ∈ Θ} le modèle paramétrique

̂
Soit X = (X1, . . , Xn) un n-échantillon et θn un estimateur de θ

le biais d’un estimateur est défini par bn(θ) = ( θ ̂ )−θ


θ n

̂
On dit que θn est un estimateur sans biais de θ
̂
si pour tout θ ∈ Θ on a θ(θn) = θ

̂
On dit que θn est un estimateur asymptotiquement sans biais de
θ
si pour tout θ ∈ Θ on a ̂
(θ )
n→∞
θ
θ n
𝔼
𝔼
𝔼
13
Les qualités d’un estimateur : la consistance
̂
On dit que θn est un estimateur fortement consistant de θ
si pour tout θ ∈ Θ on a θn ̂ n→∞
θ
P.S.

̂
On dit que θn est un estimateur (faiblement) consistant de θ
si pour tout θ ∈ Θ on a θn̂ n→∞
θ
proba

Soit θn̂ un estimateur de θ tel que pour tout θ ∈ Θ on a


̂ 2
θn ∈ Lθ .
̂ 2
On dit que θn est un estimateur consistant au sens L de θ
si pour tout θ ∈ Θ on a θ ((θn − θ) )
̂ 2 n→∞
0.
𝔼
14
Erreur quadratique
̂
Soit θn un estimateur de θ tel que pour tout θ ∈ Θ on a
̂ 2
θn ∈ Lθ .

L’erreur quadratique est définie par EQn(θ) = θ ((θn − θ) )


̂ 2

2 ̂
Pour tout θ ∈ Θ on a EQn(θ) = bn(θ) + Varθ(θn) (var+biais2)

̂
Proposition : Si θn est un estimateur asymptotiquement
̂
sans biais de θ et si Varθ(θn) ̂
0 pour tout θ ∈ Θ alors θn
n→∞
2
est un estimateur consistant au sens L de θ
𝔼
15
Vitesse de Convergence
̂
On suppose que θn un estimateur consistant de θ

Soit (αn)n∈N une suite de réels positifs telle que


n→∞
αn +∞
̂
On dit que θn est un estimateur αn− consistant de θ si
∀θ ∈ Θ ∀ϵ > 0 ∃M > 0 : sup Pθ (αn | θn − θ | > M) ≤ ϵ
̂
n∈N

̂
Proposition : Si ∀θ ∈ Θ αn(θn − θ)
n→∞
Z et Z est non
loi
̂
dégénérée alors θn est un estimateur αn− consistant

16
Modèle exponentiel
Soit X = (X1, . . , Xn) un n-échantillon iid suivant la loi
exponentielle

−xθ
ℱ = {ℰxp(θ) , θ ∈ Θ} : la densité est fθ(x) = θe R +(x)
n
(n) n −θ ∑i=1 xi
et f (x1, . . . , xn) =θ e R+n (x1, . . . , xn)
θ

̂ n 1
θn = n = est un estimateur de θ qui est
∑i=1 Xi X̄n
asymptotiquement sans biais, fortement consistant et
2
n− consistant. De plus il est consistant au sens L .
📝
𝕀
𝕀
17
Reparamétrisation
(n)
Soit X = (X1, . . , Xn) un n-échantillon suivant PX ∈ {Pθ , θ ∈ Θ}

Soit h : Θ → Λ. On veut estimer le paramètre λ = h(θ) ∈ Λ

Soit θn̂ est un estimateur de θ.

On pose λn̂ = h(θn̂ ). C’est un estimateur de λ


̂ ̂
Quelles sont les propriétés de λn héritées de θn ?

Remarque : si h est une bijection, on peut définir le modèle


(n) (n) (n)
{P̃ , λ ∈ Λ} avec P̃ = P −1
λ λ h (λ)
18
Transfert des propriétés
̂
Si θn est fortement consistant et h est continue sur Θ
̂
alors λn est fortement consistant

̂ ̂
Si θn est consistant et h est continue sur Θ alors λn est
consistant

̂ 1 ̂
Si θn est αn-consistant et h est C alors λn est αn-consistant

19
Rappel sur les convergences

Soit (Xn)n , X, (Yn)n des vecteurs aléatoires et y une constante.


Soit h une application, on note C(h) les points de continuité de la
fonction h
ps ps
(1) Si Xn X et h continue alors h(Xn) h(X)

proba proba
(2) Si Xn X et h continue alors h(Xn) h(X)

loi loi
(3) Si Xn X et P(X ∈ C(h)) = 1 alors h(Xn) h(X)

proba proba
- Cas particulier : Si Yn y et y ∈ C(h) alors h(Yn) h(y)

(4) Théorème de Slutky


loi proba loi
Si Xn X et Yn y alors (Xn, Yn) (X, y)
loi 20
Rappel sur les convergences

(5) Corollaire du Théorème de Slutsky

en dim(E) =1
loi loi
Xn X Xn + Yn X+y loi
Si alors et Xn /Yn X/y si y ≠ 0
proba loi
Yn y < Xn, Yn > < X, y > loi
XnYn Xy

(6) Δ-méthode (ou théorème de Cramer)

p p
Soit (Xn)n des vecteurs aléatoires (X1 ∈ R ) et x ∈ R une constante.
∇h1(x)
(αn)n une suite déterministe tel que αn → ∞
Dh(x) = ⋮
Si αn(Xn − x)
loi p k 1
X et h : R → R est C au voisinage de x ∇hk(x)

( ∂x1 ∂xp )
∂ ∂
loi ∇= , ⋯,
alors αn(h(Xn) − h(x)) Dh(x) X
21
Estimateur par injection

Méthode des moments

Construction

TCL

Consistance forte

22
Vraisemblance
Chapitre 2

23
1- Définition

24
Contexte
(A) X = (X1, . . . , Xn) est un n-échantillon de variables aléatoires de
loi PX

(B) On suppose que la loi PX appartient à une famille paramétrique


(n)
ℱ= {Pθ : θ ∈ Θ}
(n) (n)
1. La loi de X est continue on note f la densité de la loi Pθ
θ

2. La loi de X est discrète on note


(n) (n)
fθ (x1, . . . , xn) = Pθ (X1 = x1, . . . , Xn = xn)

On peut ainsi unifier la présentation en décrivant ℱ par


(n)
{fθ : θ ∈ Θ}
25
Exemples
A. Modèle continu :

Exemple du modèle exponentiel iid


n
(n) n −θ ∑i=1 xi
fθ (x1, . . . , xn) =θ e 1ℝn+(x1, . . . , xn)

B. Modèle discret :

Exemple du modèle de Poisson iid


n
−nθ ∑i=1 xi
(n) e θ
fθ (x1, . . . , xn) =
x1 ! . . . xn !
26
Vraisemblance
Définition : La vraisemblance V d’un n-échantillon X pour
le modèle ℱ est une fonction définie sur Θ à valeurs
aléatoires positives.

Elle est définie par

(n)
V(θ) = fθ (X1, . . . , Xn) ∀θ ∈ Θ

Si V est strictement positive on définit aussi


la log-vraisemblance : L(θ) = log( V(θ) ) pour tout θ ∈ Θ.

27
Calcul de vraisemblance
Modèle exponentiel iid : pour tout θ>0
n
n −θ ∑i=1 Xi
V(θ) = θ e
n


L(θ) = n log(θ) − θ Xi
i=1

Modèle de Poisson iid : pour tout θ>0


n
−nθ ∑i=1 Xi
e θ
V(θ) =
X1 ! . . . Xn !
n n

∑ ∑
L(θ) = − nθ + log(θ) Xi − log(Xi !)
i=1 i=1
28
Théorème de séparabilité
Hypothèses de régularité

(n) (n)
HR-0 [identifiabilité] Si f = f η alors θ=η
θ

(n)
HR-1 Toutes les lois f , θ ∈ Θ ont le même support
θ

(n)
HR-2 (X1, . . Xn) ∼ fθ avec θ0 ∈ Θ et Θ ouvert. [θ0 est la vraie valeur du paramètre]
0

Théorème : On suppose que HR-0-1-2 sont vérifiées.

( fθ0(Xi) )
fθ(Xi) fθ(Xi) 1
Si (X1, . . Xn) sont iid et les variables aléatoires et log sont Lθ
fθ0(Xi) 0

alors lim Pθ0(L(θ0) > L(θ)) = 1 pour tout θ ≠ θ0.


📝
Autrement dit, asymptotiquement la vraisemblance atteint sont maximum au point θ0

29
Estimateur du maximum de vraisemblance (EMV)
Définition :
Soit X un n-échantillon et V sa vraisemblance.

Si la vraisemblance V admet un maximum global atteint en un


unique point c’est l’estimateur du maximum de vraisemblance.
On le note θ n̂
MV

̂
MV
Si θ n existe alors pour tout θ∈Θ ̂
MV
on a V(θ n ) ≥ V(θ)

autrement dit θ n̂
MV
= argmaxθ∈Θ V(θ).

Remarque: si L est bien définie on a aussi θ n̂


MV
= argmaxθ∈Θ L(θ)
par monotonie de la fonction log
30
Estimateur du MV
Modèle exponentiel iid

n
n
−θ ∑i=1 Xi MV 1
V(θ) = θ e et θn =
X̄n
Modèle de Poisson iid
n
−nθ ∑i=1 Xi
e θ MV
V(θ) = et θn = X̄n
X1 ! . . . Xn !
Modèle Gamma iid : on n’a pas de forme explicite de l’estimateur.

Modèle de Gaussien iid N(θ,1) avec θ ≥ 0


MV
θn = max(0,X̄n)
31
📝
Reparamétrisation
Soit g est une application de Θ ↦ Λ bijective. On pose
λ = g(θ).

λ est le paramètre d’intérêt.


(n) (n) (n)
Modèle reparamétrisé s’écrit {g : λ ∈ Λ} avec g = fg−1(λ)
λ λ

Proposition : Si θn̂ est l’estimateur du Maximum de


mv
̂
mv
vraisemblance de θ alors g(θn ) est l’estimateur du
maximum de vraisemblance de λ = g(θ)

32
📝
Consistance
Théorème (Admis): On suppose que les hypothèse HR-0-1-2 sont
vérifiées. Si (X1, . . Xn) sont iid et si la vraisemblance est dérivable
par rapport à θ alors l’équation de vraisemblance définie par
T

( ∂θ1 ∂θp )
∂ ∂
∇V(θ) = 0 (ou ∇L(θ) = 0) avec ∇ = ....

̂ ̂
admet une solution θn telle que θn θ0.
proba

Corollaire Sous les hypothèses du Th précédent. Si l’équation


̂
MV
vraisemblance admet une unique solution alors θ n θ0
proba

33
2-Information de Fisher

34
Conditions de Fisher
On complète les conditions de régularité HR

(n) 2
HR-3 θ↦ fθ (x) est une fonction C sur Θ pour tout x

∫ ∫
(n)
HR-4 θ↦ fθ (x) dx est deux fois dérivable sous le signe et les

dérivées secondes sont continues.


On peut échanger l'intégration et la différenciation par rapport à θ

Définition on dit que le modèle est régulier s’il vérifie les hypothèses HR-0
à HR-4 (aussi appelées conditions de Fisher).

Remarque
si X1, . . . Xn sont iid alors il suffit de vérifier les hypothèses HR pour n=1
35
Propriétés d’un modèle régulier
Cas particulier dim(Θ) = 1
Si le modèle est régulier, la variable aléatoire
∂ (n)
log( fθ (X)) vérifie les propriétés suivantes
∂θ

( ∂θ )
∂ (n)
Eθ log( fθ (X)) = 0

( ∂θ ) (( ∂θ ))
2
∂ (n) ∂ (n)
Varθ log( fθ (X)) = Eθ log( fθ (X))

( ∂θ )
2
∂ (n)
= − Eθ 2
log( f θ
(X))

36
📝
Information de Fisher
On définit l’information de Fisher pour des modèles réguliers

En dimension 1 l’information de Fisher apportée par un n-


échantillon est définie par

(( ∂θ ))
2
∂ (n)
In(θ) = Eθ log( fθ (X))

On peut aussi exprimer l’information de Fisher de la forme :

( ∂θ ) ( )
2
∂ (n) ∂ (n)
In(θ) = − Eθ log( f θ
(X)) = Varθ log( f θ
(X))
2 ∂θ

37
Proposition Si X1, . . , Xn est un n-échantillon de variables
aléatoires iid et si le modèle est régulier alors

In(θ) = nI1(θ)
Toutes les observations apportent la même information. 📝

Exemple : X1, . . , Xn iid suivant la loi exponentielle


📝
n
On a a In(θ) =
θ 2

38
Cas multivarié : dim(Θ) = d > 1
Pour un modèle régulier multivarié L’information de
Fisher est une matrice

(( ∂θi ) ( ∂θj ))
∂ (n) ∂ (n)
In(i, j) = Eθ log( fθ (X)) log( fθ (X))

On peut aussi l’exprimer sous la forme

( ∂θiθj )
2
∂ (n)
In(i, j) = − Eθ log( fθ (X))

39
propriétés

La matrice d’information de Fisher In peut s’exprimer


(n)
comme la variance du vecteur aléatoire ∇log( f (X))
θ
📝
Si X1, . . , Xn est un n-échantillon de variables aléatoires
iid et si le modèle est régulier alors la matrice
d’information de Fisher vérifie

In(θ) = nI1(θ)

40
Famille exponentielle
(n)
Définition : Une famille de loi {fθ , θ
∈ θ} est une famille
exponentielle s’il existe quatre fonctions η, q, K, H telles que pour
d n
tout θ ∈ Θ ⊂ R et x ∈ E

{0
η(θ)∙K(x) + H(x) + q(θ)
(n) e pour tout x∈S
fθ (x) =
sinon

Le support S de la loi ne dépend pas de θ

Notation : x ∙ y est le produit scalaire

Propriété si X1, . . . Xn sont iid et et si la loi commune appartient à une


famille exponentielle alors la loi du n-échantillon appartient à une
famille exponentielle
41
📝
Exemples

2 2
La famille des lois gaussiennes {N(0,σ ) : σ > 0} est
une famille exponentielle

La famille des lois uniformes {Unif(0,θ) : θ > 0} n’est pas


une famille exponentielle

42
📝
Forme canonique
On peut reparamétriser la densité de la famille
exponentielle en fonction de λ = η(θ)

On définit une nouvelle famille de lois :

{0
λ∙K(x) + H(x) + q̃(λ)
(n) e pour tout x∈S
gλ (x) =
sinon

(n)
{gλ , λ ∈ Λ} constitue une famille exponentielle dite
canonique.

43
R gularit dans une famille exponentielle

Si ℱ est une famille exponentielle canonique


θ∙K(x) + H(x) + q(θ)
{e : θ ∈ Θ} alors le modèle est régulier

Si ℱ* est une famille exponentielle de la forme


η(θ)∙K(x) + H(x) + q(θ) 2
{e : θ ∈ Θ} et η est une fonction C alors
le modèle est régulier

2 2
Application {N(0,σ ) : σ > 0} définit un modèle régulier 📝
44


2- Optimalité asymptotique

45
Convergence du MV
Rappel : si X1, . . . Xn sont iid suivant un modèle régulier alors
l’équation de vraisemblance définie par ∇V(θ) = 0 admet une
solution θn̂ telle que θn̂ θ0.
proba

Théorème TCL-MV : si X1, . . . Xn sont iid suivant un modèle


2
∂ (n)
régulier tel que log f θ
(x) est continue en θ uniformément
∂θ 2
en x et si 0 < I(θ) < ∞ alors la suite θn̂ est n− consistante et
−1
n(θn − θ) N(0,I (θ))
loi

46
📝
Efficacité asymptotique
Théorème (Admis) Soit X1, . . . Xn sont iid suivant un modèle
régulier tel que
2
∂ 1
log f (X
θ 1 ) ≤ M(θ ,
0 1X ) ∈ L ∀θ ∈ (θ0)
∂θ 2

2 2 −1
Si n(θn − θ0) N(0,σ (θ0)) alors σ (θ0) ≥ I (θ0)
loi

Définition on dit qu’un estimateur θn̂ est asymptotiquement


efficace si

̂
n(θn − θ) −1
N(0,I (θ))
loi
𝒱
47
Amélioration d’un estimateur n consistant

n
1 ∂

On définit pour tout θ ∈ Θ : hn(θ) = log( fθ(Xi))
n i=1 ∂θ

Théorème :
loi
Sous les hypothèses du Th TCL-MV si n(Yn − θ) Z avec Z non
hn(Yn)
dégénérée alors δn = Yn − est un estimateur
h′n(Yn)
asymptotiquement efficace.

48
📝
Reparamétrisation
Soit g : θ ↦ Λ une bijection.
Théorème d’invariance :

Soit X1, . . . Xn sont iid suivant un modèle régulier.

Si l’estimateur du MV ̂
ML
θn est asymptotiquement efficace et
g ̂
ML
est un difféomorphisme alors g(θ n ) est l’estimateur du
MV de g(θ), et il est asymptotiquement efficace.

49
Optimalité
Chapitre 3

50
-1-
Amélioré de Rao Blackwell

51
Exhaustivité
(n)
Soit X1, . . Xn ∼ Pθ avec θ∈Θ

Définition On dit que la statistique Sn = Sn(X1, . . Xn) est exhaustive si la loi


conditionnelle de (X1, . . Xn) sachant Sn ne dépend pas de θ.

Autrement dit

Pour tout A : Pθ((X1, . . . , Xn) ∈ A | Sn) ne dépend pas de θ

Ou

Pour toute fonction intégrable h : Eθ(h(X1, . . . , Xn) | Sn) ne dépend pas de θ

n
Exemple Si X1, . . Xn sont iid suivant une loi de Poisson alors

Xi est exhaustive 📝
i=1
52
Théorème de Factorisation
la statistique Sn = Sn(X1, . . Xn) est exhaustive
si et seulement si

La loi de (X1, . . Xn) s’écrit de la forme


(n)
fθ (x1, . . . , xn) = g(x1, . . . , xn)hθ(Sn(x1, . . . , xn))

où g, hθ sont des fonctions positives

📝
53
Estimateur du MV et statistique exhaustive
Soit Sn une statistique exhaustive
D’après le théorème de factorisation

V(θ) = g(X1, . . . , Xn)hθ(Sn) ⇒ L(θ) = log(g(X1, . . . , Xn)) + log(hθ(Sn))


Donc

∇L(θ) = O ⇔ ∇log(hθ(Sn)) = 0
Conclusion si l’estimateur du maximum de vraisemblance existe il est
de la forme

θ n̂
MV
= ψ(Sn)

On dit que l’estimateur factorise à travers la statistique Sn


54
Rappel sur l’espérance conditionnelle

1
Soit (X,Y) des variables aléatoires appartenant à L

1. E(X | Y) est une variable aléatoire de la forme ϕ(Y)


1
2. E(X | Y) ∈ L et E(E(X | Y)) = E(X)

3. Si X et Y sont indépendantes E(X | Y) = E(X)

4. Si E(g(X)f(Y) | Y) = f(Y)E(g(X) | Y)

5. Si 2
(X, Y) ∈ L alors var(E(X | Y)) = var(X) − E(var(X | Y)) 📝
55
Théorème de Rao Blackwell
Soit Sn une statistique exhaustive

Si θn̂ est un estimateur sans biais du paramètre θ alors

1. L’espérance conditionnelle Eθ(θn̂ | Sn) est aussi un estimateur du paramètre θ . On le


note θ n̂
RB

2. θ n̂
RB
est un estimateur sans biais du paramètre θ
̂ 2 ̂
RB ̂
3. Si θn ∈ L pour tout θ ∈ Θ alors θ n est meilleur que θn au sens L 2

c’est à dire varθ(θ n̂ ) ≤ varθ(θn̂ ) pour tout θ ∈ Θ


RB

Définition : θ n̂
RB
est l'estimateur de Rao Blackwell ou l’amélioré de θn̂ par Rao
Blackwell

Remarque : Eθ(θ n | Sn) = θ n car θ n̂


̂ ̂
📝
RB RB RB
est par construction une fonction de Sn
On n’améliore pas θ n̂
RB
en appliquant à nouveau le théorème de Rao Blackwell
56
Application
Soit X1, . . . Xn iid suivant la loi de Poisson de paramètre θ
n


Sn = Xi est une statistique exhaustive
i=1

Estimation de θ : θn̂ = Xn est un estimateur sans biais de θ

En effet Eθ(Xn) = θ pour tout θ ∈ Θ

Amélioré de Rao Blackwell : Eθ(Xn | Sn) = X̄n


2
Peut on trouver un estimateur sans biais de θ meilleur que X̄n au sens L ?

57
Statistique totale

(n)
Soit X = (X1, . . Xn) ∼ Pθ avec θ∈Θ

Sn = Sn(X1, . . Xn) est


Définition On dit que la statistique
1
totale si pour toute fonction h telle que h(Sn) ∈ L

(Eθ(h(Sn)) = 0, ∀θ ∈ Θ) ⇒ (h(x) = 0, ∀x ∈ θ ∀θ ∈ Θ)
c
où θ vérifie Pθ(Sn ∈ θ ) =0
𝒮
𝒮
𝒮
58
Exemple -1-
Modèle idd suivant la loi de Poisson : la statistique exhaustive
n


Sn = Xi est aussi une statistique totale
i=1

1
En effet soit h telle que h(Sn) ∈ L et Eθ(h(Sn)) = 0.

Comme la loi de Sn est la loi de Poisson de paramètre nθ


∞ −nθ i i ∞ i
e nθ h(i)n i
∑ ∑ i!
On a Eθ(h(Sn)) = h(i) = 0 ∀θ > 0 ⇔ θ = 0 ∀θ > 0
i=0
i! i=0

Cette série entière est nulle pour tout θ > 0 donc tous ses coefficients sont
i
h(i)n
nuls = ∀i ∈ N autrement dit la fonction h est nulle sur N,
i!
Comme le support de la loi de Sn est N pour tout θ > 0, Sn est totale
59
Exemple -2-
n


Modèle idd suivant la loi exponentielle : la statistique Sn = Xi est exhaustive et totale
i=1
n
n
(n) n −n ∑i=1 xi

On a fθ (x1, . . . , xn) =θ e , donc d’après le théorème de factorisation Sn = Xi est exhaustive
i=1

1
Soit h telle que h(Sn) ∈ L et Eθ(h(Sn)) = 0. La loi de Sn est la loi Γ(n, θ)
∞ −xθ n−1 n ∞
e x θ
∫0 ∫0
n−1 −xθ
Eθ(h(Sn)) = h(x) dx = 0 ∀θ > 0 ⇔ h(x)x e dx = 0 ∀θ > 0
Γ(n)
n−1 n−1
La transformation de Laplace de x ↦ h(x)x est nulle sur R*
+ Donc x ↦ h(x)x est nulle sur
−xθ n−1 n
e x θ
∫ ∫ c
⊂ ℛ+ tel que dx = 1 et Pθ(Sn ∈ c
)= dx = 0
Γ(n)
n


Sn = Xi est bien une statistique totale
i=1
𝒮
𝒮
𝒮
60
𝒮
Famille exponentielle (suite)

η(θ)∙K(x) + H(x) + q(θ)


Soit {fθ(x) = e : θ ∈ Θ} une famille
exponentielle et X1, . . . Xn un n-échantillon iid suivant

n


(Admis) La statistique exhaustive Kn(X) = K(xi) est aussi
i=1
une statistique totale

61
Théorème d’unicité
(n)
Soit X = (X1, . . Xn) ∼ Pθ avec θ ∈ Θ et Sn une statistique
exhaustive totale

L’estimateur amélioré de Rao Blackwell est unique presque


surement

(1) (2)
Autrement dit si θn et θn sont des estimateurs sans biais
(1) (2)
de θ ∈ Θ alors E(θn | Sn) = E(θn | Sn) ps
📝

62
Théorème d’Optimalité

(n)
Soit X = (X1, . . Xn) ∼ Pθ avec θ ∈ Θ et Sn une statistique
exhaustive totale

Siθn est un estimateur sans biais de θ ∈ Θ alors parmi les


estimateurs sans biais de θ, E(θn | Sn) est le meilleur
2
estimateur au sens L
📝

63
-2-
2
Optimalité L

64
Théorème d’Optimalité
(n)
Soit X = (X1, . . Xn) ∼ Pθ avec θ∈Θ

On note l’ensemble des estimateurs sans biais de θ∈Θ


̂
et Vθ = inf varθ(θn), Vθ est appelée variance minimale.
θn̂ ∈

Proposition

S’il existe un estimateur sans biais de variance Vθ alors il 📝


est unique presque surement
𝒟
𝒟
65
Conséquence

S’il existe une statistique exhaustive Sn


et

Si θn est un estimateur sans biais de variance minimale


Vθ alors

θn = E(θn | Sn)

66
Borne de Cramer Rao
Théorème

(n)
Soit X = (X1, . . Xn) ∼ Pθ avec θ ∈ Θ ⊂ R. On suppose que le modèle est régulier.

Si gn̂ est un estimateur sans biais de g(θ) tel que


∂ ∂ (n)

1) [H] Eθ(h(X)) = h(x) fθ (x) dx1 . . . dxn pour h ≡ 1 et h(x) = gn̂ (x)In(θ) > 0
∂θ ∂θ
Alors pour tout θ ∈ Θ on a
2
g′(θ)
varθ(gn̂ ) ≥
In(θ)

Remarque L’hypothèse [H] est vérifiée par les familles exponentielles


67
📝

Définition
2
g′(θ)
1) est la borne de Cramer Rao
In(θ)

2) Un estimateur gn̂ sans biais de g(θ) est efficace si sa variance atteint


la borne de Cramer Rao
2
g′(θ)
C’est à dire varθ(gn̂ ) = pour tout θ∈Θ
In(θ)

P k
Extension dans g : R ↦ R . On note Dg = ( ∇g1, . . . , ∇gk) avec ∇ le gradient
t −1
La matrice var(gn̂ ) − Dg(θ)In(θ) Dg(θ) est définie positive

68


Remarque Soit θn un estimateur sans biais de θ
RB −1
Si Sn est exhaustive totale et si var(θn ) > In (θ)
Alors il n’existe pas d’estimateur efficace du
paramètre θ

69
Quelles fonctions de g(θ) peuvent être estimées efficacement ?

Soit gn̂ = gn̂ (X) est un estimateur sans biais de g(θ)


2
gn̂ est efficace ssi g′(θ) = varθ(gn̂ )In(θ)
D’après la preuve pour obtenir un estimateur efficace, il faut
avoir une égalité dans l’inégalité de Cauchy-Schwarz C’est à
dire

∂ n
gn̂ − g(θ) = λ(θ) log( f θ (X))
∂θ
Conclusion si g ne vérifie pas la condition ci dessus il
n’existe pas d’estimateur efficace

70
Applications

1) X1, . . , Xn sont iid suivant la loi exponentielle


Pour obtenir des estimateurs efficaces de g il faut que
−1
g(θ) = Cθ où C est une constante

2) X1, . . , Xn sont iid suivant la loi Poisson


Pour obtenir des estimateurs efficaces de g il faut que
g(θ) = Cθ où C est une constante

71
Intervalle de confiance
Chapitre 4

72
Définitions
(n)
Soit X = (X1, . . Xn) ∼ Pθ avec θ∈Θ

On fixe α ∈ (0,1/2)

Définition : Un intervalle (ou une région) de confiance de niveau 1−α

est un sous ensemble aléatoire Rn(X1, . . . Xn) de Θ qui vérifie la propriété suivante, pour tout θ ∈ Θ

Pθ(Rn(X1, . . . Xn) ∋ θ) ≥ 1 − α ∀θ ∈ Θ

Remarques :

On contrôle la probabilité que la région Rn(X1, . . . Xn) contienne θ

[Rn(X1, . . . Xn) ∋ θ] = {(X1 . . . Xn) : Rn(X1, . . . Xn) ∋ θ} = S(θ) ⊂ E n

Autrement dit

Rn(X1, . . . Xn) ∋ θ ⇔ (X1 . . . Xn) ∈ S(θ)

73
Définitions (suite)
Le coefficient de confiance de Rn(X1, . . . Xn) est défini par

βn = inf Pθ(Rn(X1, . . . Xn) ∋ θ)


θ∈Θ

On dit que Rn(X1, . . . Xn) est de niveau exact 1 − α

si Pθ(Rn(X1, . . . Xn) ∋ θ) = 1 − α ∀θ ∈ Θ

Remarque : Dans les applications la valeur typique du


niveau 1 − α est 95%

74
Modèle binomiale
X = (X1, . . Xn) iid suivant la loi
de Bernoulli de paramètre θ

D’après l’inégalité de Bienaymé-


Tchebychev :
θ(1 − θ) 1
Pθ( | X̄n − θ | > ϵ) ≤ ≤
nϵ 2 4nϵ 2

1
En prenant ϵ = , on a
4nα
Pθ(θ ∈ [X̄n − ϵ ; X̄n + ϵ]) ≥ 1 − α
75
Modèle gaussien
X = (X1, . . Xn) iid suivant la loi de gaussienne de moyenne θ et de
variance 1

On a X̄n ∼ N(θ,1/n) c’est à dire n(X̄n − θ) ∼ N(0,1)

Pour tout α on note qα le quantile d’ordre α de la loi N(0,1)

([ n ] )
q1−α/2 q1−α/2
On a Pθ X̄n − ; X̄n + ∋θ =1−α
n

[ n ]
q1−α/2 q1−α/2
X̄n − ; X̄n + est un intervalle de niveau exact 1−α
n
76
Fonction pivotale
n
Définition : On dit que la fonction h : E × Θ ↦ R est une
fonction pivotale si la loi de h(X, θ) ne dépend pas de θ

Pour toutθ ∈ Θ Pθ(h(X, θ) ≤ y) = Hn(y) où Hn ne dépend pas


du paramètre θ

− +
Il existe cn , cn tel que pour tout θ∈Θ
− +
Pθ(h(X, θ) ∈ [cn , cn ]) ≥1−α
− +
cn , cn dépendent ni de X ni de θ
77
Construction de la région de confiance
On construit ℓn(α) < un(α) tels que

Hn(un(α)) − Hn(ℓn(α)) ≥ 1 − α

On définit une région de confiance de niveau 1 − α en prenant

{(X1, . . . , Xn) : hn(X1, . . . , Xn, θ) ∈ [ℓn(α) ; un(α)]} ⇔ θ ∈ Rn(X, ℓn(α), un(α))


Remarques

Rn(X, ℓn(α), un(α)) ⊂ Θ n’est pas nécessairement un intervalle

Il n’y a pas unicité de ℓn(α), un(α). On sélectionne le couple qui


donne la plus petite région.
78
Si h(X, θ) est une va continue
−1
Hn est continue strictement croissante alors Hn existe

Les couples ℓn(α), un(α) s’exprime de la forme


−1
ℓn(αβ) = Hn (β)
{un(αβ) = −1
avec β ∈ [0,α]
Hn (1 − α + β)

1) Hn(un(αβ)) − Hn(ℓn(αβ)) = 1 − α
donc la région de confiance est de niveau exact 1−α

2) On sélectionne la valeur de β qui fournit la plus petite région de


confiance
79
Application : modèle uniforme
X = (X1, . . Xn) iid suivant la loi uniforme sur [0,θ]

On pose Mn = max(X1, . . Xn)


Mn
hn(X, θ) = = max(X1 /θ, . . . , Xn /θ) est une fonction pivotale.
θ
En effet (X1 /θ, . . . , Xn /θ) sont iid suivant la loi uniforme sur [0,1]

[Mn(1 − α + β) ] avec
−1/n −1/n
Les intervalles ; Mn β
β ∈ [0,α] sont des intervalles de niveau 1 − α

La valeur de β optimale minimise


−1/n −1/n
β − (1 − α + β)
80
Construction d’une fonction pivotale

Soit Tn(X1, . . . Xn) une statistique.


T
On note Gθ la fonction de répartition de la loi de
Tn(X1, . . . Xn)
T T
Si Gθ est inversible alors hn(X, θ) = Gθ (Tn(X1, . . . , Xn)) est
une fonction pivotale

De plus la loi de hn(X, θ) est la loi uniforme sur [0,1]

81
Échantillon Gaussien
X = (X1, . . Xn) iid suivant la loi de gaussienne de moyenne μ et de
2
variance σ
n n
−1 2 2
∑ ∑
On pose X̄n = n Xi et Sn = (Xi − X̄n)
i=1 i=1
Théorème
2
Les variables aléatoires X̄n et Sn sont indépendantes

( n)
2
σ
La loi de X̄n est la loi gaussienne X̄n ∼ N μ ;

2
2
Sn 2
La loi de Rn(σ ) = est la loi du χ à (n-1) degrés de liberté (ddl)
σ2
82
Notation

2 à n ddl
loi N(0,1) Student à n ddl χ

Quantile d’ordre q(γ) tn(γ) xn(γ)


γ

83
Échantillon Gaussien

IC pour la moyenne
Tn(μ) est une fonction pivotale pour la moyenne d’un l’échantillon
gaussien

Pour tout β ∈ [0,α]


2 2
1 Sn 1 Sn
μ ∈ X̄n − tn−1(1 − α + β) ; X̄n − tn−1(β)
n n−1 n n−1

est un intervalle de confiance de niveau exact 1−α


α
Le choix β = est optimal et par symétrie on a
2
2 2
1 Sn 1 Sn
μ ∈ X̄n − tn−1(1 − α/2) ; X̄n + tn−1(1 − α/2)
n n−1 n n−1
84
Échantillon Gaussien

IC pour la variance
2
Rn(σ ) est une fonction pivotale pour la variance d’un
l’échantillon gaussien

2 2

[ xn−1(1 − α + β) xn−1(β) ]
2
Sn Sn
Pour tout β ∈ [0,α] σ ∈ ;

est un intervalle de confiance de niveau exact 1−α

Le choix β = α/2 est généralement utilisé en pratique


mais ce choix n’est pas optimal
85
Représentation de la
longueur de IC de
niveau 95%
en fonction de β

On observe que le
choix optimal de β est
différent de α/2 = 2.5 %
(trait en noir) mais il
converge vers cette valeur

86
Échantillon Gaussien
2
Région de confiance pour (μ, σ )
( σ )
X̄n − μ
Soit q>0 tel que Pθ ∈ [−q; q] = 1−α

(σ )
Sn
q1, q2 tels que Pθ
2
∈ [q1; q2] = 1−α

2
Comme X̄n et Sn sont indépendante on a
2

( σ )
X̄n − μ Sn
Pθ ∈ [−q; q] ∈ [q1; q2] = 1 − α
σ 2
87
La région définit par les contraintes

2 2 2

[ q2 q1 ]
2
Sn Sn 2
n(X̄ n − μ)
σ ∈ ; et σ ≥
q 2

est une région de confiance de niveau exact 1−α

HIN =
nhI
~ 2
q
non

¥
,

% ,

-
Sila ,

n >
u
Tn
88
Niveau asymptotique

On dit que Rn(X) est une région de confiance


asymptotique de niveau 1 − α si

n→∞
∀θ ∈ Θ Pθ(Rn(X) ∋ θ) 1−α

Une fonction hn(X, θ) est asymptotiquement pivotale si


n→∞
∀θ ∈ Θ hn(X, θ) Z et la loi de Z ne dépend pas de θ
loi

89
Exemple
2
Soit X1, . . . Xn iid L On note μ = E(X1)
n
1 loi 2 1 2
n∑
On a hn(X, μ) = n(X̄n − μ) N(0,1) avec σn = (Xi − X̄n)
σn̂ i=1
hn(X, μ) est une fonction asymptotiquement pivotale

[ n]
σn̂ σn̂
μ ∈ X̄n − q(1 − α/2) ; X̄n + q(1 − α/2) est un intervalle
n
de confiance de niveau asymptotique 1 − α

90
Niveau exact
SoitRn(X) une région de confiance pour le paramètre θ de
niveau asymptotique 1 − α

Définition le niveau exact de cet région de confiance est

βn = inf β̃n(θ) avec β̃n(θ) = Pθ(Rn(X) ∋ θ)


θ∈Θ
n→∞
Par construction β̃n(θ) 1−α

91
Modèle régulier -1-
̂
MV
L’estimateur du maximum de vraisemblance θ n est
asymptotiquement efficace : ̂
MV loi −1
n(θ n − θ) N(0,I (θ))

n ̂
MV
I(θ)(θ n − θ) est asymptotiquement pivotale

Donc n ̂
MV
I(θ)(θ n
− θ) ∈ [−q(1 − α/2] ; q(1 − α/2]] définit une
région de confiance de niveau asymptotique 1 − α

Remarque : il peut être difficile d’exprimer la région de


la forme Rn(X) ∋ θ

92
Modèle régulier -2-
̂
MV
L’estimateur du maximum de vraisemblance θ n est
consistant donc si I est une fonction continue alors

n I(θ n )(θ n̂
̂
MV MV
− θ) est asymptotiquement pivotale

̂
MV q(1 − α/2) ̂
MV q(1 − α/2)
Donc θ∈ θn − ; θn + définit un
̂
nI(θn )
MV ̂
nI(θn )
MV

intervalle de confiance de niveau asymptotique 1−α

93
méthode -1- Estimation de la variance
̂
On considère θn un estimateur de θ tel que

̂
n(θn − θ)
loi 2
N(0,σ (θ))

n
2
Méthode 1 : si σ est une fonction continue alors (θn̂ − θ)
̂
σ(θn)
est une fonction asymptotiquement pivotale et
̂ ̂
[ ]
̂ q(1 − α/2)σ(θ )
n ̂ q(1 − α/2)σ(θn)
θ ∈ θn − ; θn +
n n
définit un intervalle de confiance de niveau asymptotique 1−α
94
méthode -2- Delta méthode
On considère θn̂ un estimateur de θ tel que
̂ loi 2
n(θn − θ) N(0,σ (θ))
1
Méthode 2 : on considère une fonction g de classe C telle que

g′(θ)2σ 2(θ) = constante

On applique la Δ méthode n(g(θn̂ ) − g(θ)) est une fonction asymptotiquement pivotale et

[ ] ([ ])
q(1 − α/2) q(1 − α/2) q(1 − α/2) q(1 − α/2)
g(θ) ∈ g(θn̂ ) − ; g(θn̂ ) + ou θ∈g −1
g(θn̂ ) − ; g(θn̂ ) +
n n n n

définit une région de confiance de niveau asymptotique 1−α

95

Tests d’hypothèses
Chapitre 5

96
Définition

97
Objectif
(n)
Soit X = (X1, . . Xn) ∼ Pθ avec θ∈Θ

On considère Θ0 et Θ1 deux sous ensembles disjoints Θ0 ∩ Θ1 = ∅ de Θ

On formule deux hypothèses sur la position du paramètre θ

H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1
H0 est désignée comme l'hypothèse nulle

H1 est désignée comme l'hypothèse alternative

A partir des observations X = (X1, . . Xn) on construit une règle de décision.


c’est à dire on décide si θ ∈ Θ0 ou θ ∈ Θ1

Si on décide que θ ∈ Θ0, on dit que l’on accepte H0 (on rejette H1)

Si on décide que θ ∈ Θ1; on dit98que l’on rejette H0 (on accepte H1)


Erreurs de décision
La décision qui repose sur un échantillon X peut être erronée.

Il y a deux types d’erreur :

Erreur de type I : on décide que θ ∈ Θ1 alors qu'en réalité θ ∈ Θ0

Erreur de type II : On décide que θ ∈ Θ0 alors qu'en réalité


θ ∈ Θ1
Réalité Réalité
Décision
H0 est vraie H1 est vraie

On rejette H0 Erreur type 1 Décision correcte

On accepte H0 Décision correcte Erreur type 2

99
Règle de décision
On teste les hypothèses H0 contre H1

(n) n
On a X = (X1, . . Xn) ∼ Pθ un échantillon à valeurs dans E
n
Un test de H0 contre H1 est une région C⊂E appelée région
critique telle que

- On rejette H0 / on accepte H1 si X = (X1, . . Xn) ∈ C

- On accepte H0 / on rejette H1 si X = (X1, . . Xn) ∉ C


1 on accepte H1
{0 on accepte H0
On définit aussi la fonction de test ϕ(X) = 1C(X) =

100
Remarque
L’objectif serait de sélectionner une région critique qui minimise les
probabilités de ces erreurs.

Cela est généralement impossible car les probabilités de ces erreurs ont
souvent un effet de balancier.

C = ∅ on rejette jamais H0 donc la proba de l’erreur de type I est


nulle et la proba de l’erreur de type II est égale à 1

n
C = E on rejette toujours H0 donc la proba de l’erreur de type I est 1
et la proba de l’erreur de type II est nulle

On considère que l'erreur de type I est la pire des deux erreurs. On


sélectionne des régions critiques qui limitent la probabilité d'une erreur
de type I
101
Niveau
Définition :
On dit que la région critique C est de niveau α si

α = sup Pθ(X ∈ C)
θ∈Θ0

Stratégie : Parmi toutes les régions critiques de niveau α, on


cherche les régions qui ont les plus petites probabilités
d'erreur de type II.

c
Pour tout θ ∈ Θ1 on veut minimiser la probabilité Pθ(X ∈ C )
ce qui est équivalent à maximiser Pθ(X ∈ C)
102
Puissance
Définition :
La puissance de la région critique C est une fonction définie sur
Θ1 par pC(θ) = Pθ(X ∈ C) pour tout θ ∈ Θ1.

SiC1, C2 sont des régions critiques de niveau au plus α alors


C1 est meilleure que C2 si pour tout θ ∈ Θ1 on a

pC1(θ) ≥ pC2(θ)

On dit que C1 est plus puissant que C2


Objectif : Déterminer le test le plus puissant parmi les tests de
niveau au plus α.
103
Version asymptotique
On dit que la région critique C est de niveau asymptotique α
si

αn = sup Pθ(X ∈ C) → α (n → ∞)
θ∈Θ0

On dit que le test est consistant si la puissance converge


vers 1 :
pour tout θ ∈ Θ1

pn(θ) = Pθ(X ∈ C) → 1

104
Notation
On utilise la notation Pθ( ⋅ | H0) pour indiquer que θ ∈ ΘO

et Pθ( ⋅ | H1) pour θ ∈ Θ1

H0 et H1 ne sont pas de évènements donc ceci n’est pas


une probabilité conditionnelle

On utilise la terminologie Pθ( ⋅ | H0) est la probabilité sous


H0

105
Exemple
X = (X1, . . Xn) ∼ B(θ) la loi binomiale de paramètre θ la proba de succès

On veut tester si la probabilité de succès est 1/2 ou inférieure à 1/2

On définit les hypothèses H0 θ = 1/2 contre H1 θ < 1/2


n


Une région critique intuitive : on rejette H0 en faveur de H1 si Xi ≤ K
i=1
n


On choisit K afin de contrôler le niveau : P1/2( Xi ≤ K) ≤ α
i=1
n


La puissance sera p(θ) = Pθ( Xi ≤ K) pour tout θ < 1/2
i=1

106
Fonction de répartition


de Sn = Xi
i
n=20 sous H0 θ = 1/2

on fixe le niveau α = 5%
on ne peut pas trouver de test
de niveau 5%

P(Sn ≤ 5) = 2,06 % et P(Sn ≤ 6) > 5 %


La région critique C = (Sn ≤ 5) est
un test de niveau 2.06 % donc au Puissance
plus 5%

La puissance est
p(θ) = Pθ(Sn ≤ 5) pour tout p<1/2

107
Comparaison des puissances

un test de niveau 2.06 %


C = (Sn ≤ 5)

un test de niveau 5.57 %


C* = (Sn ≤ 6)

108
Tests du maximum de vraisemblance

109
Contexte
Dans cette partie, on suppose que

les observations sont iid

l’estimateur du MV θ = θ ̂
̂ MV
existe et les hypothèses qui
assurent la consistance et l’efficacité asymptotique sont
satisfaites

On considère un test bilatéral H0 θ = θ0 contre H1 θ ≠ θO

Pour construire le test on s’appuie sur le fait que si θ0 est


θ, alors, asymptotiquement, V(θ0) est la
la vraie valeur de
valeur maximale de V(θ).
110
Région critique
On considère la statistique

V(θ0)
Λn =
V(θ)̂

On a Λn ≤ 1 pour tout θ0

Si H0 est vraie alors le rapport Λn doit être proche de 1


Si H1 est vraie alors le rapport sera petit par rapport à 1

Règle de décision : On rejette H0 en faveur de H1 si Λn ≤ K

On fixe K tel que Pθ0(Λn ≤ K) = α pour obtenir un test de niveau α

111
Exemple 1
On suppose que les observations sont iid suivant la loi exponentielle
de paramètre 1/θ et on teste H0 θ = θ0 contre H1 θ ≠ θO

On a

Règle de décision de niveau :


n n
2 α 2 α
∑ ∑
On rejette H0 (on accepte H1) si Xi ≤ x2n( ) ou Xi ≥ x2n(1 − )
θ0 i=1 2 θ0 i=1 2

112
📝
𝛂
Exemple 2
On suppose que les observations sont iid suivant la loi gaussienne
2 2
N(θ, σ ) où σ est connue.

On teste H0 θ = θ0 contre H1 θ ≠ θO
2 2

( σ/ n ) ( σ/ n )
V(θ0) X̄ − θ0 X̄ − θ0
Λn = ≤ C ⇔ − 2 log(Λ) = ≥ C′ et suit une loi
V(θ)̂
2
du χ (1)

Règle de décision de niveau :

( σ/ n )
X̄ − θ0
On rejette H0 (on accepte H1) si ≥ x1(1 − α)
📝

113
𝛂
Version asymptotique
Théorème 1 (admis)

Si les hypothèses qui assurent la consistance et l’efficacité asymptotique de


l’estimateur du MV sont satisfaites alors

2 loi 2
V(θ0 )
χL = − 2 log(Λn) χ (1) avec Λn =
V(θ)̂

on teste H0 θ = θ0 contre H1 θ ≠ θO
Règle de décision

2
On rejette H0 ( on accepte H1) si χL ≥ x1(1 − α)

c’est un test de niveau asymptotique α

114
Alternative : test de Wald
Théorème 2

Si les hypothèses qui assurent la consistance et l’efficacité asymptotique de


l’estimateur du MV sont satisfaites alors

2
χW ̂ θ̂ − θ )
= nI(θ)( 2 loi 2
χ (1) avec I l’info de Fisher
0

On teste H0 θ = θ0 contre H1 θ ≠ θO
Règle de décision

2
On rejette H0 ( on accepte H1) si χW ≥ x1(1 − α)
Propriétés :

Le test est de niveau asymptotique α


Le test de Wald est consistant
115
tests de rapport de
vraisemblance & optimalité

116
Définition de l’optimalité
Un test C de niveau est sans biais si sa puissance vérifie
pC(θ) = Pθ(X ∈ C) ≥ α pour tout θ ∈ Θ1
On dit qu’un test C est uniformément le plus puissant parmi les
tests de niveau au plus (UPP( )) si pour tout test C* de niveau
au plus , sup Pθ(X ∈ C*) ≤ α, on a pC(θ) ≥ pC*(θ) pour tout θ ∈ Θ1
θ∈Θ0

On dit qu’un test C est uniformément le plus puissant parmi les


tests sans biais de niveau au plus (UPPSB( )) si pour tout test
C* sans biais de niveau au plus on a pC(θ) ≥ pC*(θ) pour tout
θ ∈ Θ1
117
𝛂
𝛂
𝛂
𝛂
𝛂
𝛂
𝛂
Rapport de vraisemblance
On suppose que pour tout θ ∈ Θ la vraisemblance existe
(n)
V(θ) = fθ (X1, . . . , Xn) ∀θ ∈ Θ

On veut tester θ ∈ Θ0 contre θ ∈ Θ1


supθ∈Θ1 V(θ)
On pose Z= c’est la statistique du rapport de
supθ∈Θ0 V(θ)
vraisemblance.

Si H1 est vraie alors Z est grand

Si H0 est vraie alors Z est petit (proche de 0)


118
Définition du test
Le test du rapport de vraisemblable pour tester
θ ∈ Θ0 contre θ ∈ Θ1 admet une région critique de la
forme

R = {Z > C}

On fixe un niveau α
Puis on détermine C pour que le
test soit de niveau exact α ou
au plus α
119
Théorème de Neyman Pearson
On suppose que Θi = {θi} pour i=0,1

On teste θ = θ0 contre θ = θ1

S’il existe un test de niveau α dont la région critique est de


la forme R = {Z > K} alors ce test est uniformément le plus
puissant parmi les test de niveau au plus α (UPP( ))

Autrement dit

S’il existe Kα tel que Pθ0(Z > Kα) = α alors pour tout test
n
C⊂E tq Pθ0(C) ≤ α on a Pθ1(Z > Kα) ≥ Pθ1(C)
120
📝

𝛂
Corollaire
On teste θ = θ0 contre θ = θ1
V(θ1)
1. Si la loi de Z = est continue alors il existe un test du
V(θ0)
rapport de vraisemblance de niveau et UPP( )

V(θ1)
2. Si la loi de Z = est discrète à valeur dans F et si
V(θ0)
α ∈ {Pθ0(Z > z) , z ∈ F} alors il existe un test du rapport de
vraisemblance de niveau et UPP( )
On dit que {Pθ0(Z > z) , z ∈ F} est l’ensemble des niveaux admissibles

121
𝛂
𝛂
𝛂
𝛂
Famille exponentielle
On suppose que la loi de X appartient à une famille exponentielle
θ∙K(x) + H(x) + q(θ)
canonique {e : θ ∈ Θ}

On teste θ = θ0 contre θ = θ1

Si θ1 − θ0 > 0 alors le test du rapport de vraisemblable s’écrit {K(X) > C}

Si la loi de K(X) est continue alors il existe Cα tel que


Pθ0(K(X) > Cα) = α et ce test est UPP( )

Si θ1 − θ0 < 0 alors le test du rapport de vraisemblable s’écrit {K(X) < C}

Si la loi de K(X) est continue alors il existe Dα tel que


Pθ0(K(X) < Dα) = α et ce test est UPP( )

122
📝
𝛂
𝛂
En pratique
V(θ1)
On cherche la forme de la région critique du test de Neyman Pearson Z = >K
V(θ0)

On cherche à exprimer la région critique de la forme

une fonction de (X1, . . . Xn) : T(X1, . . . Xn) < et/ou > constantes

On détermine la constante K pour obtenir niveau α

Cette étape nécessite la connaissance de la loi de T(X1, . . . Xn) sous H0 c’est a dire si le
paramètre est égal à θ0

3 situations :

1. On connait explicitement la loi de T(X1, . . . Xn) est ses quantiles

2. Approximation par la simulation : On simule un échantillon suivant la loi de Tn et on


approche K par les quantiles empiriques

3. [n grand ] Approximation de la loi de T(X1, . . . Xn) grâce à un théorème limite


123
Exemple : loi beta(θ; θ)
On observe X1, . . . , Xn iid suivant la loi beta de paramètre (θ; θ) ∈ R*
+ × R*
+
n
Γ(2θ) θ−1 θ−1
∏ Γ(θ)2
La vraisemblance s’écrit V(θ) = Xi (1 − Xi)
i=1

On teste θ = θ0 contre θ = θ1 on suppose que θ0 < θ1


n


La région critique est de la forme log(Xi(1 − Xi)) > K
i=1
n


K est le quantile d’ordre 1 − α de la loi de Tn = log(Xi(1 − Xi)) lorsque θ = θ0
i=1

Difficulté pratique : la loi de Tn et ses quantiles ne sont pas connus


explicitement
124
En pratique
On observe un échantillon de taille
n = 20

On teste θ = 1 contre θ = 2 au niveau 5%

Remarque Pour θ = 1 on retrouve la loi


uniforme sur [0,1]

On observe Tn = − 42.08
Question :

Est ce que l on rejette l’hypothèse nulle


au niveau 5% ?

125
Approximation par simulation :
Méthode de Monte Carlo
On répète B (grand ) les deux états suivantes :

sim sim
[1] On simule un échantillon X1 , . . . , Xn iid suivant la loi beta(1,1) (H0)
sim sim sim

[2] On calcule Tn = log(Xi (1 − Xi ))

On approche K par le quantile empirique d’ordre 95% de l’échantillon


sim1 simB
Tn , . . . , Tn simulé suivant la loi de la statistique Tn sous H0

126
theta0 = 1
n=20

randT <- function()


{ x = rbeta(n,theta0,theta0 )
Tn = sum(log(x*(1-x)))
return(Tn)
}

samp.T = replicate(10000, randT())

hist(samp.T, proba = "TRUE" , main ="estimation de la loi de Tn")


lines(density(samp.T), lwd =3 ,col="steelblue")
plot(ecdf(samp.T), col= "green3", lwd= 2, main = paste("K = ",quantile(samp, .95)))
abline(h=.95)
quantile(samp, .95)
abline(v =quantile(samp, .95) , lty =2 )

127
Approximation de Monte Carlo

On a observé Tn = − 42.08 < K


Décision : on accepte H0 au niveau 5%
128
Approximation asymptotique (si n grand) de K
par une approximation gaussienne (TCL)
Sous H0 c’est à dire θ = θ0

(log(X1(1 − X1)), . . . , log(Xn(1 − Xn))) est un échantillon de variables


2 2
aléatoires iid L . On note m0 l’espérance de log(X1(1 − X1)) et σ0 sa
variance

σ0 ( n )
n Tn 1 loi
On applique le TCL : − m0 = (Tn − nm0) N(0,1)
nσ0

on pose N ∼ N(0,1)

( ) ( )
1 1 1
Pθ0(Tn > K) = Pθ0 (Tn − nm0)) > (K − nm0) ≈P N> (K − nm0) =1−α
nσ0 nσ0 nσ0

1
⇒ (K − nm0) ≈ q1−α et donc K ≈ nm0 + nσ0q1−α
nσ0 129
2 situations
Situation 1

On sait calculer explicitement Situation 2


les valeurs de m0 et σ0
On approche les valeurs de m0
C’est à dire on sait calculer et σ0 par une méthode de
Eθ0 ((log(X1(1 − X1))) )
k
Monte Carlo
pour k =1,2

130
Suite situation 2
On simule un échantillon de taille B iid
suivant la loi de log(X1(1 − X1)) avec θ = θ0 n=20
theta0 = 1
On approche m0 par la moyenne et σ0 par Y.beta = rbeta(10000,theta0,theta0)
l’écart type de l’échantillon Y = log(Y.beta*(1-Y.beta))
m0 = mean(Y)
sigma0 = sd(Y)
On calcule K = − 39.58419
K = n*m0 +qnorm(.95) *sigma0/sqrt(n)
Cette approximation est valide pour n
grand

Ici n=20 « petit » échantillon

On obtient une valeur assez différente de


celle obtenue en approchant la loi de Tn
131
tests d’hypothèses
composées

132
Définitions

Test bilatéral : on teste H0 θ = θ0 contre H1 θ ≠ θO


Test unilatéral : on teste

T1 : H0 θ = θ0 contre H1 θ > θO

T2 : H0 θ ≤ θ0 contre H1 θ > θO

T3 : H0 θ = θ0 contre H1 θ < θO

T4 : H0 θ ≥ θ0 contre H1 θ < θO
133
rapport de vraisemblance monotone.
Définition
(n)
Une famille paramétrique {fθ (X1, . . . , Xn), ∀θ ∈ Θ} est une
famille à rapport de vraisemblance monotone en
U(X1, . . . , Xn) si pour tout θ1 > θ2 il existe h croissante tel que
V(θ1)
= hθ1,θ2(U(X1, . . . , Xn))
V(θ2)

Exemple
θ∙K(x) + H(x) + q(θ)
une famille exponentielle canonique {e : θ ∈ Θ}
est une famille à rapport de vraisemblance monotone
134
📝
Test unilatéral UPP( )
Théorème On suppose

(n)
1. {fθ (X1, . . . , Xn),
∀θ ∈ Θ} est une famille à rapport de vraisemblance
monotone en U(X1, . . . , Xn)

2. La loi de U(X1, . . . , Xn) est continue pour tout θ ∈ Θ


Alors

A. Pour les tests unilatéraux T1 et T2, le test {U(X1, . . Xn) > Cα} avec
Pθ0(U(X1, . . , Xn) > Cα) = α est un test de niveau et UPP( )

B. Pour les tests unilatéraux T3 et T4 le test {U(X1, . . Xn) < Dα} avec
Pθ0(U(X1, . . , Xn) < Dα) = α est un test de niveau et UPP( )
135

𝛂
𝛂
𝛂
𝛂
𝛂
Test sur la moyenne θ d’un échantillon gaussien
de variance connue
2 2
On considère des observations iid suivant la loi N(θ, σ ) avec σ
connue

D’après le théorème précédent on a

A. Pour les tests unilatéraux T1 et T2 le test

{ n }
σq1−α
X̄n > θ0 + est un test de niveau et UPP( )

{ n}
σqα
B. Pour les tests unilatéraux T3 et T4 le test X̄n < θ0 +

est un test de niveau et UPP( )


136
📝
𝛂
𝛂
𝛂
𝛂
Test bilatéral sur la moyenne θ d’un échantillon gaussien
de variance connue
2 2
On considère des observations iid suivant la loi N(θ, σ ) avec σ
connue

On veut tester H0 θ = θ0 contre H1 θ ≠ θO

{ n }
σq1−α/2
Le test | X̄n − θ0 | > est un test de niveau 📝

Ce test n’est pas un test UPP( )

Ce test est un test UPPSB( )

137
𝛂
𝛂
𝛂
Tests avec paramètre de
nuisance

138
P
Dans cette partie on suppose queΘ ⊂ R et on veut
effectuer un test sur une coordonnée de θ

Les autres coordonnées sont appelés les paramètres


de nuisance

Exemple pour des échantillons gaussiens

On effectue un test sur la moyenne et la variance


est le paramètre de nuisance

Ou inversement

139
Dans cette partie, on suppose que la loi des observations
appartient à une famille exponentielle canonique

θ∙K(x) + H(x) + q(θ)


{e : θ ∈ Θ} où θ est de dimension p
On effectue un test sur la i ème coordonnée (i=1,..,p)

T1 : H0 θi ≤ θ0 contre H1 θi > θO ou θi = θ0 contre θi > θ0

T2 : H0 θi ≥ θ0 contre H1 θi < θO ou θi = θ0 contre θi < θ0

T3 : H0 θi = θ0 contre H1 θi ≠ θ0

Les autres coordonnées θ−i = {θj , j ≠ i} sont inconnues


140
Théorème
p
On suppose qu’il existe une fonction g : R → R croissante par
rapport à la i ème coordonnée telle que

la loi de la statistique W = g(K1(X), . . . , Kp(X)) ne dépend pas


de θ−i si θi = θ0

1. Pour T1 : S’il existe Cα tq Pθi=θ0(W > Cα) = α alors le test


{W > Cα} est de niveau α et UPPSB( )

2. Pour T2 : S’il existeDα tq Pθi=θ0(W < Dα) = α alors le test


{W < Dα} est de niveau α et UPPSB( )
141
𝛂
𝛂
3. Pour T3
on suppose que g est linéaire par rapport à la i ème
coordonnée
S’il existe C1, C2 tel que

Pθi=θ0(W < C1) = Pθi=θ0(W > C2) = α/2

Alors {W < C1} ∪ {W > C2) est un test de niveau et


UPPS( )

142
𝛂
𝛂
2
Application pour les échantillons gaussiens N(μ, σ )
La famille des lois gaussienne est une famille
exponentielle

1
− 2
n 2 μ
∑i=1 Xi + 2
n
∑i=1 Xi 1 2 2
−nμ /(2σ )
fθ(X) = e 2σ σ e
( 2πσ)2

μ n

(K2)
∑i=1 Xi
( ∑i=1 Xi )
σ2 K1
avec θ= −1
et K(X) = n 2
=
2σ 2

On peut appliquer le théorème précédent sur les


coordonnées du paramètre θ
143
Test sur la variance
2 2 2 2
T1 : σ ≤ σ0 contre σ > σ0
2 2 2 2
T2 : σ ≥ σ0 contre σ < σ0
2 2 2 2
T3 : σ = σ0 contre σ ≠ σ0
1
Ces tests peuvent être reformuler sur le paramètre θ2 = − (avec les mêmes
2σ 2
inégalités)

2 2
Si σ = σ0
n
1 2 1 1 2 2

alors la loi de W = (Xi − X̄n ) = (K2 − K1 ) ∼ χ (n − 1) (La loi ne dépend pas
σ0 i=1
2 σ0
2 n
de μ)

W = g(K1, K2) est une fonction linéaire croissante par rapport à la 2 ème
coordonnée 144
2 2 2 2
1) T1 : σ ≤ σ0 contre σ > σ0
n
2 2

Le test de région critique (Xi − X̄n) > σ0 xn−1(1 − α) est de niveau α et
i=1
UPPSB(α)

2 2 2 2
2) T2 : σ ≥ σ0 contre σ < σ0
n
2 2

Le test de région critique (Xi − X̄n) < σ0 xn−1(α) est de niveau α et
i=1
UPPSB(α)

2 2 2 2
3) T3 : σ = σ0 contre
σ ≠ σ0
Le test de région critique
n n
2 2 2 2
∑ ∑
(Xi − X̄n) < σ0 xn−1(α/2) ∪ (Xi − X̄n) > σ0 xn−1(1 − α/2)
i=1 i=1
est de niveau α et UPPSB(α) 145
Test sur la moyenne
T1 : μ ≤ 0 contre μ > 0 est équivalent θ1 ≤ 0 contre θ1 > 0

T2 : μ ≥ 0 contre μ < 0 est équivalent θ1 ≥ 0 contre θ1 < 0

T3 : μ = 0 contre μ ≠ 0 est équivalent θ1 = 0 contre θ1 ≠ 0

n
X̄n 2 2 1 2

Si μ = 0 (θ1 = 0) alors Tn = n ∼ Student(n − 1) avec Sn = (Xi − X̄n) = K2 − K1
Sn2 i=1
n
n−1

On a Tn = g(K1, K2) avec g croissante par rapport à la 1 er coordonnée

Le théorème précédent s’applique pour T1 et T2

Mais il ne s’applique pas pour T3 car g n ‘est pas linéaire.

146
1) T1 : μ ≤ 0 contre μ > 0 est équivalent θ1 ≤ 0 contre θ1 > 0

Sn
La test de région critique X̄n > tn−1(1 − α) est de niveau α et UPPSB(α)
n n−1

2) T2 : μ ≥ 0 contre μ < 0 est équivalent θ1 ≥ 0 contre θ1 < 0

Sn
La test de région critique X̄n < tn−1(α) est de niveau α et UPPSB(α)
n n−1

3) Tester μ ≤ μ0 contre μ > μ0 est équivalent à T1 sur l’échantillon X1 − μ0, . . . , Xn − μ0 X̄n → X̄n − μo et
Sn → Sn

On obtient un test de niveau α et UPPSB(α) en prenant comme région critique


Sn
X̄n > μ0 + tn−1(1 − α)
n n−1

4) Tester μ ≥ μ0 contre μ < μ0 est équivalent à T2 sur l’échantillon X1 − μ0, . . . , Xn − μ0

On obtient un test de niveau α et UPPSB(α) en prenant comme région critique


Sn
X̄n < μ0 + tn−1(α)
n n−1
147
Proposition pour le test T3 : μ = μ0 contre μ ≠ μ0
Le test de région critique
Sn Sn
X̄n > μ0 + tn−1(1 − α/2) ∪ X̄n < μ0 + tn−1(α/2)
n n−1 n n−1
Sn
ce qui est équivalent à | X̄n − μ0 | > tn−1(1 − α/2)
n n−1

est un test de niveau α. Il est UPPSB(α)

148
Test et Pvalue

149
C’est une présentation alternative des résultats d’un test

Notation : pour tout α on note Rα la région critique d’un test de niveau


α
Définition La Pvalue est un variable aléatoire à valeur dans [0,1] définie
par

Pvalue = inf{β | X ∈ R(β)}


A partir de la valeur de la Pvalue on peut donner la décision du test à
tous niveau

Règle de décision : Si le niveau est égal à α alors

on accepte H0 / on rejette H1 au niveau α si Pvalue > α

on accepte H1 / on rejette H0au niveau α si Pvalue < α


150
Si le test s’écrit
{Tn(X1, . . , , Xn) > c1−α}

avec c1−α le quantile d’ordre


1 − α de la loi de fonction de
répartition F0

alors
Pvalue = 1 − F0(Tn(X1, . . . , Xn))

151
{Tn(X1, . . , , Xn) < cα} avec cα le quantile
Si le test s’écrit
d’ordre α de la Loi de fonction de répartition F0

alors Pvalue = F0(Tn(X1, . . . , Xn))

Si le test s’écrit
{Tn(X1, . . , , Xn) < cα/2} ∪ {Tn(X1, . . , , Xn) > c1−α/2}

alors Pvalue = 2 * min(F0(Tn(X1, . . . , Xn),1 − F0(Tn(X1, . . . , Xn))

152
153

Vous aimerez peut-être aussi