Vous êtes sur la page 1sur 30

Deuxième partie II

Cours 4 à 6 : Construction d’estimateurs, Modèle


linéaire, Tests et intervalles de confiance
(version corrigée, 4 avril 2007)

Construction d’estimateurs

4 Construction d’estimateurs
Estimateur de moments
Divergence de Kullback
Maximum de vraisemblance
L’exemple de la régression logistique
M-Estimateurs

5 Le modèle linéaire

6 Tests et intervalles de confiance


Construction d’estimateurs

La question à laquelle on cherche à répondre

Etant donné un modèle statistique {Pθ , θ ∈ Θ} comment utiliser


les données au mieux pour estimer θ ?

Un premier critère important


Estimateur consistant [Définition 5.1]
Une séquence d’estimateurs θ̂n (ou par abus de langage un
n→∞
estimateur) de θ est dit consistant si θ̂n −−−→ θ presque sûrement
(consistance forte) ou en probabilité (consistance faible), lorsque
l’on suppose que les observations sont de loi Pθ

Cet objectif n’est envisageable que si le modèle est identifiable au


sens où θ1 6= θ2 ⇒ Pθ1 6= Pθ2
Autres critères On souhaite en particulier que le risque
quadratique de θ̂n soit aussi faible que possible

Construction d’estimateurs Estimateur de moments

Estimateur de moments
Si δ(y) est une statistique telle que Eθ [δ(Y )] = θ, l’estimateur
n
1X
δ(Yi )
n
i=1

est
Sans biais
Consistant (loi des grands nombres)
On peut juger de ses performances (vis à vis de la perte
quadratique) en comparant Vθ [δ(Y )] à IF−1 (θ) (rappel : la
borne n’est pas nécessairement atteignable)
Construction d’estimateurs Estimateur de moments

Il est possible d’être plus précis dans certains modèles


Si {Pθ , θ ∈ Θ} correspond à un modèle exponentiel sous forme
naturelle (`(y; θ) = C(θ)h(y) exp [θ0 T (y)]), l’estimateur de
moments basé sur la statistique T (Y ) est efficace pour
ϕ = Eθ [T (Y )] = − ∂ log∂θC(θ)
Preuve Cf. critère d’efficacité vu précédemment :
∂ log `(y; θ)
T (y) − Eθ [T (Y )] =
∂θ
Ou en calculant l’expression de la borne de FDCR pour vérifier que
∂ 2 log C(θ)
∂θ∂θ0 = −IF (θ) = −Vθ [T (Y )]

Exemples Estimation de la moyenne dans le modèle gaussien (de


variance connue), estimation de l’espérance pour une loi
exponentielle, . . . [Section 4.3]

Construction d’estimateurs Estimateur de moments

On peut généraliser la construction


Exemple (Modèle linéaire univarié)

Yi = β0 + β1 Xi + Ui avec Eθ [Ui |Xi ] = 0 et Eθ [Ui2 |Xi ] < ∞




E[Xi ] = 0 et E[Xi2 ] < ∞

On a

Eθ (Yi ) = E (Eθ [Yi |Xi ]) = β0 + β1 E[Xi ] = β0


Eθ (Xi Yi ) = E (Xi Eθ [Yi |Xi ]) = β1 E[Xi2 ]
Pn Pn  Pn 2

Donc (1/n i=1 Yi ) et (1/n i=1 Xi Yi ) 1/n i=1 Xi sont
des estimateurs consistants de β0 et β1

Mais l’évaluation des performances devient délicate (voir plus loin


concernant l’approche asymptotique)
Construction d’estimateurs Estimateur de moments

temperature

20

15

10

−5

−10

−15

−20 latitude
−15 −10 −5 0 5 10

Fig.: Régression linéaire sur les données de température en fonction de la


latitude (centrée)

Construction d’estimateurs Divergence de Kullback

On recherche un critère numérique


1 Permettant d’attester la proximité de deux lois
2 Susceptible d’être approché empiriquement (à partir de
données)
3 Se prêtant à l’optimisation
4 Garantissant de bonnes performances statistiques
Construction d’estimateurs Divergence de Kullback

Divergence de Kullback* -(Leibler) [Définition 3.14]


Pour deux lois P1 et P2 , de densités `1 et `2 par rapport à µ, on
définit la divergence de Kullback par
  Z
`1 (Y ) `1 (y)
I(P1 kP2 ) = EP1 log = log `1 (y)µ(dy)
`2 (Y ) `2 (y)

La divergence de Kullback
Ne dépend pas du choix de µ
Est toujours bien définie (c’est une quantité positive qui vaut
éventuellement +∞)
Dans un modèle paramétrique, on note I(θ1 kθ2 ) plutôt que
I(Pθ1 kPθ2 )
[Définition 3.14]
*
Solomon Kullback (1903 – 1994)
Construction d’estimateurs Divergence de Kullback

Propriété [Proposition 3.15]

1 I(P1 kP2 ) ≥ 0
2 I(P1 kP2 ) = 0 si et seulement si P1 = P2

Preuve Rappel (Inégalité de Jensen) : Si g est un fonction convexe


et E|Z| < ∞, E[g(Z)] ≥ g(E[Z]) ; si, de plus, g est strictement
convexe, E[g(Z)] = g(E[Z]) implique qu’il existe c ∈ R tel que
P[Z = c] = 1
 
`2 (Y )
I(P1 kP2 ) = −EP1 log
`1 (Y )
soit en appliquant l’inégalité de Jensen à la fonction − log,
Z
`2 (y)
I(P1 kP2 ) ≥ − log `1 (y)µ(dy) = 0
`1 (y)
Construction d’estimateurs Maximum de vraisemblance

Utilisation de la divergence de Kullback en statistique


La divergence de Kullback constitue une mesure permettant
d’attester la proximité de deux lois P1 et P2 (bien qu’elle ne soit
pas symétrique)

Critère asymptotique du maximum de vraisemblance


Z
def `(y; θ)
Q(θ) = − I(PkPθ ) = log `(y)µ(dy)
`(y)
où P désigne la loi des observations et {Pθ , θ ∈ Θ} est un modèle
statistique paramétrique

def
θ0 = arg max Q(θ)
θ∈Θ

définit le meilleur ajustement (au sens de la divergence de


Kullback) dans la famille paramétrique {Pθ , θ ∈ Θ}
Construction d’estimateurs Maximum de vraisemblance

Propriétés du critère asymptotique du maximum de


vraisemblance
1 Si P = Pθ0 pour θ0 ∈ Θ et le modèle {Pθ , θ ∈ Θ} est
identifiable, Q(θ) admet un maximum unique en θ = θ0
2 Si, de plus, le modèle est régulier (de vraisemblance `(·; θ))
" #
2 2

∂ Q(θ) ∂ log `(Y ; θ)

= E θ0 = −IF (θ0 )
∂θ∂θ0 θ=θ0 ∂θ∂θ0
θ=θ0

[Proposition 3.16]
En particulier
1
Q(θ) = − (θ − θ0 )0 IF (θ0 )(θ − θ0 ) + o(kθ − θ0 k2 )
2
la matrice d’information de Fisher détermine le
comportement local du critère autour du maximum θ0
Construction d’estimateurs Maximum de vraisemblance

Estimateur du maximum de vraisemblance


On appelle critère empirique du maximum de vraisemblance
n
1X 1
Qn (θ) = log `(Yi ; θ)= log `n (Y1 , . . . , Yn ; θ)
n n| {z }
i=1
Ln (Y1 ,...,Yn ;θ)

L’estimateur du maximum de vraisemblance est défini


(implicitement) par

θ̂n = arg max Qn (θ)


θ∈Θ

Remarque Qn (θ) a même optimum que

1 Pn `(Yi ;θ) 0
Pθ p.s.
Q̃n (θ) = n i=1 log `(Yi ;θ0 ) −
− −−−→ Q(θ)

Construction d’estimateurs Maximum de vraisemblance

Exemple (Modèle de régression linéaire univarié gaussien)

Yi = β0 + β1 Xi + Ui
avec Ui |Xi ∼ N (0, σ 2 )
n
1 X
Qn (θ) = C te − 2
(Yi − β0 − β1 Xi )2
2nσ | {z }
i=1
à minimiser en β0 , β1
1 Pn
En supposant n i=1 Xi = 0 (sinon, s’y ramener) on trouve

n Pn
1X Xi Yi
β̂0,n = Yi β̂1,n = Pi=1
n 2
n i=1 Xi
i=1
Construction d’estimateurs Maximum de vraisemblance

Cas des modèles exponentiels


Si {Pθ , θ ∈ Θ} correspond à un modèle exponentiel sous forme
naturelle (`(y; θ) = C(θ)h(y) exp [θ0 T (y)])
Q(θ) = log C(θ) + θ0 EP [T (y)] et la condition d’optimalité au
premier ordre est
∂ log C(θ)
− = Eθ [T (Y )] = EP [T (y)]
∂θ
0 1 Pn

Qn (θ) = log C(θ) + θ n i=1 T (Yi ) et la condition
d’optimalité au premier ordre est
n
∂ log C(θ) 1X
− = Eθ [T (Y )] = T (Yi )
∂θ n
i=1
Si IF (θ)  0, Q et Qn sont des fonctions strictement
concaves de θ est l’estimateur du maximum de vraisemblance
θ̂n est défini (implicitement) par l’équation de vraisemblance
n
1X
Eθ̂n [T (Y )] = T (Yi )
n
i=1
Construction d’estimateurs Maximum de vraisemblance

Equivariance du maximum de vraisemblance


Si ϕ = g(θ) correspond à une reparamétrisation du modèle (g
bijective)  
ϕ̂n = g θ̂n

Exemple (Estimation d’une loi exponentielle)


Pour
`(y; θ) = θ e−θy pour y ∈ R+
l’équation de vraisemblance s’écrit
n
n X
− Yi = 0
θ
i=1

donc l’estimateur du maximum de vraisemblance de θ est


n −1
θ̂n = n1 i=1 Yi et celui de ϕ = 1/θ = Eθ [Y ] est n1 ni=1 Yi
P  P
Construction d’estimateurs L’exemple de la régression logistique

On s’intéresse souvent à des modèles conditionnels dans lesquels la


variable de réponse Y est catégorielle (ou qualitative), c’est-à-dire
prend un nombre fini de valeurs (on considère ici le cas binaire)
1

0 sbp
100 120 140 160 180 200 220
1

0 tobacco
−5 0 5 10 15 20 25 30 35
1

0 ldl
0 5 10 15 20
1

0 obesity
15 20 25 30 35 40 45 50
1

0 alcohol
−20 0 20 40 60 80 100 120
1

0 age
10 15 20 25 30 35 40 45 50 55 60 65

Fig.: Présence de la maladie coronarienne en fonction de 6 facteurs (270


individus)
Construction d’estimateurs L’exemple de la régression logistique

Régression logistique (ou modèle logit)


Conditionnellement à X, Y est une variable de Bernoulli telle que

Pθ (Y = 1|X)
log = X 0θ
Pθ (Y = 0|X)

C’est un modèle de régression linéaire sur le log-rapport de


probabilités

De façon équivalente
logit (Pθ [Y = 1|X]) = X 0 θ avec
p
logit : ]0, 1[→] − ∞, +∞[, p 7→ log
1−p

Pθ (Y = 1|X) = logit−1 (X 0 θ) avec

−1 ex −x −1

logit : ] − ∞, +∞[→]0, 1[, x 7→ = 1 + e
1 + ex
Construction d’estimateurs L’exemple de la régression logistique

Formulation équivalente
On peut voir le modèle logit comme un modèle à donnée latente où

Y ∗ = X 0θ + U
Y = 1{Y ∗ > 0}

[Section 2.27]

Pθ (Y = 1|X) = Pθ (Y ∗ > 0|X)


= Pθ (U > −X 0 θ|X) = 1 − F (−X 0 θ)

où F (x) désigne la fonction de répartition de U (supposé


indépendant de X), qui doit donc être égale à logit−1 (x)
(de façon équivalente, logit−1 (U ) suit une loi uniforme sur ]0, 1[)

On peut imaginer d’autre types de modélisation pour U (par ex.


modèle probit)
Construction d’estimateurs L’exemple de la régression logistique

Estimateur du maximum de vraisemblance


Log-vraisemblance (conditionnelle)

log `n (Y1 , . . . , Yn |X1 , . . . , Xn ; θ)


Xn
= Yi log Pθ (Yi = 1|Xi ) + (1 − Yi ) log Pθ (Yi = 0|Xi )
i=1
n
X Pθ (Yi = 1|Xi )
= Yi log + log Pθ (Yi = 0|Xi )
Pθ (Yi = 0|Xi )
i=1
n
0
X
= Yi (Xi0 θ) − log(1 + eXi θ )
i=1

Gradient (fonction de score)


n
∂ log `n (Y1 , . . . , Yn |X1 , . . . , Xn ; θ) X
= Xi {Yi − Pθ (Yi = 1|Xi )}
∂θ
i=1
Construction d’estimateurs L’exemple de la régression logistique

Hessien
∂ 2 log `n (Y1 , . . . , Yn |X1 , . . . , Xn ; θ)
∂θ∂θ0
Xn
=− Xi Xi0 Pθ (Yi = 1|Xi ) {1 − Pθ (Yi = 1|Xi )}
| {z }
i=1
variance conditionnelle de Yi
0
(≺ 0 avec PX -probabilité 1 si X a une loi continue et n > p)

La maximisation de la log-vraisemblance (conditionnelle) est un


problème d’optimisation convexe

Construction d’estimateurs L’exemple de la régression logistique

0
100 120 140 160 180 200 220
sbp sbp 1.66
1

tobacco 6.61
tobacco
0
1
−5 0 5 10 15 20 25 30 35
ldl 0.74
0 ldl
obesity 2E-4
0 5 10 15 20
1
alcohol - 2.24
0
1
15 20 25 30 35 40 45 50
obesity age 9.59
0
−20 0 20 40 60 80 100 120
alcohol
Tab.: Paramètres estimés
1
(20 itérations de l’algorithme
0
10 15 20 25 30 35 40 45 50 55 60 65
age de Newton) sur les données
centrées et normalisées
Fig.: Présence de la maladie coronarienne
en fonction de 6 facteurs
Construction d’estimateurs M-Estimateurs

M-Estimateur
Dans les cas où
L’estimateur du maximum de vraisemblance est difficile à
déterminer
La loi des observations n’est pas entièrement déterminée par
le paramètre θ (modèle semi-paramétrique)
On souhaite imposer certaines propriétés aux estimateurs (voir
ci-après l’exemple de régression robuste)
on est amené à utiliser un M-Estimateur défini (implicitement) par
n
1X
θ̂n = arg max ψ(Yi ; θ)
θ∈Θ n
i=1

où ψ est une fonction à valeur réelle [Définition 5.3]

Remarque : Ce cadre général est aussi intéressant car il permet


d’inclure d’autres types d’estimateurs (comme les estimateurs de
moments)
Construction d’estimateurs M-Estimateurs

Outre des conditions de régularité (cf. [Proposition 5.4]), il est


raisonnable de penser (et nous le démontrerons plus loin) que θ̂n
ne peut être consistant que si

Eθ0 [ψ(Y ; θ)] a un maximum unique en θ0

puisque c’est le critère asymptotique limite lorsque Y1 , . . . , Yn sont


IID de loi Pθ0 (par la loi des grands nombres)

Modèle de régression non-linéaire


Dans un modèle conditionnel où E [h(X; θ1 )] = E [h(X; θ2 )]
implique θ1 = θ2 (en notant h(X; θ) = Eθ [Y |X]), on peut utiliser
le critère des moindres carrés (non-linéaire) :
n
1X
Qn (θ) = − (Yi − h(Xi ; θ))2
n | {z }
i=1
ψ(Yi ,Xi ;θ)
Construction d’estimateurs M-Estimateurs

La régression linéaire est sensible à la présence de données


aberrantes
temperature

20

15

10

−5

−10

−15

−20 latitude
−15 −10 −5 0 5 10

Fig.: Régression linéaire sur les données de température en fonction de la


latitude, avec ou sans donnée aberrante
Construction d’estimateurs M-Estimateurs

Régression linéaire robuste


Plutôt que la fonction des moindres carrés : ψ(x, y; β) = −γM C (r)
où
def
γM C (r) = r2 avec r = y − (β0 + β1 x)
On utilise une fonction de Huber
(
r2 si |r| ≤ τ
γH (r) =
2τ |r| − τ 2 sinon
τ 0 τ

On vérifie aisément que γH est convexe et de classe C 1 (mais pas


C 2 ) de telle façon que
n
1X
min γH {Yi − (β0 + β1 Xi )}
(β0 ,β1 )∈R2 n
i=1

est un problème de minimisation convexe qui se prête bien à


l’optimisation numérique
Construction d’estimateurs M-Estimateurs

temperature

20

15

10

−5

−10

−15

−20 latitude
−15 −10 −5 0 5 10

Fig.: Régression linéaire robuste sur les données de température en


fonction de la latitude, avec ou sans donnée aberrante (τ = 4.9, soit
environ 80% des résidus qui tombent la partie quadratique du critère)

Le modèle linéaire

4 Construction d’estimateurs

5 Le modèle linéaire
Estimateur des moindres carrés
Cas gaussien

6 Tests et intervalles de confiance


Le modèle linéaire

Le modèle linéaire [Chapitre 9]

On s’intéresse ici au cas du modèle linéaire (ou modèle de


régression linéaire) dans lequel

Yi = Xi0 β + Ui

où Ui est indépendant de Xi et E[Ui ] = 0, E[Ui2 ] = σ 2

Si on suppose de plus que Ui ∼ N (0, σ 2 ), on parlera de modèle


linéaire gaussien (ou normal)

Remarque Dans le cas où les régresseurs {Xi } sont aléatoires, le


modèle est défini de façon conditionnelle (de même que certains
des résultats qui suivent doivent être compris de façon
conditionnelle)

Le modèle linéaire

Il est utile de réécrire le modèle de l’ensemble des observations


sous forme vectorielle :
   0   
Y1 X1 = (X1 (1), . . . , X1 (p)) U1
     
     
 ..   .
..  . 
 . =  β +  .. 

     
     
Yn Xn0 = (Xn (1), . . . , Xn (p)) Un
| {z } | {z } | {z }
Y X (n×p) U

avec Eθ [U ] = 0 et Vθ [U ] = σ 2 Idn (ou U ∼ N (0, σ 2 Idn ) si le


modèle est gaussien)

On suppose que X est de rang p


Le modèle linéaire Estimateur des moindres carrés

On considère le critère des moindres carrés


ψ(Xi , Yi ; β) = −(Yi − Xi0 β)2
n
X
β̂M C = arg minp (Yi − Xi0 β)2
β∈R
|i=1 {z }
kY −Xβk2

Interprétation géométrique
Problème de projection orthogonale du
vecteur Y ∈ Rn sur le sous espace de Y
dimension p im(X) (engendré par les Y − Ŷ
colonnes de X)

def im(X)
⇔ Y − Ŷ ⊥ im(X) où Ŷ = X β̂

Le modèle linéaire Estimateur des moindres carrés

La condition Y − Ŷ ⊥ im(X) est équivalente à X 0 (Y − X β̂) = 0


d’où
L’estimateur des moindres carrés
−1 0
β̂ = X 0 X XY

La décomposition β̂ = β + (X 0 X)−1 X 0 U montre que


1 Eθ [β̂] = β, β̂ est sans biais
2 Vθ [β̂] = σ 2 (X 0 X)−1

Propriété β̂ est l’estimateur linéaire sans biais de β de matrice de


covariance minimale [Théorème (Gauss-Markov) 4.11]

Remarque : Généralisation au cas hétéroscédastique, Eθ [Ui ] = σi2 ,


ou au cas d’une matrice de covariance quelconque (connue)
Le modèle linéaire Estimateur des moindres carrés

Relation de Pythagore

kY − Ŷ k2 = kY k2 − kŶ k2 = kY k2 − Y 0 Ŷ
−1 0  −1 0 
0 0 0 0 0
=Y Y −Y X X X X Y = Y Idn − X X X X Y
 −1 0 
0 0
= U Idn − X X X X U

X (X 0 X)−1 X 0 est la matrice de projection sur im(X)


Idn − X (X 0 X)−1 X 0 est la matrice de projection sur le
sous-espace (de dimension n − p) orthogonal à im(X)
Il existe M matrice unitaire (M 0 M = Idn ) telle que

..
 
Idn−p . 0 
−1
Idn − X X 0 X X0 = M  0
 
 ··· · · ·
M
..
0 . 0

Le modèle linéaire Estimateur des moindres carrés

Estimation de la variance
kY − Ŷ k2 /(n − p) est un estimateur sans biais de la variance σ 2

Preuve
  n h  −1 0  io
2 0 0
Eθ kY − Ŷ k = Eθ tr U Idn − X X X X U
h −1 0  i
0 0
= tr Idn − X X X X Eθ U U
= σ 2 (n − p)
Le modèle linéaire Cas gaussien

Dans le cas gaussien, U ∼ N (0, σ 2 Idn )


n o
1 kY −Xβk2
1 log `n (Y1 , . . . , Yn ; θ) = − 2 n log 2π + n log σ 2 +
σ2
donc β̂ et (n − p)/nσ̂ 2 sont les estimateurs du maximum de
vraisemblance
2 β̂ = β + (X 0 X)−1 X 0 U implique que
  
2 0 −1
β̂ ∼ N β, σ XX

3 (n − p)σ̂ 2 /σ 2 ∼ χ2 (n − p), (( loi du khi-deux à n − p degrés


de libertés )), dans la mesure où
..
 
Idn−p . 0
(n − p)σ̂ 2 = kY − Ŷ k2 = U 0 M  0

 ··· · · · M
| {zU}
..

0 . 0 ∼N (0,σ 2 Idn )

Le modèle linéaire Cas gaussien

Rappel [Cours de probabilité, Tables 3 et 4]

La loi du khi-deux àPk degrés de


liberté est la loi de ki=1 Xi2
lorsque {Xi } sont IID de loi
N (0, 1)

La loi de Student* à k degrés de


Y
liberté est la loi de q P k
1/k i=1 Xi2
lorsque {Xi } sont IID de loi
N (0, 1) et Y est une variable
normale indépendante des {Xi }

*
William S. Gosset (1876–1937)
Le modèle linéaire Cas gaussien

β̂i −βi
4 √ ∼ t(n − p) où xii est le ième terme diagonal de
σ̂ 2 xii
(XX 0 )−1 et t(n − p) désigne la loi de Student à n − p degrés
de liberté

Preuve β̂ = β + (X 0 X)−1 X 0 U et
(n − p)σ̂ 2 = k(Idn − X (X 0 X)−1 X 0 )U k2 , or
h −1 −1 i
0 0 0 0
Cov XX X U , (Idn − X X X X )U
0
−1 0 0 0
−1 0
= XX X Eθ [U U ](Idn − X X X X ) = 0 (3)
| {z }
σ 2 Idn

donc (X 0 X)−1 X 0 U et (Idn − X (X 0 X)−1 X 0 )U sont indépendants


et, par suite, β̂ et σ̂ 2 sont indépendants

Tests et intervalles de confiance

4 Construction d’estimateurs

5 Le modèle linéaire

6 Tests et intervalles de confiance


Tests
Cas de deux hypothèses simples
Cas général : Approche de Neyman-Pearson
Intervalles de confiance
Tests et intervalles de confiance Tests

La problématique des tests

Test d’hypothèses (binaires) [Section 6.1]


Soit un modèle statistique {Pθ ; θ ∈ Θ} et des hypothèses

H0 : θ ∈ Θ0
H1 : θ ∈ Θ1 = Θ \ Θ0

Un test (pur) est une statistique à valeur dans {0, 1} dont


l’interprétation est
(
ϕ(Y ) = 1 H1 est vraie
ϕ(Y ) = 0 H0 est vraie

Remarque : Il existe également des tests mixtes ou aléatoires dont


l’importance est essentiellement théorique

Tests et intervalles de confiance Tests

Hypothèses simples et composites

Une hypothèse Hi : θ ∈ Θi est dite


Simple si Θi = {θi }
Composite sinon

1 Dans le cas d’un modèle paramétrique et si Hi est une


hypothèse simple, la loi des observations est connue sous Hi
2 Il est fréquent qu’une seule des deux hypothèses soit simple :
par exemple, Θ = Rp , H0 : θ = θ0
3 Les hypothèses peuvent aussi être définies implicitement sous
la forme Hi : g(θ) = 0 où g : Θ → Rp est une fonction
(par exemple, g(θ1 , θ2 ) = θ1 − θ2 pour tester l’égalité de deux
coordonnées du paramètres)
Tests et intervalles de confiance Tests

Comment quantifier la performance d’un test ?

Risque de première espèce


def
αϕ (θ) = Pθ [ϕ(Y ) = 1] = Eθ [ϕ(Y )] pour θ ∈ Θ0

Risque de seconde espèce

βϕ (θ) = Pθ [ϕ(Y ) = 0] = 1−Eθ [ϕ(Y )] pour θ ∈ Θ1

On utilise en général plutôt la puissance

ρϕ (θ) = Eθ [ϕ(Y )] pour θ ∈ Θ1

En se plaçant du point de vue de H0 , on peut interpréter αϕ (θ)


comme le (( taux de fausses alarmes )) et ρϕ (θ) comme la
(( probabilité de détection ))

Tests et intervalles de confiance Cas de deux hypothèses simples

On considère un modèle statistique dominé et deux hypothèses


simples (
H0 : θ = θ 0 `(y; θ0 )
H1 : θ = θ 1 `(y; θ1 )
( R
αϕ = ϕ(y)`(y; θ0 )µ(dy)
=⇒ R
ρϕ = ϕ(y)`(y; θ1 )µ(dy)

On présente ici deux façons classiques de choisir ϕ : l’approche


bayésienne et l’approche de Neyman-Pearson*

*
Thomas Bayes (1702–1761), Jerzy Neyman (1894–1981), Egon Pearson
(1895–1986)
Tests et intervalles de confiance Cas de deux hypothèses simples

Dans l’approche bayésienne


1 On définit une fonction de perte en donnant des coûts c0 et c1
aux erreurs de première et seconde espèce
2 On probabilise les hypothèses en spécifiant des probabilités a
priori π0 et π1 (π0 + π1 = 1) pour H0 et H1
Le risque du test est défini par

rϕ = E {c0 P(ϕ(Y ) = 1|H0 vraie) + c1 P(ϕ(Y ) = 0|H1 vraie)}


= c0 π0 αϕ + c1 π1 (1 − ρϕ )

Test bayésien
Le test ϕ qui minimise le risque bayésien rϕ est donné par
(
1 si `(y;θ 1)
`(y;θ0 ) > c 0 π0
c 1 π1
ϕ(y) =
0 sinon

Tests et intervalles de confiance Cas de deux hypothèses simples

Preuve

rϕ = c0 π0 αϕ + c1 π1 (1 − ρϕ )
Z
= c0 π0 ϕ(y)`(y; θ0 )µ(dy)
 Z 
+ c1 π1 1 − ϕ(y)`(y; θ1 )µ(dy)

Le risque bayésien minimal est obtenu en


Z
arg min ϕ(y) [c0 π0 `(y; θ0 ) − c1 π1 `(y; θ1 )] µ(dy)
ϕ mesurable

soit
(
1 si c0 π0 `(y; θ0 ) − c1 π1 `(y; θ1 ) < 0
ϕ(y) =
0 sinon (valeur en cas d’égalité indifférente)
Tests et intervalles de confiance Cas de deux hypothèses simples

Exemple (Test de deux lois normales de même variance)


(
H0 : Y ∼ N (µ0 , σ)
H1 : Y ∼ N (µ1 , σ) avec µ1 > µ0

`(Y ; θ1 ) `(Y ; θ1 )
≷ s ⇔ log ≷ log s
`(Y ; θ0 ) `(Y ; θ0 )
" 2  2 #
1 Y − µ1 Y − µ0
⇔− − ≷ log s
2 σ σ
 
(µ1 − µ0 ) Y − (µ0 + µ1 )/2
⇔ ≷ log s
σ σ
De même pour n observations
 Pn 
`n (Y1 , . . . , Yn ; θ1 ) (µ1 − µ0 ) i=1 {Yi − (µ0 + µ1 )/2}
log =
`n (Y1 , . . . , Yn ; θ0 ) σ σ
Tests et intervalles de confiance Cas de deux hypothèses simples

Test de deux lois normales de même variance (suite)


1 Pn
i=1 {Yi − (µ0 + µ1 )/2} a pour loi

σ n
( √  −µ0  
Sous H0 , N − n µ12σ ,1
√ µ1 −µ0
  
Sous H1 , N n 2σ , 1

1 Pn
D’où pour le test i=1 {Yi
− (µ0 + µ1 )/2} ≷ t :

σ n
(t) √  µ1 −µ0 
Risque de première espèce α = 1 − Φ t + n 2σ
(t) √  µ1 −µ0 
Puissance ρ = 1 − Φ t − n 2σ

La courbe ρ(t) en fonction de α(t) (lorsque t varie) est dite courbe


COR (Caractéristique Opérationnelle de Réception) et nous
renseigne sur le compromis entre les deux objectifs antagonistes
ρ(t) ↑ et α(t) ↓
Tests et intervalles de confiance Cas de deux hypothèses simples

puissance

1.0

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0 risque 1er esp.


0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Fig.: Courbes COR pour (µ1 − µ0 )/σ = 0.2 avec 10, 50 et 200
observations

Tests et intervalles de confiance Cas de deux hypothèses simples

Dans l’approche de Neyman-Pearson


1 On dissymétrise les deux types d’erreurs :
(
H0 est l’hypothèse de référence ou hypothèse nulle
H1 est l’hypothèse alternative

2 On cherche à maximiser la puissance du test sous la


contrainte que le risque de première espèce αϕ (θ) soit
inférieur à une valeur α spécifiée par l’utilisateur
Le niveau du test est la valeur αϕ = supθ∈Θ0 αϕ (θ)

Test UPP (Uniformément Plus Puissant) [Définition 6.9]


Un test ϕ est dit UPP dans la classe C si αϕ̃ ≤ αϕ pour ϕ̃ ∈ C
implique

ρϕ̃ (θ) ≤ ρϕ (θ) ⇔ Eθ [ϕ̃(Y )] ≤ Eθ [ϕ(Y )]

pour θ ∈ Θ1
Tests et intervalles de confiance Cas de deux hypothèses simples

Lemme de Neyman-Pearson [Proposition 6.13]


Pour tout α, 0 < α < 1, il existe un test de Neyman de la forme*
(
1 si `(y; θ1 )/`(y; θ0 ) > s
ϕ(y) =
0 si `(y; θ1 )/`(y; θ0 ) < s (où s ∈ R+ )

qui est de niveau α ; celui-ci est UPP dans la classe des tests de
niveau inférieur ou égal à α
Inversement, un test qui possède ces propriétés est nécessairement
un test de Neyman

“n o”
* `(y;θ1 )
La formulation ci-dessus suffit si on suppose que µ y: `(y;θ0 )
=s =0
∀s ∈ R+ , sinon il faut régler plus précisément le cas d’égalité (en considérant
un test mixte)
Tests et intervalles de confiance Cas de deux hypothèses simples

Preuve La preuve complète est donnée dans le polycopié


L’argument principal est le fait que si ϕ est un test de Neyman
associé au seuil s et ϕ̃ est un autre test
Z
[ϕ(y) − ϕ̃(y)] [`(y; θ1 ) − s`(y; θ0 )] µ(dy) ≥ 0

d’où
Eθ1 [ϕ(Y ) − ϕ̃(Y )] ≥ s Eθ0 [ϕ(Y ) − ϕ̃(Y )]
c’est à dire
ρϕ − ρϕ̃ ≥ s (αϕ − αϕ̃ )
Tests et intervalles de confiance Cas général : Approche de Neyman-Pearson

Cas général

Les arguments précédents se généralisent difficilement dans le cas


où les deux hypothèses ne sont pas des hypothèses simples*
L’approche adoptée dans la suite consiste à
1 Choisir une statistique de test ξ(Y ) dont la loi est connue
sous H0
2 Ajuster le seuil s de façon à ce que le test ϕ(Y ) correspondant
à ξ(Y ) ≷ s soit de niveau α (fixé par l’utilisateur,
suffisamment faible pour que le test soit significatif)
3 Si possible, évaluer la puissance du test (sous H1 )

*
Voir toutefois le cas d’une hypothèse composite unilatérale [Section 6.3.2]
Tests et intervalles de confiance Cas général : Approche de Neyman-Pearson

(Exemple) Cas de la régression linéaire – Test de Student


Dans le modèle Yi = β0 + β1 Xi + Ui avec
Ui ∼ N (0, σ 2 ), on sait que

ξn = (β̂1 − β1 )/ σ̂ 2 x11 temperature

20

v 15

u n 10

uX (β̂1 − β1 )
Xi2 √
5

=t 0

i=1 σ̂ 2 −5

−10

−15

suit une loi de Student à n − 2 degrés de −20


−15 −10 −5 0 5 10
latitude

libertés (cf. cours précédent + régresseurs


centrés)
qP
n 2√|β̂1 |
On utilise ξn = i=1 i σ̂ 2 pour tester l’hypothèse H0 :
X
β1 = 0, c’est-à-dire, (( les régresseurs n’ont pas d’influence sur la
valeur des variables de réponse ))
Tests et intervalles de confiance Cas général : Approche de Neyman-Pearson

En utilisant la [Table n˚4] ou


équivalent (fonction cdft en
scilab) on détermine le seuil
α
z1−α/2 tel que

P(T > z1−α/2 ) = α/2


z1−α/2 ξn

pour une variable T de loi de


Student à n − 2 degrés de liberté,
où α est le niveau de confiance ξn ≤ z1−α/2 ⇒ H0 acceptée
(souvent pris à 0.05)
ξn > z1−α/2 ⇒ H0 refusée
(au niveau de confiance α)
Remarque Pour une idée plus qualitative du résultat, on calcule
souvent la probabilité critique (ou p-valeur) : 2P(T > ξn )
(interprétation : le niveau de confiance maximum pour lequel on
aurait rejeté l’hypothèse H0 )
Tests et intervalles de confiance Cas général : Approche de Neyman-Pearson

temperature temperature

20 20

15 15

10 10

5 5

0 0

−5 −5

−10 −10

−15 −15

−20 latitude −20 longitude


−15 −10 −5 0 5 10 −30 −20 −10 0 10 20 30 40

températures/latitudes températures/longitudes
n H0 (α = 0.05) p-valeur n H0 (α = 0.05) p-valeur
7 Acceptée 0.14 7 Acceptée 0.60
14 Rejetée 6.7 10−5 14 Acceptée 0.90
28 Rejetée 6.5 10−10 28 Acceptée 0.78
56 Rejetée 1.1 10−16 56 Acceptée 0.87
Tests et intervalles de confiance Intervalles de confiance

Les intervalles de confiances

Question posée Au vu des données, quelles sont les valeurs de θ


qui sont crédibles ? Et comment quantifier la fiabilité de la réponse
fournie à cette question ?

Région de confiance [Définition 8.1]


Une région de confiance pour θ est une fonction S(y) de y à valeur
dans l’ensemble des parties de Y telle que

Pθ (θ ∈ S(Y )) = 1 − α

où 1 − α est dit probabilité de couverture ou niveau de confiance


Si θ est un paramètre scalaire, on parle d’intervalle de confiance

Tests et intervalles de confiance Intervalles de confiance

Fonction pivotale
Une fonction v(y; θ) est dite pivotale si la loi de v(Y ; θ) ne dépend
pas de θ sous Pθ

Si v est un fonction pivotale à valeur réelle telle que


Pθ (v(Y ; θ) ∈ [a, b]) = 1 − α,

{θ : v(Y ; θ) ∈ [a, b]}

constitue une région de confiance de probabilité de


couverture 1 − α

Si v(Y ; θ) a une loi symétrique sous Pθ , on vérifie que pour une


probabilité 1 − α donnée, l’intervalle de longueur minimale vérifiant
les conditions ci-dessus est de la forme [−a, a] ; c’est celui-ci qui
sera choisi
Tests et intervalles de confiance Intervalles de confiance

(Exemple) Cas de la régression linéaire Dans le modèle


Yi = β0 + β1 Xi + Ui avec Ui ∼ N (0, σ 2 ), on sait que
v
u n
uX (β̂1 − β1 )
t Xi2 √
i=1 σ̂ 2

suit une loi de Student à n − 2 degrés de libertés

Si z1−α/2 désigne le niveau dépassé avec probabilité α/2 pour


cette loi,
 √ √ 
2 σ̂ 2
β̂1 − z1−α/2 q σ̂ , β̂1 + z1−α/2 qP 
Pn 2 n 2
i=1 Xi i=1 Xi

est l’intervalle de confiance de probabilité 1 − α pour β1

Tests et intervalles de confiance Intervalles de confiance

Dans le cas précédent, l’intervalle de confiance obtenu coı̈ncide


avec l’ensemble des valeurs de β1∗ pour lequel le test d’hypothèse
H0 : β1 = β1∗ de niveau α aurait été accepté, compte tenu de la
valeur estimé β̂1

Par exemple On peut tester H0 : β1 = 0 en vérifiant si l’origine se


situe ou non dans l’intervalle
 √ √ 
2 σ̂ 2
β̂1 − z1−α/2 q σ̂ , β̂1 + z1−α/2 qP 
Pn 2 n 2
i=1 Xi i=1 Xi

Cette équivalence entre test et intervalle de confiance constitue


une remarque générale
Tests et intervalles de confiance Intervalles de confiance

temperature temperature

20 20

15 15

10 10

5 5

0 0

−5 −5

−10 −10

−15 −15

−20 latitude −20 longitude


−15 −10 −5 0 5 10 −30 −20 −10 0 10 20 30 40

températures/latitudes températures/longitudes
n Intervalle de confiance à 95% n Intervalle de confiance à 95%
7 −0.76 ± 1.13 7 0.07 ± 0.34
14 −1.15 ± 0.42 14 −0.02 ± 0.33
28 −1.15 ± 0.25 28 −0.03 ± 0.19
56 −1.14 ± 0.19 56 0.01 ± 0.13