Vous êtes sur la page 1sur 14

23 mai 2006 1

Introduction à la régression
cours n°2 - Estimation

ENSM.SE – 1A
Olivier Roustant
23 mai 2006 2

Objectif du cours
 Considérons une variable dépendant linéairement d’une
autre : y ≈ β0 + β1x

 Quelques méthodes d’estimation de β0 et β1:


 Minimiser la somme des (yi-(β0 + β1xi))2 MOINDRES CARRES
 Minimiser la somme des |yi-(β0 + β1xi)|, des (yi-(β0 + β1xi))4 …

 On utilise souvent les moindres carrés.


 A-t-on toujours raison de le faire ?
 Quand peut-on le faire ? Quel critère utiliser en général ?
23 mai 2006 3

1ère partie. Estimation. Cadre.


Méthodes de construction d’estimateurs
 Cadre : voir poly p. 54
 Estimation / estimateur : voir poly p. 56
 Méthodes de construction d’estimateurs
 Méthode des moments : cf. p. 59
 Maximum de vraisemblance : cf. p. 60 et 61
 Propriétés (biais, variance, risque)
 Sera vu en TD mardi 30 mai
23 mai 2006 4

Exemple
 On dispose d’un échantillon x1, …, xn d’une
loi normale N(µ,σ2). Estimation de µ et σ2?
 Estimations naturelles : n
– µ=E(Xi) ⇒ µˆ = x := 1
"
n i=1
xi
n
1
– σ2 = var(Xi) ⇒ "ˆ =
2
$ i(x # x ) 2

n i=1
!
 Remarque : ce sont les estimateurs obtenues par la
méthode !des moments
23 mai 2006 5

Exemple (suite)
 Estimation par maximum de vraisemblance
 On écrit la vraisemblance :
n 2
1 (x % µ )
L(x1,..., x n ;µ," 2 ) = $ exp(% i 2 )
i=1 " 2#
2"

 On cherche µ et σ de façon à maximiser L, ou de


!façon équivalente, à minimiser -2log(L)
1 n
"2log(L) = n ln(# ) + n ln(2$ ) + 2 % (x i " µ) 2
2

# i=1

!
23 mai 2006 6

Exemple (suite)
 On écrit les conditions du 1er ordre
 Estimation de µ
" " n
(#2log(L)) ( µ*,$ * 2 ) = 0 % (& (x i # µ) 2 ) ( µ*,$ * 2 ) = 0
"µ "µ i=1

 Deux remarques :
! – Revient à minimiser la somme des carrés (xi - µ)2
– L’estimation obtenue est l’estimateur usuel de la moyenne
n
" 1

(#2log(L)) ( µ*,$ * 2 ) = 0 % ... % µ* = x :=
n
&x i
i=1
23 mai 2006 7

Exemple (suite)
 Estimation de σ2
n
" 1
"# 2
($2log(L)) ( µ *,# * 2 )
= 0 % ... % (# *) 2
=
n
& (x i $ x ) 2

i=1

 On retrouve l’estimateur « naturel » de la variance


!

 Remarque : moindres carrés ⇐ loi normale


23 mai 2006 8

Exercice
 Considérons un échantillon x1, …, xn de la loi de
Laplace, définie par sa densité
1 |t #µ |
f µ ," (t) = exp(# )
2" "
 Vérifier que :
 µ est à la fois l’espérance et la médiane de la loi de Laplace
!
 L’estimateur de maximum de vraisemblance de µ s’obtient
en minimisant la somme des valeurs absolues | xi - µ |
 Il s’agit de la médiane des xi
23 mai 2006 9

2ème partie
Application à la régression
 Considérons le modèle linéaire avec 1 prédicteur
 yi = β0 + β1xi + εi, avec ε1, ε2,…, εn i.i.d N(0,σ2)
 Notons (yi, obs)1≤i≤n les résultats des expériences xi

Trois paramètres à estimer : β0, β1 et σ2


 Estimation usuelle :
 β0, β1 par moindres carrés
 Ensuite, σ2 = E(εi2) = E((yi-(β0+β1xi)2) estimé par
n
1 ˆ + $ˆ x )) 2
"ˆ 2 =
n
% (y i,obs # ( $ 0 1 i
i=1
23 mai 2006 10

Estimation par Maximum de


Vraisemblance (EMV)
 Remarque : la v.a yi s’obtient à partir de εi
par translation de la quantité fixe β0 + β1xi

Conséquences :
 Les yi sont aussi indépendantes
 yi est de loi N(β0 + β1xi, σ2)
 La vraisemblance des observations s’écrit :
n ' { y & (" + " x )}2 *
1
L(y1,obs,..., y n,obs;" 0 , "1,# 2 ) = % exp))& i,obs 0 1 i
,
2# 2 ,
i=1 # 2$ ( +
23 mai 2006 11

EMV (suite)
 Minimisation de -2log(L)
 Estimation de β0 et β1:
" " n 2
($2log(L)) ( # * ,# * ,% * 2 ) = 0 & ('{ y i,obs $ (# 0 + #1 x i )} ) ( # * ,# * ,% * 2 ) = 0
"# k 0 1
"# k i=1 0 1

 On retrouve les moindres carrés


!  C’est dû à l’hypothèse que les εi sont de loi normale
– Si les εi étaient supposés de loi de Laplace, on obtiendrait β0
et β1 en minimisant la somme des valeurs absolues des écarts
23 mai 2006 12

EMV (suite)
 Estimation de σ2
n
" 1
"# 2
($2log(L)) ( % 0* , % 1* ,# * 2 )
= 0 & ... & (# * 2
) =
n
' (y i,obs $ ( % *
0 + % *
1 ix )) 2

i=1

 On retrouve l’estimateur usuel


!
23 mai 2006 13

Retour sur les objectifs


 Considérons le modèle linéaire avec 1 prédicteur
 yi = β0 + β1xi + εi, avec ε1, ε2,…, εn i.i.d

 Alors le critère à utiliser pour estimer la droite de


régression dépend des hypothèses sur la loi des εi
 εi de loi N(0,σ2) ⇒ EMV = Moindres carrés
 εi de loi de Laplace ⇒ EMV = Moindres valeurs absolues
 Etc.
23 mai 2006 14

Exercice
 Vous pouvez réaliser n expériences pour estimer un
phénomène linéaire sur [a,b] impliquant 1 prédicteur
 Comment répartir les expériences dans le domaine expérimental
[a,b] de façon à ce que l’estimation soit la plus précise possible ?

Vous aimerez peut-être aussi