Académique Documents
Professionnel Documents
Culture Documents
Steve Ambler
Département des sciences économiques
École des sciences de la gestion
Université du Québec à Montréal
c 2018: Steve Ambler
Hiver 2018
Objectifs
et
n
1X 2 p 2
Xi − X̄ − → σX .
n
i=1
Biais dû à une variable omise (suite)
I On a
p Corr (u , X ) σu σX σu
β̂1 −
→ β1 + 2
= β1 + Corr (u , X ) .
σX σX
E (ui |X = Xi ) 6= 0.
Yi = β0 + β1 X1i + β2 X2i + ui
Yi = β0 + β1 X1i + ũi
I Nous avons
Pn
1
− X¯1
n i=1 X1i Yi − Ȳ
β̂1 = 2 =
1 Pn
n i=1 X1i − X¯1
Pn
1
X1i − X¯1
n i=1 β0 + β1 X1i + β2 X2i + ui − β0 − β1 X̄1 − β2 X̄2 −
1 Pn ¯ 2
n i=1 X1i − X1
Pn 2 1 Pn
1
X1i − X¯1 ¯ X2i − X¯2
i=1 i=1 X1i − X1
= β1 n 2 + β 2
n
¯1 2
Pn 1 Pn
1
X1i − X¯1
n i=1 n i=1 X1i − X
1 Pn ¯
X1i − X1 (ui − ū)
+ n i=1 2
1 Pn
n i=1 X1i − X¯1
Exemple (suite)
I ce qui doit enfin être égal à
1 Pn ¯ X2i − X¯2
n i=1 X1i − X1
= β1 + β2
1 Pn ¯ 2
n i=1 X1i − X1
Pn
1
− X¯1 (ui − ū)
n i=1 X1i
+ 2 .
1 Pn
n i=1 X1i − X¯1
I Nous avons
n
1X
X1i − X¯1 X2i − X¯2
n
i=1
I et
n
1X 2 p
X1i − X¯1 − → Var (X1 ) .
n
i=1
Exemple (suite)
I Théorème de Slutsky =>
p Cov (X1 , X2 )
β̂1 −
→ β1 + β2
Var (X1 )
Cov (X1 , X2 )
Var (X1 )
I Modèle :
I Version matricielle :
Y = X β + U,
0
Y ≡ Y1 Y2 . . . Yn
1 X11 X21 . . . Xk1
1 X12 X22 . . . Xk2
X ≡ . .. ,
.. .. ..
.. . . . .
1 X1n X2n . . . Xkn
0
β ≡ β0 β1 β2 . . . βk
0
U≡ u1 u2 . . . un
Estimateur MCO
I Problème de minimisation :
min U 0 U.
β
min (Y − X β)0 (Y − X β) .
β
I Équivalent à :
min Y 0 Y − β 0 X 0 Y − Y 0 X β + β 0 X 0 X β .
β
Estimateur MCO (suite)
⇒ 2X 0 X β − 2X 0 Y = 0
⇒ X 0X β = X 0Y .
I Nous obtenons
−1 −1
X 0X X 0X β = X 0X X 0 Y = β.
I Résultat fondamental :
−1
β̂ = X 0 X X 0Y
Différentiation matricielle
I Application de :
∂y
y ∂x
Ax A0
x 0A A
x 0x 2x
x 0 Ax Ax + A0 x
I Étudiez bien la CPO pour comprendre pourquoi c’est une
application de ces règles.
I Étudiez bien les exemples simples dans les notes.
Approche non matricielle
I Le problème est
n
X
min (Yi − β0 − X1i β1 − X2i β2 − . . . − Xki βk )2 .
β0 ,β1 ,...,βk
i=1
I CPOs :
n
X
β0 : 0 = −2 (Yi − β0 − X1i β1 − . . . − Xki βk ) ;
i=1
n
X
βj : 0 = −2 Xji (Yi − β0 − X1i β1 − . . . − Xki βk )
i=1
pour j 6= 0.
I k + 1 équations (linéaires) en k + 1 inconnus.
Approche non matricielle (suite)
I Nous obtenons
n
X n
X
Yi = (β0 + X1i β1 + . . . + Xki βk ) ;
i=1 i=1
n
X n
X
X1i Yi = X1i (β0 + X1i β1 + . . . + Xki βk ) ;
i=1 i=1
n
X n
X
X2i Yi = X2i (β0 + X1i β1 + . . . + Xki βk ) ;
i=1 i=1
...
n
X n
X
Xki Yi = Xki (β0 + X1i β1 + . . . + Xki βk ) .
i=1 i=1
Approche non matricielle (suite)
Yn
Y1
.
X11 . . . X1n .. = X11 . . . X1n X β̂;
Yn
..
.
Y1
.
Xk1 . . . Xkn .. = Xk1 . . . Xkn X β̂,
Yn
Approche non matricielle (suite)
⇒ X 0 Y = X 0 X β̂
⇒ β̂ = (X 0 X )−1 X 0 Y .
X 0 X β̂ = X 0 Y
⇒ X 0 X β̂ − Y = 0
⇒ X 0 Y − X β̂ = 0.
Y − X βb ≡ U.
b
Figure 1
Propriétés algébriques (suite)
I Définissons
Ŷ ≡ X β̂,
I Nous avons
−1 0 0 −1 0
Ŷ 0 Ub = X X 0 X X Y Ub = Y 0 X X 0 X X Ub = 0.
−1
= X 0X X 0X X 0 Y − X 0 Y = X 0 Y − X 0 Y = 0.
I On définit
SER ≡ su ,
où
n
1 X SSR Ub0 Ub
su2 ≡ ûi2 = = .
n−k −1 n−k −1 n−k −1
i=1
0
= Ŷ + Ub − Ȳ Ŷ + Ub − Ȳ
0
= Ŷ − Ȳ + Ub Ŷ − Ȳ + Ub
0 0
= Ŷ − Ȳ Ŷ − Ȳ + Ŷ − Ȳ Ub + Ub0 Ŷ − Ȳ + Ub0 Ub
0
= Ŷ − Ȳ Ŷ − Ȳ + Ub0 Ub
≡ ESS + SSR,
ce qui fut à démontrer.
Ajustement statistique (suite)
I On a
M 0 Y = Y − Ȳ,
0
M 0 = M 0, et M 0M 0 = M 0.
Ŷ 0 M 0 Ŷ
= .
Y 0M 0Y
Nous avons aussi
M 0 Û = Û
puisque la somme des résidus est zéro.
Ajustement statistique (suite)
I Donc, nous avons
Ŷ 0 M 0 Ŷ = Ŷ 0 M 0 Y − Û
= Ŷ 0 M 0 Y − Ŷ 0 M 0 Û
= Ŷ 0 M 0 Y − Ŷ 0 Û
= Ŷ 0 M 0 Y − β̂ 0 X 0 Û
(puisque Ŷ ≡ X β̂)
= Ŷ 0 M 0 Y − 0 = Ŷ 0 M 0 Y
Ŷ 0 M 0 Y
R2 =
Y 0M 0Y
Ŷ 0 M 0 Y Ŷ 0 M 0 Y
=
Y 0 M 0 Y Ŷ 0 M 0 Y
(multipliant numérateur et dénominateur par la même chose)
Ŷ 0 M 0 Y Ŷ 0 M 0 Y
=
(Y 0 M 0 Y ) Ŷ 0 M 0 Y
Ŷ 0 M 0 Y
Ŷ 0 M 0 Y
= .
(Y 0 M 0 Y ) Ŷ 0 M 0 Ŷ
Ajustement statistique (suite)
P
n
2
i=1 Ŷi − Ȳ Yi − Ȳ
= 2
Pn 2 Pn
i=1 Yi − Ȳ i=1 Ŷi − Ȳ
1 Pn 2
n−1 i=1 Ŷi − Ȳ Yi − Ȳ
= 2
1 Pn 2 1 Pn
n−1 i=1 Yi − Ȳ n−1 i=1 Ŷi − Ȳ
Ajustement statistique (suite)
2
1 Pn
n−1 i=1 Ŷi − Ȳ Yi − Ȳ
= r
q Pn 2 2
1 1 Pn
n−1 i=1 Yi − Ȳ n−1 i=1 Ŷi − Ȳ
2
≡ Corr Y , Ŷ .
2
1 Pn
n−1 i=1 Xi − X̄ β̂1 Yi − Ȳ
=
q r
2
1 Pn 2 1 P n
n−1 i=1 Yi − Ȳ n−1 i=1 Xi − X̄ β̂1
Ajustement statistique (suite)
Pn 2
1
n−1 i=1 Xi − X̄ Yi − Ȳ
= q Pn 2 q 1 Pn 2
1
n−1 i=1 Yi − Ȳ n−1 i=1 Xi − X̄
2
≡ Corr (Y , X )
2
⇒ R 2 = Corr (Y , X ) .
⇒ Y = X β̂.
⇒ β̂ = X −1 Y .
n − 1 SSR s2
R̄ 2 ≡ 1 − = 1 − 2û .
n − k − 1 TSS sY
I Hypothèses de base :
1. E (ui |Xi ) = 0.
2. (Xi , Yi ) i.i.d.
3. Xi et ui ont des quatrièmes moments non nuls et finis.
4. X est de rang plein en colonnes. En fait, cette hypothèse est
nécessaire pour que l’estimateur MCO existe.
I Hypothèses additionnelles :
1. Var (ui |Xi ) = σu2 .
2. La distribution de ui conditionnelle à la valeur de Xi suit une
loi normale.
Absence de biais
I Nous avons
β̂ = (X 0 X )−1 X 0 Y
= (X 0 X )−1 X 0 (X β + U)
= β + (X 0 X )−1 X 0 U
→ E β̂ = β + E (X 0 X )−1 X 0 U
= β + E (X 0 X )−1 X 0 E (U|X ) = β.
p
I Convergence en probabilité et en distribution. Si an −
→ a où a
d
est une constante et si Sn −
→ S, alors
d
an + Sn −
→ a + S,
d
an Sn −
→ aS,
et si a 6= 0,
Sn d S
−
→ .
an a
Convergence
I Nous avons
β̂ = (X 0 X )−1 X 0 Y
= (X 0 X )−1 X 0 (X β + U)
= β + (X 0 X )−1 X 0 U
(X 0 X ) −1 (X 0 U)
→ β̂ − β =
n n
Nous avons divisé et multiplié par le scalaire n afin de pouvoir
0
parler de convergence en probabilité. (XnX ) est une matrice
dont l’élément i, j est donné par
n
Xi 0 Xj 1X
= Xi−1,l Xj−1,l .
n n
l=1
Convergence (suite)
I Par une des hypothèses du modèle de régression multiple,
nous avons
Xi 0 Xj
= E Xi 0 Xj .
lim
n→∞ n
(Qx )−1
Convergence (suite)
I Le 2e terme converge en probabilité à zéro. Voici l’argument.
0 0
(X U) (X E (U|X ))
E =E = 0.
n n
I Avec une espérance de zéro et une variance qui tend vers zéro,
on a (presque) la preuve de la convergence :
(X 0 U) p
−
→ 0.
n
n
1 X d
√ Vi −
→ N (0 , ΣV ) ,
n
i=1
ΣV ≡ E Vi Vi 0 .
Distribution échantillonnale de β̂ (suite)
E UU 0 = σu2 In .
Nous avons 0 0
(X 0 U)
(X U)
√ √
n n
0
X UU 0 X p
1 2 0 1 2 0
= −
→E σ X In X = E σ X X = σu2 Qx .
n n u n u
I Donc
√
d
→ N 0k+1 , σu2 Qx −1 Qx Qx −1 = N 0k+1 , σu2 Qx −1 .
n β̂ − β −
Estimateurs convergents
(X 0 X )
Q̂x ≡ .
n
= β + DX β
Gauss-Markov : preuve (suite)
I Nous avons
Var β̃ − Var β̂ = σu2 DD 0
⇒ Var c 0 β̃ − Var c 0 β̂ = σu2 c 0 DD 0 c ≥ 0,
β̂i − βiH0
t= .
sβ̂i
t ∼ N (0 , 1) .
Φ (−|t a |) = Pr (t ≤ −|t a |)
!
β̂i − βiH0
= Pr t ≤ − .
sβ̂i
Tests d’hypothèses simples : H1 unilatérale 1
I On a
H0 : βi = βiH0
et
H1 : βi > βiH0 ,
I On a
H0 : βi = βiH0
et
H1 : βi < βiH0 ,
H0 : β1 + β2 = 1,
contre
H1 : β1 + β2 6= 1.
Combinaison linéaire de coefficients (suite)
Yi = β0 + X1i γ1 + Zi β2 + . . . + Xki βk + ui ,
β̂1 − β1H0
t1 = ,
sβ̂1
β̂2 − β2H0
t2 = .
sβ̂2
Pr (A ∪ B) ≤ Pr (A) + Pr (B) ,
H0 : β 1 = β 2 = 0
et
H1 : ∃i, i = 1, 2 tel que βi 6= 0.
= β1 = 0.
Une seule restriction comme cas spécial (suite)
I Nous avons dans ce cas
−1
0
1
0
F = β̂1 − 0 0 1 0 . . . 0 Σ̂β̂ β̂1 − 0 .
..
.
0
I Deuxième exemple :
H0 : β1 + β2 = 1.
(SSRrestricted − SSRunrestricted ) /q
F = .
SSRunrestricted / (n − kunrestricted − 1)
Cas homoscédastique (suite)
I Formule équivalente :
2 2
Runrestricted − Rrestricted /q
F = 2
,
1 − Runrestricted / (n − kunrestricted − 1)
Yi = β0 + ui .
⇒ R 2 = 0.
Test de significativité de la régression (homoscédasticité)
R 2 /k
F =
(1 − R 2 ) / (n − k − 1)
R2 (n − k − 1)
= ,
(1 − R 2 ) k
I 2
Je n’ai pas écrit explicitement Runrestricted puisqu’il n’y a
I Un échantillon d’individus.
I Une première variable dichotomique prend la valeur de un
lorsque l’individu est une femme et zéro autrement.
I Une deuxième prend la valeur de un lorsque l’individu est un
homme et zéro autrement.
Multicollinéarité parfaite (exemple simple suite)
I Nous pourrions avoir
1 0 1
0 1 1
1 0 1
X1 = 1 , X2 = 0 ⇒ X1 + X2 = 1 .
0 1 1
. .. ..
..
. .
0 1 1
I On a
Yi − Ȳ = β1 X1i − X̄1 + β2 X2i − X̄2 + (ui − ū)
ou
β1
Y =X +U
β2
I Estimateur MCO :
β̂1
= (X 0 X )−1 X 0 Y
β̂2
Multicollinéarité imparfaite (exemple suite)
σX2 2
1 −σX1 ,X2
= 2 2
σX1 σX2 − (σX1 ,X2 )2 −σX1 ,X2 σX2 1
Multicollinéarité imparfaite (exemple suite)
I ce qui donne
" #
σ2 σX2 2
σβ̂2 = u
1 n σX2 1 σX2 2 − (σX1 ,X2 )2
1 1 2
= 2 σu
n (σX1 ,X2 )
σX2 1 − σX2
2
" #
1 1 σu2 1 1 σu2
= = .
(σX1 ,X2 ) σX2 1 n 1 − ρ2X1 ,X2 σX2 1
2
n
1− σX2 σX2
1 2