Vous êtes sur la page 1sur 6

Econométrie

Cours 6

• Matière du cours :
— Formulation du modèle de régression linéaire multiple
— Estimation MCO des paramètres du modèle
— Propriétés de l’estimateur MCO
— Intervalles de confiance et tests d’hypothèses de β j
— Prévision et intervalles de prévision

1. Formulation du modèle de régression linéaire multiple

• Le modèle de régression multiple est un modèle statistique générique pour évaluer :


— la façon dont la valeur moyenne prise par une variable y varie en fonction de
plusieurs autres variables (x2, ..., xk ) dans une population,
— sur base d’un échantillon d’observations de la population

• Eléments-clés :

— La valeur moyenne prise par une variable y en fonction d’autres variables (x2, ..., xk )
constitue la contrepartie empirique de la relation théorique d’intérêt
— En termes probabilistes, la valeur moyenne prise par une variable y en fonction
d’autres variables (x2, ..., xk ) est représentée par l’espérance conditionnelle :

E(y|x2, ..., xk ) = g(x2, ..., xk )

où (x2, ..., xk ) et y sont les valeurs des variables pour un individu tiré au hasard
3

— Le modèle probabiliste (de la population) suppose :


∗ que l’espérance conditionnelle est linéaire :
E(y|x2, ..., xk ) = β 1 + β 2x2 + ... + β k xk

∗ que la variance conditionnelle est constante :


V ar(y|x2, ..., xk ) = σ 2

∗ de façon optionnelle, que la distribution conditionnelle est normale :


y|x ∼ N(β 1 + β 2x2 + ... + β k xk , σ 2)

— Les observations (xi2, ..., xik , yi), i = 1, ..., n, sont supposées être obtenues par
échantillonnage aléatoire, ou à tout le moins pouvoir être considérées comme
telles

— Pour simplifier, les xij sont traités comme fixes, non-stochastiques

• On note : 
    β1  
y1 1 x21 · · · xk1   e1
Y =  .
.  , X = ..
 .. · · · ..  , β =  β.2  et e =  .. 
 . 
yn 1 x2n · · · xkn en
βk

• Le modèle et ses hypothèses s’écrivent :


A1 Y = Xβ + e
A2 E(e) = 0 ⇔ E(Y ) = Xβ
A3 - A4 V (e) = σ 2I = V (Y )
A5 X est non-stochastique et rg(X) = k
A6 (Opt.) e ∼ N 0, σ 2I ⇔ Y ∼ N(Xβ, σ 2I)

• Intérêt majeur de la régression multiple :


La possibilité d’évaluer l’effet causal, càd. toutes autres choses étant égales,
d’une variable sur une autre variable
5

2. Estimation MCO des paramètres du modèle


• L’estimateur MCO est défini par : β̂ = Argminβ (Y − Xβ)′(Y − Xβ)

• On obtient : −1
β̂ = (X ′X) X ′Y
 n n
−1  n

  n xi2 ··· xik   yi 
β̂  n i=1 i=1   ni=1 
 1  n
x2i2
n   
 β̂   xi2 ··· xi2xik   x i2 yi 
⇔  .2  = 
 i=1 i=1 i=1


 i=1



 .   .. .. ... ..   .. 
β̂ k  n n n
  n 
 2   
xik xik xi2 ··· xik xik yi
i=1 i=1 i=1 i=1

• Remarques :
— L’hypothèse rg(X) = k assure que X ′X est inversible
— L’hyperplan de régression passe par le point moyen de l’échantillon
n
— Sous l’hypothèse A6, l’estimateur MV de β est identique et σ̂ 2 = 1
n
2
i=1 êi

3. Propriétés de l’estimateur MCO


• Le passage de 2 à k variables ne modifie guère les propriétés de l’estimateur MCO

• Sous les hypothèses A1-A5, on a :


   
E(β̂ 1) V ar(β̂ 1) · · · Cov(β̂ 1, β̂ k )
E(β̂) =  ...  = β et V (β̂) =  ... ... ...  = σ 2(X ′X)−1
E(β̂ k ) Cov(β̂ k , β̂ 1) · · · V ar(β̂ k )

• Les facteurs déterminants V (β̂) sont :


— la variance σ 2 du terme d’erreur
— la dispersion des variables explicatives
— la taille de l’échantillon
— la corrélation entre les variables explicatives

• Le théorème Gauss-markov est toujours d’application : β̂ est le meilleur estimateur


linéaire sans biais de β
7

• Sous les hypothèses A1-A6, on a de façon exacte en échantillon fini :

β̂ ∼ N(β, σ 2(X ′X)−1)

• Sous les seules hypothèses A1-A5, on a asymptotiquement :


p − 12 d
β̂ −→ β et V (β̂) β̂ − β −→ N(0, I) ,

soit, pour n suffisamment grand : β̂ ≈ N(β, σ 2(X ′X)−1)

• Sousles hypothèses A1-A5, des estimateurs convergents et non biaisés de σ 2 et V (β̂)


sont donnés par :
n
2 1
ŝ = ê2i et V̂ (β̂) = ŝ2(X ′X)−1
n−k i=1

dont on déduit des estimateurs convergents, mais pas non biaisés, des écarts-types
s.e.(β̂ j ) des différents β̂ j : s.ê.(β̂ j ) = V âr(β̂ j ) , j = 1, ..., k

4. Intervalles de confiance et tests d’hypothèses de β j


• Le passage de 2 à k variables ne modifie guère la forme des intervalles de confiance
et tests d’hypothèses de β j . Le changement le plus notable concerne le nombre de
degrés de liberté de la loi de Student impliquée : (n − k) au lieu de (n − 2)

• Comme dans le cas de la régression simple, les intervalles de confiance et tests


d’hypothèses de β j sont exacts en échantillon fini (quel que soit la taille d’échantillon
n) sous les hypothèses A1-A6, et restent valables asymptotiquement, à titre
approximatif, pour n grand, sous les seules hypothèses A1-A5

• Un intervalle de confiance à (1 − α) × 100% pour β j est donné par :

β̂ j − tn−k;1− α2 s.ê.(β̂ j ) ; β̂ j + tn−k;1− α2 s.ê.(β̂ j )

α
où tn−k;1− α2 est le quantile d’ordre 1 − 2 de la loi t(n − k) et s.ê.(β̂ j ) = ŝ2qjj ,
avec qjj = (X ′X)−1 jj
9

• Les tests d’hypothèses de β j sont donnés par :

Test Règle de décision P -valeur


β̂ j −β oj
RH0 si |t̂o| = > tn−k;1− α2
Bilatéral s.ê.(β̂ j ) pt̂∗o = IP(|t| > |t̂∗o |)
NRH0 sinon

β̂ j −β oj
RH0 si t̂o = > tn−k;1−α
Unilatéral à droite s.ê.(β̂ j ) pt̂∗o = IP(t > t̂∗o )
NRH0 sinon

β̂ j −β oj
RH0 si t̂o = < tn−k;α
Unilatéral à gauche s.ê.(β̂ j ) pt̂∗o = IP(t < t̂∗o )
NRH0 sinon

• Remarques :

— Le test bilatéral peut être effectué au travers de l’intervalle de confiance pour β j


— Dans le calcul des P -valeurs, t ∼ t(n − k)
— L’interprétation de ces procédures de test est inchangée

10

5. Prévision et intervalles de prévision


• Comme dans le cas de la régression simple, le prédicteur :

ŷ0 = β̂ 1 + β̂ 2x02 + ... + β̂ k x0k = X0β̂ , où X0 = 1 x02 · · · x0k ,

peut à la fois être utilisé comme estimateur / prédicteur de l’espérance de y sachant


(x02, ..., x0k ) :
E(y0) = β 1 + β 2x02 + ... + β k x0k = X0β ,
et comme prédicteur de la valeur de y sachant (x02, ..., x0k ) :

y0 = β 1 + β 2x02 + ... + β k x0k + e0 = X0β + e0

• Lepassage de 2 à k variables ne modifie guère la forme des intervalles de prévisions


pour E(y0) et y0. A nouveau, le changement le plus notable concerne le nombre de
degrés de liberté de la loi de Student impliquée : (n − k) au lieu de (n − 2)
11

• Un intervalle de prévision à (1 − α) × 100% pour E(y0) est donné par :

ŷ0 − tn−k;1− α2 s.ê.(p̂0) ; ŷ0 + tn−k;1− α2 s.ê.(p̂0)

où s.ê.(p̂0) = X0V̂ (β̂)X0′ = ŝ2X0(X ′X)−1X0′

• Un intervalle de prévision à (1 − α) × 100% pour y0 est donné par :

ŷ0 − tn−k;1− α2 s.ê.(fˆ0) ; ŷ0 + tn−k;1− α2 s.ê.(fˆ0)

où s.ê.(fˆ0) = ŝ2 + X0V̂ (β̂)X0′ = ŝ2(1 + X0(X ′X)−1X0′ )

• Comme dans le cas de la régression simple, les intervalles de prévisions pour E(y0)
et y0 sont exacts en échantillon fini (quel que soit la taille d’échantillon n) sous
les hypothèses A1-A6. Celui pour E(y0) — mais pas celui pour y0 — reste valable
asymptotiquement, à titre approximatif, pour n grand, sous les seules hypothèses
A1-A5

Vous aimerez peut-être aussi