Académique Documents
Professionnel Documents
Culture Documents
MODÈLE LINÉAIRE
Ct = a + bYt + ut (1)
La loi de la demande :
X = a − bPX + ut (2)
La fonction de coût total :
Hypothèses du modèle
Hypothèses
1 H1 : Résidus sont centrées conditionnellement à xt
E (ut |xt ) = 0 ∀t = 1, . . . , T
2 H2 : Homocédasticité :
V (ut ) = σ2 IT
3 Normalité des erreurs
Cov (ut , us ) = 0, ∀t , s
5 H4 : Les xt sont déterministes (non aléatoires) :
Principes
yt = a + bxt + ut (8)
MCO
T
∂SCR (â , b̂ ) X
= −2 yt − â − b̂xt xt = 0 (12)
∂b̂ t =1
Estimateurs MCO
La résolution du système donne
â = ȳ − b̂ x̄ (13)
PT
t =1 (yt − ȳ )xt
b̂ = PT
t =1 (xt − x̄ )xt
PT
t =1 (yt − ȳ )(xt − x̄ ) T ∗ Cov (x , y )
= PT =
t =1 (xt − x̄ )
2 T ∗ V (x )
PT
t =1 yt xt − T x̄ ȳ )
= PT 2 2
t =1 (xt − T x̄ )
PT T PT
t =1 (xt − x̄ ) (xt − x̄ )
X
= PT yt = ωt yt avec ωt = PTt =1
2 2
t =1 (xt − x̄ ) t =1 t =1 (xt − x̄ )
Exemple d’application
Soient T=5 observations suivantes sur les yt et xt
xt 1 2 3 4 5
yt 2 4 5 7 10
28 15
â = − 1.9( ) = −0.1
5 5
10
8
6
4
2
1 2 3 4 5
x
y Fitted values
Espérances mathématiques
â et b̂ sont-ils des estimateurs sans biais de a et b ?
X X
â = zt yt = zt (a + bxt + ut )
X X X
= a zt + b zt xt + zt ut
a + 0 + zt ut où zt = T1 − x̄ ωt
P
X
et E (â ) = a + zt E (ut ) = a
X X
b̂ = ωt yt = ωt (a + bxt + ut
X X X
= a ωt + b ωt xt + ωt ut
P
0+b + ωt ut
X
et E (b̂ ) = b + ωt E (ut ) = b
P 2
! σ2 P xt
V (â ) Cov (â , b̂ )
T tT=1 (xt −x̄ )2
CV = = (17)
Cov (â , b̂ ) V (b̂ ) −σ2 PT x̄ PT
σ2
(x −x̄ )2
t =1 t t =1 (xt −x̄ )
2
σ2
E b̂ = b et V (b̂ ) = PT −→ 0 si T → ∞
2
t =1 (xt − x̄ )
σ2 xt2 /T
P
E (â ) = a et V (â ) = PT −→ 0 si T → ∞
t =1 (xt − x̄ )2
x2
P
sous la condition que limT →∞ T t existe.
En résumant toutes les observations sur l’équation linéaire
Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 11 / 61
Les Estimateurs des moindres carrés Convergence en probabilité
yt = a + bxt + ut , il vient
y1 1 x1 u1
y2
1
x2
u
2
.. = .. a + .. b + ..
. . . .
yT 1 xT uT
y1 1 x1 u1
y2 1 x2 u2
!
a
⇒ .. = .. .. + ..
b
. . .
.
yT 1 xT uT
( P P
T â + b̂ xt = y
Équations normales : P t
â xt + b̂ xt2 =
P P
xt yt
P ! ! P !
T xt â yt
⇒ P P 2 = P
xt xt b̂ xt yt
Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 11 / 61
Les Estimateurs des moindres carrés Estimation de la variance des erreurs
En notant
1 x1
1 x2
X = .. ..
. .
1 xT
et !
â
β̂ =
b̂
on obtient l’écriture matricielle :
(X ′ X )β̂ = X ′ y ⇒ β̂ = (X ′ X )−1 X ′ y
La matrice inverse peut s’écrire :
P !−1 P 2 P !
T xt 1 x − xt
P P 2 = P Pt
xt xt T (xt − x̄ ) 2 − xt T
P 2
1 xt −x̄
= P T
(xt − x̄ )2 −x̄ 1
Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 11 / 61
Les Estimateurs des moindres carrés Estimation de la variance des erreurs
Théorème 3.1
Théorème de Gauss-Markov
Sous les hypothèses H1 à H4 , l’estimateur des moindres carrés ordinaires
est le meilleur estimateur sans biais de β. On parle d’estimateur BLUE
(Best Linear Unbiased Estimator en anglais)
Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 12 / 61
Les Estimateurs des moindres carrés Estimation de la variance des erreurs
Variance résiduelle
1 X
s2 = ût2
T −2
On peut interpréter la division par (T-2) de la manière suivante. La division
par (T-2) est motivée par les deux conditions liant les résidus à savoir :
X X
ût = 0 et ût xt = 0
2
R ou coefficient de détermination
ANOVA
x̄ = 3
ȳ = 5.6
X
(xt − x̄ )2 = 10
X
(yt − ȳ )2 = 37.20 = SCT
1.9
ou ŷt = |{z} 1.9 xt
−0.1 + |{z} (R 2 = 0.97; tb̂ = = 9.88)
0.192
(−0.157) (9.88)
H0 : ut ∼ N (0, σ2 )
Cas 1 : σ2 connue :
b̂ − b â − a
∼ N (0, 1) et ∼ N (0, 1) si T-2 > 30
σb̂ σâ
σ2
" #
1 x̄
avec σ2b̂ = P σ2â =σ 2
+P
(xt − x̄ )2 T (xt − x̄ )2
L’expression de la probabilité est donnée par
" #
b̂ − b
P −z 2 ≤α ≤ z2 = 1 − α
α
σb̂
Cas 2 σ2 inconnue
On utlise l’estimateur sans biais de σ2 pour construire notre intervalle.
ût2
P
2
s = ?
T −2
q b̂ −b
b̂ − b b̂ − b σ2 ( P 1 )
(xt −x̄ )2
t (b̂ ) = = rP = r
σb̂ ût2
P 2
ût
P 1
T −2 (xt −x̄ )2 2
σ (T −2)
N
= def
D
avec
ût2
P
∼ χ2 (T − 2)
σ2
On en déduit que
N
∼ t (T − 2)
D
Donc :
b̂ − b â − a
∼ tT −2 et, de manière analogue ∼ tT −2
s b̂ s â
et les intervalles de confiance sont donnés par :
h i
P b̂ − tT −2; α2 sb̂ ≤ b ≤ b̂ + tT −2; α2 sb̂ = 1 − α
Exemple :
H0 : b = b0 vs H1 : b , b0
on ne rejettera pas H0 si b ∈ [binf , bsup ]
Pour tester :
H0 : b = b0 contre H1 : b < b0
on rejette H0 si b0 < b̂ − tT −2; α2 sb̂ .
Pour tester :
H0 : b = b0 contre H1 : b > b0
on rejette H0 si b0 > b̂ + tT −2; α2 sb̂
Des procédures analogues sont évidemment valables pour le paramètre â
Tests bivariés
H0 : a = a0 et b = b0 vs H1 : a , a0 ou b , b0 ou les deux
Q /2
Fobs =
s
avec h X i
Q = T (â − a0 )2 + 2T x̄ (b̂ − b0 ) + xt2 (b̂ − b0 )2 ≥ 0
Fobs suit une distribution F2,T −2 . On rejette H0 si
γ̂ = αâ + βb̂
Variance γ̂ :
Prévision
yθ = a + bxθ + uθ et
Prévision suite
E (yθ − ŷθ ) = 0
Prévision suite
EXEMPE
Exemple numérique
Reprenons l’exemple numérique précédent 2. Nous avons t3;0.025 = 3 Un
intervalle de confiance sur b correspondant à α = 0.05 sera donc donné
par : h √ √ i
1.9 − (3.182) 0.037; 1.9 + (3.182) 0.037 = [1.29, 2.5]
On rejettera donc, par exemple, l’hypothèse :
H0 : b = 1.2
H0 : b = 1.5
Pour tester :
H0 : a = −0.15 et b = 2.5
contre H0 : a , −0.15 ou b , 2.5
Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 26 / 61
Les Estimateurs des moindres carrés Prévision
EXEMPE
pour t = 1, . . . , T
Exemple de la loi de demande avec R du consommateur, PX , le prix d’un
subtitut, PY le prix du bien demandé.
où
y est un vecteur T × 1 d’observations sur la variable dépendante
X est une matrice T × K d’observations sur les variables explicatives
Estimation de β
∂ǫˆ′ ǫ̂
= −2X ′ Y + 2X ′ X β̂ = 0 (22)
∂β
Estimation de β fin
β̂ = (X ′ X )−1 X ′ Y (23)
Par ailleurs, les conditions de second ordre pour un minimum sont
satisfaites, puisque
∂2 ǫˆ′ ǫ̂
′
= 2 ∗ (X ′ X ) (24)
∂β∂β
une matrice définie positive, ce qui montre que ǫˆ′ ǫ̂ est convexe en β̂
Espérance et Variance de β̂
.
Espérance
E (β̂) = E [(X ′ X )−1 X ′ (X β + ǫ )]
= E (β) +(X ′ X )−1 X ′ E (ǫ ) )
|{z} |{z} (25)
β 0
=β
Théorème de Gauss-Markov
2
Estimateur de σ
ǫ̂ ′ ǫ̂
s2 =
N−K
(i ′ y )2 (i ′ y )2
[y ′ y − ] = [(ǫˆt ′ ǫˆt )β̂ + X ′ y − i ′ = [1, . . . , 1]
] |{z} (28)
T T
1×T
SCR (ǫ̂ ′ ǫ̂ )
Comme T = T est un estimateur biaisé de σ2 , on définit :
SCR /T − k T −1 2 k −1
R̄ 2 = 1 − = R − (30)
SCT /T − 1 T − k T −k
Remarque 4.1
R 2 , croît toujours (non strictement) avec l’ajout de variables ; ceci n’est pas
le cas pour R̄ 2 .
Dans un modèle sans terme constant, la somme des résidus n’est pas
nécessairement nulle et la décomposition précédente
(SCT = SCR + SCE ) n’est donc plus valable. Le R 2 précédent n’est donc
pas nécessairement compris entre 0 et 1 On peut alors définir :
ŷ ′ ŷ ǫˆ′ ǫ̂
0 ≤ R∗2 = =1− ′ ≤1 (31)
yy ′ yy
adapté pour tous les modèles avec une interpretation différente de celle
du R 2 .
Remarque 4.2
Sa version ajustée est donnée par :
ǫ̂ ′ ǫ̂/T − k T −1 2 k −1
R̄∗2 = 1 − = R − (32)
y y /T − 1 T − k ∗ T − k
′
On appelle prédiction de y
PX′ = PX (symetrie )
PX PX = PX (idempotente )
MX = IN − PX = MX′ MX MX = MX (37)
Remarque 4.3
Si X contient une constante (régression avec constante), alors ǫ̂ est par
construction orthogonal au vecteur unitaire τn = [1, . . . , 1]′
P
ǫ̂ ⊥ τn ⇐⇒< ǫ̂, τn >= ǫ̂ ′ .τn = ǫˆi = 0
Figure – Décomposition de Y
Remarque 4.4
Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 41 / 61
LE MODÈLE DE RÉGRESSION MULTIPLE Géométrie des MCO
Régression Partitionnée
Si X est partionné en deux vecteurs :
XN ×k = (X1N×k1 , X2N×k2 ), k = k1 + k2
!
β1
β=
β2
y = X β = X1 β1 + X2 β2 + ǫ1 (38)
On obtient βˆ2 en deux étapes :
1 Régresser y et les colonnes de X1 sur les colonnes X2 . Sauver les
résidus MX1 y et MX2 X1
2 Régresser MX2 y sur MX2 X1 . L’estimateur des MCO du coefficient de
cette régression est βˆ2 :
Théorème 4.1
FWL
1 Les estimateurs du modèle [39] et [40] du paramètre β2 sont
numériquement identiques
2 Les résidus du modèle [39] et [40] sont numériquement identiques.
H : ǫ ∼ N (0, σ2 I ) (41)
−T T 2 1
log(L ) = log(2π) − σ − (y − X β)′ (y − X β) (42)
2 2 2σ2
∂ ln(L ) 1 h i
CPO : = 2
−2X ′ y + 2X ′ X β̂ = 0
∂β 2σ̂
∂ ln(L ) T 1 h i
2
= − 2 + 4 (y − X β̂)′ (y − X β̂) = 0
∂σ σ̂ σ̂
La première condition implique que :
β̂ = (X ′ X )−1 X ′ y .
On obtient
ǫ′ ǫ
σ̂2 = Cet estimateur est biaisé . (43)
T
−x ′ x 1
σ2
(−X ′ y + X ′ X β̂)
σ4
CSO : 1 −T 1 (44)
( − X ′ y + X ′ X β̂) + ˆ6 ((y − X β)′ (y − X β))
σ4 σˆ4 σ
1
En remplaçant β par β̂ = (X ′ X )−1 X ′ y et σ2 par T
((y − X β)′ (y − X β))
− xσ2x
′ !
0k
(45)
0k − σT4
qui est définie negative puisque (X ′ X ) est définie négative et σ2 > 0. Nous
avons donc bien un maximum.
(log(Yt ))2
P P P P
(log(Yt )) (log(Yt )) log(X1i ) (log(Yt )) log(X2i )
P P
(log(Yt )) T log(X1i ) (log(X2i ))
P =
(log(Y )) log(X ) P 2 P
t i log( X i ) log( X i ) (log( Y )) log(X2i )
P 1 1 1
P t
(log(X2i ))2
P
(log(Yt )) log(X2i ) log(X2i ) log(X1i ) log(X2i )
Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 46 / 61
LE MODÈLE DE RÉGRESSION MULTIPLE Estimateurs par maximum de vraisemblance
19.14 11.8 7.1 4.1
11.8 10 2 2
7.1 2 7 1
4.1 2 1 7
10 2 2
(X ′ X ) = 2 7 1
2 1 7
y ′ y = 19.14
11.8
X y = 7.1
′
4.1
48 12 −12
1
(X ′ X )−1 = 432 12 66 −6
−12 −6 66
Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 46 / 61
LE MODÈLE DE RÉGRESSION MULTIPLE Propriétés asymtotiques des estimateurs de moindres ordinaires
1
β̂ = (X ′ X )−1 X ′ y = 0.7
0.2
β̂′ X ′ y = 17.59
ǫˆ′ ǫ̂ 1.75
s2 = T −3 = 10−3 = 0.25
1.75
R2 = 1 − (11.8)2
= 0.677
19.34− 10
R¯2 = 97 0.677 − 2
7 = 0.585
Convergence
Hypothèses :
1 H1 : E (ǫ ) = 0 Les erreurs sont centrées
2 H2 : V (ǫ ) = σ2 In : Homocedasticité des erreurs.
3 H3 : Le vecteur X des explicatives est non sotchastique de rang
K < n).
limn→∞ N1 (X ′ X ) = XX une matrice définie positive.
P
4
Normalité asymptotique
Théorème 4.2
Supposons que les hypothèses H1 a H2 soient vérifiées, et soit αt la
t-ieme colonne de la transposee de X (X’). Définissons le vecteur Zt = ǫt αt
et supposons √1n Zt vérifie le théorème central limite. Alors pour
P
β̂ = (X ′ X )−1 X ′ y :
√
(a) dlim n(β̂ − β) ∼ N (0, σ2 −XX1 )
P
Remarque 4.5
En pratique on raisonne, en supposant que σ est connu pour pouvoir
utiliser la loi normale au lieu de celle de student dans le cas ou σ est
inconnu
Estimateur MCG
H1 : E (y ) = X β
P
H 2 : Les erreurs sont non sphériques : V (y ) = V (ǫ ) = .
H 3 : Les régresseurs sont non stochastiques i.e X est non aléatoire
de rang K car la matrice (X ′ X ) est de format K × K .
H3 : Multicolinéarité implique que y ∼ NMV (X β; Σ) avec
V (y ) = Σ = σ2 Ω (σ2 supposée connue)
on suppose que
E (ǫ ) = 0 et V (ǫ ) = σ2 Ω
Propriété 4.1
E (β̂mcg ) = β (48)
V (β̂mcg ) = (X ′ Ω−1 X )−1 (49)
Gauss Markov
Théorème 4.3
(β̂mcg ) est l’unique estimateur linéaire sans biais de β qui minimise la
variance de l’estimateur de toute forme linéaire de β.
Remarque 4.6
Un estimateur sans biais de σ2 est
kǫ̂k2 ǫ̂ ′ Ω−1 ǫ̂
S2 = = (50)
n−K n−K
MCG réalisable
Ω̂ = Ω(θ̂)
2 1 ′ −1 −1 −1
avec V = plim(Smcg −r [ n X Ω̂ X ) ] )
Propriétés
Théorème 4.4
Soit y = X β + ǫ, avec E (ǫ ) = 0
ρ ... ρn−1
1
1 ...
ρ ...
2 2
′
E (ǫǫ ) = σ Ω = σ
... ... ...
n−1
ρ ... ... 1
Théorème suite
Théorème 4.5
β̂ = (X ′ Ω−1 X )−1 X ′ Ω−1 yet
(
Considérons les deux estimateurs ˆ ou
β̂ = (X ′ Ω̂−1 X )−1 X ′ Ω̂−1 y
ρ̂ ... ρ̂n−1
1
ρ̂ 1 ... ...
Ω̂ =
... ... ...
n−1
ρ̂ ... ... 1
Sous les hypothèses additionnelles que :
Théorème fin
Théorème 4.6
on a les résultats suivants :
√ √
dlim n (β̂ − β) = dlim n(β̂ˆ − β) ∼ N 0, σ2 Q −1
1
2 plims 2 = σ2 avec s 2 = 1
n−k (y − X β̂ˆ )Ωˆ−1 (y − X β̂ˆ )
qt = γ + αlt + βkt + ut
α + β = 1 ⇒ qt = γ + (1 − β)lt + βkt + ut
qt − lt = γ + β(kt − lt ) + ut
Théorème 4.7
Soit
y = Xβ + u
ˆ ) = RE (βˆnc ) = R β = c
E (R βnc (52)
Propriété 4.2
Sous H1 − H4 et H0 ,βnc est sans et plus precis que l’estimateur βˆnc
Autrement dit, l’estimateur est sans biais et l’on gagne en precision
lorsque on intègre les contraintes par H0 . Ce résultat est intuitif : les
contraintes R β = c constituent un ensemble d’information supplémentaires
sur β dont la prise en compte réduit l’incertitude affectant l’estimation.