Econometrie PierreMendy-beamerL3gestion Ch1

Première partie 1
MODÈLE LINÉAIRE
Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 1 / 61

1 Introduction
2 Régression simple
Equation et hypothèses du modèle
Les hypothèses
3 Les Estimateurs des moindres carrés
Moments des estimateurs des Moindres Carrés
Espérances mathématiques
Variances
Covariance
Convergence en probabilité
Ecriture Matricielle du modèle simple
Théorème de Gauss-Markov
Estimation de la variance des erreurs
Décomposition de la variance : le coefficient de détermination
Tablde d’analyse de la Variance
Tablde d’analyse de la Variance
Exemple empirique
Test sur les deux paramètres a et b
Introduction
Test sur une combinaison linéaire des coefficients

Prévision
4 LE MODÈLE DE RÉGRESSION MULTIPLE

Les estimateurs de moindres carrés
Moments des estimateurs de moindres carrés Espérance de β̂
Le théorème de Gauss-Markov
L’estimation de la variance des erreurs
Géométrie des MCO
Régression Partitionnée : Frish-Waugh
Problèmes particuliers : multicolinéarité, biais de spécification,variables
Estimateurs par maximum de vraisemblance
Exemple numérique
Propriétés asymtotiques des estimateurs de moindres ordinaires
Convergence
L’estimateur MCG réalisable
Propriétés des estimateurs d’AIKEN
Estimation sous contrainte
Intégration directe des contraintes dans la procédure
Estimation du modèle sous contrainte
Introduction
Description du problème et exemples économiques

Soit une relation linéaire, spécifiée par un modèle économique :
La fonction de consommation
Ct = a + bYt + ut (1)
La loi de la demande :
X = a − bPX + ut (2)
La fonction de coût total :
CTt = a + bQt + ut (3)
L’objectif de ce chapitre consiste à estimer les paramètres de régression

du modèle (a et b) à des fins d’analyse ou de prévision.

Régression simple Equation et hypothèses du modèle
Hypothèses du modèle
Soit l’équation linéaire

yt = a + bxt + ut (4)
On définit :
t : l’indice qui correspond à une observation particulière ;
yt : variable endogène ;
xt :variable exogène ;
ut : terme d’erreur inobservable ;
a et b : paramètres inconnus à estimer, dont les estimateurs seront notés
â et b̂ . Les estimateurs â et b̂ dépendent de yt donc de ut . Ce sont des
variables aléatoires, et nous aurons besoin des moments de leur
distribution. Il faut donc faire des hypothèses sur ut .

Régression simple Les hypothèses
Hypothèses
1 H1 : Résidus sont centrées conditionnellement à xt
E (ut |xt ) = 0 ∀t = 1, . . . , T
2 H2 : Homocédasticité :
V (ut ) = σ2 IT
3 Normalité des erreurs
ut ∼ i .i .dN (0, σu2 IT )

4 H3 : Erreurs non corrélées :
Cov (ut , us ) = 0, ∀t , s
5 H4 : Les xt sont déterministes (non aléatoires) :
E (xt ut ) = 0, E (ut |xt ) = 0,

Régression simple Les hypothèses
Principes
min max |ût | (5)

â ,b̂ t
X
min |ût | (6)
â ,b̂ t
X
min ût2 : Critère de la Méthode des moindres carrés (7)
â ,b̂
t
on peut écrire indifféremment
yt = a + bxt + ut (8)
yt = â + b̂xt + ût (9)

L’équation [8] est une hypothèse tandis que [9] est une identité !

Les Estimateurs des moindres carrés
MCO
Nous allons minimiser en â et b̂ la somme des carrés des résidus (SCR) :

T
X T
X 2
SCR (â , b̂ ) = ût2 = yt − â − b̂xt (10)
t =1 t =1
Les conditions du premier ordre sont

T
∂SCR (â , b̂ ) X
= −2 yt − â − b̂xt = 0 (11)
∂â t =1
T
∂SCR (â , b̂ ) X
= −2 yt − â − b̂xt xt = 0 (12)
∂b̂ t =1

Estimateurs MCO
La résolution du système donne
â = ȳ − b̂ x̄ (13)
PT
t =1 (yt − ȳ )xt
b̂ = PT
t =1 (xt − x̄ )xt
PT
t =1 (yt − ȳ )(xt − x̄ ) T ∗ Cov (x , y )
= PT =
t =1 (xt − x̄ )
2 T ∗ V (x )
PT
t =1 yt xt − T x̄ ȳ )
= PT 2 2
t =1 (xt − T x̄ )
PT T PT
t =1 (xt − x̄ ) (xt − x̄ )
X
= PT yt = ωt yt avec ωt = PTt =1
2 2
t =1 (xt − x̄ ) t =1 t =1 (xt − x̄ )

Conditions du second ordre
La matrice Hessienne doit être définie positive

 
 ∂2 SCR (a ,b ) ∂2 SCR (a ,b ) 
H =  ∂a 2 ∂a ∂b  (14)
∂2 SCR (a ,b ) ∂2 SCR (a ,b ) 
∂b ∂a ∂b 2
P !
2T 2 xt
H= (15)
2 xt2
P P
2 xt
∂2 SCR (a ,b )
∂b 2
> 0 et
P
2T 2 xt X X 2
|H | = =4∗T xt2 − 4 ∗ xt = 4 ∗ T 2 σx2 > 0 (16)
2 xt2
P P
2 xt
Le hessien étant défini positif, nous avons bien un minimum.

Exemple d’application
Soient T=5 observations suivantes sur les yt et xt
xt 1 2 3 4 5
yt 2 4 5 7 10
xt2 = 55, xt yt = 103, yt2 = 194

P P P P P
on a xt = 15, yt = 28,
103 − (15 ∗ 28)/5

b̂ = = 1.9
55 − (152 )/5
28 15
â = − 1.9( ) = −0.1
5 5

Les Estimateurs des moindres carrés Moments des estimateurs des Moindres Carrés
10
8
6
4
2
1 2 3 4 5
x
y Fitted values
Figure – Nuage de points et droite régression ŷt = −.1 + 1.9x

Espérances mathématiques
â et b̂ sont-ils des estimateurs sans biais de a et b ?
X X
â = zt yt = zt (a + bxt + ut )
X X X
= a zt + b zt xt + zt ut
a + 0 + zt ut où zt = T1 − x̄ ωt
P
X
et E (â ) = a + zt E (ut ) = a
X X
b̂ = ωt yt = ωt (a + bxt + ut
X X X
= a ωt + b ωt xt + ωt ut
P
0+b + ωt ut
X
et E (b̂ ) = b + ωt E (ut ) = b

La variance de b̂ se calcule comme suit :

h i2
v (b̂ ) = E b̂ − E (b̂ ) = E (b̂ − b )2
hX i2
V (b̂ ) = E ωt ut
 
XT T
X T
−1 X 
2 2
= E 
 ωt ut + ωt ωj ut uj 


t =1 t =1 j =t +1
T
X T
X
= ω2t E (ut2 ) = σ2 ω2t
t =1 t =1
σ2
= PT carE (ut2 ) = σ2 ; E (ut uj ) = 0, ∀t , j
2
t =1 (xt − x̄ )
hX i2
V (â ) = E (â − a )2 = E zt ut
T
X
2
= σ xt2 ωt2 par le même argument que précédemmen
t =1
 P2

Pierre MENDY  x
Chapitre 3 : Régression linéaire empirique
 ASEF 3 2017-2018 10 / 61
Cov (â , b̂ ) = E (â − a )E (b̂ − b )

 T  T 
X  X 
= E  ωt ut   zt ut 
t =1 t =1
 
X T X T X T 
= E  ω t zt ut2 + ω t zj ut uj 
 
t =1 t =1 j ,t
 T  P T

X   T ωt X 
= σ2  ωt ut  = σ2  t =1 − x̄ ω2t 
T
t =1 t =1
x̄
= −σ2 PT
t =1 (xt − x̄ )2

Les Estimateurs des moindres carrés Convergence en probabilité
La matrice de variances-covariances est données par
 P 2 
!  σ2 P xt
V (â ) Cov (â , b̂ )

T tT=1 (xt −x̄ )2
CV = =  (17)
 
Cov (â , b̂ ) V (b̂ )  −σ2 PT x̄ PT
σ2 
(x −x̄ )2
t =1 t t =1 (xt −x̄ )
2
On vérifie que à l’aide de ces moments que plimb̂ = b et plimâ = a
σ2
E b̂ = b et V (b̂ ) = PT −→ 0 si T → ∞
2
t =1 (xt − x̄ )
σ2 xt2 /T
P
E (â ) = a et V (â ) = PT −→ 0 si T → ∞
t =1 (xt − x̄ )2
x2
P
sous la condition que limT →∞ T t existe.
En résumant toutes les observations sur l’équation linéaire
Les Estimateurs des moindres carrés Convergence en probabilité
yt = a + bxt + ut , il vient
y1 1 x1  u1 
       
     

 y2  
  1 


 x2 

 u 
 2 
 ..  =  ..  a +  ..  b +  .. 
 .   .   .   . 
       
yT 1 xT uT
y1 1 x1 u1
     
     
y2 1 x2 u2
    !  
    a  
⇒  ..  =  .. .. +  ..
b
 
 .   . .  
 . 
    
yT 1 xT uT
( P P
T â + b̂ xt = y
Équations normales : P t
â xt + b̂ xt2 =
P P
xt yt
P ! ! P !
T xt â yt
⇒ P P 2 = P
xt xt b̂ xt yt
Les Estimateurs des moindres carrés Estimation de la variance des erreurs
En notant
1 x1
 
 

 1 x2 

X =  .. .. 

 . . 

1 xT
et !
â
β̂ =
b̂
on obtient l’écriture matricielle :
(X ′ X )β̂ = X ′ y ⇒ β̂ = (X ′ X )−1 X ′ y
La matrice inverse peut s’écrire :
P !−1 P 2 P !
T xt 1 x − xt
P P 2 = P Pt
xt xt T (xt − x̄ ) 2 − xt T
 P 2 
1  xt −x̄ 
= P  T 
(xt − x̄ )2  −x̄ 1
Théorème 3.1
Sous les hypothèses H1 à H4 , l’estimateur des moindres carrés ordinaires
est le meilleur estimateur sans biais de β. On parle d’estimateur BLUE
(Best Linear Unbiased Estimator en anglais)
Variance résiduelle
Un estimateur sans biais de σ2 est défini par :
1 X
s2 = ût2
T −2
On peut interpréter la division par (T-2) de la manière suivante. La division
par (T-2) est motivée par les deux conditions liant les résidus à savoir :
X X
ût = 0 et ût xt = 0

Les Estimateurs des moindres carrés Décomposition de la variance : le coefficient de détermination
2
R ou coefficient de détermination
Le coefficient de détermination permet de mesurer la qualité de

l’ajustement linéaire. Il est défini par :
SCE SCT − SCR SCR

R2 = = =1−
SCT SCT SCT
et l’on a 0 ≤ R 2 ≤ 1. Plus le R 2 est proche de l’unité, plus grand est le
pourcentage de la variance totale expliquée par la régression, et meilleure
est donc la qualité de l’ajustement.

Les Estimateurs des moindres carrés Tablde d’analyse de la Variance
ANOVA
On complète l’étude précédente en construisant la table d’analyse de la

variance :
Source Somme Degrés Carrés F̂

de carrés de libertés moyen
SCE = (ŷt − ȳ )2
P P
Modèle 1 (ŷt − ȳ )2
1 P SCE
SCR = (yt − ŷ )2
P
résidus T-2 T −2 P t
(y − ŷ )2 (T − 2) SCR
1
SCT = (yt − ȳ )2
P
totale T-1 T −1
(yt − ŷ )2

Les Estimateurs des moindres carrés Exemple empirique
Suite exemple section 1.3

Nous avions trouvé les valeurs â = −0.1 et b̂ = 1.9 On a de plus :
x̄ = 3
ȳ = 5.6
X
(xt − x̄ )2 = 10
X
(yt − ȳ )2 = 37.20 = SCT
SCE = 1.92 ∗ 10 = 3.61 ∗ 10 = 36.1

X
ût2 = SCR = 1.10 = SCT − SCE
SCR 1.10
s2 = = = 0.37
T −2 5−2
0.37
sb̂2 = = 0.037
10

Suite exemple section 1.3

" #
1 9
sâ2 = 0.37 + = 0.403
5 10
(0.37) ∗ 3
sâ ,b̂ = Cov (â , b̂ ) = − − 0.11
10
1.10
R2 = 1 − = 0.97
37.20
Droite de régression :
ŷt = |{z} 1.9 xt

−0.1 + |{z} (R 2 = 0.97)
(0.635) (0.192)
1.9
ou ŷt = |{z} 1.9 xt
−0.1 + |{z} (R 2 = 0.97; tb̂ = = 9.88)
0.192
(−0.157) (9.88)
97% des fluctautions de yt sont expliquées par celles de xt Exemple

Tests sur les coefficients individuels
Nous nous intéressons à la probabilité du type :

h i
Prob binf ≤ b ≤ bsup = 1 − α,
i.e "J’ai une probabilité de 1 − α de ne pas me tromper lorsque

j’affirme que b est compris entre binf et bsup ".
C’est le plus petit intervalle ayant une probabilité 1 − α de contenir b . On
suppose la e normalité des erreurs
H0 : ut ∼ N (0, σ2 )
ce qui nous permet de calculer les bornes de l’intervalle :

Cas 1 : σ2 connue :
b̂ − b â − a
∼ N (0, 1) et ∼ N (0, 1) si T-2 > 30
σb̂ σâ
σ2
" #
1 x̄
avec σ2b̂ = P σ2â =σ 2
+P
(xt − x̄ )2 T (xt − x̄ )2
L’expression de la probabilité est donnée par
" #
b̂ − b
P −z 2 ≤α ≤ z2 = 1 − α
α
σb̂
où z α2 valeur critique d’une loi noramle centrée réduite. On obtient :

h i
P b̂ − z α2 σb̂ ≤ b ≤ b̂ + z α2 σb̂ = 1 − α

Les bornes cherchées sont donc :
binf = b̂ − z α2 σb̂ ≤ bsup = b̂ + z α2 σb̂
Cas 2 σ2 inconnue
On utlise l’estimateur sans biais de σ2 pour construire notre intervalle.
ût2
P
2
s = ?
T −2
q b̂ −b
b̂ − b b̂ − b σ2 ( P 1 )
(xt −x̄ )2
t (b̂ ) = = rP = r
σb̂ ût2
P 2
ût
P 1
T −2 (xt −x̄ )2 2
σ (T −2)
N
= def
D

avec
ût2
P
∼ χ2 (T − 2)
σ2
On en déduit que
N
∼ t (T − 2)
D
Donc :
b̂ − b â − a
∼ tT −2 et, de manière analogue ∼ tT −2
s b̂ s â
et les intervalles de confiance sont donnés par :
h i
P b̂ − tT −2; α2 sb̂ ≤ b ≤ b̂ + tT −2; α2 sb̂ = 1 − α

Exemple :
H0 : b = b0 vs H1 : b , b0
on ne rejettera pas H0 si b ∈ [binf , bsup ]
Pour tester :
H0 : b = b0 contre H1 : b < b0
on rejette H0 si b0 < b̂ − tT −2; α2 sb̂ .
Pour tester :
H0 : b = b0 contre H1 : b > b0
on rejette H0 si b0 > b̂ + tT −2; α2 sb̂
Des procédures analogues sont évidemment valables pour le paramètre â

Les Estimateurs des moindres carrés Test sur les deux paramètres a et b
Tests bivariés
Il s’agit ici du test :
H0 : a = a0 et b = b0 vs H1 : a , a0 ou b , b0 ou les deux
En pratique, on utilise la statistique F de Fisher-Snedecor définie par :
Q /2
Fobs =
s
avec h X i
Q = T (â − a0 )2 + 2T x̄ (b̂ − b0 ) + xt2 (b̂ − b0 )2 ≥ 0
Fobs suit une distribution F2,T −2 . On rejette H0 si
Fobs > F(2,T −2;α)

Estimateur sans biais de γ = αa + βb des coefficients a et b est :
γ̂ = αâ + βb̂
Variance γ̂ :
V (αâ + βb̂ ) = α2 V (â ) + β2 V (b̂ ) + 2αβCov (â , b̂ )

β2
" ! #
1 x̄ αβx̄
= σ 2 α2 +P + P − 2 P
T (xt − x̄ )2 (xt − x̄ )2 (xt − x̄ )2
2
" ! #
1 (β − αx̄ ) β(β − 2αx̄ )
= σ 2 α2 +P + P
T (xt − x̄ ) 2 (xt − x̄ )2

En utilisant le même raisonnement que précédemment , on peut montrer

que :
|γ − αâ − βb̂ |
r ∼ tT −2
1 (β−αx̄ )2
s α2 T + P
(xt −x̄ )2
et un intervalle de confiance est donc donné par les deux bornes

s !
1 (β − αx̄ )2
αâ + βb̂ ± tT −2;α/2 s α2 +P
T (xt − x̄ )2

Les Estimateurs des moindres carrés Prévision
Prévision
Que se passerait-il si nous voulions trouver un intervalle de confiance sur

une valeur future yθ de y ? On parlerait alors d’intervalle de prévision. Pour
des séries de la consommation et du revenu entre entre 1960 et 1981.
Nous voulons prédire la consommation pour l’année 1982,
conditionnellement à une projection xθ du revenu national pour 1982. Sous
l’hypothèse que le modèle reste inchangé, nous aurons :
yθ = a + bxθ + uθ et
ŷθ = â + b̂xθ et sera sans biais .

Prévision suite
La variable yθ − ŷθ = uθ − (â − a ) − (b̂ − b )xθ est normale, de paramètres :
E (yθ − ŷθ ) = 0
V (yθ − ŷθ ) = E (yθ − ŷθ )2

= E (uθ2 ) + E ((â − a ) + (b̂ − b )xθ )2
puisque â et b̂ ne dépendent que de u1 , u2 , . . . , uT ,et que

E (ut , uθ ) = 0, t = 1, . . . , T . On a donc bien E (â , uθ ) = E (b̂ , uθ ) = 0.

Prévision suite
Le premier terme de la somme est égal à σ2 . Le second terme peut être

calculé à l’aide des résultats de la section précédente, en posant α = 1 et
β = xθ . Nous avons donc :
" #
2 2 1 (xθ − x̄ )
E (yθ − ŷθ ) = σ 1+ + P
T (xt − x̄ )2
et les bornes de l’intervalle de prévision sont données par

s" #
1 (xθ − x̄ )
ŷθ ± tT −2; 2 s
α 1+ + P
T (xt − x̄ )2

EXEMPE
Exemple numérique
Reprenons l’exemple numérique précédent 2. Nous avons t3;0.025 = 3 Un
intervalle de confiance sur b correspondant à α = 0.05 sera donc donné
par : h √ √ i
1.9 − (3.182) 0.037; 1.9 + (3.182) 0.037 = [1.29, 2.5]
On rejettera donc, par exemple, l’hypothèse :
H0 : b = 1.2
mais on ne rejettera pas l’hypothèse :
H0 : b = 1.5
Pour tester :
H0 : a = −0.15 et b = 2.5
contre H0 : a , −0.15 ou b , 2.5
EXEMPE
Exemple numérique fin

Un intervalle de confiance sur y0 = E [y |x = 3.5] a pour bornes :
r
1 (3.5 − 3)2
−0.1 + (1.9)(6) ± (3.182)(0.61) 1+ +
5 10
si α = 5.Ce qui donne [5.636,7.464]. Un intervalle de prévision sur
y6 = a + b (6) au niveau de signification α = 0.01 aura pour bornes :
r
1 (6 − 3)2
−0.1 + (1.9)(3.5) ± (5.841)(0.61) 1+ +
5 10
ce qui donne [6.175, 16.426]

LE MODÈLE DE RÉGRESSION MULTIPLE
LE MODÈLE DE RÉGRESSION MULTIPLE :Position du

problème
On généralise les notions traitées dans la première section avec k

variables explicatives.
yt = β1 + β2 xt 2 + . . . , +βk xtk + ǫt (18)
pour t = 1, . . . , T
Exemple de la loi de demande avec R du consommateur, PX , le prix d’un
subtitut, PY le prix du bien demandé.
yt = β1 + β2 PXt + β3 PYt + β4 Rt + ǫt (19)

Une formulation matricielle du modèle s’impose. Elle peut s’écrire sous la

forme suivante :
      
 y1   1 x12 ... x1k   β1   ǫ1 
y2 1 x22 ... x2k
     β2   ǫ2 
       
 y3  
 =  . . ... ...   β3  
 +  ǫ3 
    (20)

 .  
  . . ... ...   .  
  . 

 
 .   . . ... ...   .   . 
 
yT 1 xT 2 ... xTk βk ǫT
où
y est un vecteur T × 1 d’observations sur la variable dépendante
X est une matrice T × K d’observations sur les variables explicatives

β est un vecteur K × 1 de paramètres inconnus

ǫ est un vecteur T × 1 d’erreurs aléatoires inobservables
Nous faisons les hypothèses suivantes :
1 H1 : E (ǫ ) = 0
2 H2 : E (ǫǫ ′ ) = σ2 IT
3 H3 :X est non aléatoire
4 H4 :rang de X = k < T
5 H5 :ǫ ∼ N (0, σ2 IT ) ;
H2 :Homocédasticité des erreurs.
H3 :X est déterministe
H4 : Assure l’unicité de β̂

LE MODÈLE DE RÉGRESSION MULTIPLE Les estimateurs de moindres carrés
Estimation de β
L’estimateur β̂ MCO, s’obtient en minimisant la somme des carrés des

résidus.
ǫˆ′ ǫ̂ = (ǫ̂ = Y − X β̂)′ (ǫ̂ = Y − X β̂)
ǫˆ′ ǫ̂ = Y ′ Y − β̂′ X ′ Y − Y ′ X β̂ + β̂′ X ′ X β̂ (21)
ǫˆ′ ǫ̂ = Y ′ Y − 2β̂′ X ′ Y + β̂′ X ′ X β̂
En utilisant les règles de la dérivation matricielle, on obtient :
∂ǫˆ′ ǫ̂
= −2X ′ Y + 2X ′ X β̂ = 0 (22)
∂β

Estimation de β fin
Comme X est de rang k (X ′ X ) et définie positive, donc régulière, nous

pouvons écrire :
β̂ = (X ′ X )−1 X ′ Y (23)
Par ailleurs, les conditions de second ordre pour un minimum sont
satisfaites, puisque
∂2 ǫˆ′ ǫ̂
′
= 2 ∗ (X ′ X ) (24)
∂β∂β
une matrice définie positive, ce qui montre que ǫˆ′ ǫ̂ est convexe en β̂

Espérance et Variance de β̂
.
Espérance
E (β̂) = E [(X ′ X )−1 X ′ (X β + ǫ )]
= E (β) +(X ′ X )−1 X ′ E (ǫ ) )
|{z} |{z} (25)
β 0
=β
β̂ est sans biais.

La matrice de covariance de β̂ est alors :
V (β̂) = E [(β̂ − β)′ (β̂ − β)] =

= E [(X ′ X )−1 X ′ ǫǫ ′ X (X ′ X )−1 ]
(X ′ X )−1 X ′ E (ǫǫ ′ ) X (X ′ X )−1 = σ2 (X ′ X )−1 (26)
|{z}
σ2

Si les hypothèses de H1 à H4 sont vérifiées, l’estimateur des MCO est à

variance minimale i.e β̂ est le plus efficace des estimateurs linéaires de β.
Plus précisément si β̃ est un autre estimateur linéaire sans biais de β
c’est-à-dire si E (β̃) = β et β̃ = Ay , les variances de ses composantes ne
peuvent être inférieures à celles des composantes de β̂.
V (β̃i ) > V (β̂ ) i = 1..., K (27)

2
Estimateur de σ
Un estimateur sans biais de σ2 est obtenu en calculant

E (ǫ ′ ǫ̂ ) = (N − K )σ2 . On montre que
ǫ̂ ′ ǫ̂
s2 =
N−K
est un estimateur sans biais de σ2 .

Somme des carrés et coefficients de détermination
Nous avons montré à la section 1 que
(i ′ y )2 (i ′ y )2
[y ′ y − ] = [(ǫˆt ′ ǫˆt )β̂ + X ′ y − i ′ = [1, . . . , 1]
] |{z} (28)
T T
1×T
c’est-à-dire SCT = SCE + SCR Le coefficient de détermination comme :

(i ′ y )2
SCR X y − T
′
2 SCE
R = =1− = (29)
SCT SCT (i ′ y )2
y ′y − T
SCR (ǫ̂ ′ ǫ̂ )
Comme T = T est un estimateur biaisé de σ2 , on définit :
SCR /T − k T −1 2 k −1
R̄ 2 = 1 − = R − (30)
SCT /T − 1 T − k T −k

Remarque 4.1
R 2 , croît toujours (non strictement) avec l’ajout de variables ; ceci n’est pas
le cas pour R̄ 2 .
Dans un modèle sans terme constant, la somme des résidus n’est pas
nécessairement nulle et la décomposition précédente
(SCT = SCR + SCE ) n’est donc plus valable. Le R 2 précédent n’est donc
pas nécessairement compris entre 0 et 1 On peut alors définir :
ŷ ′ ŷ ǫˆ′ ǫ̂
0 ≤ R∗2 = =1− ′ ≤1 (31)
yy ′ yy
adapté pour tous les modèles avec une interpretation différente de celle
du R 2 .

Remarque 4.2
Sa version ajustée est donnée par :
ǫ̂ ′ ǫ̂/T − k T −1 2 k −1
R̄∗2 = 1 − = R − (32)
y y /T − 1 T − k ∗ T − k
′

LE MODÈLE DE RÉGRESSION MULTIPLE Géométrie des MCO
On appelle prédiction de y
ŷ = [yˆ1 , yˆ2 , ....., yˆn ]′ = X β̂ = X (X ′ X )−1 y = PX y (33)
ŷ = PX y est la projection orthogonale de y sur l’espace vectoriel engendré

par les colonnes de X.
→−
X = {X β, ∀ ∈ Rk } (34)
PX est la matrice de projecteur orthogonal. Elle est telle
PX′ = PX (symetrie )
PX PX = PX (idempotente )

Le vecteur des résidus est donné par :
ǫ̂ = [ǫˆ1 , ǫˆ2 , ǫˆ3 , . . . , ǫˆn ] = y − ŷ = y − PXy = (IN − PX )y = MXy (35)

→−
ǫ̂ est la projection orthogonale sur l’orthogonal de X . On en dédduit
X
ǫ̂ ⊥ ŷ ⇐⇒< ǫ̂, ŷ >= ǫ̂ ′ .ŷ = ǫˆi ′ .ŷi = 0 (36)
MX est le projecteur orthogonal associé :
MX = IN − PX = MX′ MX MX = MX (37)
Remarque 4.3
Si X contient une constante (régression avec constante), alors ǫ̂ est par
construction orthogonal au vecteur unitaire τn = [1, . . . , 1]′
P
ǫ̂ ⊥ τn ⇐⇒< ǫ̂, τn >= ǫ̂ ′ .τn = ǫˆi = 0

Figure – Décomposition de Y
Remarque 4.4
Régression Partitionnée
Si X est partionné en deux vecteurs :
XN ×k = (X1N×k1 , X2N×k2 ), k = k1 + k2
!
β1
β=
β2
y = X β = X1 β1 + X2 β2 + ǫ1 (38)
On obtient βˆ2 en deux étapes :
1 Régresser y et les colonnes de X1 sur les colonnes X2 . Sauver les
résidus MX1 y et MX2 X1
2 Régresser MX2 y sur MX2 X1 . L’estimateur des MCO du coefficient de
cette régression est βˆ2 :
βˆ2 = (X1 MX2 X1 )−1 X1 MX2 y (39)

est l’estimateur obtenu à partir du modèle suivant :
M1y = M1 X2 β2 + residus (40)
Théorème 4.1
FWL
1 Les estimateurs du modèle [39] et [40] du paramètre β2 sont
numériquement identiques
2 Les résidus du modèle [39] et [40] sont numériquement identiques.

LE MODÈLE DE RÉGRESSION MULTIPLE Problèmes particuliers : multicolinéarité, biais de spécification,va
Problèmes particuliers : multicolinéarité, biais de

spécification,variables muettes
1 Certaines des colonnes de X peuvent présenter une dépendance

linéaire approximative.
λmax
2 La multicolinéarité peut être mesurée en calculant le rapport λmin de
la plus grande à la plus petite valeur propre de X ′ X .
3 Biais de specification
4 Variables muettes

LE MODÈLE DE RÉGRESSION MULTIPLE Estimateurs par maximum de vraisemblance
Estimateurs par maximum de vraisemblance

Hypothèse sur les résidus
H : ǫ ∼ N (0, σ2 I ) (41)
La fonction de la log vraisemblance s’écrit alors :
−T T 2 1
log(L ) = log(2π) − σ − (y − X β)′ (y − X β) (42)
2 2 2σ2
∂ ln(L ) 1 h i
CPO : = 2
−2X ′ y + 2X ′ X β̂ = 0
∂β 2σ̂
∂ ln(L ) T 1 h i
2
= − 2 + 4 (y − X β̂)′ (y − X β̂) = 0
∂σ σ̂ σ̂
La première condition implique que :
β̂ = (X ′ X )−1 X ′ y .

On obtient
ǫ′ ǫ
σ̂2 = Cet estimateur est biaisé . (43)
T
 −x ′ x 1 
 σ2
(−X ′ y + X ′ X β̂)
σ4

CSO :  1 −T 1  (44)
( − X ′ y + X ′ X β̂) + ˆ6 ((y − X β)′ (y − X β)) 
σ4 σˆ4 σ
1
En remplaçant β par β̂ = (X ′ X )−1 X ′ y et σ2 par T
((y − X β)′ (y − X β))
− xσ2x
′ !
0k
(45)
0k − σT4
qui est définie negative puisque (X ′ X ) est définie négative et σ2 > 0. Nous
avons donc bien un maximum.

Une association de producteurs d’oignons voudrait étudier l’influence sur

la production de d’oignons par hectare (Y )) des quantités de
main-d’oeuvre (X1 ) ) et d’engrais (X2 ) employées par hectare. Une
enquête est menées chez dix producteurs d’oignons (i = 1, ..., 10) et l’on
postule la forme fonctionnelle suivante :
log(Yi ) = β1 + β2 log(X1i ) + β3 log(X2i ) + ǫi
où ǫi est un terme d’erreur aléatoire satisfaisant nos hypothèses (bruit

blanc). Les données de l’échatillon sont résumées dans la matrice
suivante :
(log(Yt ))2
P P P P
(log(Yt )) (log(Yt )) log(X1i ) (log(Yt )) log(X2i )
 
 P P 
(log(Yt )) T log(X1i ) (log(X2i ))
 
 P  =
 (log(Y )) log(X ) P 2 P
t i log( X i ) log( X i ) (log( Y )) log(X2i ) 
 P 1 1 1
P t 
(log(X2i ))2
P
(log(Yt )) log(X2i ) log(X2i ) log(X1i ) log(X2i )
 
 19.14 11.8 7.1 4.1 
 11.8 10 2 2 
 
 7.1 2 7 1 
 
4.1 2 1 7
 
 10 2 2 
(X ′ X ) =  2 7 1 
 
 
2 1 7
y ′ y = 19.14
 
 11.8 
X y =  7.1
′  
 
4.1
 
 48 12 −12 
1 
(X ′ X )−1 = 432  12 66 −6 
 
−12 −6 66
LE MODÈLE DE RÉGRESSION MULTIPLE Propriétés asymtotiques des estimateurs de moindres ordinaires
 
 1 
β̂ = (X ′ X )−1 X ′ y =  0.7 
 
 
0.2
β̂′ X ′ y = 17.59
ǫˆ′ ǫ̂ = 19.34 − 17.59 = 1.75
ǫˆ′ ǫ̂ 1.75
s2 = T −3 = 10−3 = 0.25
1.75
R2 = 1 − (11.8)2
= 0.677
19.34− 10
R¯2 = 97 0.677 − 2
7 = 0.585
Les résultats peuvent être résumés de la façon suivante (les estimations

des écarts-types se trouvent entre parenthèses) :
log(Ŷt ) = 1 + 0.7 log(X1i ) + 0.2 log(X2i ) + ǫi R¯2 = 0.585

Convergence
Hypothèses :
1 H1 : E (ǫ ) = 0 Les erreurs sont centrées
2 H2 : V (ǫ ) = σ2 In : Homocedasticité des erreurs.
3 H3 : Le vecteur X des explicatives est non sotchastique de rang
K < n).
limn→∞ N1 (X ′ X ) = XX une matrice définie positive.
P
4
plimβ̂ = plim[β + (X ′ X )−1 X ′ ǫ ]





= β + plim[(X ′ X )−1 X ′ ǫ ]






= β + plim[( n1 X ′ X )−1 X ′ n1 ǫ ]



= β + plim[( n1 X ′ X )−1 ]plim[ n1 ǫ ]






= β + −XX1 ×0K ×1 = β

 P

Normalité asymptotique
Théorème 4.2
Supposons que les hypothèses H1 a H2 soient vérifiées, et soit αt la
t-ieme colonne de la transposee de X (X’). Définissons le vecteur Zt = ǫt αt
et supposons √1n Zt vérifie le théorème central limite. Alors pour
P
β̂ = (X ′ X )−1 X ′ y :
√
(a) dlim n(β̂ − β) ∼ N (0, σ2 −XX1 )
P
(b)Si plim( n1 ǫ ′ ǫ ) = σ2 on a plim( n1 ǫ̂ ′ ǫ̂ ) = σ2 avec ǫ̂ = y − X β̂

Remarque 4.5
En pratique on raisonne, en supposant que σ est connu pour pouvoir
utiliser la loi normale au lieu de celle de student dans le cas ou σ est
inconnu

LE MODÈLE DE RÉGRESSION MULTIPLE L’estimateur de Aitken de moindres carrés généralisés (MCG)
Estimateur MCG
Cet estimateur est une extension de l’estimateur des MCO appelé le

modèle de moindres carrés généralisées.
Soit le modèle
y = Xβ + ǫ (46)
H1 : E (y ) = X β
P
H 2 : Les erreurs sont non sphériques : V (y ) = V (ǫ ) = .
H 3 : Les régresseurs sont non stochastiques i.e X est non aléatoire
de rang K car la matrice (X ′ X ) est de format K × K .
H3 : Multicolinéarité implique que y ∼ NMV (X β; Σ) avec
V (y ) = Σ = σ2 Ω (σ2 supposée connue)

on suppose que
E (ǫ ) = 0 et V (ǫ ) = σ2 Ω
On appelle estimateur de Aitken du modèle [46] l’estimateur MCO :
β̂mcg = (X1′ X1 )−1 X1′ y1 = (X ′ Ω−1 X )−1 X ′ Ω−1 y (47)
Propriété 4.1
E (β̂mcg ) = β (48)
V (β̂mcg ) = (X ′ Ω−1 X )−1 (49)

Gauss Markov
Théorème 4.3
(β̂mcg ) est l’unique estimateur linéaire sans biais de β qui minimise la
variance de l’estimateur de toute forme linéaire de β.
Remarque 4.6
Un estimateur sans biais de σ2 est
kǫ̂k2 ǫ̂ ′ Ω−1 ǫ̂
S2 = = (50)
n−K n−K
Si le résidu ǫ est gaussien, (β̂mcg ) est l’estimateur du maximum de

(n −K )S 2
vraisemblance de β. La v.a.r σ2 suit une loi de χ2 de degré de liberté
ν = n − K et est indépendante de (βmcg ). On en déduit les tests et régions
de confiance concernant les composantes de β.

LE MODÈLE DE RÉGRESSION MULTIPLE L’estimateur MCG réalisable
MCG réalisable
Cas Ω est inconnue. Trois possibilités d’estimer Ω.

1 Paramétriser la matrice Ω en terme de θ : Ω = Ω(θ).
Par construction Ω(0) = I .
Ce qui conduit au test d’hypothèse
HO : Ω(0) = I ⇔ θ = 0
Si on ne rejette pas H0 alors (β̂mcg ) = (β̂mco )
2 Si on rejette H0 Ω = Ω(θ). On obtient l’estimateur :
Ω̂ = Ω(θ̂)

On définit l’estimateur de MCG réalisable par :
β̂√mcg−r = (X ′ Ω̂−1 X )−1 X ′ Ω̂−1 y

√n(β̂mcg−r − β) −→ 0
n(β̂mcg−r − β) ∼ N (0, V )
2 1 ′ −1 −1 −1
avec V = plim(Smcg −r [ n X Ω̂ X ) ] )
1 Si la forme de (Ω(θ̂)) est inconnue,on a la distribution asymptotique

suivante :
√
n(β̂mcg−r − β) ∼ N (0, D −1 CD −1 )
avec
plim[ n1 X ′ Ω̂−1 X )−1 ]−1 X = D̂
plim[ n1 X ′ Ω̂−1 ΣΩ̂−1 X )−1 ]−1 X = Ĉ

Propriétés
Théorème 4.4
Soit y = X β + ǫ, avec E (ǫ ) = 0
ρ ... ρn−1 
 
 1 
1 ...
 ρ ... 
2 2
′
E (ǫǫ ) = σ Ω = σ  
 
 ... ... ... 
 n−1
ρ ... ... 1
Si ρ̂ est un estimateur convergent de ρ et supposons que

lim infn→∞ n1 (X ′ Ω−1 X ) = Q soit une matrice définie positive. Soit H la
matrice de transformation telle que H ′ H = Ω−1 , soit [X ′ H ′ ]t la t-ieme
colonne de X ′ H ′ , et supposons que les vecteurs Zt = (H ǫ )t [X ′ H ′ ] vérifient
le théorème central limite.

Théorème suite
Théorème 4.5
β̂ = (X ′ Ω−1 X )−1 X ′ Ω−1 yet
(
Considérons les deux estimateurs ˆ ou
β̂ = (X ′ Ω̂−1 X )−1 X ′ Ω̂−1 y
ρ̂ ... ρ̂n−1 
 
 1 
 ρ̂ 1 ... ... 
Ω̂ =   
 ... ... ... 
 n−1
ρ̂ ... ... 1
Sous les hypothèses additionnelles que :
plim( n1 X ′ Ω̂−1 X ) = lim n1 (X ′ Ω̂−1 X ) = Q

plim( √1n X ′ Ω̂−1 ǫ − X ′ Ω−1 ) = 0
plim( n1 (ǫ ′ ǫ ) = 0

Théorème fin
Théorème 4.6
on a les résultats suivants :
√ √
dlim n (β̂ − β) = dlim n(β̂ˆ − β) ∼ N 0, σ2 Q −1

1
2 plims 2 = σ2 avec s 2 = 1
n−k (y − X β̂ˆ )Ωˆ−1 (y − X β̂ˆ )

LE MODÈLE DE RÉGRESSION MULTIPLE Estimation sous contrainte
Estimation sous contrainte
Deux approches permettent d’estimer les paramètres du modèle

contraint :
1 Approche par changement de variables ;
2 Application directe de la méthode d’estimation sous contraintes

Si on impose r contraintes, ceci revient à estimer K − r paramètres du

modèle contraint.
Exemple d’estimateurs
Exemple : Supposons le modèle
qt = γ + αlt + βkt + ut
On suppose des rendements d’échelle constants α + β = 1 ⇒
α + β = 1 ⇒ qt = γ + (1 − β)lt + βkt + ut
qt − lt = γ + β(kt − lt ) + ut
Ceci revient à estimer deux paramètres β et γ.

Le problème est le suivant : βc est une solution du problème suivant
min SCR (β) = (y − X β)′ (y − X β)

sc R β = c
Théorème 4.7
Soit
y = Xβ + u
L’estimateur des moindres carrés ordinaires est définie par :
β̂c = β̂nc − (X ′ X )−1 R ′ [R (X ′ X )−1 R ′ ]−1 (R βnc − c ) (51)

On va presenter les propriétés de β̂c sous H0 : R β = c

Propriétés de β̂c sous H0
Premier cas : H0 :R β = c est vraie

ˆ est sans biais, on a
Sous H1 − H3 , on sait que βnc
ˆ ) = RE (βˆnc ) = R β = c
E (R βnc (52)
Propriété 4.2
Sous H1 − H4 et H0 ,βnc est sans et plus precis que l’estimateur βˆnc
Autrement dit, l’estimateur est sans biais et l’on gagne en precision
lorsque on intègre les contraintes par H0 . Ce résultat est intuitif : les
contraintes R β = c constituent un ensemble d’information supplémentaires
sur β dont la prise en compte réduit l’incertitude affectant l’estimation.
Deuxieme cas : R β , 0 Quand H0 n’est pas vérifiée, l’estimateur contraint

βc est biaisé

Econometrie PierreMendy-beamerL3gestion Ch1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Econometrie PierreMendy-beamerL3gestion Ch1

Transféré par

Droits d'auteur :

Formats disponibles

Première partie 1

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 1 / 61

Test sur une combinaison linéaire des coefficients

4 LE MODÈLE DE RÉGRESSION MULTIPLE

Description du problème et exemples économiques

CTt = a + bQt + ut (3)

L’objectif de ce chapitre consiste à estimer les paramètres de régression

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 2 / 61

Soit l’équation linéaire

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 3 / 61

ut ∼ i .i .dN (0, σu2 IT )

E (xt ut ) = 0, E (ut |xt ) = 0,

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 4 / 61

min max |ût | (5)

on peut écrire indifféremment

yt = â + b̂xt + ût (9)

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 5 / 61

Nous allons minimiser en â et b̂ la somme des carrés des résidus (SCR) :

Les conditions du premier ordre sont

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 6 / 61

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 7 / 61

Conditions du second ordre

La matrice Hessienne doit être définie positive

Le hessien étant défini positif, nous avons bien un minimum.

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 8 / 61

xt2 = 55, xt yt = 103, yt2 = 194

103 − (15 ∗ 28)/5

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 8 / 61

Figure – Nuage de points et droite régression ŷt = −.1 + 1.9x

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 9 / 61

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 9 / 61

La variance de b̂ se calcule comme suit :

Cov (â , b̂ ) = E (â − a )E (b̂ − b )

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 11 / 61

La matrice de variances-covariances est données par

On vérifie que à l’aide de ces moments que plimb̂ = b et plimâ = a

Un estimateur sans biais de σ2 est défini par :

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 12 / 61

Le coefficient de détermination permet de mesurer la qualité de

SCE SCT − SCR SCR

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 13 / 61

On complète l’étude précédente en construisant la table d’analyse de la

Source Somme Degrés Carrés F̂

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 14 / 61

Suite exemple section 1.3

SCE = 1.92 ∗ 10 = 3.61 ∗ 10 = 36.1

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 15 / 61

Suite exemple section 1.3

ŷt = |{z} 1.9 xt

97% des fluctautions de yt sont expliquées par celles de xt Exemple

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 15 / 61

Tests sur les coefficients individuels

Nous nous intéressons à la probabilité du type :

i.e "J’ai une probabilité de 1 − α de ne pas me tromper lorsque

ce qui nous permet de calculer les bornes de l’intervalle :

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 15 / 61

où z α2 valeur critique d’une loi noramle centrée réduite. On obtient :

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 16 / 61

Les bornes cherchées sont donc :

binf = b̂ − z α2 σb̂ ≤ bsup = b̂ + z α2 σb̂

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 17 / 61

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 18 / 61

Pierre MENDY Chapitre 3 : Régression linéaire empirique ASEF 3 2017-2018 19 / 61