Académique Documents
Professionnel Documents
Culture Documents
Cours d’Econométrie
Le but de cours est d’initier les étudiants aux méthodes fondamentales de l’écono-
métrie qui permettent de mesurer les relations entre des phénomènes économiques,
sociologiques sur la base d’observations de faits réels. Donner un contenu empirique
aux théories économiques afin de vérifier leur plausibilit.
Chapitre 1
1.1 Définition
Définition 1.1 L’économétrie est le principal outil d’analyse quantitative utilisé par les
économistes et gestionnaires dans divers domaines d’application, comme la macroéco-
nomie, la finance ou le marketing. Les méthodes de l’économétrie permettent de véri-
fier l’existence de certaines relations entre des phénomènes économiques, et de mesurer
concrètement ces relations, sur la base d’observations de faits réels.
Dans son acception la plus restreinte, l’économétrie est un ensemble de techniques
utilisant la statistique mathématique qui vérifient la validité empirique des relations
supposées entre les phénomènes économiques et mesurent les paramètres de ces re-
lations. Au sens large, l’économétrie est l’art de construire et d’estimer des modèles
empiriques adéquats par rapport aux caractéristiques de la réalité, et intelligibles au
regard de la théorie économique.
— Evaluer les paramètres d’intérêt dans les relations économiques : l’idée est
aussi d’avoir une fonction d’évaluation des paramètres.
|rx,y |
— Statistique du test (t de Student) : t = r
2
1−rx,y
n−2
— Règle de décision :
1− α
— Si La plus-value > α (t∗ < tn−22 ) on accepte H0 (Absence de relation).
1− α
— Si La plus-value < α on rejette H0 (t∗ > tn−22 ) (présence de la relation).
avec :
— yi : variable à expliquer (variable endogène)
— xi : variable explicative (variable exogène)
— β0 et β1 : les paramètres du modèle (les coefficients)
— n : nombre d’observations
— εi : Le terme aléatoire , que l’on appelle l’erreur du modèle, tient un rôle très
important dans la régression. Il permet de résumer toute l’information qui n’est
pas prise en compte dans la relation linéaire que l’on cherche à établir entre y
et x.
Le critère des moindres carrés consiste à minimiser la somme des carrés des écarts (des
erreurs) entre les vraies valeurs de y et les valeurs prédites avec le modèle de prédiction.
En opérant par dérivation par rapport à β0 et β1 afin de trouver le minimum de cette
fonction, on obtient les résultats suivants :
n
ε2i
X
min S = min
{β0 ,β1 } {β0 ,β1 }
i=1
n
[yi − β0 − β1 xi ]2
X
= min
{β0 ,β1 }
i=1
∂S
=0
∂β1
n
∂S
h i
X
= −2 xi yi − βc0 − βc1 xi = 0
∂β1 i=1
∂S
= y − βc0 − βc1 x = 0
∂β0
n n n
∂S
x2i = 0
X X X
xi yi − βc0 xi − βc1
=
∂β1 i=1
i=1 i=1
i=1
cov(x, y)
=
σx2
σy
= rx,y
σx
y i = β 0 + β 1 xi + εi
avec
i=1 i=1
10 10
(xi − x)2 = 0, 0047136 (yi − y)2 = 0, 0050644
X X
i=1 i=1
Solution
10
X
(xi − x) (yi − y)
0, 0044788
βb1 = i=1 10 = = 0, 884369323
0, 0047136
(xi − x)2
X
i=1
εbi = yi − ybi
= yi − βc0 − βc1 xi
= yi − βc0 − βc1 xi + βc
1
x − βc1 x
= yi − βc1 (xi − x) − βc1 x + βc0
| {z }
y
= (yi − y) − βc1 (xi − x)
yi ybi εbi
2,01 2,013221389 -0,003221389
2,02 2,022065082 -0,002065082
2,018 2,022065082 -0,004065082
2,02 2,022065082 -0,002065082
Exemple 2.2 2,01 2,019411974 -0,009411974
2,03 2,030908775 -0,000908775
2,05 2,039752468 0,010247532
2,06 2,045943053 0,014056947
2,06 2,048596161 0,011403839
2,07 2,083970934 -0,013970934
Par ailleurs, les condutions de premières ordre se traduisent par les proprétes suivantes :
— La somme des résidus est nulle :
n
X
εbi = 0 par conséquent y = yb
i=1
— SCT est la somme des carrés totaux. Elle indique la variabilité totale de Y c-à-d.
l’information disponible dans les données.
— SCE est la somme des carrés expliqués. Elle indique la variabilité expliquée par
le modèle c-à-d la variation de Y expliquée par X.
— SCR est somme des carrés résiduels. Elle indique la variabilité non-expliquée
(résiduelle) par le modèle c-à-d l’écart entre les valeurs observées de Y et celles
prédites par le modèle.
Deux situations extrêmes peuvent survenir :
— Dans le meilleur des cas, SCR = 0 et donc SCT = SCE : les variations de Y
sont complètement expliquées par celles de X. On a un modèle parfait, la droite
de régression passe exactement par tous les points du nuage (ybi = yi ).
— Dans le pire des cas, SCE = 0 : Xn’apporte aucune information sur Y . Ainsi,
(ybi = y), la meilleure prédiction de Y est sa propre moyenne.
— Est-ce qu’il est sans biais c.-à-d. est-ce qu’en moyenne nous obtenons la vraie
b = θ.)
valeur du paramètre ? (un estimateur est sans biais si E(θ)
— Est-ce qu’il est convergent c.-à-d. à mesure que la taille de l’échantillon aug-
mente, l’estimation devient de plus en plus précise ?
Ainsi
n
X
(xi − x) [β1 (xi − x) + (εi − ε)]
i=1
βc
1 = n
(xi − x)2
X
i=1
n n
(xi − x)2 +
X X
β1 (xi − x)(εi − ε)
i=1 i=1
= n
(xi − x)2
X
i=1
n
X
(xi − x)(εi − ε)
i=1
= β1 + n
(xi − x)2
X
i=1
n
X
(xi − x)εi
i=1
= β1 + n
(xi − x)2
X
i=1
Puisque
n
X n
X
(xi − x)ε = ε (xi − x)
i=1 i=1
Xn n
X
= ε xi − εx
i=1 i=1
Xn
= ε xi − nεx
i=1
= nεx − nεx
= 0
n
X
n
X
(xi − x)εi (xi − x)εi
i=1 i=1
E(βc )
1 = β1
E + n
= E (β1 ) + E X
n
− x)2 − x)2
X
(xi (xi
i=1 i=1
n
X
(xi − x)E(εi )
i=1
= E (β1 ) + n = β1
2
X
(xi − x)
i=1
Nous devons donc d’abord déterminer la variance de l’estimateur, et montrer qu’il tend
vers 0 quand n tend vers ∞.
2
V (βc1 ) = E βc1 − β1
n 2
X
(xi − x)εi
xi − x
i=1
= E
X n
on pose wi = X
n
2
(xi − x) (xi − x)2
i=1 i=1
n
!2
X
= E w i εi
i=1
n
E w 2 ε2
X X
= i i +2 w i w j εi εj
i=1 i<j
n
E w 2 ε2
X X
= i i +2 w i w j εi εj
i=1 i<j
n
wi2 E ε2i + 2
X X
= wi wj E (εi εj )
i=1 i<j
On remarque que :
— σε2 est une valeur qui ne dépend pas de n, c’est la variance de l’erreur définie
dans la population.
n
(xi − x)2 . (c’est une somme
X
— En revanche, lorsque n −→ ∞, on remarque que
i=1
de valeurs toutes positives ou nulles) −→ ∞, donc
V (βc1 ) −→ 0 (2.3.12)
n→∞
h i
avec cov βb0 , βb1 = E βb0 − E(βc0 ) βb1 − E(βc1 )
σε2
= −x X
n = −xV βb1
(xi − x)2
i=1
La matrice de variance-covariance ne peut pas être calculée car la valeur de σε2 est
inconnue. Pour déterminer cette matrice, on doit déterminer un estimateur de σε2 non
biaisé de la variance.
Définition 2.2 Estimateur de la variance de l’erreur L’estimateur de la variance de
l’erreur σε2 noté σbε2 est égale à 1 :
n
1 X
σbε2 = εb2 (2.3.14)
n − 2 i=1 i
1. voir Régis Bourbonnais, Cours et exercices corrigés, (9e édition) pages 25-26.
βc0 − β0
N(0, 1)
σβb0
De fait, yi = β0 + β1 xi + εi suit aussi une loi normale, et βc1 et βc0 étant une combinaison
linéaire des yi ,
εi
εi N(0, σε2 ) ⇐⇒ N(0, 1)
σε
εbi
⇐⇒ N(0, 1) Comme εbi est une réalisation de εi
σε
2
En passant au carré, nous avons un X(1) . D’où
n
εb2i
X
n
εbi 2
i=1
X
=
i=1 σε σε2
σbε2 2
= (n − 2) X(n−2)
σε2
σb 2 σbβ2b
(n − 2) ε2 = (n − 2) 1
(2.4.15)
σε σβ2b
1
n
εb2i
X
i=1
= n (2.4.16)
2
X
σβ2b (xi − x)
1
i=1
2
X(n−2) (2.4.17)
Il en résulte que :
βb1 − β1 βb0 − β0
et suivent une loi de Student à (n − 2) degrés de liberté
σbβb1 σbβb0
Rappel : la loi de Student est définie par un rapport entre une loi normale centrée
réduite et la racine carrée d’un loi du X 2 normalisée par ses degrés de liberté.
F,
SCE R2
F∗ = 1 = 1
SCR 1 − R2
n−2 n−2
La statistique F ∗ est le rapport de la somme des carrés expliqués par xt sur la somme
des carrés des résidus, chacune de ces sommes étant divisée par son degré de liberté
respectif.
2
Sous H0 , SCE est distribué selon un X(1) et SCR selon un X(n−2) , de fait pour F on
a:
2
X(1)
F ∗ = 21 ≡ F (1, n − 2)
X(n−2)
n−2
Sous H0 , F est donc distribué selon une loi de Fisher à F (1, n − 2) degrés de liberté.
— La région critique du test : correspondant au rejet de H0 , au risque α est définie
pour les valeurs anormalement élevées de F ∗ c-à-d :
F ∗ > F(1−α) (1, n − 2)
Exemple 2.5
SCE 0, 003960913
F∗ = 1 = 1
SCR 0, 000752687 = 42, 09893389
n−2 10 − 2
0, 840315963
= 1
1 − 0, 840315963 = 42, 09893389
10 − 2
0,05
Or F(1,8) = 5, 318 < 42, 09893389 donc on rejette H0 ⇐⇒ le modèle est globalement
significatif.
βb1 − β1
Sous H0 le ratio appelé ratio de Student suit donc une loi de Student à (n − 2)
σbβb1
degrés de liberté.
— Le test d’hypothèses bilatéral consiste donc à comparer le ratio de Student
empirique : t∗ = bσ|β1 | à la valeur du t de Student lue dans la table à (n − 2)
b
β1
b
degrés de liberté
— La région critique (de rejet de H0 ) au risque α s’écrit :
1− α
t∗ > tn−22
α0 < α
βb1 0, 884369323
t∗ = = = 6, 488369124
σbβb1 0, 136300711
Or,
0.05
t10−2
2
= 2, 306 < 6, 488369124
Donc on rejette H0 .
Exemple 2.7 Exemple d’application avec Eviews
βb1 − c
Sous H0 le ratio appelé ratio de Student suit donc une loi de Student à (n − 2)
σbβb1
degrés de liberté.
— Le test d’hypothèses unilatéral consiste donc à comparer le ratio de Student
empirique : t∗ = |βbσ1 −c| à la valeur du t de Student lue dans la table à (n − 2)
b
β1
b
degrés de liberté
t∗ > t1−α
avec t1−α
n−2 est le quantile d’ordre (1 − α) de la loi de Student.
Exemple 2.8 (
H0 β1 = 0.5
H1 β1 < 0.5
Sous l’hyopthèse H0 , on a :
Donc on rejette H0 .
Exemple 2.9
IC(β1 ) = [0, 671983 ∓ 2, 306 × 0, 136300711]
Sous les hypothèses H2 (xn+h est observée (non aléatoire)) et H5 (les erreurs sont non
corrélées (ou encore indépendantes)), d’où
V (εbn+h ) = V βb0 + x2n+h V βb1 + V (εn+h ) + 2xn+h cov βb0 , βb1
| {z } | {z }
2
σε
+x2 V
(βb1 ) −xV (β
b1 )
n
1 (xn+h − x)2
V (εbn+h ) = σε2 +1+ Xn
(2.5.20)
n
2
(xi − x)
i=1
a
2 1 (xn+h − x)2
εbi+1 N 0, σε
+1+ X
n
n
2
(xi − x)
i=1
Implique :
yn+h − ybn+h
v Tn−2
u
u1 (xn+h − x)2
σbε u
un
+1+ X n
t (xi − x)2
i=1
s
q 1 (2, 41 − 2, 3144)2
IC[y11 ] = 2, 119 ∓ 2, 306 × 9, 40858E −05 +1+
10 0, 0047136
= [2, 118; 2, 12]
— εi : est l’erreur du modèle, elle résume les informations manquantes qui permet-
trait d’expliquer linéairement les valeurs de Y à l’aide des k variables xk .
Y = X β + ε (3.1.2)
(n,1) (n,k+1) (k+1,1) (n,1)
3.2. Estimation et propriétés des estimateurs 26
avec
y1 1 x11 . . xk1 β0 ε1
y2 1 x12 . . xk2 β1 ε2
Y =
.
,X =
. . . . .
,β =
.
,ε =
.
.
. . . . .
.
.
yn 1 x1n . . xkn βk εn
3.1.3 Hypothèses
— H1 : les valeurs xi sont observées (non aléatoire).
— H2 : E(εi ) = 0, l’espérance de l’erreur est nulle. En moyenne, le modèle est bien
spécifié.
— H3 : E(ε2i ) = σε2 ,la variance de l’erreur est constante, c’est l’hypothèse de l’ho-
moscédasticité.
— H4 : cov(εi εj ) = 0 ∀i 6= j les erreurs sont indépendantes, c’est l’hypothèse de
non autocorrélation des résidus (indépendances des erreurs).
— H5 : cov(xi,j εi ) = 0.
— H6 : εi N(0, σε2 ) , l’erreur est indépendante de la variable explicative.
— H7 : La matrice (X 0 X) est régulière c-à-d. det(X 0 X) 6= 0 et (X 0 X)−1 existe.
Elle indique l’absence de colinéarité entre les exogènes. Nous pouvons aussi voir
cette hypothèse sous l’angle rang(X) = k + 1 et rang(X 0 X) = k + 1.
0
— H8 : (XnX) tend vers une matrice finie non singulière (invesible) lorsque n 7−→ ∞
— H9 : n > k + 1 le nombre d’observations est supérieur au nombre des séries
explicatives.
n
0
ε2i
X
min ε ε = min (3.2.3)
β β
i=1
= min (Y − Xβ)0 (Y − Xβ) (3.2.4)
β | {z }
S
∂S
D’après les conditions du premier ordre, = 0, la solution est donnée par :
∂β
∂S
= −2X 0 Y + 2(X 0 X)β = 0
∂β
d’où
−1
βb = (X 0 X) X 0Y (3.2.8)
— Cette solution est réalisable ssi l’hypothèse [7] est vérifiée.
— On appelle équations normales les équations issues de la relation :
(X 0 X)βb = (X 0 Y )
n
X n
X n
X
n x1i x2i ··· xki
1 1 1
n
X n
X n
X Xn
x1i x21i x1i x2i · · · x1i xki
1 i=1 i=1 i=1
n n n n
(X 0 X) =
X X X X
x2i x2i x1i x22i ··· x2i xki
i=1 i=1 i=1 i=1
..
. ··· ··· ··· ···
n
X n
X n
X Xn
2
xki xki x1i xki x2i · · · xki
i=1 i=1 i=1 i=1
n
X
yi
i=1
n
X
x1i yi βb0
i=1
βb1
n
(X 0 Y ) =
X
x2i yi βb =
βb2
..
i=1
.
..
.
βbk
Xn
xki yi
i=1
Lorsque les variables sont centrées, l’estimateur de β peut s’écrire en fonction des
matrices des variances et covariances empiriques :
b
β1
−1
var(x1 ) cov(x1 x2 ) · · · cov(x1 xk ) cov(x1 , y)
βb
· · · cov(x2 xk )
2
.
cov(x2 x1 ) var(x2 )
cov(x2 , y)
.
cov(x3 x1 ) cov(x3 x2 ) · · · cov(x3 xk )
cov(x3 , y)
.
=
..
.. .. ..
..
. . . .
.
βb cov(xk x1 ) cov(xk x2 ) ··· var(xk ) cov(xk , y)
k
plus petite variance. Les estimateurs des MCO sont BLUE (best linear unbiased esti-
mator).
−1
βb = (X 0 X) X 0 Y
−1
= (X 0 X) X 0 (Xβ + ε)
−1
= β + (X 0 X) X 0 ε
βb est-il un estimateur sans biais
−1
E βb = E β + (X 0 X) X 0ε
−1
= β + (X 0 X) X 0 E (ε)
= β
Conclusion : βb est un estimateur sans biais.
βb est-il un estimateur convergent ?
Sous l’hypothèse 2 :
0
var βb = E βb − E βb βb − E βb
0
= E βb − β βb − β
0
−1 −1
= E (X 0 X) X 0ε (X 0 X) X 0ε
−1 −1
= (X 0 X) X 0 E (εε0 ) X (X 0 X)
−1
= σε2 (X 0 X)
= Ωβb
var(βb0 ) cov(βb0 βb1 ) · · · cov(βb0 βbk )
cov(βb0 βb1 ) var(βb1 ) · · · cov(βb1 βbk )
var βb = Ωβb =
cov(βb2 βb0 ) cov(βb2 βb1 ) · · · cov(βb2 βbk )
.. .. ..
. . .
cov(βk β0 ) cov(βbk βb1 )
b b ··· var(βbk )
−1
lim var βb = lim σε2 (X 0 X)
n−→∞ n−→∞
!−1
σ2 X 0X
= lim ε
n−→∞ n n
= 0
d’après l’hypothèse H8 .
3.2.3 Application
On considère le modèle suivant :
yi = β0 + β1 x1i + β2 x2i + β3 x3i + εi
Les données se présentent dans le tableau suivant :
i yi x1i x2i x3i
1 12 2 45 121
2 14 1 43 132
3 10 3 43 154
4 16 6 47 145
5 14 7 42 129
6 19 8 41 156
7 21 8 32 132
8 19 5 33 147
9 21 5 41 128
10 16 8 38 163
11 19 4 32 161
12 21 9 31 172
13 25 12 35 174
14 21 7 29 180
12 1 2 45 121 ε1
β0
14 1 1 43 132 ε2
β1
Y = . ,X = . . . . ,β =
,ε = .
β2
.
. . . .
.
β3
21 1 7 29 180 ε14
1 2 45 121
1 1 . 1
1 1 43 132
2 1 . 7
X 0X =
. . . .
45 43 . 29
. . . .
121 132 . 180
1 7 29 180
14 85 532 2094
85 631 3126 13132
=
532 3126 20666 78683
2094 1132 78683 317950
βb = (X 0 X)−1 (X 0 Y )
20.1686 0.0150 −0.2314 −0.0761 248
0.0150 0.0132 0.0011 −0.0009 1622
=
−0.2314 0.0011 0.0036 0.0005 9202
−0.0761 −0.0009 0.0005 0.0004 37529
32.8913 βb0
0.8019 βb1
= =
−0.3813
βb2
−0.0371 βb3
2
3.3.2 R2 et Le coefficient de détermination corrigé R
SCE SCR
R2 = =1−
SCT SCT
Cette équation va nous permettre de juger de la qualité de l’ajustement d’un modèle.
En effet, lorsque ce coefficient tend vers 1, meilleur est l’ajustement global du modèle.
Remarque 3.1 Ce coefficient de détermination R2 n’est pas pertinent pour comparer le
pouvoir explicatif entre plusieurs modèles ne comprenant pas le même degré de liberte.
2
Il convient de calculer Le coefficient de détermination corrigé R par les degrés
de liberte.
2 n−1
R =1− (1 − R2 )
n−k−1
Attention
Seuls les coefficients associés aux variables xi sont inclus dans le test. On ne teste pas le
cas où le terme constant β0 est nul car seules nous intéressent les variables explicatives.
— Statistique de test et région critique
La statistique F ∗ est le rapport de la somme des carrés expliqués sur la somme
des carrés des résidus, chacune de ces sommes étant divisée par son degré de
liberté respectif.
2 2
Sous H0 , SCE est distribué selon un X(k) et SCR selon un X(n−k−1) , de fait
pour F on a :
SCE R2
F∗ = k = k ≡ F (k, n − k − 1)
SCR 1 − R2
n−k−1 n−k−1
— La région critique du test : correspondant au rejet de H0 , au risque α est définie
pour les valeurs anormalement élevées de F ∗ c-à-d : F ∗ > F(1−α) (k, n − k − 1)
0, 702
3
F ∗ = 1 − 0, 702 = 7, 878
14 − 3 − 1
5%
F(3,10) = 3, 71 < F ∗ = 7, 85
Donc le modèle est globalement significatif.
βbk − βk
N (0, 1)
σβbk
avec var(βbk ) = σε2 skk où skk est l’élément (k, k) de la matrice (X 0 X)−1 .
La matrice de variance-covariance ne peut pas être calculée car la valeur de σε2 est
inconnue. Pour déterminer cette matrice, on doit déterminer un estimateur de σε2 non
biaisé de la variance.
Ω
b =σb ε (X 0 X)−1 (3.4.11)
βb
Un estimateur de la matrice de variances et covariances des coefficientsde regression.
Il en résulte que :
βbk − βk
βbk − βk σβbk
=v t(n−k−1)
σbβbk u
σbβ2b 1
u
t(n − k − 1) 2 k
u
σβb n − k − 1
k
0
βb − β Ω−1
b β−β
β
b 2
X(k+1)
C’est la somme au carré de k + 1 variables aléatoires normales centrées réduites.
0
−1
1 b 0 1
k+1
βb − β [σε2 (X 0 X)−1 ] βb − β
β−β Ω b −1 βb − β =
k+1 β σb 2 1
b
(n − k − 1) ε2
σε n−k−1
est le rapport de deux chi-deux divisés par leurs degrés de liberté. Donc elle suit la loi
de Fisher à k + 1 et n − k − 1 degrés de liberté.
βbk − βk
Sous H0 le ratio appelé ratio de Student suit donc une loi de Student à (n−k−1)
σbβbk
degrés de liberté.
— Le test d’hypothèses bilatéral consiste donc à comparer le ratio de Student
empirique : t∗ = bσ|βk | à la valeur du t de Student lue dans la table à (n − k − 1)
b
βk
b
degrés de liberté
— La région critique (de rejet de H0 ) au risque α s’écrit :
1− α
t∗ > tn−k−1
2
SCR 67, 45
σbε2 =
= = 6, 745
n−k−1 10
Estimation de la variance de chacun des coefficients
−1
Ω
b b ε2 (X 0 X)
b = σ
β
20.1686 0.0150 −0.2314 −0.0761
0.0150 0.0132 0.0011 −0.0009
= 6, 745
−0.2314 0.0011 0.0036 0.0005
−0.0761 −0.0009 0.0005 0.0004
σbβ2b
6, 745 ∗ 20, 1686 136, 04
0
σbβ2b
6, 745 ∗ 0, 0132 0, 087
1
= =
σbβ2b 6, 745 ∗ 0, 0036 0, 024
2
σbβ2b 6, 745 ∗ 0, 0004 0, 0026
3
(
H0 : βk = 0
H1 : βk 6= 0
|βbk |
Sous H0 t∗ = suit donc une loi de Student à (14 − 3 − 1) degrés de liberté.
σbβbk
βbk − β
Sous H0 le ratio appelé ratio de Student suit donc une loi de Student à (n−k−1)
σbβbk
degrés de liberté.
— Le test d’hypothèses bilatéral consiste donc à comparer le ratio de Student
empirique : t∗ = |βbσk −β| à la valeur du t de Student lue dans la table à (n − k − 1)
b
βk
b
degrés de liberté
— La région critique (de rejet de H0 ) au risque α s’écrit :
1− α
t∗ > tn−k−1
2
α0 < α
1. Test Bilatéral (
H0 β1 = 0, 5
6 0, 5
H1 β1 =
2. Test Unilatéral (
H0 β1 = 1, 2
H1 β1 < 1, 2
βb(q) représente le sous-vecteur des coefficients estimés mis à contribution dans le test ;
Ωb
b(q) est la matrice de variance covariance réduite aux coefficients testés.
β
Si F ∗ 6 F α (q, n − k − 1) Donc on accepte H0
Les coefficients β1 et β2 sont-ils signficativement différents de 1 et -0,5 simultanément ?
! !
β1 1
H0 : =
β2 −0, 5
! !
β1 1
H1 : 6=
−0, 5
β2
Sous H0
1 b 0
b −1 β(q)
F∗ = β(q) − c(q) Ω b − c (q)
q β
b(q)
Avec :
— q=2 !
0, 8019
— (q) =
βb
−0, 38
!
1
— c(q) =
−0, 5
Par définition β(q) représente le sous-vecteur des coefficients estimés mis à contribution
b
dans le test c-à-d β1 et β2 ;
Donc ! !
0, 0132 0, 0011 0, 0890 0, 0074
Ω
b = 6, 745 =
β
b(q) 0, 0011 0, 0036 0, 0074 0, 0242
!
b (−1) 11, 5714 −3, 8021
Ω =
β
b(q) −3, 8021 42, 035
1 b 0
b −1 β(q)
F∗ = β(q) − c(q) Ω b − c (q)
q β
b(q)
0! ! !
1 −0, 2 11, 5714 −3, 8021 0, 2
=
2 0, 12 −3, 8021 42, 035 0, 12
5%
= 0, 612 < F2,10 = 4, 10
avec
! ! !
0, 8019 1 −0, 2
βb(q) − c(q) = − =
−0, 38 −0, 5 0, 12
Sous l’hypothèse de normalité des erreurs dans le modèle de régression εi N(0, σε2 ),
on a
−1
0
εbn+h N 0, σε2 1 + Xn+h (X 0 X) Xn+h
0 −1
9 0.01 0.01 0.00 −0.0 9
X15 (X 0 X) X15 =
34 −0.23 0.00 0.00 0.0 34
177 −0.07 −0.00 0.00 0.0 177
Ce problème est généralement présent dans la pratique car les séries de données sont
plus ou mois dépendantes entre elles.
Une multicolinéarité prononcée s’avère problématique car elle augmente la variance es-
timée des coefficients de la regression et rend les estimations instables (une faible modi-
fication de la valeur d’une observation entraı̂ne une variation prononcée des coefficients
estimés et de leurs signes) et difficiles à interpréter. Dans le cas d’une multicolinéarité
parfaite, l’estimation par MCO est impossible car le déterminant de la matrice X0X
est nul.
Avec SCR, la somme des carrés des résidus du modèle, n le nombre d’observations et
k nombre de variables explicatives.
Algorithme de sélection
- Examiner toutes les combinaisons possibles : On estime toutes les combinaisons de re-
gressions possibles et on retient le modèle qui minimise les critères d’Akaike ou Schwarz.
La limite de cette méthode est que le nombre de regression à estimer croit de manière
significative avec le nombre de variables explicatives k (2k − 1 possibilités).
- Procéder par elimination progressive sur le modèle complet des variables dont les t de
student sont inférieurs au seuil critique et réestimer le modèle aprés chaque élimination.
- Procéder par une sélection progressive de la variable explicative xi dont le coefficient
de corrélation simple avec la variable à expliquer y est le plus élevé. Ensuite, on calcule
2
les coefficients de corrélations partielles ryxj,xi (j 6= i) et on retient la variable dont le
coefficient est le plus élevé. La selection s’arrête lorsque les t de Student inférieur au
seuil critique.
- Procéder à une regression pas à pas identique à la précédente tout en éliminant du
modèle les variables explicatives dont le t de student est inférieur au seuil.
- Appliquer la méthode de regression par étage qui consiste à sélectionner la variable
explicative xi dont le coefficient de corrélation simple avec la variable à expliquer y est
le plus élevé. On calcule ensuite les résidus de la regression suivante :
e1 = y − βb0 − βb1 xi
et on retient la variable explicative dont le coefficient de corrélation simple avec le
résidu e1 est le plus élevé.
On calcule par la suite un nouveau résidu :
e2 = y − βb0 − βb1 xi − βb2 xj
et on retient la variable explicative dont le coefficient de corrélation simple avec le
résidu e2 est le plus élevé puis on calcule un nouveau résidu. On arrête le calcul lorsque
les coefficients de corrélation ne sont plus significatifs.
0
avec Ω = E(εε ) 6= σε2 I . L’estimateur MCG dit aussi d’Aitken est un estimateur qui
satisfait les mêmes propriétés que l’estimateur MCO et est à variance minimale
0 0
βb = (X Ω−1 −1 −1
ε X) (X Ωε Y )
0
Ωβb = (X Ω−1
ε X)
−1
Dans la pratique, la matrice Ωε n’est pas connue donc on ne peut estimer βb directement.
Pn 2
t=2 (et − et−1 )
Pn 2
(4.2.1)
t=1 et
4.2.3.1 Estimation de ρ
Si εt = ρεt−1 + vt , on peut estimer ρ directement à partir des résidus de la regression
du modèle de départ ou à partir de la statistique de DW.
ρb ' 1 − DW/2
On peut aussi appliquer la méthode itérative de Cochrane-Orcutt. On commence par
initialiser la valeur ρ par une estimation directe ; ensuite on regresse sur les quasi-
différences pour estimer βb et on réestime ρ à partir des nouveaux résidus. On répète la
procédure 3 ou 4 fois jusqu’à obtenir des estimations des coefficients stables.
4.3 L’hétéroscédasticité
On parle d’hétéroscédasticité lorsque l’hypothèse de base (E(ε2t ) = σε2 ) n’est pas véri-
fiée. En effet, la variance de l’erreur n’est plus constante.
L’hétéroscédasticité peut être observée lorsque les observations représentent des moyennes
calculées sur des échantillons de differentes tailles. Elle résulte aussi lors de la répéti-
tion d’une même valeur de la variable à expliquer ou lorsque les erreurs sont fortements
dépendantes des valeurs prises par la variable explicative.
Comme dans le cas de l’autocorrélations des erreurs, l’hétéroscédasticité entraine aussi
des estimateurs MCO à variances élevées.
SCR2
∗ ddl2
F = SCR1 F(ddl2 ,ddl1 )
ddl1
Test de White Ce test est basé sur la recherche d’un coefficient significatif dans
l’équation qui relie le carré du résidu et une ou plusieurs variables explicatives en
niveau et au carré :