Académique Documents
Professionnel Documents
Culture Documents
Chapitre I. Générale
Chapitre I. Introduction
Introduction générale
I.2.2.1. Variables
Une variable économique est une quantité qui peut prendre n’importe
quelle valeur à l’intérieur d’un certain domaine de variation. Ces valeurs
numériques peuvent être discrètes ou continues. Très souvent une variable
discrète est considérée comme un cas particulier d’une variable continue.
L’usage des variables pose parfois le problème de la capacité à les
mesurer. Or, la quantification de la réalité économique peut entraîner des
problèmes insolubles. Il arrive souvent que la mesure d’un fait économique
soit établie par l’intermédiaire d’une liaison avec un autre fait lui – même plus
accessible à la mesure. Ainsi, on peut mesurer le niveau d’activité
économique d’un pays par la consommation d’électricité, la quantité de
pétrole importé, etc.
Faisons remarquer que la construction des modèles sans la possibilité
de disposer des mesures statistiques satisfaisantes est un travail purement
formel. D’ailleurs, selon Oskar MORGENSTERN : « il est parfaitement inutile
d’élaborer un modèle complexe si l’on ne peut le nourrir qu’avec des
données statistiques insuffisantes ou de qualité douteuse ».
Généralement, on classe les variables économiques en :
I.2.2.2. Relations
Exemples :
Ex.1 : =
+ + – (Équilibre du revenu sous l’optique dépenses)
a. Propensions
= ∆
∆
additionnel qui est consommée. Elle se note :
où : ∆
représente la variation des quantités consommées ;
∆ , la variation du revenu.
8
Pmc =
PMC =
b. Productivités
Le concept de productivité se réfère principalement aux activités liées à la
production. Ainsi, la productivité moyenne du facteur X (capital, travail, …)
est le rapport de la production (Q) sur la quantité du facteur X dans le
processus de production :
PM! =
"
!
Pm! =
∆"
∆!
Pm! =
"
!
Pm!# = δ!
δ"
#
I.2.2.3.2. Elasticités
δY X
ε$⁄% =
δX Y
ou encore :
dlnY
ε$⁄% =
dlnX
où ln représente le symbole du logarithme népérien.
a-. =
"#/
"/
Y = α + βX
= β.
!
La dérivée de Y par rapport à X est donc :
Y = lnα + βlnX
=
! !
β
avec .
Pour tenir compte des relations imprécises entre les variables, l’économétrie
modifie le modèle purement mathématique de la façon suivante :
Y = α + βX + u
C = a + cY + u
C2 = a + cY2 + u2
où t désigne le temps.
C- = a + cY- + u-
Dans le cadre des modèles spécifiés en séries temporelles, les relations entre
les variables ne sont pas toujours synchrones mais peuvent êtres décalées
dans le temps. D’où, l’on distingue deux types des modèles : les modèles
statiques et les modèles dynamiques.
F4Y2 , A, X 2 , u2 6 = 0 1.2
- Institutionnel : l’impôt sur le revenu payé par les ménages sera basé sur
leur revenu de la période précédente ;
(décalées ou laggées) ;
laggées) ;
ut, le terme d’erreur à la période t ;
A, le vecteur des paramètres constants.
Il convient de souligner ici que, dans les modèles dynamiques, les variables
prédéterminées comprennent à la fois les variables endogènes décalées, les
variables exogènes courantes et les variables exogènes décalées.
C2 = a + cY2 + ϕC2 + u2
Cette étape consiste avant tout à déterminer les signes et la grandeur des
paramètres théoriquement attendus. Elle permet aussi d’effectuer
l’évaluation des résultats des calculs en testant si les estimations des
paramètres sont économiquement et statistiquement valides. Elle
s’intéresse enfin de la stabilité des coefficients estimés, caractères
indispensables pour une meilleure prévision.
Puisque le modèle est spécifié et que les données sont disponibles, la tâche
suivante consistera à estimer les paramètres de ce modèle. Cette estimation
donne un contenu empirique au modèle.
Enfin, les modèles économétriques estimés peuvent être utilisés à des fins de
contrôle ou de politique économique. Ainsi, à l’aide d’un « policy mix », fiscal
et monétaire, les pouvoirs publics peuvent avoir en main la variable
16
Estimation économétrique
Hypothèses stochastiques ou
Confrontation du modèle avec les
nouvelles données statistiques
données
Tests statistiques
Acceptation Rejet
(la théorie est (la théorie n’est pas
validée) validée) Remise en cause des hypothèses
ou utilisation des nouvelles
données
Utilisation
17
- la mise en évidence des relations entre les variables qui n’étaient pas a
priori évidentes ou pressenties ;
- l’induction statistique ou l’inférence statistique permettant de tester la
qualité des paramètres estimés ;
- l’analyse des évolutions passées ;
- la prévision de l’évolution économique ;
- les études en variantes ;
- la simulation qui mesure l’impact de la modification d’une variable sur
une autre.
Théorie économique
Données
Tests statistiques
Prévision
CHAPITRE II
ETUDE DE LA CORRELATION
Lorsque les variables retenues ont une évolution commune, nous disons
qu'elles sont «corrélées». La corrélation simple mesure le degré de liaison
existant entre deux phénomènes représentés par des variables X et Y. Pour
mesurer la relation entre trois ou plusieurs variables, on utilise la notion de
corrélation multiple.
Relation linéaire
Graphe1 Graphe2 Graphe5
y y
x x
Graphe 1 Graphe 1
y y
x x
Graphe 3 Graphe 3
Cov4X, Y6
ρ!, =
σ! σ
D64Y- − Y
∑E-F4X- − X D6
= 2.1
D6H G∑E-F4Y- − Y
G∑E-F4X- − X D6H
O O
Avec :
KL 4, 6 = NQR4MN M64N 6
∑P
S
: covariance entre X et Y ;
σ! = T
D U
et σ =
∑V
#QR4!# !6 ∑V D U
#QR4# 6
E E
= écart type de X et écart type de Y
;
n : nombre d'observations ;
i : est le numéro de l’observation ou l’année.
20
Notons que :
∑E-F x- y-
ρ!, = 2.3
G∑E-F x-H G∑E-F y-H
D et y- = Y- − Y
où x- = X - − X D (les écarts par rapport à la moyenne).
H^ : r!, = 0
\ a
H : r!, ≠ 0
Sous l'hypothèse Ho, la statistique du test est donc :
eρ!, e
t bcd = ~ t α ; 4EH6 2.4
H
fg1 − ρH!, h
n−2
21
Si |t bcd | ≥ t α ; 4EH6 , valeur lue dans une table de Student au seuil α = 0.05 ,
(soit α = 5 %) à n − 2 degrés de liberté, nous rejetons l'hypothèse HO. Par
U
Remarque :
corrélation égal à zéro (ρ!, = 0) si les deux variables sont liées entre elles :
foctionnelle linéaire. Ainsi, deux variables X et Y auront un coefficient de
Souvent, en effet, les corrélations observées sont dues au fait que les
variables étudiées sont toutes deux soumises à des influences communes,
qui peuvent en modifier simultanement les valeurs, soit dans le même sens
(corrélation positive), soit en sens opposés (corrélation négative).
Exercice résolu
1
Notes :
1) Consommation des ménages aux prix de 1987 (en milliards de Zaïres);
2) PIB aux prix de 1987 (en milliards de Zaïres)
3) Taux d'inflation
Source : Iyashi Ile Mbula, Estimation d'un modèle de consommation des
ménages. Cas de la RDC de 1980 à 1996,
Mémoire de Licence, Faculté d'Administration des Affaires et Sciences
Economiques (FASE), Université Protestante au Congo,
Octrobre 2000.
23
α = 0,05.
et le PIB (Y), et tester l’hypothèse de la nullité de ce coefficient au seuil
Solution
Année Y X Y- − D
Y X- − D
X 4X- − D
X64Y- − D
Y6 4Y- − D
Y6H 4X- − D
X6H
1980 545 741,1 -34,52 12,39 -427,61 1191,47 153,47
1981 559 748,1 -20,52 19,39 -397,80 420,97 375,90
1982 579 744,7 -0,52 15,99 -8,28 0,27 255,62
1983 591 755,2 11,48 26,49 304,15 131,84 701,63
1984 610 797,1 30,48 68,39 2084,63 929,17 4676,95
1985 637,6 800,8 58,08 72,09 4187,05 3373,56 5196,71
1986 656 838,6 76,48 109,89 8404,51 5849,55 12075,42
1987 678,3 861 98,78 132,29 13067,74 9757,95 17500,18
1988 694,4 865,9 114,88 137,19 15760,51 13197,96 18820,61
1989 701,9 854,1 122,38 125,39 15345,31 14977,44 15722,21
1990 749 798 169,48 69,29 11743,13 28724,27 4800,86
1991 540,8 730 -38,72 1,29 -49,88 1499,06 1,66
1992 502,8 654,3 -76,72 -74,41 5708,70 5885,60 5537,11
1993 425,9 565,8 -153,62 -162,91 25026,12 23598,38 26540,24
1994 456,7 543,9 -122,82 -184,81 22698,15 15084,17 34155,39
1995 464,1 547,7 -115,42 -181,01 20891,95 13321,23 32765,26
1996 460,3 541,8 -119,22 -186,91 22283,18 14212,85 34936,01
Somme 9851,8 12388,1 0 0 166621,57 152155,74 214215,24
Moyenne de X = = 728,7118
Htuu,
v
Moyenne de Y = = 579,5176
yuz,u
v
Le coefficient de corrélation entre la consommation (Y) et le PIB (X) est égal
à:
D64Y- − Y
∑E-F4X- − X D6
ρ!, =
D6H G∑E-F4Y- − Y
G∑E-F4X - − X D6H
166621,57 166621,57
= = = 0,9229.
G214215,24G152155,74 4462,83396 × 4390,07156
Donc ρ!, = 92 %.
eρ!, e 0,9229
t bcd = =
T1 − 40,92296
H
fg1 − ρ!, h
H
17 − 2
n−2
0,9229
= = 9,2831.
0,0994
CHAPITRE 3
MODELE DE REGRESSION SIMPLE
Y = f4X6 3.1
La théorie peut aussi nous indiquer certaines contraintes que les paramètres
du modèle doivent respecter concernant leur signe, ou concernant leur ordre
de grandeur. Dans ce chapitre, nous allons nous limiter à l’étude des modèles
de type linéaire sans contrainte sur les paramètres.
Y = β^ + β X
Y=α+X
3.2
β
3.3
Y = exp ~β^ + β ou Y = e
R
β βR
!
3.4
Y = β^ + β
!
3.5
= β^ + β X 3.6
Sont toutes des spécifications linéaires. Elles sont soit linéaires en X et Y (cas
de la relation (3.2), soit linéaires après transformation de Y et/ou de X (cas
des relations (3.3) à (3.6)).
Par contre, la fonction :
4Y − α 64X − αH 6 = αt 3.7
26
Exemple :
où C2 : consommation au temps t ;
(t = 1990, …, 2009)
Y2 : revenu au temps t.
Y2 = β^ + β X2 3.8
Y2 = β^ + β X2 + u2 3.9
(avec t = 1, 2, …, n)
Y = β^ + β X + u
YH = β^ + β XH + uH
Yt = β^ + β Xt + ut a
⋮ ⋮ ⋮ ⋮
3.10
⋮ ⋮ ⋮ ⋮
YE = β^ + β X E + uE
Y 1 X u
u
YH 1 XH β0 H
= +
Yt 1 Xt
β1 ut
3.11
⋮ ⋮ ⋮ ⋮
⋮ ⋮ ⋮ ⋮
YE 1 XE u
Y = X B + U
4nx16 4nx2642x16 4nx16
3.12
Y u 1 X
où
β^
B4H%6 = ; Y4E%6 = YH ; U4E%6 = uH ; X 4E%H6 = 1 XH
⋮ ⋮ ⋮ ⋮
uE
β
YE 1 XE
E4u2 6 = 0 3.13
Cette hypothèse suppose que chacun des termes d’erreur u2 est non
corrélé avec la variable exogène X 2 .
Remarques
Y2 = β^ + β X2 + u2
4t = 1, 2, … , n6
3.20
u2 ~ N40 , σH 6
Avant toute chose, rappelons qu’un estimateur est une formule ou une
méthode permettant d’estimer des paramètres inconnus de la population à
partir d’un échantillon d’observations. Tandis qu’une estimation est la valeur
numérique résultant de l’application de cette formule à une réalisation d’un
processus aléatoire.
Tracer un graphique des couples des données liant les observations sur Y2 et
Y2 , en vue d’obtenir un nuage des points :
»
¨ = ®^ + ®
O ¨ª
¨ª
0 O ©
§2 = β̈ + β̈ X2
Y ^
3.21
avec
β̈^ , l’estimateur de β ;
β̈ , l’estimateur de β ;
32
§2 , la droite estimée de Y2 .
Y
§2
e2 = Y2 − Y
= Y2 − β̈^ − β̈ X2
(où t = 1, 2, …, n)
Y2 = β^ + β X2 + u2
Y2 = β̈^ + β̈ X2 + e2
La méthode des moindres carrés ordinaires (OLS) est l’un des procédés
largement utilisés dans l’analyse de régression. Le critère d’ajustement par la
méthode des moindres carrés ordinaires (Ordinary Least Squares) est donc :
2F 2F
E
§2 < = Min S8β̈ , β̈ <
= Min ¯8Y2 − Y
H
3.22
^
2F
δ4∑ e²6
= −2 ¯8Y − β̈^ − β̈ X< = −2 ¯ e = 0 3.23
δβ̈^
δ4∑ e²6
= −2 ¯ X8Y − β̈^ − β̈ X< = −2 ¯ Xe = 0 3.24
δβ̈
33
¯ Y = nβ̈0 + β̈1 ¯ X
a
3.25
¯ XY = β̈0 ¯ X + β̈1 ¯ X²
3.26
∑t4Xt − XO 64Yt − YO 6
β̈1 =
∑t4Xt − XO 62
3.28
∑t Xt Yt − nXO YO
β̈1 =
∑t X2t − n XO
2 3.29
ou simplement :
∑ t xt y t
β̈1 =
∑t x2t
3.30
O
avec xt = Xt − X et yt = Yt − YO
yt = Yt − YO ; xt = Xt − X O
O
y±t = Ÿt − Y ; et = yt − y±t = Ÿt − Yt
tF1 tF1
D’où :
¯ xt yt = β̈1 ¯ x2t
n n
tF1 tF1
∑E2F x2 y2
⇒ β̈ = 3.33
∑E2F x2H
∑E2F x2 y2 ∑E2F x2 Y2
β̈ = = E H 3.34
∑E2F x2H ∑2F x2
E E
car :
D6
¯ x2 Y2 = ¯ x2 4y2 − Y
2F 2F
E E E
D ¯ x2 = ¯ x2 Y2
= ¯ x2 Y2 − Y
2F ³´µ
2F 2F
F^
ou encore :
E E
¯ x2 Y2 = ¯ y2 X2
2F 2F
Y2 = β X2 + u2 3.35
∑E2F X2 Y2
β̈ = 3.36
∑E2F X2H
D et Y
laquelle X D sont nulles.
Remarques
Notons que :
Y2 = β^ + β X2 + u2
§2 + e2
Y2 = Y
= β̈^ + β̈ X2 + e2
où et est le résidu.
Exemple 1
Année X2 Y2
1995 10 7
1996 15 11
1997 20 15
1998 25 20
1999 30 22
36
25
20
15
10
0
0 5 10 15 20 25 30 35
Année X2 Y2 X 2 Y2 X 2H
1995 10 7 70 100
1996 15 11 165 225
1997 20 15 300 400
1998 25 20 500 625
1999 30 22 660 900
¯ 100 75
1695 2250
∑z2F X2 100
D
X2 20
5 5
∑ Y2 75
D
Y2 15
5 5
¯ Y2 nβ̈
n ^ β̈ ¯ X2
a
¯ X2 Y2 β̈^ ¯ X2 β̈ ¯ X2H
75 5β̈
5 ^ 100β̈
⇒\ a
1695 100β̈^ 2250β̈
37
15 = β̈^ + 20β̈
\ a ⇒ β̈ = 0.78 et β̈^ = −0.6
339 = 20β̈^ + 450β̈
§2 = −0.6 + 0.78X2
Y
D ∑ X2
∑ X2 Y2 − Y
β̈ =
∑ X2 − X
H D ∑ X2
100 − 415641006 195
= = = 0.78
2250 − 420641006 250
et
D − β̈ D
β̈^ = Y X
= 15 − 40.7864206 = −0.6
§2 = −O. 6 + 0.78X2
⇒ Y
X2 Y2 D
x2 = X 2 − X D
y2 = Y2 − Y x2 y2 x2H
10 7 -10 -8 80 100
15 11 -5 -4 20 25
20 15 0 0 0 0
25 20 5 5 25 25
30 22 10 7 70 100
¯ 100 75
0 0 195 250
∑ x2 y2 195
β̈ = = = 0.78
∑ x2H 250
y±2 = 0.78x2
y±2 = 0.78x2
8Y§2 − Y
D< = 0.78 4X2 − X
D6
38
β̈^ = yO − β̈ xO
= 15 − 40.7864206 = −0.6
X2 Y2 x2 y2 §2 = β̈^ + β̈ X2
Y y±2 = β̈ x2 e2
10 7 -10 -8 7.2 -7.8 -0.2
15 11 -5 -4 11.2 -3.9 -0.1
20 15 0 0 15.0 0 0
25 20 5 5 18.9 3.9 1.1
30 22 10 7 22.8 7.8 -0.8
¯ 0
Y ½
¨ = 0.6 + 0.78
22
¾
20
O = 15
11
0 10 15 20 = O 25 X
fig. : droite
39
Exemple 2
¹º »º
3 8
5 13
2 7
8 19
10 22
8 15
Solution
X Y XY XH §
Y §
e=Y−Y Xe
¯ 36 84 595 266 0 0
∑2 X2 36
D
X= = =6
n 6
∑2 Y2 34
D
Y= = = 14
n 6
¯ Y2 = nβ̈^ + β̈ ¯ X2
2
a
2
¯ Y2 X2 = β̈^ ¯ X2 + β̈ ¯ X2H
2 2 2
84 = 6β̈^ + 36β̈
\ a
595 = 36β̈^ + 266β̈
40
D’où :
§2 = 3.08 + 1.82X2
Y
DY
∑2 X2 Y2 − nX D
β̈ =
∑2 X2 − nX
H D H
595 − 64664146 91
= = = 1.82
266 − 6466² 50
D − β̈ D
β̈^ = Y X = 14 − 41.826466 = 3.08
§2 = 3.08 + 1.82X2
D’où : Y
X Y x y xy xH y± e xe y²
3 8 -3 -6 18 9 -5.46 -0.54 1.62 36
5 13 -1 -1 1 1 -1.82 0.82 -0.82 1
2 7 -4 -7 28 16 -7.28 0.28 -1.12 49
8 19 2 5 10 4 3.64 1.36 2.72 25
10 22 4 8 32 16 7.28 0.72 2.88 64
8 15 2 1 2 4 3.63 -2.64 -5.28 1
¯ 36 84 0 0 91 50 0 0 176
∑2 x2 y2 91
β̈ = = = 1.82
∑2 x2H 50
§2 − Y
Etant donné que : y±2 = Y D et x2 = X 2 − X
D, alors :
§ D = 1.824X2 − X
Y2 − Y D6
§
Y2 − 14 = 1.824X2 − 66
§2 − 14 = 1.82X2 − 10.92
Y
§
Y2 = 3.08 + 1.82X2
41
SCE β̈ ¯ y2 x2
= 1.824916 = 165.62
2
SCE 165.62
RH = = = 0.9410
SCT 176
ou encore :
SCR 10.38
RH = 1 − = 1− = 0.9410
SCT 176
RH = 94%
Soit :
y2 = y±2 + e2
= β̈x2 + e2 3.38
Comme :
∑ x2 e2 ∑ x2 4y2 − y±2 6
= ∑ x2 y2 − β̈ ∑ x2H
= ∑ x 2 y2 − ∑ x 2 y2 = 0
(car β̈ = Á UÁ → β̈ ∑ x2H = ∑ x2 y2 ), alors :
∑% $
∑ %Á
∑ y2H = ∑ y±2H + ∑ eH2 ou ∑ y2H = β̈H ∑ x2H + ∑ eH2 3.40
où : SCT = ∑ y2H est la somme des carrés totale ou somme de carrés des
RH = =∑
ÃÄ ÆU
∑$ Á
ÃÅ $U
Á
§
∑8 D<
=∑4 Á D 6U
Á
4.42
ou bien :
SCR
RH = 1 −
SCT
= 1−∑
∑ ÇU
Á
$U
4.43
Á
0 ≤ RH ≤ 1.
où RH est appelé le coefficient de détermination.
0 ≤ RH ≤ 1.
1. RH = 0
Ê
2. RH = 1
0 Ê
dans la classe des estimateurs linéaires non biaisés, β̈^ et β̈ sont (à variance
moindres carrés sont BLEU (Best Linear Unbiased Estimator), c'est-à-dire que
Tous les
estimateurs
(linéaires et
non linéaires)
Les estimateurs des moindres carrés, β̈^ et β̈ , sont des fonctions linéaires
en Y.
a) β̈ =
∑Á %Á $Á D6
∑Á %Á 4Á ∑Á %Á Á
∑Á %U ∑Á %U ∑Á %U
= = ,
Á Á Á
car ∑ ¾ O = O ∑ ¾
cause X 2 .
Á
1. ∑2 w2H = 0
Démonstration :
∑2 w2 = ∑2 x2 = 0.
∑Á %Á
∑Á %U
=0 car
Á
∑2 w2H =
∑Á %U
2.
Á
Démonstration :
∑2 w2H = ∑2 Ì Í=
%U
Á ∑Á %U
Á
U U =∑ U
8∑Á %U
Á< 8∑Á %U
Á< Á %Á
.
3. ∑2 w2 x2 = ∑2 w2 X2 = 1
Démonstration :
D6
∑2 w2 x2 = ∑2 w2 4X2 − X
= ∑2 Ì Í= = = 1.
D
%Á !Á %Á ! ∑Á %Á !Á ∑Á %Á !Á
∑Á %U
Á ∑ %U
Á ∑ %Á !Á
β̈ = = ∑2 w2 Y2
∑Á %Á $Á ∑Á %Á Á
∑Á %U ∑Á %U
3.44
Á Á
b6 β̈^ = YD – β̈ XD
=
D ∑2 w2 Y2
∑2 Y2 − X
E
Dw2 Ð Y2 = ∑2 Q 2 Y2
= ∑2 Ï − X
E
3.45
Dw2
où Q 2 = − X
E
Les estimateurs des moindres carrés, β̈^ et β̈ , sont non biaisés. Cette
assertion implique que :
β̈ = ∑2 w2 4β^ + β X2 + μ2 6
= β^ ∑2 w2 + β ∑2 w2 X2 + ∑2 w2 μ2
= β + ∑2 w2 μ2 3.46
Car ∑2 w2 = 0 et ∑2 w2 X2 = 1
D’où :
1
â̈^ = ¯ Ó − X Dw2 Ô 4β^ + β X2 + μ2 6
n
2
β^ X2 1
= ¯ Ó − β^ D Xw2 + β − β Õ Dw2 Ô μ2
Xw2 X2 Ô + ¯ Ó − X
n n n
2 2
1
D D D
= β^ + β X − β X + ¯ Ó − Xw2 Ô μ2
n
2
46
Car
Dw2 X2 = β X
¯ β X D ¯ w2 X2 = β X
D
2 2
Et
D w2 = β^ X
¯ β^ X D ¯ w2
2 2
1
Dw2 Ô μ2
β̈^ = β^ + ¯ Ó − X 3.48
n
2
1
Et
Dw2 Ô E4μ2 6
E8β̈^ < = β^ + ¯ Ó − X
n
2
⇒ E8β̈^ < = β^ 3.49
a) Variance de β̈
β̈ − β = ¯ w2 μ2
2
Ainsi :
= E 4∑2 w2 u2 6H
= E ∑2 w2H uH2 + 2 ∑2ÙØ w2 w2Ø u2 u2Ø
=E ∑2 w2H E4uH2 6 + 2 ∑2ÙØ w2 w2Ø E4u2 u2Ø 6
Or : E 4u2 6 =σH , ∀ t
H
3.51
E 4u2 u2Ø 6 = 0 , ∀ t ≠ t′
σH
8β̈ < = σHݧ R = 3.52
∑2 x2H
47
b) Variance de β̈^
H
Var8β̈^ < = E Ï8β̈^ − β^ < Ð
Dw2 h μ2
Or, nous savons que : β̈^ − β^ = ∑2 gE − X
D’où :
Dw2 h μ2 Ð
H
Æ6 = E Ï∑2 g − X
Var4α
E
ou encore :
∑2 X2H
Æ6 = σHæÆ = σHã
Var4α 3.54
n ∑2 x2H
Cov8α
Æ, β̈< = E8β̈^ − β^ <8β̈ − β <
D − β̈X
β̈^ = Y D
= 4β^ + β D
X + μO6 − β̈ D
X
D
= β^ − X8β̈ − β < + μO
D8β̈ − β <
D’où : β̈^ − β^ = μO − X
avec μO = ∑2 μ2
E
σH
= −XDE8β̈ − β <H = −X D ã
∑2 x2H
car
E8β̈ − β <μO = E áμO ¯ w2 μ2 â
2
1
= E4μ + μH + ⋯ + μE 64w μ + wH μH + ⋯ + wE μE 6
n
1
= E4w μH + wH μHH + ⋯ + wE μHE 6
n
+ 4w μ μH + wH μ μt + ⋯ + wE μE μE 6
1 H
= σã ¯ w2 = 0
n
2
D
Donc : Cov8β̈^ , β̈ < = −X
èU
é
U
∑ Á %Á
3.55
∑ XH D
X
2 2H −
n ∑2 x 2 ∑2 x2H
Ω8β̈^ , β̈ < = σHã 3.56
D 1
− X
∑2 x2H ∑2 x2H
stochastique ë. Comme, ils sont aussi sans biais, ils appartiennent à la classe
des estimateurs linéaires sans biais. Leur grande importance dans la théorie
et la pratique des statistiques provient de ce que leurs variances est la plus
faible, dans cette classe.
b∗ = ∑ c2 Y2 3.57
Puisque ∑4c2 − w2 6² ≥ 0, alors Var4b∗ 6 ≥ Var 8β̈ <. Il n’y a égalité que si
c2 − w2 pour tout t, c’est-à-dire que si b∗ = β̈ .
Donc l’estimateur des moindres carrés possède la variance la plus petite dans
la classe des estimateurs linéaires sans biais. On dit que c’est un estimateur
BLUE (de l’anglais Best Linear Unbiased Estimator).
Par meilleur estimateur, il faut comprendre celui qui est le plus efficace
(efficient), c’est-à-dire celui qui a la variance minimale.
On démontre facilement que les estimateurs des moindres carrés, β̈^ et β̈,
répondent à ce critère d’efficacité.
β̈ = ∑2 c2 y2 3.59
β̈ = β^ ∑2 c2 + β ∑2 c2 X2 + ∑2 c2 u2
et
∑2 C2 = 0 et ∑2 C2 X 2 = 1 3.61
50
= 2C2 − 2λ − 2γX2 = 0
ñò
ñÁ
3.64
= −2 ∑2 c2 = 0
ñò
ñó
3.65
= 42 ∑2 c2 X2 − 16 = 0
ñò
ñÁ
3.66
∑24λ + γX2 6 = 0
nλ = −γX2
λ = −γXD 3.67
et
c2 = −γXD + γX2
D + X2 6 = γx2
= γ4X 3.68
γ ∑2 x 2 X 2 = 1
γ=∑
Á %Á !Á
⇒ γ=∑
U
Á %Á
3.69
car ∑2 x2 X2 = ∑2 x2H
51
Les variances et covariances des estimateurs des moindres carrés β̈^ et β̈
contiennent le paramètre inconnu δH (variance de la perturbation ; variance
résiduelle ou variance du terme aléatoire u). Pour rendre opérationnels ces
estimateurs, il faut nécessairement remplacer le paramètre inconnu par son
y2 = β^ x2 + 4μ2 − μO6
Etant donné :
e2 = y2 − y±2 avec \ a
et y±2 = β̈ x2
E í¯ eH2 î = E 8β̈ − β < ¯ x2H + ¯4μ2 − μO6H − 28β̈ − β < ¯ x2 4μ2 − μO6
H
2 ³àààà´àààൠ2 ³à
2 àà´ààൠ³ààààààà´àààààààµ
2
H t
H
16 E8β̈ − β < ¯ x2H = σHã
2
4∑2 μ2 6H
26 E á¯4μ2 − μO6H â = E ¯ μH2 −
n
2 2
nσHã
= nσHã − = 4n − 16σHã
n
36 − 2E á8β̈ − β < ¯ x2 4μ2 − μO6â = −2E8β̈ − β < ¯ x2 μ2
2 2
E4∑2 x2 μ2 6H
= −2
∑2 x 2
52
∑2 x2 μ2
íNotons que β̈ − β = ¯ w2 μ2 = î
∑2 x 2
2
∑2 x2H
= −2σHã = −2σHã
∑2 x2H
Il en résulte que :
∑2 eH2
σHã = E ÷ ø
n−2
D’où :
∑2 eH2
σ
ÆHã = 3.73
n−2
Avec σ
ÆHã , estimateur non biaisé de σHã .
Exemple
t X2 Y2
1 2 4
2 3 7
3 1 3
4 5 9
5 9 17
X2 Y2 X 2 Y2 X 2H y±2 e2 X 2 e2
2 4 8 4 4.50 -0.50 -1
3 7 21 3 6.25 0.75 2.25
1 3 3 1 2.75 0.25 0.25
5 9 45 25 9.75 -0.75 -3.75
9 17 153 81 16.75 0.25 2.25
¯ 20 40 230 120 40 0 0
∑ X2 20 ∑ Y2 40
D
X= = =4 ; D=
Y = =8
n 5 n 5
¯
0 0 70 40 124 0 0 0
40 = 5β̈^ + 20β̈
\ a
230 = 20β̈^ + 120β̈
β̈^ = 1 ; §2 = 1 + 1.75X 2
β̈ = 1.75 et Y
∑ x2 y2 70
β̈ = = 1.75
∑ x2H 40
et
D − β̈ X
β̈^ = Y D = 8 − 41.756446 = 1
Par conséquent :
54
§2 = 1 + 1.75X2
y±2 1.75x2 et Y
SCE 122.5
RH = = = 0.9879
SCT 124
- Variance résiduelle
∑ eH2 SCR
σ
ÆHã = =
n−2 n−2
1.5 1.5
= = = 0.5
45 − 26 3
- Variance de β̈
σ
ÆHã 0.5
σ
ÆHݧR = = = 0.0125
∑ x2H
40
et
σ
ÆݧR = √0.0125 = 0.111803398
- Variance de β̈^
1 DH
X 1 16
σ
ÆHݧ = σ
ÆHã ä + å = 0.5 Ó + Ô = 0.3
n ∑ x2
H
5 40
et
55
σ
Æݧ √0.3 = 0.5477
Compte tenu des hypothèses fondamentales, nous avons montré que ces
paramètres satisfaisaient des propriétés statistiques souhaitables
(théorème) de Gauss – Markov : estimateurs BLUES).
4μ2 6. Cette hypothèse suppose que chaque μ2 soit une distribution normale
hypothèse supplémentaire sur la forme de la loi de probabilité des erreurs
β̈^ et β̈ .
BLUE, permet de déterminer la distribution statistique des valeurs estimées
Sous l’hypothèse que μ2 sui une distribution normale, les estimateurs des
moindres carrés ordinaires ont les propriétés :
Ou mieux :
β̈^ − β^
Z 3.78
αݧ
Z~N40 , 16 3.79
Ou encore :
β̈ − β
Z= 3.83
αݧR
46
4®^ 6
4® 6
46
4n − 26 ~χ4EH6 3.84
ÆU
è ý H
èU
ý
E4Y2 6 = β^ + β X2 3.85
Pβ ∈ I 3.88
ε40 < ε < 16, seuil de confiance au niveau de signification, peut être
interprété comme le risque que l’intervalle de confiance I ne contienne pas la
raie valeur du paramètre.
D’où :
§ R ÝR § R ÝR
= . G∑ x2H ~N4O, 16
Ý Ý
è èý
4suit une loi normale centrée réduite6
§
3.90
R
Etant donné que la variance résiduelle σH doit être remplacée par son
estimateur σ ÆH , la loi normale centrée réduite devient une loi de Student. En
§R ÝR <T∑ %U
8Ý T∑ %UÁ /èý
t=
Á
èý
/
G4EH6
§ R ÝR § R ÝR
= = ~t 4EH6
Ý Ý
Æ ý / ∑ %U
è è
Ƨ
3.91
Á R
obtient :
β̈ − β
P ÷−t ≤ ≤ tø 3.93
H σ
ÆݧR H
suit :
P Óβ̈ − t . σ
ÆݧR ≤ β ≤ β̈ + t . σ
ÆݧR Ô 3.94
H H
β̈ ± t . σ
ÆݧR 3.95
U
41 − ε6% .
soit comprise dans l’intervalle ainsi défini par la relation (3.98) est égale à
β̈ ± t . σ
ÆݧR 3.97
H
paramètre inconnu ^ .
Un développement similaire permet de calculer l’intervalle de confiance du
Comme :
®^ − ^
Ê
§ =
1 O H
±
§R f +
ù ∑ ¾H
®^ − ^
= ~Ê4SH6 3.98
±
§
Ó®^ − Ê . ±
§ ≤ ^ ≤ ®^ + Ê . ±
§ Ô . 1 −
On déduit :
3.99
H H
®^ ± Ê . ±
§ 3.100
U
² 4ù − 26 = ~4SH6
Æ
Æ ∑ U H
U
U
3.101
4ù − 26
H
≤ H
²
H
≤ 4ù
H
− 26 3.102
²²
RU
H
Remarques
3.8.3.1. Notion
Pour ce faire, il faut d’abord préciser qu’elle est l’hypothèse soumise au test,
‘est à dire l’hypothèse à vérifier. On l’appellera “hypothèse nulle“ et elle sera
notée ^ . En outre, il faut définir également “l’hypothèse alternative“, notée
, qui est l’hypothèse qu’on est prêt à accepter si ^ est rejetée. On dira
que l’on teste ^ contre .
61
- Une hypothèse statistique est dite simple si elle fixe de façon précise la
valeur du paramètre à tester.
^ ∶ ! = !^
KùÊ"¬
Ex.1 :
∶ ! ≠ !^
Ex.2 : ^ ∶ ! = !^
KùÊ"¬
∶ ! = !^
- Une hypothèse est composite quand elle représente un intervalle des valeurs
possibles pour !.
Ex.1 :
^ ∶ ! = !^
# a
∶ ! > !^
∶ ! = !^
Ex.2 :
^
# a
∶ ! < !^
/2 /2
!¨
−!% !^ !%
/2
!¨
−!% !^
!¨
!^ !%
H^ ∶ β = β∗
\ a
H ∶ β ≠ β∗
β̈ − β∗
tb = ~t 4E6 3.103
σ
ÆݧR
H^ H Règle de décision
Type de test Hypothèse Hypothèse Rejet de
l’hypothèseH^
β = β∗ β + β∗ |t b | > t 4EH6
nulle alternative
^ ∶ = 0 3.104
Comme :
® −
~40,16 3.105
Alors :
~4SH6
H
3.106
H
et
∑ ¾H
~4SH6
H
3.107
H
En utilisant le fait que le rapport entre deux ² indépendants, divisés par leur
nombre de degrés de liberté, sui une loi & '¬ &()ℎ¬" – +ù¬'¬K", on trouve :
Donc la statistique &% est distribuée selon une loi & de Fisher-Snedecor à 1 et
ù − 2 degrés de liberté.
Si β = 0, la statistique Fc devient :
§ U ∑ %U
Fb = ∑ ÇUR/4EH6 ~F4,EH6
Ý Á
3.109
Á
où
SCT = ∑ y2H ;
SCR ¯ eH2
Fb ~F4,EH6
ÃÄ/
ÃÉ/4EH6
3.110
Fb = ~F4,EH6
ÉU /
4ÉU 6/4EH6
3.111
Les données nécessaires pour faire ce test sont d’habitude classées dans un
tableau d’analyse de la variance (ANOVA selon la dénomination anglaise
"Analysis Of Variance).
+
= ¯ ½±H
Variation +
, = ¯ ¬H n-2 SCR/(n-2)
résiduelle
Variation +
- = ¯ ½H n-1
totale
H^ : β = 0
66
contre
H : négation de H^
Remarques
Dans le modèle de régression simple, le test F n’est rein d’autre que le test
appliqué à β pour juger si la variable exogene x joue un rôle significatif ou
non dans l’explication de y.
On dispose ainsi de deux façon de tester si x est significatif ou non, l’une
basée sur le t de student, l’autre basée sur le F de Fisher. En fait, ces tests
sont identiques puisque :
t 4E6
H
= F4,E6
S=
ã0
0/U
ãU
3.112
67
Et le coefficient de Kurtosis :
K=
ã1
ãUU
3.113
S~N ä0; T å
E
3.114
et
K~N ä3; T å
H
E
3.115
L = et LH =
|2^| |4t|
U1
que l’on compare à 1,96 valeur de la loi normale au
T T
3
P P
seuil de 5%).
JB = S H + H 4K − 36H
E E
3.116
- Si 6« < ;4H6
H
où accepte l´hypothèse ^ de normalité des résidus au
seuil ;
- Si 6« ≥ ;4H6
H
où rejette l´hypothèse ^, donc la distribution des
résidus n’est pas normale.
68
§2 = β̈^ + β̈ X 2
Y 3.117
La vraie valeur prise par y lors de la période sur laquelle porte la prévision
sera :
4¬7 6 = 0 3.121
Car 497 6 = 0 et que ® et ®^ sont respectivement les estimateurs non
biaisés de ^ et . Est une prévision non biaisée de 7 .
D.
mesure que X 28 s’éloigne de X
Ou encore :
Comme l’erreur de prévision ¬7 suit une loi normale, on peut donc, de la
manière habituelle, trouver pour ¬7 un intervalle de confiance au seuil de
signification :
Ou encore
§28
e28 = E4Y28 6 − Y
En conséquence :
E4e28 6 = 0 3.127
1 4X28 − X D6H
Var4e28 6 = σH . ÷ + ø 3.128
n ∑ x2H
1 4X28 − X D6H
§28 ± t
Y .f + 3.129
4EH6;
H n ∑ x2H
Exemple 1
secteur.
= ^ + 9
(où t = 1,2,…,11)
^ ∶ = 0
\ a
∶ ≠ 0
ù = 11
∑ 4247
O = = = 386; 090909
ù 11
∑ ¾ 10124
O = = = 920.363636
ù 11
72
∑ x2 y2 166393; 6360
β̈ = = = 0.31227
∑ x2H 532852; 5450
D − β̈ D
β̈^ = Y X = 386.0909 − 40.3122764920.36366
= 98.68935
La droite de régression de Y sur X est :
Y2 = 98.68935 + 0.31227x2
∑ eH2 3505.0971
σ
ÆH = = = 389.4552
n−2 11 − 2
- La variance estimée de β̈^
1 D
XH
σ
ÆH§ = σ
ÆH ÷ + ø
Ý n ∑ x2H
1 4920.36366²
= 389.4552 ÷ + ø = 654.5172
11 532852.5450
σ
Æ = √654.5172 = 25.5835
σ
ÆH 389.4552
σ
ÆÝH = 0.0007309
R ∑ x2 532852.5450
H
σ
ÆݧR = √0.0007309 = 0.027035
- Le coefficient de détermination
SCE 51959.8120
R² = = = 0.93673
SCT 55467.9091
- Pour ^
= ®^ ± Ê</H ; 4SH6 . ±
§ = ®^ ± Ê^.^Hz . ±
§
= 98.68935 ± 42.26206425.58356
= 98.68935 ± 57.86988
⇒
= 40.81947 ; 156.55923
- Pour
= ® ± Ê^.^Hz ;4y6 . ±
§R
= 0.31227 ± 42.2620640.0270356
0.251117 ; 0.373423
b) Test d’hypothèses
? ® ? 0.31227
Ê%=>%>é = = = 11.55058
±
§R 0.027035
? ®^ ? 98.68935
= = 3.857539 > 2.2620
±
§ 25.5835
c) Le Test D’analyse de la Variance (test F)
+
/1
&%=>%>é =
+
,/4ù − 26
51959,8120 51959,8120
= =
3505,0971/9 389,45523
= 122,41665
4. Prévision
1 ^ − O
= ¨H^^^ ± Ê^.^Hz ± f1 + +
ù ∑ ¾H
1 41772 − 9206²
= 652 ± 42.2626419.734626f1 + +
11 532852.5450
= 652 ± 70
Ex – post, on observe H^^^ = 514 (en millions). Il semble que l’on doive
douter de l’utilisation en prévision du modèle ainsi ajusté.
Exemple 2.
= B^ + B ½C
Où
= consommation ;
½C = revenu disponible ;
B^ = consommation autonome ou disponible ;
B = propension marginale à consommer.
tableau ci – après :
1993 7.4 8.0 -2.6 -3.28 8.5280 10.7584 6.76 -2.57109 -0.02891 0.00084 6.61050 64.00
1994 8.2 9.0 -1.8 -2.28 4.1040 5.1984 3.24 -1.78722 -0.01278 0.00016 3.19416 81.00
1995 8.8 9.5 -1.2 -1.78 2.1360 3.1684 1.44 -1.30529 0.19529 0.03814 1.94683 90.25
1996 8.7 9.5 -1.3 -1.78 2.3140 3.1684 1.69 -1.30529 0.09529 0.00908 1.94683 90.25
1997 8.8 9.8 -1.2 -1.48 1.7760 2.1904 1.44 -1.16013 -0.03987 0.00159 1.34590 96.04
1998 9.6 11.0 -0.4 -0.28 0.1120 0.0784 0.16 -0.21948 -0.18052 0.03259 0.04817 121.00
1999 10.6 12.0 0.6 0.72 0.4320 0.5184 0.36 0.56439 0.03561 0.00127 0.13854 144.00
2000 11.2 13.0 1.2 1.72 2.0640 2.9584 1.44 1.34826 -0.14826 0.02198 1.81781 169.00
2001 12.8 15.0 2.8 3.72 10.4160 13.8384 7.84 2.91600 -0.11600 0.01346 8.50306 225.00
2002 13.9 16.0 3.9 4.72 18.4080 22.2784 15.21 3.69987 0.20013 0.04005 13.68904 256.00
¯ 100.0 112.8 0 0 50.2900 64.1560 39.58 0.00002 -0.00002 0.15916 39.42084 1336.54
∑ ¾ 112.8
O = = = 11.28
ù 10
∑ ½ 100.0
O = = = 10.0
ù 10
77
∑SF ¾ ½ 50.29
® = = = 0.78387
∑F ¾
S H
64.1560
Donc :
Ou bien :
+
- = ¯ ½H = 39.58
F
S
+
= ®H ¯ ¾H = 40.783876H 464.15606 = 39.4208
F
+
, = ¯ ¬H = +
- − +
= 39.58 − 39.4208 = 0.1592
V. Le coefficient de détermination
+
39.4208
,² = = = 0.99598
+
- 39.58
∑ ¬H 0.1592
±H = = = 0.0199
ù − 2 410 − 26
±H 0.0199
±
§HR = = = 0.00031
∑F ¾H
S
64.1560
78
et ±
§R 0.01761
∑SF H 41336.546
±
§H = ±H . = 0.0199 = 0.04146
ù. ∑F ¾
S H 4106464.15606
ou encore :
1 O H 1 411.286²
±
§H = ±H ÷ + ø = 0.0199 ÷ + ø
ù ∑ ¾ H 10 464.15606
= 40.0199642.08336
= 0.04146
±
§ = √0.04146 = 0.20362
^ ∈ ®^ ± ±
§ . Ê ; 4PU6
U
^ ∈ 1.15795 ± 40.20362642.30606
∈ 1.15795 ± 0.46955
Donc
= 0.6884 ; 1.6273
∈ ® ± ±
§R . Ê^.^Hz ;u
∈ 0.78387 ± 40.01761642.30606
∈ 0.78387 ± 0.04069
Donc
= 0.74318 ; 0.82456
H ∈ Ì ; Í
4SH6
ÆU 4SH6
ÆU
U
.DEF U
.UF
;4PU6 ;4PU6
;u =
H
D’après la table du H , avec 8 degrés de liberté, on trouve : ^.^Hz
2.18 et ^.yvz ;4SH6 = 17.53. Ainsi, un intervalle de confiance à 95% pour H
H
79
= 0.00908 ; 0.7303
sera donné par les valeurs comprises entre :
Remarques
H
Notons ici que ^.yvz est un nombre dont la probabilité que le H lui soit
supérieur est égale à 0.025. de même, la probabilité pour que le H depasse
H
^.^Hz est é gale à 0.975.
1. Pour ^
^ ∶ ^ = 0
\ a
∶ ^ ≠ 0
?®^ ? 1.15795
ÊGÆ∗ = = = 5.69
±
§ 0.20362
Ê^.^Hz ;u = 2.3060
Décision : Ê
§∗ > Ê=@> , il y a donc rejet de l’hypothèse nulle. La constante 0
du modèle est significativement différente de zéro.
2. Pour
^ ∶ = 0
\ a
∶ ≠ 0
?® ? 0.78387
Ê
§∗ = = = 44.5128
±
§R 0.01761
Décision : Ê
§∗ > Ê=@> , rejet de l’hypothèse nulle.
R
^ ∶ = 0
\ a
∶ ≠ 0
+
/1 39.4208
&∗ = = = 1980.94
+
,/4ù − 26 40.15926/8
X. Prévision
1. Prévision ponctuelle
2. Intervalles de prévision
CHAPITRE 4
MODELE DE REGRESSION MULTIPLE
Y u X ⋯ X:
En posant :
β
Y = á ⋮ â; β = ⋮ ; U = á ⋮ â ; á ⋮ ⋱ ⋮ â
YE βE uE XE ⋯ X:E
Y = J X β + U
On obtient la forme matricielle :
J J J (4.2)
4E×6 4E×:6 4:×6 4E×6
L'introduction d'un terme constant s'obtient en donnant à la valeur X1t la
valeur 1 pour tout t = 1, ..., n.
Exemple : Considérons le modèle linéaire simple (Fonction de consommation
C2 = β + βH Y2 + u2
keynésienne) :
où : C2 = consommation au temps t ;
( t = 1, 2, … , n )
C = YJ J β + U
Ce modèle peut aussi s’écrire sous forme de matrice comme ci-après :
J J
4E×6 4E×H6 4H×6 4E×6
C β u 1 Y
C = á ⋮ â ; β = ⋮ , U = á ⋮ â Y = á ⋮ ⋮ â
CE βE uE 1 YE
L'écriture sous forme matricielle rend plus aisée la manipulation du modèle
linéaire général, c'est pourquoi nous l'adoptons par la suite.
structurelles, de l’autre.
A. Hypothèses stochastiques
E4U6 = 0 (4.3)
E4u 6
0
E4uH 6
0
E4U6 = E4ut 6 = 0
⋮ ⋮
(4.4)
E4uE 6 0
E4Y6 = E4Xβ + U6
= E4Xβ6 + E4U6 = Xβ.
1 0 ⋯ ⋯ 0
0 1 ⋯ ⋯ 0
σH ⋮ ⋮ ⋱ ⋮ = σH I = Ω
K
⋮ ⋮ ⋱ ⋮ 4E×E6
0 0 ⋯ ⋯ 1
(4.6)
En principe, on fait ici deux hypothèses :
E8u- u. < = 0 , ∀i ≠ j
• Les erreurs, prises deux à deux, ne sont pas corrélées.
Y = Xβ+U
observations :
(4.9)
e = Y − Xβ̈ = Y − Y§
paramètres β par son estimateur β̈ dans l’équation (4.9). D’où :
(4.10)
ee’, soit :
moindres carrés qui consiste à minimiser la somme des carrés des résidus :
84
Min eØ e = Min ∑E2F eH2 = Min ∑E2F ÏY2 − 8β̈ + β̈H X H2 + ⋯ + β̈: X :2 < Ð
H
(4.11)
E
En écriture matricielle, on sait que :
§<′8Y − Y
¯ eH2 = eØ e = 8Y − Y §<
= 8Y − Xβ̈<′8Y − Xβ̈<
2F
Ø
= Y Ø Y − Y Ø Xβ̈ − β̈ X Ø Y + β̈′X′Xβ̈
Ø
Etant donné que Y Ø Xβ̈ = β̈ X Ø Y (car les deux produits sont des scalaires), on
Ø
SCR = Y Ø Y − 2β̈ X Ø Y + β̈′X′Xβ̈
peut alors écrire :
(4.12)
Pour minimiser cette expression par rapport à β̈ on annule sa dérivée par
rapport à β̈ :
= −2X Ø Y + 2X Ø Xβ̈
δSCR
=0 44.136
δβ̈
X Ø Y = X Ø Xβ̈
sous leur forme matricielle :
(4.14)
La relation (4.14) peut s’écrire aussi comme ci-après :
⋮ ⋮ ⋱ ⋮ ⋮ ⋮
⋯ M
β̈:
¯ X:2 ¯ X:2 X H2 ¯ X:2 Xt2 ¯ X:2
H
¯ X:2 Y2
³àààààààààààààààà´àààààààààààààààൠβ̈ ³àà´à àµ
!L ! !Ø
Exemples
n ¯ XH2 ¯ Y2
÷ ø =
β̈
¯ XH2 ¯ XH2
H β̈H ¯ XH2 Y2
E E
¯ Y = nβ̈ +β̈ ¯ X
2 H2
2F
H
2F
a
E E E
¯ X2 Y2 = β̈ ¯ XH2 + β̈ ¯ XH2
H
Y2 = β + βH X H2 + βt Xt2 + u2
Ex. 2 : Pour un modèle linéaire multiple ayant deux variables explicatives :
n ¯ XH2 ¯ Xt2 ¯ Y2
¯ XH2 ¯ XH2 ¯ XH2 Xt2 β̈H = ¯ XH2 Y2
β̈
H
H β̈t
¯ Xt2 ¯ Xt2 XH2 ¯ Xt2 ¯ Xt2 Y2
E
E E E
Les propriétés des estimateurs des moindres carrés ordinaires sont, dans le
4X′X6 X′Y sont non seulement linéaires et sans biais, mais aussi ont une variance
minimale dans la classe de tous les estimateurs non biaisés. Ils sont donc « BLUE »
(Best Linear Unbiased Estimator). En d’autres termes, ils satisfont le théorème
de Gauss-Markov.
A. Estimateur linéaire
L’ estimateur des moindres carrés ordinaires est une fonction linéaire de Y.
β̈ = 4X′X6 X′Y
En effet, soit :
Y2 de Y.
Donc, les composantes de β̈ sont des fonctions linéaires des composantes
86
E8β̈< = E4γY6
L’espérance de l’estimateur β̈ est donc :
§
C. Calcul de la matrice des variances-covariances de
H
(4.18)
Puisque la variance résiduelle σ est inconnue, on l’estimera à partir des
valeurs observées des résidus afin de rendre opérationnelle la relation
Æ
σH = E:
ÇÇØ
(4.18. Donc :
(4.19)
où le facteur (n-k) représente le nombre des degrés de liberté.
§ β̈ = σ
ÆH 4X′X6
Ainsi, la matrice des variances-covariances estimée devient :
Ω (4.20)
Cette détermination de la matrice des variances-covariances de β̈ permet de
montrer que cet estimateur est meilleur, c’est-à-dire de variance minimale.
Var4β̈6 ≤ Var4βP 6
variance la plus faible :
(4.21)
βP = MY et E8βP < = β
Posons : M 4X′X6 X′ + N.
Comme MX = I, alors :
MX = 4X Ø X6 X Ø + NX = 4X Ø X6 X Ø X + NX = I + NX = I
où
J J = J
0 .
4Q×S6 4S×Q6 4Q×Q6
Var8βP < = EβP − E4βP 6βP − E4βP 6′ sont supérieurs à ceux de Var8βP < =
la diagonale principale de la matrice des covariances de
D H 6 = 8β̈X Ø Y − nY
4Y Ø Y − nY D H < + e′e
ou en écriture matricielle :
(4.24)
décomposition de la variance de Y :
Variance expliquée SCE SCR
RH = = =1− 44.256
Variance totale SCT SCT
β̈x Ø y ∑2 y±2H
Dans le cas de variables centrées :
R = Ø =
H
44.266
yy ∑2 y2H
e′e ∑2 eH2
ou
RH = 1 − = 1 − 44.276
yØy ∑2 y2H
DH
β̈X Ø Y − nY
Dans le cas de variables non centrées :
RH = Ø
Y Y − nY DH
e′e
=1− Ø 44.286
Y Y − nY DH
Par construction, cette statistique est comprise dans l’intervalle 0, 1. Donc :
0 ≤ RH ≤ 1.
Le coefficient de détermination RH est un indicateur de qualité de
l'ajustement linéaire entre les variables explicatives et la variable expliquée. Il
mesure la part de la variance totale expliquée par les variables explicatives et
permet donc de juger de la qualité de l’ajustement du modèle. Une valeur proche
de 1 indique que la qualité de l’ajustement est bonne dans la mesure où la part de
avec précaution. Un RH élevé ne doit en aucun cas être interprété comme une
la variance de Y expliquée par le modèle est élevée. Cependant, il doit être utilisé
89
e′e⁄4n − k6
explicatives présentes dans le modèle :
DH 1 −
R 44.296
y′y⁄4n − 16
DH
R
ou encore :
=1
4n − 16
− 41 − RH 6 44.306
4n − k6
DH
R
ou enfin :
n−1 H
=Ó ÔR
n−k
k−1
−Ó Ô 44.316
n−k
SCR
- critère de SCHWARTZ
k
SC = ln Ó Ô + ln4n6 44.326
n n
SCR 2k
- critère d’information d’AKAIKE
CIA = ln Ó Ô+ 44.336
n n
Ces critères visent à retenir, parmi les modèles à comparer, celui qui minimise le
critère d’information.
4∑ X2 Y2 6H
RH brut = 44.346
∑ X2H ∑ Y2H
Y2 = β + βH X H2 + ⋯ + β- X -2 + ⋯ + β: X :2 + u2
Soit le modèle linéaire général suivant :
Comme il a été souligné dans le cadre d’un modèle de régression linéaire simple,
l’hypothèse de normalité des termes d'erreur joue un rôle essentiel car elle va
préciser la distribution statistique des estimateurs. En plus, c’est grâce à cette
hypothèse que l'inférence statistique peut se réaliser.
En supposant que les erreurs suivent une loi normale centrée et de variance σ2u
∑2 eH σ
ÆH
L’hypothèse de normalité des erreurs implique aussi que :
= 4n − k6 ~ χH 4E:6 .
σH σH
H^ : β- = β∗S
Le test d'hypothèse est le suivant :
H : β- ≠ β∗S
β̈- − β-
Var8β̈- < = σH υ-- ; β̈- ~N4β- , σH υ-- 6 et
σ √υ--
β̈- − β-
= ~N40, 16
σHݧ
où υ-- , i = 1, 2, … , k est l’élément 4i, i6 de la matrice 4X′X6.
#
èUý
statistique t de β̈- :
afin d’obtenir la valeur de la
β̈- − β- β̈- − β-
Êݧ# = = 44. , , , , 6
σ
Æ √υ-- σ
Æݧ#
β̈- ± t V; 4E:6 . σ
Æ √υ-- ou bien β̈- ± t V; 4E:6 . σÆݧ#
U U
L’intervalle de confiance (…) peut également s’écrire sous la forme :
P Ìβ̈- − t æ;4E:6 . σ
Æ Gυ-- < β- < β̈- + t æ;4E:6 . σ
Æ Gυ-- Í = 10041 − α6%
Le seuil de risque α est généralement fixé à 5 % ou 10 %.
H H
Il est alors possible de tester l’hypothèse nulle selon laquelle le coefficient β- est égal
à une valeur donnée β∗- , soit :
H^ : β- = β∗S
H : β- ≠ β∗S
H^ : β- =
Le test le plus utilisé est celui qui consiste à tester l’hypothèse nulle :
H : β- ≠
variable X - n’est pas significative, c’est-à-dire qu’elle ne loue aucun rôle dans la
Il s’agit donc d’un test de significativité de coefficient. Sous l’hypothèse nulle, la
β̈-
Êݧ#
σ
Æݧ#
Y2 = β + βH X H2 + βt X t2 + u2
Soit le modèle linéaire multiple suivant :
Y = Xβ + U
Soit le modèle de régression multiple suivant :
H^ : r β + rH βH + ⋯ + r: β: = q
régression peut s’écrire sous la forme :
\ a
H : r β + rH βH + ⋯ + r: β: ≠ q
ou de manière succincte :
93
H^ : r′β = q
\ a
H : r′β ≠ q
Exemple
La statistique r′β̈ , sous hypothèse nulle, est donnée par l’expression suivante :
r′β̈ − q
t bcd =
σ
Æ Gr Ø 4X Ø X6 r
Y = Xβ + U
Soit le modèle de régression multiple suivant :
Rβ = q
paramètres du modèle de régression par l’expression générale ci-après :
Y2 = β + βH X H2 + βt X t2 + β X 2 + u2 .
Les deux contraintes linéaires suivantes : βt + β = 1 et βH = 0 sur ce
β
modèle peuvent s’écrire aussi comme :
0 0 1 1 βH 1
Ï Ð = Ï Ð
³ààà´àààµ
0 1 0 0 βt K0
É Yβ Z
Ý
H^ : Rβ = q
Le test sur plusieurs contraintes consiste donc à tester l’hypothèse :
\ a
H : Rβ ≠ q
modèle sans contraintes afin de calculer Rβ̈. Etant fonction linéaire de l’estimateur
Pour réaliser ce test, on estime avec la méthode des moindres carrés ordinaires le
E8Rβ̈< = R E4β̈6 = Rβ = q
par :
résidus 4SCR 6 ;
restrictions au modèle initial, et calculer la somme des carrés des
transformé).
contraint. Si la contrainte est vraie, on aura : L < L\ , où L\ est la fonction
(connu comme test LR : likelihood ratio) des modèles contraint et non
ac
ln Q 2 = β − ln P2 + β ln P`2 + βz ln R 2 + u2
ln Q 2 + ln P2 = β + β ln P`2 + βz ln R 2 + u2
ou encore :
40,6788 − 0,42776⁄2
Fbcd = = 4,99
0,4277⁄422 − 56
Au seuil de 5 %, la valeur de la loi de Fisher F4H,v6 lue dans la table est égale à
3,59. On a donc Fbcd = 4,99 > 3,59 , ce qui signifie que l’on rejette au risque
5% l'hypothèse linéaire envisagée.
R = 0 ⋯ 0 1 0 ⋯ 0 et q = 0
correspond à :
La matrice R contient un seul 1 à la ième place et q est nul, ce qui revient bien à
tester la significativité du coefficient β- . Si l’on pose q = β∗- , on retrouve le
test de significativité de l’égalité de β- à une certaine valeur β∗- .
Il convient de faire remarquer que le test de Fisher d’une telle hypothèse
linéaire est sans intérêt car il est mathématiquement équivalent au test de
Student de significativité d’un coefficient.
Ce test est aussi un cas particulier du test d'hypothèses linéaires portant sur la
significativité de l’ensemble des coefficients des variables explicatives de la
régression. Il s’intéresse particulièrement à l’évaluation globale du modèle
explicatives a une influence sur la variable à expliquer Y. Un tel test est parfois
dans le cadre d’une régression multiple, c'est-à-dire si l'ensemble des variables
0 1 0 ⋯ 0 β 0
0 0 1 ⋯ 0 βH
= 0
⋮ ⋮ ⋮ ⋯ ⋮ ⋮ ⋮
³à0 àà 0 à⋯
0àà´à àààµ
1 Y β: K 0
É Ý Z
On teste donc :
H^ ∶ βH = βt = ⋯ = β: = 0
# a
H ∶ ∃ au moins un des coefeicients non nuls.
Ce test ne considère pas le terme constant β , car un modèle dans lequel seul
le terme constant est significatif n’a aucun sens économique.
Si l’hypothèse nulle est vraie, alors :
4y±2 − yO6H ⁄4k − 16
Fbcd =
∑ eH2 ⁄4n − k6
SCE⁄4k − 16
=
SCR⁄4n − k6
RH ⁄4k − 16
= .
41 − RH 6⁄4n − k6
Exemple
f
globale on obtient :
ln Q 2 = −3,87 + 0,41 ln K 2 + 1,41 ln L2
(0,255) (0,050) (0,089)
n = 33
R2 = 0,9937
(•) = écarts types estimés des estimateurs des coefficients de régression.
1) Interpréter les résultats de la régression par la méthode des moindres
carrés ;
2) Tester au seuil de 5 % les hypothèses linéaires suivantes :
a) βH = 0.4 ;
b) βt = 0 .
Solution
1) Interprétation
Les coefficients du modèle de production Cobb Douglas représentent
respectivement l'élasticité du Produit National Brut au facteur capital et
l'élasticité du Produit National Brut au facteur travail. En effet :
98
∂ ln Q ∆Q⁄Q
βH = = = ε"⁄h ;
∂ ln K ∆K⁄K
∂ ln Q ∆Q⁄Q
βt = = = ε"⁄ò ;
∂ ln L ∆L⁄L
βH et βt sont des rapports de dérivées logarithmiques.
HO : βH = 0,40
H1 : βH ≠ 0,40
Sous hypothèse nulle, alors :
β̈H − 0,40 0,41 − 0,40
t bcdbdé i i=j j = 0,20.
σ
Æ ÝU 0,050
HO : βH = βt = 0
c) Test de significativité globale du modèle
RH ⁄(k − 1) 0,9937/2
Fbcd = = = 2365,95 .
(1 − R )⁄(n − k) (1 − 0,9937)/30
H
Puisque Fbcd > F(H ; t^), nous rejetons l’hypothèse de nullité de tous les
coefficients, la régression est globalement significative.
Sur des séries temporelles, on compare les estimations effectuées sur deux
(ou plusieurs) sous ensembles d'observations qui correspondent à un
découpage en périodes de l'échantillon initial. On parle dans ce cas de test
de stabilité temporelle de la régression.
Y = J X β + U
Considérons le modèle linéaire général suivant, pour t=1,2,…,n :
J J J (4.1)
(E×) (E×:) (:×) (E×)
Y
K = X βJ + U
modèles suivants :
K K (4.2)
4ER ×6 4ER ×:6 4:×6 4ER ×6
100
Y
KH = X
KH β
KH + U
KH
et
(4.3)
(EU ×) (EU ×:) (:×) (EU ×)
β^ = βH^ = β^
β = βH = β a
H^ ∶
⋮
(4.4)
⋮
β: = βH: = β:
Exemple
ln M2 = β + βH ln PIB2 + u2
Soit la fonction d’importations ci-après :
où :
- M désigne les importations ;
- PIB est le Produit intérieur brut.
f
ln M2 = 0,65 + 0,75 ln PIB2
L’estimation de cette relation sur la période 1962-1995 donne les résultats suivants :
Solution
Pour appliquer le test de Chow, on estime deux nouvelles régressions : une
régression sur la période 1960-1978 et une régression sur la période 1979-1995.
Les résultats de ces régressions sont donnés ci-après :
f
ln M2 = 1,34 + 0,65 ln PIB2
- Sur la période 1962-1978, soit t=1,…,17 :
f
ln M2 = 2,15 + 0,54 ln PIB2
- Sur la période 1979-1995, soit t=18,…,34 :
L'intérêt de ces tests réside dans le fait qu'il permet d'étudier la stabilité d'une
régression sans définir a priori la date de rupture sur les coefficients.
Contrairement au test de Chow, les tests proposés par Brown, Durbin et Evans
sont basés sur l’utilisation des résidus récursifs.
Y = Xβ+U
Soit le modèle de régression linéaire suivant :
Y2 = β X2 + βH XH2 + ⋯ + β- X -2 + ⋯ + β: X :2 + u2
ou encore :
(t = 1,2, … , n)
eX lm − l±n lm − o Øm β̈X
l’expression :
où : β̈X = (X X
Ø
XX ) XX
Ø
YX , estimateur des moindres carrés ordinaires
lorsque la taille de l’échantillon est égale à (r − 1) ;
o′m = 1 XX X HX ⋯ X :X est le vecteur des variables explicatives plus la
Les résidus récursifs, notés wX , sont définis comme les erreurs de prévision
eX
normalisées :
wX =
G1 + o Øm (XX
Ø
XX ) o m
avec wX ~N(0, σH ).
A partir de ces résidus récursifs, Brown, Durbin et Evans (1975) ont proposé les
tests Cusum (Cumulated Sum of residuals) et Cusum carré (Cumulated Sum of
Squared residuals : Cusumsq) qui permettent de tester la stabilité des
H^ : β = βH = ⋯ = βE = β
soit :
H : β2 ≠ β ou σHV = σH
où les coefficients β2 , t = 1, 2, … , n sont les vecteurs des coefficients de
régression pour la période t et les σHÁ désignent les variances des erreurs de la
même période.
A. Test Cusum
103
Le test Cusum est basé sur la somme cumulée des résidus récursifs wX définie par :
w.
2
qº = ¯
σ
Ær
.FX
où : t = 1, 2, … , n ;
1 1
E E
w
D= ¯ w. et σ
ÆHr = ¯ 8w. − w
D< .
H
n−r−1 n−r−1
.FX .FX
Le test de Cusum Carré est similaire au précèdent. Il est utilisé pour détecter des
mouvements aléatoires c'est-à-dire des mouvements ne provenant pas
∑2.FX w.H
S2 =
∑E.FX w.H
(t = r + 1, … , n)
représentée graphiquement. Les deux bornes sont données par E(S2 ) ± c^, où
Comme dans le test Cusum, la région critique du test Cusum carré peut être
les valeurs de c^ sont données dans la table de Durbin pour diverses tailles
d’échantillon et divers seuils de signification. Si, quelque soit t = r + 1, … , n, S2
modèle sont supposés stables. Sinon, si S2 sort des bornes données par les deux
se situe dans le corridor défini par les deux bornes alors les paramètres du
Exemple d’illustration
-4
-8
-12
59 60 61 62 63 64 65 66 67 68 69 70
CUSUM 5% Significance
1.6
1.2
0.8
0.4
0.0
-0.4
59 60 61 62 63 64 65 66 67 68 69 70
4.7. Prévision
Pour un vecteur X donné des valeurs prises par les variables explicatives lors
de la période sur laquelle porte la prévision, la prévision ponctuelle pour la
β̈
§
Y28 = 1 X,28 XH,28 ⋯ X:,28 β̈ = R®
⋮
β̈
où R est le vecteur des valeurs prévues des variables explicatives.
La vraie valeur de Y pendant de la période de prévision est donc :
Y28 = Rβ + u28,
avec u28 désignant la vraie valeur prise par le terme d’erreur pendant cette
période.
L’erreur de prévision e28 est donnée par l’écart entre la valeur observée et
§28
e28 Y28 − Y
la valeur prévue :
Notons que e28 est une variable aléatoire car la réalisation Y28 n’est pas
connue au moment de la prévision. Les moments de cette variable aléatoire
106
sont :
E(e28 6 0,
a) L’espérance mathématique de l’erreur de prévision est égale à :
Var4e28 6 = σHÇÁ:;
b) La variance de l’erreur de prévision est donc :
L’erreur de prévision e28 est une variable aléatoire distribuée selon une loi
e28
par conséquent :
~N40, 16
GσH R4X′X6 RØ + 1
§28 − σ §28 + σ
un ensemble d’observations donné :
P ÌY ÆÇÁ:; . t æ; 4E:6 ≤ Y28 ≤ Y ÆÇÁ:; . t æ; 4E:6 Í = 1 − α.
H H
§28 − t æ
Y ÆH R4X′X6 RØ + 1
G σ
ou encore :
; 4E:6
H
§ Æ GR4X′X6 RØ + 1.
Y28 − t V; 4E:6 σ
ou enfin :
U
§2 )
ME = ∑E2F(Y2 − Y
1. L’erreur moyenne (mean error)
E
MAE = ∑E2F| |
2. Erreur absolue moyenne (Mean Absolute Error)
E
3. Racine de l’écart-type moyen (Root Mean Square Error)
§2 <
RMSE = T ∑E2F8Y2 − Y
H
E
4. Statistique U de Theil
∑E2FH8∆Y2 − ∆Y §2 <
H
U=f
∑2FH(∆Y2 )
E H
§2 = Y
où ∆Y2 = Y2 − Y2 et ∆Y §2 − Y
§2 .
Les trois premières mesures (ME, MAE et RMSE) sont utilisées lorsqu’on
compare le pouvoir de prévision de plusieurs modèles estimés. Le modèle
pour lequel les trois statistiques sont les plus faibles est considéré avoir une
meilleure capacité prédictive. Mais, notons que ces statistiques présentent
un problème évident de normalisation. En effet, la multiplication des valeurs
de la variable dépendante par n’importe quel facteur multiplie également la
mesure par ce scalaire.
Exemple illustratif
f
ln Q 2 = −3,2116 + 0,7931 ln K 2 + 0,5811 ln L2
1955-1970 a donné les résultats suivants :
R2 = 0,9987 ; R DH = 0,9984 ;
n = - 16 ;
σ
Æ = 0,012209 (écart-type estimé de l’erreur) ;
Fbcdbdé = 4808
(•) = écarts types estimés des estimateurs des coefficients de
régression.
16 200,57189 147,78782
Notons que :
M§ 2 = M
§ yv = −3,211626 + (0,793127) ∗ (13,09124) + (0,581095)
∗ (9,498372)
= 12,6908384
M§ 2H = M
§ yvH
- Pour l’année 1972 :
§ 2t = M
M § yvt
- Pour l’année 1973 :
§ 2 = M
M § yv
- Pour l’année 1974 :
§ 28 ± t V (E:) σ
M Æ GR(X′X) RØ + 1.
- Pour l’année 1971 :
;
§ yv ± t ^,^Hz ; ( t) σ
U
M Æ GR(X′X) RØ + 1
σ
Æ = 0,012209 ;
Ryv = 1 13,09 9,50
1037,7331 141,69943475 −304,650632 1
R(X Ø X) RØ = 1 13,09124 9,498372 á 141,699434 26,2374792 −51,9493389â á13,09124â
−304,650632 −51,9493389 102,128953 9,498372
=0,34011116,
§ Æ GR(X′X) RØ + 1
MyvH ± t ^,^Hz ; ( t) σ
- Pour l’année 1972 :
⟹ 12,7532444 ; 12,7760483
§ Æ GR(X′X) RØ + 1
Myvt ± t ^,^Hz ; ( t) σ
- Pour l’année 1973 :
= 1,26375373
⟹ 12,8790754 ; 12,9359639.
La qualité prédictive du modèle peut être évaluée à partir des éléments ci-
dessous fournis par le logiciel d’économétrie Eviews 5.1. Le graphique retrace
l’évolution des valeurs ponctuelles prévues pour l’horizon considéré ainsi
que les intervalles de prédiction associés. Cette évaluation graphique est
complétée par une série de mesures conçues pour apprécier les prévisions a
posteriori. Au vu des résultats ci-dessous, on constate que la valeur de la
statistique de Theil (U=0,003392) est largement inférieure à 1 indiquant un
pouvoir de prévision élevé du modèle estimé.
12.95
Forecast: QQF
Actual: QQ
12.90
Forecast sample: 1971 1974
Included observations: 4
12.85
Root Mean Squared Error 0.086678
12.80 Mean Absolute Error 0.081039
Mean Abs. Percent Error 0.635568
Theil Inequality Coefficient 0.003392
12.75 Bias Proportion 0.874123
Variance Proportion 0.046229
12.70 Covariance Proportion 0.079648
12.65
1971 1972 1973 1974
QQF
110
111
CHAPITRE 4
MODELE DE REGRESSION MULTIPLE
Y u X ⋯ X:
En posant :
β
Y = á ⋮ â; β = ⋮ ; U = á ⋮ â ; á ⋮ ⋱ ⋮ â
YE βE uE XE ⋯ X:E
Y = J
X β + U
On obtient la forme matricielle :
J J J (4.2)
4E×6 4E×:6 4:×6 4E×6
C2 = β + βH Y2 + u2
keynésienne) :
où : C2 = consommation au temps t ;
( t = 1, 2, … , n )
C = YJ β + U
Ce modèle peut aussi s’écrire sous forme de matrice comme ci-après :
J J J
4E×6 4E×H6 4H×6 4E×6
C β u 1 Y
C = á ⋮ â ; β = ⋮ , U = á ⋮ â Y = á ⋮ ⋮ â
CE βE uE 1 YE
112
structurelles, de l’autre.
C. Hypothèses stochastiques
E(U) = 0 (4.3)
E(u )
0
E(uH )
0
E(U) = E(ut ) = 0
⋮ ⋮
(4.4)
E(uE ) 0
E(Y) = E(Xβ + U)
= E(Xβ) + E(U) = Xβ.
u
uH
⋯ ⋯ uE
E(UU′) = E ⋮ u uH
⋮
uE
113
1 0 ⋯ ⋯ 0
0 1 ⋯ ⋯ 0
= σH ⋮ ⋮ ⋱ ⋮ = σH I = Ω
K
⋮ ⋮ ⋱ ⋮ (E×E)
0 0 ⋯ ⋯ 1
(4.6)
• Les lois de probabilité suivies par les erreurs U ont la même variance.
E8u- u. < = 0 , ∀i ≠ j
(absence d’autocorrélation ou absence de corrélation sérielle).
Si tel n’est pas le cas, on dit que les erreurs sont autocorrélées.
D. Hypothèses structurelles
Y = Xβ+U
observations :
(4.9)
e Y − Xβ̈ = Y − Y§
paramètres β par son estimateur β̈ dans l’équation (4.9). D’où :
(4.10)
ee’, soit :
moindres carrés qui consiste à minimiser la somme des carrés des résidus :
Min eØ e Min ∑E2F eH2 Min ∑E2F ÏY2 − 8β̈ + β̈H XH2 + ⋯ + β̈: X:2 < Ð
H
(4.11)
E
En écriture matricielle, on sait que :
§<′8Y − Y
¯ eH2 eØ e 8Y − Y §<
2F
= 8Y − Xβ̈<′8Y − Xβ̈<
= Y Ø Y − Y Ø Xβ̈ − β̈ X Ø Y + β̈′X′Xβ̈
Ø
Ø
Etant donné que Y Ø Xβ̈ = β̈ X Ø Y (car les deux produits sont des scalaires), on
Ø
SCR = Y Ø Y − 2β̈ X Ø Y + β̈′X′Xβ̈
peut alors écrire :
(4.12)
=0 (4.13)
δβ̈
X Ø Y = X Ø Xβ̈
sous leur forme matricielle :
(4.14)
⋮ ⋮ ⋱ ⋮ ⋮ ⋮
⋯ M
β̈:
¯ X:2 ¯ X:2 X H2 ¯ X:2 Xt2 ¯ X:2
H
¯ X:2 Y2
³à
³àààààààààààààààà´àààààààààààààààൠβ̈ à´ààµ
!L ! !Ø
Exemples
n ¯ XH2 ¯ Y2
÷ ø =
β̈
¯ XH2 ¯ XH2
H β̈H ¯ XH2 Y2
E E
¯ Y = nβ̈ +β̈ ¯ X
2 H2
H
2F 2F
a
E E E
¯ X2 Y2 = β̈ ¯ XH2 + β̈ ¯ XH2
H
2F 2F H 2F
Y2 = β + βH X H2 + βt Xt2 + u2
Ex. 2 : Pour un modèle linéaire multiple ayant deux variables explicatives :
n ¯ XH2 ¯ Xt2 ¯ Y2
¯ XH2 ¯ XH2 ¯ XH2 Xt2 β̈H = ¯ XH2 Y2
β̈
H
H β̈t
¯ Xt2 ¯ Xt2 XH2 ¯ Xt2 ¯ X Y
t2 2
E
E E E
(X′X) X′Y sont non seulement linéaires et sans biais, mais aussi ont une variance
116
minimale dans la classe de tous les estimateurs non biaisés. Ils sont donc « BLUE »
(Best Linear Unbiased Estimator). En d’autres termes, ils satisfont le théorème
de Gauss-Markov.
E. Estimateur linéaire
β̈ = (X′X) X′Y
En effet, soit :
Y2 de Y.
Donc, les composantes de β̈ sont des fonctions linéaires des composantes
E8β̈< = E(γY)
L’espérance de l’estimateur β̈ est donc :
§
G. Calcul de la matrice des variances-covariances de
ÆH =
ÇÇØ
(4.18. Donc :
E:
σ (4.19)
où le facteur (n-k) représente le nombre des degrés de liberté.
§ β̈ = σ
ÆH (X′X)
Ainsi, la matrice des variances-covariances estimée devient :
Ω (4.20)
Var(β̈) ≤ Var(βP )
variance la plus faible :
βP = MY et E8βP < = β
avoir :
Posons : M = 4X′X6 X′ + N.
Comme MX = I, alors :
MX = 4X′X6 X Ø + NX = 4X′X6 X Ø X + NX = I + NX = I
J
où J = J
0 .
supérieures aux composantes β̈ , β̈H , … , β̈: de β̈, c'est-à-dire les termes de
Var8βP < = EβP − E4βP 6βP − E4βP 6′ sont supérieurs à ceux de Var8βP < =
la diagonale principale de la matrice des covariances de
D)H = ∑28Y
∑2(Y2 − Y §2 − Y
D<H + ∑28Y2 − Y
§2 <H
L'équation fondamentale d'analyse de la variance est :
(4.23)
D H ) = 8β̈X Ø Y − nY
(Y Ø Y − nY D H < + e′e
ou en écriture matricielle :
(4.24)
y Ø y β̈x Ø y e′e
ou encore :
(4.26)
2
SCE = Variabilité expliquée = ¯8Y D <H a
§2 − Y
2
SCR = Variabilité des résidus = ¯8Y2 − Y §2 <H
2
décomposition de la variance de Y :
Variance expliquée SCE SCR
RH = = =1− 44.256
Variance totale SCT SCT
β̈x Ø y ∑2 y±2H
Dans le cas de variables centrées :
RH = = 44.266
yØy ∑2 y2H
e′e ∑2 eH2
ou
RH = 1 − = 1 − 44.276
yØy ∑2 y2H
DH
β̈X Ø Y − nY
Dans le cas de variables non centrées :
RH = =1
Y Ø Y − nYDH
e′e
− 44.286
DH
Y Ø Y − nY
Par construction, cette statistique est comprise dans l’intervalle 0, 1. Donc :
0 ≤ RH ≤ 1.
119
avec précaution. Un RH élevé ne doit en aucun cas être interprété comme une
la variance de Y expliquée par le modèle est élevée. Cependant, il doit être utilisé
e′e⁄4n − k)
DH = 1 −
R (4.29)
y′y⁄(n − 1)
DH
R
ou encore :
=1
(n − 1)
− (1 − RH ) (4.30)
(n − k)
DH
R
ou enfin :
n−1 H
=Ó ÔR
n−k
k−1
−Ó Ô (4.31)
n−k
SC
- critère de SCHWARTZ
SCR
= ln Ó Ô
n
k
+ ln(n) (4.32)
n
120
CIA
- critère d’information d’AKAIKE
SCR
= ln Ó Ô
n
2k
+ (4.33)
n
Ces critères visent à retenir, parmi les modèles à comparer, celui qui minimise le
(∑ X2 Y2 )H
RH brut = (4.34)
∑ X2H ∑ Y2H
Comme il a été souligné dans le cadre d’un modèle de régression linéaire simple,
l’hypothèse de normalité des termes d'erreur joue un rôle essentiel car elle va
préciser la distribution statistique des estimateurs. En plus, c’est grâce à cette
hypothèse que l'inférence statistique peut se réaliser.
En supposant que les erreurs suivent une loi normale centrée et de variance σ2u
∑2 eH σ
ÆH
L’hypothèse de normalité des erreurs implique aussi que :
= (n − k) ~ χH (E:) .
σH σH
121
H^ : β- = β∗S
Le test d'hypothèse est le suivant :
H : β- ≠ β∗S
Comme Var8β̈< = σH (X′X), on a :
β̈- − β- β̈- − β-
Var8β̈- < = σH υ-- ; β̈- ~N(β- , σH υ-- ) et = ~N40, 16
σ √υ-- σHݧ
où υ-- , i = 1, 2, … , k est l’élément 4i, i6 de la matrice 4X′X6.
#
èUý
statistique t de β̈- :
afin d’obtenir la valeur de la
β̈- − β- β̈- − β-
Êݧ# = = 44. , , , , 6
σ
Æ √υ-- σ
Æݧ#
β̈- ± t V; 4E:6 . σ
Æ √υ-- ou bien β̈- ± t V; 4E:6 . σ
Æݧ#
U U
L’intervalle de confiance (…) peut également s’écrire sous la forme :
P Ìβ̈- − t æ;4E:6 . σ
Æ Gυ-- < β- < β̈- + t æ;4E:6 . σ
Æ Gυ-- Í = 10041 − α6%
H H
différent de β∗S .
- Si ?Êݧ# ? ≤ ÊW : on accepte l’hypothèse Ho au seuil statistique de
100α %. Le coefficient βi peut être considéré significativement égal
U
à β∗S .
H^ : β- =
Le test le plus utilisé est celui qui consiste à tester l’hypothèse nulle :
H : β- ≠
variable X - n’est pas significative, c’est-à-dire qu’elle ne loue aucun rôle dans la
Il s’agit donc d’un test de significativité de coefficient. Sous l’hypothèse nulle, la
β̈-
Sous l’hypothèse nulle, la statistique t s’écrit :
Êݧ# =
σ
Æݧ#
Y2 = β + βH X H2 + βt X t2 + u2
Soit le modèle linéaire multiple suivant :
Y = Xβ + U
Soit le modèle de régression multiple suivant :
H^ : r β + rH βH + ⋯ + r: β: = q
régression peut s’écrire sous la forme :
\ a
H : r β + rH βH + ⋯ + r: β: ≠ q
H^ : r′β = q
ou de manière succincte :
\ a
H : r′β ≠ q
(avec q une contrainte et r Ø = r rH . . . r: ).
Exemple
La statistique r′β̈ , sous hypothèse nulle, est donnée par l’expression suivante :
r′β̈ − q
t bcd =
σ
Æ Gr Ø (X Ø X) r
Y = Xβ + U
Soit le modèle de régression multiple suivant :
Rβ = q
paramètres du modèle de régression par l’expression générale ci-après :
124
Exemple
Y2 = β + βH X H2 + βt X t2 + β X 2 + u2 .
Supposons le modèle de régression suivant :
β
modèle peuvent s’écrire aussi comme :
0 0 1 1 βH 1
Ï Ð = Ï Ð-
³ààà´àààµ
0 1 0 0 βt K0
É Yβ
Z
Ý
H^ : Rβ = q
Le test sur plusieurs contraintes consiste donc à tester l’hypothèse :
\ a
H : Rβ ≠ q
modèle sans contraintes afin de calculer Rβ̈. Etant fonction linéaire de l’estimateur
Pour réaliser ce test, on estime avec la méthode des moindres carrés ordinaires le
E8Rβ̈< = R E(β̈) = Rβ = q
par :
résidus (SCR ) ;
restrictions au modèle initial, et calculer la somme des carrés des
transformé).
contraint. Si la contrainte est vraie, on aura : L < L\ , où L\ est la fonction
(connu comme test LR : likelihood ratio) des modèles contraint et non
ac
126
ln Q 2 = β − ln P2 + β ln P`2 + βz ln R 2 + u2
ln Q 2 + ln P2 = β + β ln P`2 + βz ln R 2 + u2
ou encore :
40,6788 − 0,42776⁄2
Fbcd = = 4,99
0,4277⁄422 − 56
Au seuil de 5 %, la valeur de la loi de Fisher F4H,v6 lue dans la table est égale à
3,59. On a donc Fbcd = 4,99 > 3,59 , ce qui signifie que l’on rejette au risque
5% l'hypothèse linéaire envisagée.
R = 0 ⋯ 0 1 0 ⋯ 0 et q = 0
correspond à :
La matrice R contient un seul 1 à la ième place et q est nul, ce qui revient bien à
tester la significativité du coefficient β- . Si l’on pose q = β∗- , on retrouve le
test de significativité de l’égalité de β- à une certaine valeur β∗- .
Il convient de faire remarquer que le test de Fisher d’une telle hypothèse
linéaire est sans intérêt car il est mathématiquement équivalent au test de
Student de significativité d’un coefficient.
Ce test est aussi un cas particulier du test d'hypothèses linéaires portant sur la
significativité de l’ensemble des coefficients des variables explicatives de la
régression. Il s’intéresse particulièrement à l’évaluation globale du modèle
dans le cadre d’une régression multiple, c'est-à-dire si l'ensemble des variables
127
explicatives a une influence sur la variable à expliquer Y. Un tel test est parfois
appelé test de significativité de la régression ou encore test de la relation
d’ensemble ou plus communément test de Fisher. Il correspond au cas suivant :
0 1 0 ⋯ 0 β 0
0 0 1 ⋯ 0 βH
= 0
⋮ ⋮ ⋮ ⋯ ⋮ ⋮ ⋮
0 0 0
³ààààà´àà⋯
àààµ
1 Y β :
K 0
É Ý Z
On teste donc :
H^ ∶ βH = βt = ⋯ = β: = 0
# a
H ∶ ∃ au moins un des coefeicients non nuls.
Ce test ne considère pas le terme constant β , car un modèle dans lequel seul
le terme constant est significatif n’a aucun sens économique.
Si l’hypothèse nulle est vraie, alors :
4y±2 − yO6H ⁄4k − 16
Fbcd =
∑ eH2 ⁄4n − k6
SCE⁄4k − 16
=
SCR⁄4n − k6
RH ⁄4k − 16
= .
41 − RH 6⁄4n − k6
Exemple
Solution
3) Interprétation
128
∂ ln Q ∆Q⁄Q
l'élasticité du Produit National Brut au facteur travail. En effet :
βH = = = ε"⁄h ;
∂ ln K ∆K⁄K
∂ ln Q ∆Q⁄Q
βt = = = ε"⁄ò ;
∂ ln L ∆L⁄L
βH et βt sont des rapports de dérivées logarithmiques.
du Produit National Brut sont expliqués par les logarithmes des quantités de
travail et de capital.
HO : β3 = 0
H1 : β3 ≠ 0
Le facteur travail a-t-il une influence significative sur le Produit National Brut ?
β̈t 1,41
La valeur du ratio de Student permet de répondre à cette question. En effet :
t bcdbdé = i i=j j = 15,84.
σ
ÆÝ0 0,089
Au seuil de 5 %, la lecture de la table de Student donne t (^,^Hz; t^) = 2,042.
Le ratio de Student est supérieur à t (^,^Hz; t^) , le coefficient β3 est
significativement différent de 0 ; le facteur travail a une influence significative
HO : βH = 0,40
H1 : βH ≠ 0,40
HO : βH = βt = 0
f) Test de significativité globale du modèle
RH ⁄(k − 1) 0,9937/2
Sous hypothèse nulle, la statistique Fisher empirique est égal à :
Fbcd = = = 2365,95 .
(1 − R )⁄(n − k) (1 − 0,9937)/30
H
Puisque Fbcd > F(H ; t^), nous rejetons l’hypothèse de nullité de tous les
coefficients, la régression est globalement significative.
Sur des séries temporelles, on compare les estimations effectuées sur deux
(ou plusieurs) sous ensembles d'observations qui correspondent à un
découpage en périodes de l'échantillon initial. On parle dans ce cas de test
de stabilité temporelle de la régression.
Y = J
X β + U
Considérons le modèle linéaire général suivant, pour t=1,2,…,n :
J J J (4.1)
(E×) (E×:) (:×) (E×)
Y
K = X βJ + U
modèles suivants :
K K (4.2)
4ER ×6 4ER ×:6 4:×6 4ER ×6
et
130
Y
KH = X
KH β
KH + U
KH (4.3)
(EU ×) (EU ×:) (:×) (EU ×)
β^ = βH^ = β^
β = βH = β a
H^ ∶
⋮
(4.4)
⋮
β: = βH: = β:
Remarques :
Exemple
ln M2 = β + βH ln PIB2 + u2
Soit la fonction d’importations ci-après :
où :
- M désigne les importations ;
- PIB est le Produit intérieur brut.
Solution
La valeur critique Fthéorique est F0,05 (2,30)=3,32. Donc : Fcal < Fthéorique , on
accepte l’hypothèse de stabilité. Cette la fonction d’importations estimée est
stable.
L'intérêt de ces tests réside dans le fait qu'il permet d'étudier la stabilité d'une
régression sans définir a priori la date de rupture sur les coefficients.
Contrairement au test de Chow, les tests proposés par Brown, Durbin et Evans
sont basés sur l’utilisation des résidus récursifs.
Y = Xβ+U
Soit le modèle de régression linéaire suivant :
eX lm − l±n lm − o Øm β̈X
l’expression :
où : β̈X = (XX
Ø
XX ) XX
Ø
YX , estimateur des moindres carrés ordinaires
lorsque la taille de l’échantillon est égale à (r − 1) ;
o′m = 1 XX XHX ⋯ X:X est le vecteur des variables explicatives plus la
Les résidus récursifs, notés wX , sont définis comme les erreurs de prévision
normalisées :
133
eX
wX =
G1 + o Øm (XX
Ø
XX ) o m
avec wX ~N(0, σH ).
A partir de ces résidus récursifs, Brown, Durbin et Evans (1975) ont proposé les
tests Cusum (Cumulated Sum of residuals) et Cusum carré (Cumulated Sum of
Squared residuals : Cusumsq) qui permettent de tester la stabilité des
H^ : β = βH = ⋯ = βE = β
soit :
H : β2 ≠ β ou σHV = σH
où les coefficients β2 , t = 1, 2, … , n sont les vecteurs des coefficients de
régression pour la période t et les σHÁ désignent les variances des erreurs de la
même période.
C. Test Cusum
Le test Cusum est basé sur la somme cumulée des résidus récursifs wX définie par :
w.
2
qº = ¯
σ
Ær
.FX
où : t = 1, 2, … , n ;
1 1
E E
w
D= ¯ w. et σ
ÆHr = ¯ 8w. − w
D< .
H
n−r−1 n−r−1
.FX .FX
Le test de Cusum Carré est similaire au précèdent. Il est utilisé pour détecter des
mouvements aléatoires c'est-à-dire des mouvements ne provenant pas
∑2.FX w.H
S2 = E
∑.FX w.H
(t = r + 1, … , n)
représentée graphiquement. Les deux bornes sont données par E(S2 ) ± c^, où
Comme dans le test Cusum, la région critique du test Cusum carré peut être
les valeurs de c^ sont données dans la table de Durbin pour diverses tailles
d’échantillon et divers seuils de signification. Si, quelque soit t = r + 1, … , n, S2
modèle sont supposés stables. Sinon, si S2 sort des bornes données par les deux
se situe dans le corridor défini par les deux bornes alors les paramètres du
Exemple d’illustration
12
-4
-8
-12
59 60 61 62 63 64 65 66 67 68 69 70
CUSUM 5% Significance
1.2
0.8
0.4
0.0
-0.4
59 60 61 62 63 64 65 66 67 68 69 70
4.14. Prévision
Pour un vecteur X donné des valeurs prises par les variables explicatives lors
de la période sur laquelle porte la prévision, la prévision ponctuelle pour la
période t+h est la suivante :
136
β̈
§
Y28 = 1 X,28 XH,28 ⋯ X:,28 β̈ = R®
⋮
β̈
où R est le vecteur des valeurs prévues des variables explicatives.
La vraie valeur de Y pendant de la période de prévision est donc :
Y28 = Rβ + u28,
avec u28 désignant la vraie valeur prise par le terme d’erreur pendant cette
période.
L’erreur de prévision e28 est donnée par l’écart entre la valeur observée et
§28
e28 Y28 − Y
la valeur prévue :
Notons que e28 est une variable aléatoire car la réalisation Y28 n’est pas
connue au moment de la prévision. Les moments de cette variable aléatoire
sont :
E(e28 6 0,
c) L’espérance mathématique de l’erreur de prévision est égale à :
Var4e28 6 = σHÇÁ:;
= −R8β̈ − β< + u28 −R8β̈ − β< + u28 ′
= σH R4X′X6 RØ + σH
= σH R4X′X6 RØ + 1.
L’erreur de prévision e28 est une variable aléatoire distribuée selon une loi
e28
par conséquent :
~N40, 16
GσH R4X′X6 RØ + 1
§28
Y28 − Y §28
Y28 − Y
= = ~t (E:) .
σ
ÆÇÁ:;
Tσ
ÆHÇÁ:;
On peut ainsi établir l’intervalle de confiance d’une prédiction de Yt+h, pour
§28 − σ §28 + σ
un ensemble d’observations donné :
P ÌY ÆÇÁ:; . t æ; (E:) ≤ Y28 ≤ Y ÆÇÁ:; . t æ; (E:) Í = 1 − α.
H H
§ ÆH R(X′X) RØ + 1
Y28 − t æ; (E:) G σ
ou encore :
H
§28 − t V (E:) σ
Y Æ GR(X′X) RØ + 1.
ou enfin :
;
U
§2 )
ME = ∑E2F(Y2 − Y
1. L’erreur moyenne (mean error)
E
MAE = ∑E2F| |
2. Erreur absolue moyenne (Mean Absolute Error)
E
3. Racine de l’écart-type moyen (Root Mean Square Error)
§2 <H
RMSE = T ∑E2F8Y2 − Y
E
4. Statistique U de Theil
∑E2FH8∆Y2 − ∆Y §2 <H
U=f
∑E2FH(∆Y2 )H
§2 = Y
où ∆Y2 = Y2 − Y2 et ∆Y §2 − Y
§2 .
Les trois premières mesures (ME, MAE et RMSE) sont utilisées lorsqu’on
compare le pouvoir de prévision de plusieurs modèles estimés. Le modèle
pour lequel les trois statistiques sont les plus faibles est considéré avoir une
meilleure capacité prédictive. Mais, notons que ces statistiques présentent
un problème évident de normalisation. En effet, la multiplication des valeurs
de la variable dépendante par n’importe quel facteur multiplie également la
mesure par ce scalaire.
Exemple illustratif
f
ln Q 2 = −3,2116 + 0,7931 ln K 2 + 0,5811 ln L2
1955-1970 a donné les résultats suivants :
R2 = 0,9987 ; R D H = 0,9984 ;
n = - 16 ;
σ
Æ = 0,012209 (écart-type estimé de l’erreur) ;
Fbcdbdé = 4808
(•) = écarts types estimés des estimateurs des coefficients de
régression.
16 200,57189 147,78782
Notons que :
§ 2 = M
M § yv = −3,211626 + (0,793127) ∗ (13,09124) + (0,581095) ∗ (9,498372)
- Pour l’année 1971 :
= 12,6908384
§ 2H = M
M § yvH = −3,211626 + (0,793127) ∗ (13,16265) + (0,581095) ∗ (9,527921)
- Pour l’année 1972 :
= 12,7646463
§ 2t = M
M § yvt = −3,211626 + (0,793127) ∗ (13,23842) + (0,581095) ∗ (9,675583)
- Pour l’année 1973 :
= 12,9105408
§ 2 = M
M § yv = −3,211626 + (0,793127) ∗ (13,32093) + (0,581095) ∗ (9,557753)
- Pour l’année 1974 :
= 12,9075196
§ 28 ± t V (E:) σ
M Æ GR(X′X) RØ + 1.
- Pour l’année 1971 :
;
§ yv ± t ^,^Hz ; ( t) σ
M Æ GR(X′X) RØ + 1
U
σ
Æ = 0,012209 ;
Ryv = 1 13,09 9,50
1037,7331 141,69943475 −304,650632 1
R(X Ø X) RØ = 1 13,09124 9,498372 á 141,699434 26,2374792 −51,9493389â á13,09124â
−304,650632 −51,9493389 102,128953 9,498372
=0,34011116,
139
§ Æ GR(X′X) RØ + 1
MyvH ± t ^,^Hz ; ( t) σ
- Pour l’année 1972 :
La qualité prédictive du modèle peut être évaluée à partir des éléments ci-
dessous fournis par le logiciel d’économétrie Eviews 5.1. Le graphique retrace
l’évolution des valeurs ponctuelles prévues pour l’horizon considéré ainsi
que les intervalles de prédiction associés. Cette évaluation graphique est
complétée par une série de mesures conçues pour apprécier les prévisions a
posteriori. Au vu des résultats ci-dessous, on constate que la valeur de la
statistique de Theil (U=0,003392) est largement inférieure à 1 indiquant un
pouvoir de prévision élevé du modèle estimé.
140
12.95
Forecast: QQF
Actual: QQ
12.90
Forecast sample: 1971 1974
Included observations: 4
12.85
Root Mean Squared Error 0.086678
12.80 Mean Absolute Error 0.081039
Mean Abs. Percent Error 0.635568
Theil Inequality Coefficient 0.003392
12.75 Bias Proportion 0.874123
Variance Proportion 0.046229
12.70 Covariance Proportion 0.079648
12.65
1971 1972 1973 1974
QQF
141
CHAPITRE 5
MODELES DE REGRESSION NON LINEAIRES
1.1. Introduction
Y2 = ~β^ + β
(5.2)
!Á
Y2 = β^ + β X2 + βH X2H + ⋯ + β: X:2
(5.3)
(5.4)
sont des modèles dont la spécification n’est pas linéaire mais qui sont
linéaires par rapport à leurs paramètres. Ces modèles sont aussi considérés
comme linéaires.
Y2 = β^ +
Enfin, les modèle du type :
!Á βU
Y2 = α e + αH e
(5.5)
βR !Á βU !HÁ
(5.6)
Examinons le cas des modèles dont la spécification n’est pas linéaire, mais
qui sont linéaires par rapport aux paramètres.
Y2 = β^ X βRÇ
ýÁ
(5.7)
En appliquant une transformation logarithmique sur les deux membres de la
ln Y2 = ln β^ + β ln X 2 + u2
relation (1), il vient :
(5.8)
142
Ce modèle est linéaire dans les paramètres ^ et , dans les logarithmes des
variables X et Y, et peut être estimé par une régression des moindres carrés
ordinaires.
A cause de cette linéarité, de tels modèles sont appelés des modèles log –
log, double – log ou log – linéaire.
La relation (2) peut s’écrire simplement comme ci – dessous :
X2∗ = ln X2
β∗^ = ln β^
®^ et ® obtenus sont les meilleurs estimateurs linéaires sans biais (BLUE) de
Il convient de souligner ici que les estimateurs des moindres carrés ordinaires
^ et .
dY
d ln Y
= Y = = β (5.10)
dX d ln X
ε$/!
X
β^ + β X2 + u2 est égal à :
X2
ε$/! = β (5.11)
Y2
Dépendante des variables X et Y.
Signalons en outre que le modèle log – linéaire suppose que le coefficient
d’élasticité entre Y et X demeure constant ; d’où l’application alternative de
modèle à élasticité constante.
L’expression analytique généralisée du modèle log – linéaire est donnée par :
δ ln Y2
ε$/!/ = = β. (5.14)
δ ln X.2
(j = 1, 2, … , k)
Les modèles semi – logarithmiques :les modèles log –ln et lin – log
Y2 = Y^ (1 + r)2 (5.15)
Notons que la relation (5.15) n’est autre que la formule des intérêts
composés (où r est le taux de croissance de Y) ;
En utilisant le logarithme naturel de (5.15), on obtient :
ln Y2 = ln Y^ + t ln(1 + r) (5.16)
ln Y2 = β^ + β t
où β^ = ln Y^ ;
(5.17)
β = ln(1 + r),
ou simplement
Y2∗ = β^ + β t (5.18)
Y2∗ = β^ + β t + u2 (5.19)
des modèles semi – log parce qu’une seule variable (la variable dépendante)
apparaît sous forme logarithmique. Un modèle dans lequel la variable
dépendante est logarithmique est connu comme modèle log – lin.
Y2∗ = β^ + β t + u2 (5.20)
Un modèle est appelé modèle de trend linéaire et la variable temps 4Ê6 est
144
Exemple
a) ln DS
2 = 7.7890 + 0.00743 t
,² = 0.9894
(3387.62) (44.28)
b) ln DS
2 = 2405 + 19.6920 t
R² = 0.9843
(322.99) (36.25)
Y2 = β^ + β ln X 2 + u2 (5.21)
Variation de Y
β =
Variation de ln X
Variation de Y
= 45.226
Variation relative de X
∆X
∆Y = β Ó Ô 45.236
X
Exemple
DépAlım
f 2 = −11283.91 + 257.27 ln DépTot2
modèle lin – log sont les suivants :
,² = 0.3769
(4.38) (5.66)
= 0H = 0H
0 = 0
0 0
(0t (0t
> 0) > 0)
fig : Hyperboles rectangulaires
Y2 = α + (5.25)
αt
X2 − αH
Y2 = α + + u2 (5.26)
αt
X2 − αH
Le modèle (5.26) est non linéaire dans les paramètres (αH , αt ). Dans ce cas, il
n’existe pas de transformation qui permette de linéariser le modèle, et donc
d’utiliser les méthodes des moindres carrés ordinaires pour estimer les
paramètres du modèle. Cependant, il y a deux cas particuliers où le modèle
(5.26) peut être linéarisé.
0 =0
=0 0
1
({: = 0 + Ó Ô
({:
1 4 < 06
= 0+Ó Ô 40 > 06
4 > 06
40 < 06
Bien que le modèle (5.27) ne soit pas linéaire par rapport à la variable X car
1
Ó Ô = α + βX 2 45.286
Y2
Avec α = et β = α
αU
α0 0
0b 0 − 0b
0
1
1 ({ ∶ K'è|¬
({ ∶ K'è|¬
= 0 +
= 0 + 4 < 06
4 > 06
Pour linéariser les deux modèles non linéaires en variable (5.27) et (5.28), il
suffit seulement de poser :
X2∗ = Y2∗ =
!Á Á
et
Y2 = α + βX2∗ + u2
D’où :
(5.29)
Y2∗ = α + βX2 + u2
et
(5.30)
1
ln Y2 = β^ − β Ó Ô
X2
+ u2 (5.31)
Sa représentation graphique est donc celle – ci :
où ∶ Y2∗ = ln Y2 ;
1
X 2∗ = ln ;
X2
β∗ = −β
Le modèle polynomial
Y2 = β^ + β X2 + βH X 2H + ⋯ + β: X 2: (5.33)
fig : modèle = ^ + + H H + t t
Y2 = β^ + β t + βH t² + βt t t + u2
où t représente le temps
(5.35)
CT2 = β^ + β Q 2 + βH QH2 + u2
où ∶ CT2 = coût total à la période t ;
(5.36)
Applications
A. Le modèle de GOMPERTZ
Y2 = e}X c
Á
(5.37)
ln Y2 = br 2 + a (5.38)
Vente
s Seuil de satisfaction
0 Temp
s
ln Y2 = a + br 2
Linéarisation du modèle avec seuil de saturation estimé :
150
ln Y2 − a = br 2
ln(ln Y2 − a) = ln b + t ln br
Y2∗ = a^ + a t
où ∶ Y2∗ = ln(ln Y2 − a)
(5.39)
a^ = ln b
a = ln r
B. Le modèle logistique
Y2 =
(0 < " <
~
}XÁ
1) (5.40)
0 Temp
s
Y[c%
= 1 + br 2 45.416
Y2
Y[c%
Ó Ô − 1 = br 2
Y2
Y[c%
ln Ì − 1Í = ln b + t ln r
Y2
Y2 = a ^ + a t
∗
(5.42)
Y[c%
où :
Y2∗ = ln Ì − 1Í
Y2
a^ = ln b
a = ln r
Y2 = α + βT + u2 (5.43)
où T indique le temps
Dans chaque cas, il faut définir l’origine des temps et l’unité de mesure
utilisée. Dans les trois cas, l’unité de temps est l’année. Le troisième cas est
intéressant pour les calculs à petite échelle puisque dans ce cas, la moyenne
de T est nulle, de sorte que les coefficients des moindres carrés relatifs au
modèle (5.43) se simplifient pour devenir :
Æ=D
Y et β̈ =
∑ Å
∑ Ų
α (5.44)
Beaucoup des logiciels fournissent une tendance (trend), à utiliser dans les
régressions, correspondant à la deuxième spécification pour T ci – dessus.
croissantes ( > 0), ceci implique un taux de croissance qui diminue, alors
diminue) d’un montant constant à chaque période. Ainsi, pour des séries
= ^ 41 + {) (5.46)
ln = ln ^ Ê ln(1 + {) (5.47)
152
ln = 0 + Ê
ou encore :
avec 0 = ln ^ et (1 + {)
(5.48)
croissance, car :
β̈ = ln(1 + g± ) (5.49)
ou bien :
g± = eβ̈ − 1
Le coefficient de la relation (5.49) représente le taux de croissance continu
(5.50)
Une suite qui croît continûment à un taux de croissance est telle que :
Y2 = Y^ eβ2 (5.51)
ln Y2 = α + βt
ou encore :
avec α = ln Y^
(5.52)
∆ ln Y2 = β = ln(1 + g) ≈ g (5.53)
Pour estimer les paramètres inconnus du modèle linéaire par la méthode des
moindres carrés ordinaires, les hypothèses classiques suivantes ont été
énumérées :
σ µ2 0 0 ... 0
0 σµ2
... 0
0 σ µ2 ... 0
Ω = EUU Ø =
0
. . . .
. . . .
. . . .
0 0 0 ... σ µ2
Les erreurs ne sont plus indépendantes (variation du Hz ), lorsque
l’hypothèse Hz n’est plus vérifiée, on dit qu’il y a présence d’autocorréation
- Phénomènes d’inertie ;
- Omission des variables explicatives importantes ;
- Lissage, interpolation ou extrapolation des données ;
- Mauvaise spécification (de la forme) du modèle : forme fonctionnelle
incorrecte.
Y = Xβ + U
Soit le modèle linéaire général :
En effet : β̈ = β + (X Ø X) X Ø U
E8β̈< = β
et
6.1
Conséquences
Y = Xβ + U
Soit le modèle linéaire général ci-après :
6.3
Y2 = β X2 + βH XH2 + ⋯ + β: X :2 + u2
ou encore :
6.4
u2 = ρu2 + v2
avec :
6.5
155
E(v2 ) = 0
E(v2H ) = σH
a
E(v v ) = 0 , ∀ s ≠ 0
6.6
2 2
|ρ| < 1 ∶ Kù'(Ê(Kù '¬ )ÊB(|(Êé
En procèdant par substitution successive de (6.5), on obtient :
1. E4μ2 6 = ∑
F^4ρ v2 6
= ¯ ρ E4v2 6 = 0, ∀ t 6.9
car E(v2 ) = 0.
F^
Var(u2 ) = E(uH2 )
= E(v2 + ρv2 + ρH v2H + ⋯ )H
= Ev2H + ρH v2
H
+ ρ v2
H
+ ⋯
= Ev2H + ρH Ev2
H H
+ ρ Ev2 +⋯
= σ
+ ρ + ρ + ⋯ )
H (1 H
= = σH
èU
U
6.10
Si s = 1, on obtient :
Eu2 u2
ρ=
GEuH2 EuH2
Notons également que plus grand sera le décalage entre les erreurs, et plus
petit sera leur coefficient de corrélation.
De ce qui précède, la matrice des variances - covariances de l’erreur est :
µ12 µ1 µ 2 µ1 µ 3 ... µ1 µ n
µ 2 µ1 µ 22 µ 2 µ 3 ... µ 2 µ n
µ 3 µ1 µ3µ 2 µ 32 ... µ 3 µ n
Ø
donc : Ω = EUU = E . . . .
. . . .
. . . .
µ n µ1 µn µ2 µ n µ 3 ... µ n2
157
1 ρ ρ2 ... ρ n -1
ρ 1 ρ ... ρ n -2
ρ2 ρ ... ρ n -3
=
èU
1
. .
U
. . 6.13
. . . .
. . . .
n -1
ρ ρ n -2 ρ n -3 ... 1
La matrice des variances et covariances peut s’écrire aussi comme :
Ω = σH Ψ 6.14
où
1 ρ ... ρ n -1
ρ 1 ... ρ n -2
ρ2 ρ ... ρ n -3
Ψ=
.
U
. . .
. . . .
. . . .
n -1
ρ ρ n -2 ... 1
6.4. ESTIMATEURS DES MOINDRES CARRES GENERALISES
Y = Xβ + U
avec E(U) = 0
6.15
E(UU’) = σH Ψ
Y∗ = X∗ + U∗
Cette relation peut s’écrire simplement comme :
où : Y ∗ = PY ;
6.17
X ∗ = PX ;
U ∗ = PU.
Sur le terme aléatoire PU, on fait les hypothèses suivantes :
158
= PE(UU’)P’
= σH PφP’
= PΩ P’ = σH I 6.19
PΨP’ = I
La relation (5.19) suppose donc que :
(5.20)
Supposons que : Ψ = T T’
En effet, il est possible de trouver une matrice P qui vérifie la relation (5.20).
(5.21)
T Ψ (T’) = I
Si T est une matrice non singulière, on a :
(5.22)
P = T
De la relation (5.20) et (5.22), on peut déduire que :
(5.23)
T Ψ (T’) = T Ψ (T − 1)’
Il en résulte immédiatement que :
= P Ψ P’ = I
et Ψ = (T’) T
(5.24)
Min S = Min 4Y ∗ − X ∗ β6 4Y ∗ − X ∗ β6
consiste à minimiser la somme des carrés des résidus :
δS
on trouve :
= −2X’P’PY + 2X’P’PXβ̈ = 0
δβ
= −X’P’PY + X’P’PXβ̈ = 0
= X’Ψ Y + X’Ψ Xβ̈ = 0 (5.27)
β̈ = 4X ∗ ’ X ∗ 6 X ∗ ’Y ∗
De la relation (13), on déduit :
= 4PX6′PX 4PX6’ PY
= 4X’P’PX6 X’P’PY
= 4X’Ψ X6 − 1 X’Ψ Y (5.28)
1° Principes généraux
Y = Xβ + U (5.32)
u2 = ρu2 + v2
avec
|ρ| < 1
E(v2 ) = 0
a
E(v H ) = σH
2
E(v2 v2 ) = 0 , ∀s ≠ 0
Sous ses conditions, on sait que :
1 ρ ρ2 ... ρ n -1
ρ 1 ρ ... ρ n - 2
Ω =
èU
ρ2 ρ 1 ... ρ n -3
U
. . . . = σ v2Ψ (5.33)
. . . .
. . . .
n -1
ρ ρ n - 2 ρ n -3 ... 1
1 0
−ρ 0 ... 0
− ρ 1 + ρ ² − ρ ...
0
0 0
− ρ 1 + ρ ² ...
=
0 0
où Ψ
. .
. . . . .
. . .
. .
0 −ρ
. . .
0 0 ... 1 + ρ ²
0 0 0 ... − ρ 1
β∗ = (X’ P’ P X) X’ P’ P Y
= (PX)’ (PX) (PX)’ (PY)
= (X ∗ ’X ∗ ) X ∗ ′Y ∗ (5.36)
1− ρ² 0
0 0 ... 0
−ρ 0
0
1 0 ... 0
0 −ρ 1 ... 0
P=
.
.
. . . .
(5.37)
. . . .
.
0
. . . .
0 0 0 ... 1
0 0 0 ... −ρ 1
Ainsi, on peut substituer à la méthode des moindres carrés généralisés, la
1 − ρ ² y1
y 2 − ρ y1
y 3 − ρ y 2
Y = PY =
∗
. (5.38)
.
.
et yn − ρ y n −1
161
1− ρ² 1 − ρ ² x 21 1 − ρ ² x k1
...
1− ρ x 22 − ρx 21 x k 2 − ρx k1
x k 3 − ρx k 2
...
1− ρ x 23 − ρx 22
X =
...
∗
. . . (5.39)
. . .
. . .
1− ρ x 2 n − ρx 2,n −1 ... x kn − ρx k ,n −1
Ces transformations sont appelées indistinctement différences partielles,
quasi différences ou pseudo différences.
U2 = ρ u2 + v2
avec
|ρ| < 1
E (v2 ) = 0
E (v2H ) = σH
E (v2 v2 ) = 0 , ∀s ≠ 0
Y2∗ = β^ + β X2
∗
+ βH XH2
∗
+ v2 (5.43)
b^ = β^ (1 − ρ) ⇒ β^ =
b0
(5.44)
1− ρ
3° Procédures d’estimation de
ρ± ≃ ρ =
et
∑ ÇÁ ÇÁR
T∑ ÇU U
Á T∑ ÇÁR
(5.47)
Y2 − ρ±Y2 = b^ + β 8X2 − ρ±X,2 < + βH 8XH2 − ρ±XH,2 < + … + β: 8X:2 − ρ±X:,2 < + v2
différences :
(5.48)
§
β̈ , β̈H , β̈t , … , β̈: et le terme constant β̈^ = (
Les paramètres estimés par OLS sont donc :
}
Æ)
.
Etape 1 : initialisation de ρ
valeur à ρ, soit :
Par une technique d’estimation directe par régression, on fixe une première
ρ± = ρ±^
(on peut aussi donner une valeur apriori de ρ, soit ρ±^ = 0
Y2 − ρ±^ Y2 = b^ + β 8X2 − ρ±^ X,2 < + βH 8XH2 − ρ±^ XH,2 < + … + β: 8X:2 − ρ±^ X:,2 < + v2
Etape 2 : régression sur les quasi – différences
(5.49)
§
Les paramètres estimés sont alors :
β̈ , β̈H , β̈t , … , β̈: et le terme constant β̈^ =
}
8§<
Æ
.
Etape 3 : Réestimation de ρ
∑2 e2 e2
et
ρ± =
∑2(e2 )H
Y2 − ρ± Y2 = b^ + β 8X2 − ρ± X,2 < + … + β: 8X:2 − ρ± X:,2 < + v2
163
après deux itérations successives ne différent plus que d’un nombre donné
aussi petit que l’on veut.
Etape 2 : retenir la valeur de ρ qui minimise la somme des carrés des résidus
(∑ e2 6 et déduire les valeurs des estimateurs β̈ correspondantes.
Remarques
u2 = ρu2 + v2 .
effectivement autorégressive d’ordre 1, c'est-à-dire :
4. Tester l’autocorrélation des résidus n’a aucun sens sur les données
en coupes transversales. Car, il n’y a pas d’ordonancement naturel
des observations.
qu’à partir de l’analyse des résidus e2 car les erreurs u2 sont inconnues et
la détection d’une éventuelle dépendance des erreurs ne peut s’effectuer
restant inconnues.
164
¬ ¬
Ê
0 ¬ 0
¬
0 Ê
¬
0 ¬
u2 = ρu2 + v2
erreurs d’ordre 1 de la forme :
où v2 ~N(0, σH
)
(5.50)
H0 : ρ = 0 (il y a indépendance)
Le test d’hypothèse est le suivant :
DW =
Watson :
∑V
ÁQU(ÇÁ ÇÁR )
U
∑V U
ÁQR ÇÁ
où les e2 sont les résidus des moindres carrés ordinaires (résidus de
(5.51)
n n
∑ et2 +∑ et2−1 − 2∑ et et −1
d =
t =2 t =2 t =2
n
∑ et2
t =1
n n
2∑ et2 − 2∑ et et −1 − e12 en2
t =1 t =2
= n
∑ et2
= 2 − 2γ ρ± − γH
t =1
166
où
n
∑ et2−1
γ =
t =2
n
∑ et2
t =11
γH =
e12 + en2
n
∑ et2
t =1
n
∑ et et −1
ρ± =
t =2
n
∑ et −1
t =2
d ≈ 2 – 2 ρ± = 241 − ρ±6 et ρ± ≈ 1 −
d
2
On peut donc approximer la valeur de ρ± à partir de la statistique d de Durbin
H0 : ρ = 0 (absence d’autocorrélation)
Afin de tester l’hypothèse H0 d’indépendance des erreurs :
H1 : ρ ≠ 0 (présence d’autocorrélation).
contre
0 0
Doute
Doute
Doute
Si 4 – d ≤ d ≤ 4 – dò , il y a doute.
erreurs. Il y a absence d’autocorrélation.
Remarques
Watson suppose que la matrice X soit non aléatoire. Dans le cas d’un modèle
Comme nous l’avons fait remarquer, la procédure du test de Durbin et
Y2 = b Y2 + β ^ + β X2 + βH X H2 + β: X :2 + u2
<
(a)
u2 = ρu2 + v2
avec
n n
h = ρ±f H = (1 − )f
1 − nσ
Æ}§ 1 − nσ
ÆH}§
d
R 2 R
σ
ÆH}§ , la variance estimée du coefficient Y2 dans la régression par la
R
méthode des moindres carrés ordinaires ;
R
cas, Durbin suggère une procédure asymptotiquement équivalente :
Ce test, fondé soit sur un test de Fisher de nullité des coefficients, soit sur
test de multiplicateur de Lagrange (LM test), permet de tester une
autocorrélation d’un ordre supérieur à 1 et reste valide en présence de la
variable dépendante décalée en tant que variable explicative. L’idée générale
de ce test réside dans la recherche d’une relation signification entre le résidu
et ce même résidu décalé.
Y2 = β X2 + βH X H2 + ⋯ + β: X :2 + u2
où les erreurs sont autocorrélée d’ordre p donc :
H^ : ρ = ρH = ⋯ = ρ; = 0.
ρ- (où i = 1,2, … … , p) ;
- Soit effectuer un test de Fisher classique de nullité des coefficient
h
Q= n∑ ρ k2
k =1
où
n = Nombre d’observations ;
h = nombre de retards (lags) ;
et ρ±: =
∑V
ÁQu:R ÇÁ ÇÁu
∑V U
ÁQR ÇÁ
.
QØ = n(n + 2) ¯
n−k
:F
qui est aussi distribuée selon un χH à h degrés de liberté et dont les règles de
décisions sont identiques au test de Box-Pierce.
Y = Xβ + U
On se propose de déterminer T^ observations futures de la variable
(1)
Y^ = X ^ β + U^ (2)
E(U^ U^ ′) = σH
Ψ^
où Ψ^ , matrice carrée de dimension (T^ x T^ ), est définie de la même façon
(3)
que Ψ.
uE
uEH
.
E(U^ U) = E . u uH ut … uE
.
uEÅ
uE u uE uH … … uE uE
uEH u uEH u … … uEH uE
. . .
= E . . .
. . .
uEÅ u uEÅ u … … uEÅ u
171
ρE ρE …… ρ
E
ρ ρE … … ρH
ρEH ρE … … ρt
= U .
èU
. .
. . .
. . .
ρEÅ ρEÅH … … ρÅ
Enfin, comme le vecteur de perturbation U est inconnu, on peut le remplacer
par le vecteur des résidus obtenu par la méthode des moindres carrés
e Y − Xβ∗
généralisés :
ρ
ρH
t
ρ
e^ . (YE − XEØ β∗ )
.
.
ρÅ
= W(YE − X EØ β∗ ) (6)
ρ
ρH
.
avec W =
.
.
ρÅ
et X EØ = (1 X HE XtE … X :E ).
où E(vE ) = 0
= ρH uE + ρvE + ρvEH
Et la prévision de uEH est donc :
(9)
eEH ρH uE (10)
172
e^ W4YE − X EØ β∗ )
§^ = X ^ β∗ + W(YE − X EØ β∗ )
Y (11)
§E8 = X E8
Y Ø
β∗ + ρ8 (YE − X EØ β∗ )
donc :
(12)
Exemple :
Soit le modèle :
Y2 = β + βH X H2 + βt X t2 + u2
n = 20 (nombre d’observations)
1. Application de la méthode des moindres carrés ordinaires a donné
les résultats suivants :
20.00 1065.23 35.3460
416.74 420.03
β̈ = (X′X) X′Y = 416.74 8925.56 22353 .79 = 0.1060
3190.06
8946.93
420.03 8925.56 22665 .64 0.7450
DW = 0.733
0 0.733 1.1 1.5 2 2.5 2.9 4
n = 20 positive
*
k=3
Autocorrélation
2. Estimation de ρ
173
DW
D’où :
ρ± = 1 −
2
= 1 − H (0.7330) = 0.63346
β∗ = (X′P′PX) X′P′PY
= (X ∗Ø X ∗ ) X ∗Ø Y ∗
3.1510 66.2760 168 .1080 25.8200
1455.4390 1429.5970 3588 .2590 = 0.3950
66.0340
= −
− − 1730.5950 3859 .6380 0.9150
§ Ý∗ = σ
Ω ÆH
(X′P′PX)
64.4250 − 2.6490 − 0.2790
= − 0.0170
− 0.1440
− − 0.0310
(Y ∗ − X ∗ β∗ )′(Y ∗ − X ∗ β∗ )
où
σ
ÆH
= = 3.6170
n−k
4. Prévision de YE étant donné X E Ø
= 1 20 20
§E = X E β + ρ±(YE − X E β )
Y Ø ∗ Ø ∗
25.8200 25.8200
= 1 20 20 á 0.3950 â + 0.63346 61.75 − 1 28.73 25.66 á 0.3950 â
0.9150 0.9150
= 52.02 + 0.83 = 52.85
Y = Xβ + U (7.1)
i = 1, 2, . . , n
Généralement, on considère que :
E
tr(ψ) = ¯ w- = n (7.5)
-F
pour tout (.
175
Remarque :
Ce problème se rencontre plus fréquemment pour les modèles en coupe
transversale (ou instantanée) contrairement au problème de
l’autocorrélation qui est plutôt spécifique aux modèles en séries temporelles.
Soit ∶ Y = Xβ + U (7.8)
Ω = V = σH Ψ ≠ σH I (7.9)
Ψ = PDP′
où P est une matrice orthogonale 4P Ø = P 6 ;
(7.10)
Donc :
Ψ = PD/H D/H P′
R Ø
= gPDU h gPDU h
R
HH′ (7.11)
λY = λXβ + λU
avec ∶ V4λU) = σ²I
(7.12)
H Y = H Xβ + H U (7.14)
= X′(H )Ø (H )X X′(H )Ø (H )Y
= (X′ΨX) X′Ψ Y
(7.15)
Ωݧ = σ²(X′ΨX)
avec
(7.16)
Markov :
Remarques :
Y- = β^ + β X- + u-
où ∶ i = 1, 2, … , n
(7.18)
= + β +
# Ý !# #
E# E# E# E#
σH
(7.19)
si E(uH- ) =
n-
= + β + #
# Ý
!# !# !#
si E(uH- ) = σH X-H
(7.20)
= + +
# Ý ÝR /
G(!# ) G(!# ) G(!# ) G(!# )
si E8uH- < = σH f4X - )
(7.21)
Exemple
C2 = aR 2 + b + u2
où t = 1, 2, … , n
(7.22)
C2 1 u2
modèle (7.22). D’où :
Y2 = , X2 = et ε2 =
R2 R2 R2
Y2 = a + bX 2 + ε2 (7.23)
u2
avec :
Var4u2 6 = Var Ó Ô
R2
1 σ²RH2
= H var4u2 6 = H = σ² 47.246
R2 R2
On peut donc estimer le modèle (7.23) par la méthode des moindres carrés
ordinaires :
D − b̈X
a± = Y D (7.25)
b̈ =
4! ,6
et
(7.26)
cX4!6
178
1. Test de Park
Comme σH- n’est généralement pas connue, Park suggéra d’utiliser les carrés
des résidus, eH- , comme substitut et posa la régression suivante :
Une autre forme peut révéler des relations significatives. On peut utiliser eH-
La forme fonctionnelle particulière choisie par Park n’est qu’une suggestion.
est la cause.
valeurs de X -.
ordinaires sur les deux sous – échantillons pour obtenir respectivement SCR
Etape 3 : Appliquer séparément la méthode des moindres carrés
de X -) et SCR H (somme des carrés des résidus de la régression sur les plus
(la somme des carrés des résidus de la régression sur les plus petites valeurs
H^ ∶ σH- = σ² , ∀i
\ a
H ∶ σH- ≠ σ² , pour au moins un i.
<
SCR H /ddlH
La statistique 4le ratio6 F = 47.306
SCR /ddl
La relation (6.30) suit une loi de Fisher à ddl et ddlH degrés de liberté.
3. Test de Glejser
- ?e. ? = β^ + β X. + v.
régression porte sur différentes formes de la relation, notamment :
A. Présentation du test
Ce test ne nécessite pas que l’on spécifie les variables dont on pense
qu’elles sont à l’origine de l’homoscédasticité. Il est fondé sur l’existence
d’une relation entre carré des résidus de la régression d’origine et les
variables explicatives en niveau, leurs valeurs au carré et en termes croisés :
H^ ∶ β = α = βH = αH = ⋯ = 0 (7.36)
LM = nR²~χH(;)
où p = 2k est le nombre des variables dans la régression auxiliaire (7.35) ;
(7.37)
Remarque
5. Test de ARCH
H^ = α = αH = ⋯ = α; = 0 (7.39)
S’il n’y a pas d’autocorrélation dans la variance d’erreur, on a :
Y- = β + βH XH- + ⋯ + β: X:- + u-
Soit le modèle linéaire à k variables :
f4. ), une fonction non spécifiée supposée continue et au moins deux fois
différentiables.
H^ ∶ α H = α t = ⋯ = α ; = 0 (7.45)
de sorte que la variance des erreurs σH- = α est une constante au cours du
∑E-F eH-
σH =
eH-
n HU
et v- =
ν- = α + αH ZH- + ⋯ + α; Z;-
ordinaires et calculer la somme des carrés expliquée (SCE) :
(7.46)
ÃÄ
- Sous l’hypothèse nulle d’homoscédasticité H^ , la statistique Q =
H
suit asymptotiquement une loi de χ² à (p − 1) degrés de liberté. Donc :
ÃÄ
~χH(;) (7.47)
H
ÃÄ
On rejette l’homoscédasticité si H dépasse la valeur donnée par la table de
χ².
Soulignons qu’une procédure plus simple mais asymptotiquement équivalent
est de faire la régression de eH2 sur Z2 . Alors le LM = nR² de cette régression
suit asymptotiquement une loi de χH(;) sous l’hypothèse de base.
Remarque :
H^ ∶ σ
ÆH = σ ÆH[
ÆHH = ⋯ = σ (7.48)
∑~ ÆU
#QR(E# )è ∑~ ÆU
#QR
# è
ÆHÅ =
σ ∑~
#
= #
(7.50)
#QR(E# )
Avec v- = n- − 1 ; v = ∑[
-F v- = ∑-F(n- − 1)
[
ÆHÅ − ∑[
Q’ = v ln σ ÆH- ~ χH([)
-F v- ln σ (7.51)
Q= ~χ([)
"Ø H
avec C = 1 +
(7.52)
Ï∑[ − Ð.
t([) -F
#
8. Test de KOENKER-BASSET
de KB est basé sur le carré des résidus, eH- ; mais , au lieu d’être régressé sur
Comme la plupart des tests que nous avons évoqués ci-haut, le test
une variable explicative (ou plusieurs), le carré des résidus est régressé sur le
carré des valeurs estimées de la variable dépendante.
Y- = β + βH XH- + ⋯ + β: X:- + u-
Soit le modèle d’origine est :
(7.53)
§- < + ν-
eH- α αH 8Y
H
- Procéder à l’estimation de :
(7.54)
Présentation du problème
Sources de multicolinéarité
Détection de la multicolinéarité
Test de Klein
détermination entre les variables explicatives considérées deux à deux 8RH-. <.
Il y a présomption de multicolinéarité lorsque la plupart des RH-. sont
supérieurs à RH . La faiblesse de cette méthode vient du fait que la colinéarité
peut impliquer plus de deux variables explicatives.
Test de Theil
Remèdes à la multicolinéarité
Remarque :
d’offre.
= 0^ + 0 Π + 0H Π + 0 ( + H ) + 9 (4)
1920-1041 :
= ^ + Π + H Π + t + 9H (5)
= N^ + N y + NH y + Nt Ê + 9t (6)
=
+ + ¤
a
(7)
Π = + ¥ − ¥H − - (8)
I = + (9)
Où
Π : les profits ;
C : désigne la consommation ;
Pour tout ( = 1,2, … , ¤ et pour tout Ê = 1,2, … , ù ; où les Y sont les variables
(10)
β Y2 + βH YH2 + ⋯ + β¦ Y¦2 + γ- X2 + γH XH2 + ⋯ + γh Xh = u2
De façon détaillée, la relation (10) peut s’écrire comme ci-après :
βH Y2 + βHH YH2 + ⋯ + βH¦ Y¦2 + γH XH2 + γHH XH2 + ⋯ + γHh Xh2 = uH2 a
(11)
β¦ Y2 + β¦H YH2 + ⋯ + ⦦ Y¦2 + γ¦ X2 + γ¦H XH2 + ⋯ + γ¦h Xh2 = u¦2
Où t = 1,2, … , n
Dans chaque équation du système (11), une des variables endogènes a son
coefficient associé égal à 1. Il s’agit de la variable dépendante. On parle donc
de normalisation. En outre, les équations dans lesquelles tous les coefficients
sont égaux à 1 et qui ne comporte pas de termes d’erreur sont les identités.
Enfin, notons que l’une des variables peut prendre la valeur 1 afin de tenir
compte du terme constant dans chacune des équations. Par conséquent, la
relation (10) devient :
191
J
B J
Y + J Γ J X = U J
Sous sa forme matricielle, le système d’équation (11) s’écrit :
(13)
(¦×¦) (¦×-) (¦×:) (:×-) (¦×-)
Avec :
β 11 β 12 β 1G
... y1t
β 21 β 22 ... β 2G
.
y 2t
B=
. . . .
.
;
. . . .
.
. . . .
G1
β β G2 ... β GG y Gt
. . .
. . .
. . .
γ G1 γ G 2 ... γ GG x Kt u Gt
Y = −B ΓX + B U
matrice Y en fonction de la matrice X :
(14)
Où A= −B Γ et E + B U
Y=AX+E (15)
Sous cette forme, on peut, sous certaines conditions à préciser plus loin,
estimer la matrice A. mais il faudra, pour obtenir des estimateurs ayant une
signification économique, revenir aux matrices B et C. donc, le problème qui
se pose est de déterminer les paramètres de la forme structurelle à partir des
estimations obtenues sur la forme réduite. C’est le problème de
l’identification.
192
Lorsque ces conditions sont réalisées, on peut alors estimer chaque équation
du modèle de la forme réduite par les MCO. Les estimateurs obtenus par les
MCO sont sans biais et à variance minimale.
On obtient ainsi une matrice ©® dont tous les éléments sont des estimations
sans biais des paramètres de la forme réduite et qui converge en probabilité
vers les vraies valeurs de ces paramètres.
Q 2 = α^ + α P2 + αH I2 + αt R 2 + u2
Soit le modèle à équations simultanées suivant :
Fonction de demande :
uH2 devraient être non corrélés. D’autre part, s’il y a simultanéité, Pt et uH2
simultanéité (c’est-à-dire si P et Q sont mutuellement indépendants), Pt et
seront corrélés.
P2 = Π^ + Π I2 + ΠH R 2 + v2 (3)
d’équations structurelles :
\ a
Q 2 = Πt + Π I2 + Πz R 2 + w2 (4)
Où v2 et w2 sont les termes d’erreur de forme réduite.
Ensuite, il faut régresser l’équation (3) par les MCO pour obtenir P§2 et vÆ2 , car
193
P2 = P§2 + vÆ2 ;
Enfin, faire un test t sur le coefficient de vÆ2 . S’il est significatif, ne pas rejeter
l’hypothèse de simultanéité ; dans le cas inverse, le rejeter.
\ a
SUB2 = δ^ + δ DEP2 + δH PS2 + uH2 (2)
Où
DEP : dépenses publiques ;
SUB : niveau des subventions ;
IMP : impôts ;
POP : population ;
PS : population des enfants scolarisés dans le primaire et le secondaire ;
Dans ce modèle, les variables IMP, POP et PS sont considérées comme
exogènes.
Le test d’Hausman implique donc les étapes suivantes :
Etape 1 : Régresser SUB sur IMP, POP et PS (c'est-à-dire la régression de
Æ
forme réduite) ; et calculer le résidu estimé de cette régression
Etape 2 : Régresser ensuite l’équateur structurelle DEP2 sur SUB2 , IMP2 , POP2
Æ .
et
variables endogènes : Y , YH et YH
Exemple 3 : soit un modèle d’équations simultanées ayant 3 équations et 3
§H2 + αH Y
Y2 = α^ + α Y §t2 + αt X2 + γ w
Æ H2 + γH w
Æ t2 + u2 (2)
I.2.1. Notion
BY2 + ΓX 2 = U2 (1)
est multipliée par une matrice F non singulière :
Y2 = B FΓX2 + B F FU2
= −B ΓX2 + B U2 (3)
Le fait ne pas introduire une variable dans une des équations du système est
considéré comme une relation d’exclusion. Cela revient en effet à affecter la
variable en question d’un coefficient nul. En d’autres termes, cela équivaut à
placer des zéros dans les éléments de la matrice B et/ou Γ. Une telle
procédure permet de réduire le nombre des paramètres inconnus et fournit
ainsi une aide à l’identification.
J J
B Y + J Γ J X = U J
Soit le modèle à équations simultanées :
(1)
(¦×¦) (¦×-) (¦×:) (:×-) (¦×-)
K−k ≥g−1
moins 1, c'est-à-dire :
Q 2 = α^ + α P2 + u2 (1)
Ex.1 : soit le modèle à équations simultanées suivant :
\ a
Q 2 = β^ + β P2 + uH2 (2)
Où Q 2 : quantité ; P2 : prix et u : le terme d’erreur
Q 2 = α^ + α P2 + αH R 2 + u2 (1)
Ex.2 : soit le modèle :
\ a
Q 2 = β^ + β P2 + uH2 (2)
Où Q 2 et P2 : variables endogènes ;
R 2 : variable prédéterminée.
Equation (K − k) (g − 1) Décision
Q 2 = α^ + α P2 + αH R 2 + u2 (1)
\ a
Q 2 = β^ + β P2 + βH P2 + uH2 (2)
Où Q 2 et P2 : variables endogènes ;
R 2 et P2 : variables prédéterminées.
Equation (K − k) (g − 1) Décision
Chaque équation est identifiée par les conditions d’ordre. Dans son
ensemble, le modèle est donc exactement identifié.
Q 2 = α^ + α P2 + αH R 2 + αt S2 + u2 (1)
Ex.4 : soit le modèle :
\ a
Q 2 = β^ + β P2 + βH P2 + uH2 (2)
Où Q 2 et P2 : variables endogènes ;
R 2 , P2 et S2 : variables prédéterminées.
Equation (K − k) (g − 1) Décision
# a
Q 2 = ΠH^ + ΠH R 2 + ΠHH S2 + ΠHt P2 + uH2
β^ − α^ αH
Où
Π^ = ; Π = − ;
α − β α − β
αt βH
ΠH = − ; Πt = ;
α − β α − β
α β^ − α^ β αH β
ΠH^ = ; ΠH = − ;
α − β α − β
αt β α β
ΠHH = ; ΠHt = − ;
α − β α − β
uH2 − u2
v2 =
α uH2 − β u2
α − β
et vH2 =
α − β
A partir des coefficients de forme réduite ci-haut, on obtient deux
estimations du coefficient β :
ΠHH ΠH
ΠH Π
β = et β =
198
Y2 = β^ + βH YH2 + βt Yt2 + γ X2 + u2 (1)
YH2 = βH^ + βHt Yt2 + γH X2 + γHH X2 + uH2 (2)
a
Y = β + β Y + γ X + γ X + u (3)
H2 t^ t 2 t 2 tH H2 t2
Y2 = β^ + β Y2 + βH YH2 + γH Xt2 + u2 (4)
BY + ΓX = U
comme suit :
(5)
Equation n° 1 Y YH Yt Y X XH Xt
K−k g−1
- Vérifions la condition d’ordre de l’identification :
Equation Décision
n°
0 −γHH 0
La matrice P associée à la premier équation est donc :
P = ©0 −γtH 0 ©
1 0 −γt
(4)
0 −γHH 0
Et son déterminant :
On peut vérifier que, d’après la condition de rang, les équation (2) et (3) sont
aussi non identifiée, mais que l’équation (4) l’est.
(K − k) + r ≥ g − 1
restrictions linéaires sur les paramètres, la condition d’ordre devient :
«½ + Γ = (1)
Où Π = −« Γ et = «
§ <.
des coefficients de la forme réduites 8Π
Exemple
¢ = 0^ + 0 + 0H + 9
Soit le modèle d’offre et de demande suivant :
Fonction de demande :
¢ = ^ + + +9H
(1)
Fonction d’offre :
(2)
où Q = quantité ;
P = pris ;
X = revenu ou dépenses de consommation ;
P et Q : variables endogènes ;
X : variable prédéterminée.
où
β^ − α^ αH uH2 − u2
Π^ = ; Π = ; v2 = ;
α − β α − β α − β
α β^ − α^ β αH β α uH2 − β u2
ΠH^ = ; ΠH = ; v2 = ;
α − β α − β α − β
∑2 p2 x2
§ =
Π ; (5)
∑2 x2H
§ ^ = pO − Π
Π § X
D; (6)
∑2 q 2 x 2
§ H =
Π ; (7)
∑2 x2H
Π D−Π
§ H^ = Q § H X
D; ; (8)
§ H^ − β̈ Π
β̈^ = Π § ^ (9)
et
β̈ =
§ UR
«
§ RR
«
(10)
Les coefficients ®^ et ® sont des estimateurs des moindres carrés
indirects de la forme d’offre (exactement identifiée).
La méthode des doubles moindres carrés (en anglais : two stages least
squares (2SLS) est appliqué pour estimer les équations sur-identifiées d’un
modèle ou même les équations exactement identifiées sur lesquelles elles
redonnent les mêmes résultats que ceux qui seraient obtenus par régression
indirects.
β y2 + βH yH2 + … + β¦ X¦2 + γ X2 + ⋯ + γ: X:2 + u2
βH y2 + βH yH2 + … + βH¦ X¦2 + γH XH2 + ⋯ + γH: X:2 + uH2 a
¬
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
(1)
β¦ y2 + β¦H yH2 + … + ⦦ X¦2 + γ¦ XH2 + ⋯ + γ¦: X:2 + uH2
Les estimateurs ainsi obtenus sont cohérents : ils convergent vers leurs
vraies valeurs à mesure que la taille de l’échantillon croît indéfiniment.
Remarques