1
TABLE DES MATIÈRES 2
1
Master MAIME 2014-2015 Cours d’Econométrie Pr D. Barro UFR-SEG, U.O2
1
U.A.M FAST Master 2 de Maths 2015 Statistique des Modèles Linéaires Pr D. BARRO
Chapitre 1
Dé…nitions et caaractérisations
L’économétrie peut se dé…nir comme un ensemble d’études des relations quantitatives
de la vie économique faisant appel à l’analyse statistique et à la formulation mathématique.
L’économétrie sert à désigner la totalité des techniques statistiques conçues pour
mesurer des grandeurs économiques ainsi qu’à pratiquer de la recherche en économie
L’économétrie est une branche de l’économie qui traite de l’estimation pratique des
relations économiques.
1
1. Généralités sur l’économétrie 2
Nous distinguons plusieurs types de données selon que le modèle est spéci…é en :
–série temporelle : c’est le cas le plus fréquent en économétrie, il s’agit de variables
observées à intervalles de temps réguliers (la consommation annuelle, totale France, ex-
primée en euros courants sur 20 ans) ;
–coupe instantanée : les données sont observées au même instant et concernent les
valeurs prises par la variable pour un groupe d’individus1 spéci…ques (consommation
observée des agriculteurs pour une année donnée) ;
– panel : la variable représente les valeurs prises par un échantillon d’individus à
intervalles réguliers (la consommation d’un échantillon de ménages de la région parisienne
sur 20 ans) ;
–cohorte : très proches des données de panel, les données de cohorte se distinguent
de la précédente par la constance de l’échantillon, les individus sondés sont les mêmes
d’une période sur l’autre.
4) Décalages temporels
Dans le cadre de modèle spéci…é en séries temporelles, les relations entre les variables
ne sont pas toujours synchrones mais peuvent être décalées dans le temps. Nous pouvons
concevoir que la consommation de l’année t est expliquée par le revenu de l’année t - 1
et non celui de l’année t . Pour lever cette ambiguïté, il est d’usage d’écrire le modèle
en le spéci…ant à l’aide d’un indice de temps :Ct = a0 + a1 Y t 1 . La variable Yt-1 est
appelée « variable endogène retardée » .
On appelle « variable exogène » une variable dont les valeurs sont prédéterminées,
et « variable endogène » une variable dont les valeurs dépendent des variables exogènes.
5) Validation du modèle
La dernière étape est celle de la validation du modèle :
–Les relations spéci…ées sont-elles valides ?
– Peut-on estimer avec su¢ samment de précision les coe¢ cients ?
– Le modèle est-il véri…é sur la totalité de la période ?
– Les coe¢ cients sont-ils stables ? Etc.
À toutes ces questions, les techniques économétriques s’é¤orcent d’apporter des ré-
ponses.
1. Généralités sur l’économétrie 6
Modèles Linéarisations
linéaire : Y = ax + b _
Exponentielle : Y = B:Ax ln Y = X ln A + ln B () y = aX + b
Puissance ou log-linéaire : Y = BX a ln Y = a ln X + ln B () y = ax + b
logarithmique : Y = aX + b
Hyperbolique : Y = x ax0 + y0 ?Y = a
x x0
+ y0
ymax ymin
logistique : Y = ymin + aX + b
1 + exp (ax + b)
Parabolique : Y = ax2 + bx + c : Y = ax2 + bx + c
Modèle linéaire : Y = aX + b
Dans tous les deux cas les deux variables statistiques sont quantitatives.
Prporiété 1.1
Le coe¢ cient de corrélation d’un couple aléatoire est telle que : 1 (X; Y ) 1
Si r 0 alors les deux caractères varient dans le même sens ( %%ou &&):
Si r 0 alors les deux caractères varient en sens inverse ( %& ou &%):
Si jrj ' 1 (r 0:95 ou r 0:95) alors la dépendance entre les deux caractères est
très forte. Les deux variables sont dites très fortement corréllées.
Si jrj ' 0 ( 0:05 r 0:05) on dit que les deux variables sont très faiblement ou
pas corrélées.
proche de 1, les variables sont corrélées positivement. L’une des variables est fonction
a¢ ne croissante de l’autre variable.
proche de -1, les variables sont corrélées négativement. L’une des variables est fonction
a¢ ne croissante de l’autre variable.
1
U.O UFR-SEA Master 1 MAIME Econométrie Pr D. BARRO, Maître de Conférences
1. Généralités sur l’économétrie 8
Janos Aczel a montré que la solution de l’´equation est telle que fX (x) = a1 x + b1 et
fY (y) = a2 y + b2 où a1 et a2 > 0 sont de même signe (i:e a1 a2 > 0). C’est pourquoi cette
mesure est dite linéaire. Par exemple : si a et c sont de même signe (aX1 + b; cX2 + d) =
(X1 ; X2 ) tandis que (log X1 ; log X2 ) 6= (X1 ; X2 ) : Par conséquent, il reste invariant
par transformation linéaire mais ne l’est pas par transformation croissante et donc dé-
pend des distributions marginales.
L3 ) Si X1 et X2 sont indépendantes alors (X1 ; X2 ) = 0; mais la réciproque est
fausse (Contre-exemple, pour X N (0; 1) et Y = X 2 , on véri…e que cov (X; Y ) =
E (X 3 ) = 0 or X et Y ne sont pas indépendantes). Plus généralement,
Janos Aczel a montré que la solution de l’´equation est telle que X1 N (m; ).
Conclusion : si (X1 ; X2 ) = 0 et si les X i sont gaussiennes alors X1 et X2 sont
indépendantes
Il existe principalement deux extensions de la corrélation linéaire aux cas des va-
riables ordinales. Ce sont le rho de Spearman et le Tau de Kendall.
1. Généralités sur l’économétrie 10
Le tau de kendall
P
T jP1
2 sign((xj xi ) (yj yi ))
[# paires concordantes] [# discordantes] j=2 i=1
= =
N ombre (
total de paires n (n 1)
1 si z 0
où la fonction sign(z) =
1 si z 0
Le Rho de Spearman2
Comme le tau de Kendall, le rho de Spearman est une mesure de dépendance basée
sur la notion de concordance. Soient (X1 ; Y1 ); (X2 ; Y2 ) et (X3 ; Y3 ) trois vecteurs aléatoires
indépendantes de même distribution H dont les distributions marginales sont F et G et
dont la copule associée est C.
2
U.O UFR-SEA Master 1 MAIME Econométrie Pr D. BARRO, Maître de Conférences
Chapitre 2
Dé…nition 2.1
On appelle nuage statistique ou diagramme de dispersion du couple (X,Y) l’ensem-
ble des points de coordonnées (xi ; yi ) représentés dans un repère cartésien.
11
2. La Régression Linéaire Simple 12
Y = f (X) :
Le cas le plus simple est la droite y = ax + b; a 6= 0; b 2 R: C’est le cas idéal
qui, expérimentalement, n’est jamais réalisé de façon parfaite. Les mesures sont en e¤et
toujours entachées de quelque imprécision.
Graphique
b) Ligne de régression
Lorsque X est donné, Y n’est pas complètement déterminé : ses valeurs se dis-
persent autour d’une certaine valeur moyenne. Mais les valeurs moyennes décrivent,
lorsque X varie, une courbe qui est appelée la ligne de régression de Y par rapport à X :
E (Y =X = x) = f (x)
Graphique
c) Liaison stochastique ou statistique (corrélation)
La liaison entre Y et X est alors appelée stochastique (ou statistique). Un cas par-
ticulièrement important est celui où le nuage se dispose suivant une forme allongée et
exhibe une tendance sensiblement linéaire.
Graphique
On recherche la droite y = ax + b, qui est dite droite des moindres carrés, telle
que la somme quadratique des résidus ei soit minimale.
On dispose de n couples de(xi ; yi ) constituant un n-échantillons d’observations indé-
pendantes. On suppose vraie l’hypothèse que la régression est linéaire.
@F @F
Le minimum est atteint pour @a
= @b
= 0, ce qui donne les deux équations suivante :
X
n X
n
(yi a bxi ) = 0 , y = a + bx et xi (yi a bxi ) = 0
i=1 i=1
on obtient : Pn
(y y)(xi x) Cov(x; y) sy
Pn i
b = i=1 2
= =r
i=1 (xi x) V ar(x) sx
La droite des moindres carrés passe donc par le centre de gravité du nuage (x; y) sa
pente est l’analogue empirique de la pente de la droite de régression
On peut montrer que parmis les estimateurs sans biais de et , A et B sont ceux
de variance minimale. Pour estimer 2 = V ar(") il est naturel d’utiliser la variance des
P
résidus ei = yi yi , c’est-à-dire la quantité que l’on a minimisée ni=1 (yi yi )2 . On
montre alors :
Pn Pn
2 i=1 (yi yi ) 2 i=1 "i
2
2
Proposition 2.1 : La quantité = n 2
= n 2
est une estimatin de
donc estimateur sans biais.
Dé…nition 2.2 Dans le modèle de RLS, on appelle résidus de l’estimation par moindres
carrés ordinaires les variables aléatoires, notés ^"1 ; ^"2 ; :::; ^"n et dé…nies par ^"i = yi y^i
pour tout i = 1; ::; n:
Proposition 2.2
P Pn
Dans le modèle de régression linéaire simple, on a : ni=1 ^"i = 0 et i=1 xi ^
"i = 0:
(2.1)
2. La Régression Linéaire Simple 14
Dans la RLS, on cherche à construire des estimateurs qui minimisent la Somme des
Carrés Résiduels (SCR) telle que :
X
n X
n
SCR = ^"2i = (yi y^i )2
i=1 i=1
La dé…nition des ^"i permet d’écrire que le premier membre de cette égalité est est telle
que :
X n Xn X n X
n X
n X
n
(yi y^i ) (^
yi y) = ^"i (^
yi y) = ^"i y^i y ^"i = ^"i y^i car ^"i = 0
i=1 i=1 i=1 i=1 i=1 i=1
X
n X
n X
n X
n
=) (yi y^i ) (^
yi y) = ^"i (^
a0 + a
^ 1 xi ) = a
^0 ^"i + a
^1 ^"i xi = 0
i=1 i=1 i=1 i=1
d’après la propriété 2 ci-dessus
Par conséquent, on obtient le résultat suivant :
SCT = SCE + SCR (2.3)
La relation est dite équation d’analyse de la variance
SCT indique la variabilité totale de Y i.e l’information disponible dans les données.
SCE traduit la variabilité expliquée par le modèle i.e la variation de Y expliquée
par X.
SCR indique la variabilité non-expliquée (résiduelle) par le modèle i.el’écart entre
les valeurs observées de Y et celles prédites par le modèle.
! Meilleur des cas : SCR = 0. Dans ce cas la prévision est parfaite, le nuage statistique
présente des points alignés, Y est complètement expliqué par les x.
! Pire des cas : SCE = 0. Mauvaise prévision, X n’apporte aucune information le
dans la description de Y, nuage statistique ne présage aucun allure classique
Le tableau d’analyse de la variance est
Dé…nition 2.2 Dans le modèle de régression linéaire simple, les valeurs ajustées issues
de l’estimation par les MCO de a0 et a 1 sont les n variables aléatoires notées
y^1 ; :::; y^n dé…nies par : y^i = a
^0 +â1 xi pour i = 1; :::; n:
Corrélation Régression
Objecif s’il existe un lien entre X et Y s’il existe un lien entre X et Y
Variables
Rôles S
Prédiction
! Corrélation :
! Régression :
Corrélation Régression
X = quantitative X = quantitative
Variables
Y = quantitative Y = quantitative
Symétrie de la liaison Oui / non Non
Etant donné deux variables aléatoires X et Y,une fonction f telle que f(X) soit aussi
proche que possible de Y en moyenne quadratique est déterminée par l’espérance condi-
tionnelle.En e¤e
Dé…nition 2.3
On appelle coe¢ cientPde détermination de la régression, le nombre R2 dé…ni
n
SCE (yi y^i )2
par : R2 = = Pi=1n
SCT i=1 (yi y^i )2
Remarques
SCR
On établit que R2 = 1
SCT
Le rapport R2 mesure de la capacité des variables explicatives à faire varier, par
leurs propres variations, la variable endogène Y. C’est la proportion de Y expliquée par
X.
Par construction, on a : 0 R2 1:
Plus R2 est proche de 1, plus la part inexpiquée de la variance totale est petite
(proche de 0) ce qui correspond à un bon ajustement du nuage de points par la droite.
Le terme constant est nécessaire dans l’estimation pour que l’analyse de la variance
soit valide. En d’autres termes pour un modèle de RLS sans terme constant, R2 ne se
situe plus nécessairement entre 0 et 1 et n’est plus interprétable.
b) Théorème de Gauss
Théorème 1.1
(x x)2
La quantite Pn est un estimateur sans biais de 2
2
Proposition 1 La quantité est un estimateur sans biais de
Proposition 2.3 : Si " suit une loi normale centrée de variance 2 alors :
a) La loi conditionnelle de Y jX = x est @( + x; 2 ).
b) Si les xi sont …xés,les lois de B, A et Y sont gaussiennes telles que :
2
^b 1 x2
a
^ @ a; Pn et @ b; 2
+ Pn
i=1 (xi x)2 n i=1 (xi x)2
2
1 (x x)
Y @ ax + b; 2 + Pn :
n i=1 (xi x)2
et
(^b b) (^b b)
s = r Tn 2 (Studentan 2ddl)
x2 1 x
( n1 + Pn )) (1 + 2 )
x)2 n sx
i=1 (xi
On peut alors en déduire des intervalles de con…ance pour les coe¢ cient et .
2. La Régression Linéaire Simple 20
2
où Cn 2 1 2
est le fratile de niveau 1 2
de la loi n 2:
2
@( + x; 2 1
(n + Pn(x x) 2 ))
i=1 (xi x)
Pn
(n 2)b2 i=1 (yi yi )2 ns2y=x
= 2
= 2
2
est une réalisation d’une variable n 2 on en déduit que :
2. La Régression Linéaire Simple 22
s
Y x
ns2y=x Y x p
v
u 0 1= 2 (n
=q n 2
u
u 1 (x x) 2 2) s2y=x (1 + (x x)2
)
t 2@ + Pn A s2x
n i=1 (xi x)2
1 (x0 x)2
Y0 Y0 @ 0; 2
1+ + Pn
n i=1 (xi x)2
et donc :
Y0 Y0 Y0 Y0 p
s =s n 2 Tn 2
2 1 (x0 x)2 1 (x0 x)2
b 1 + + Pn ns2y=x 1 + + Pn
n i=1 (xi x)2 n i=1 (xi x)2
Applications
Y prix en millier de francs 130 280 800 268 790 500 320 250 378 250
X surface en m2 28 50 196 55 190 110 60 48 90 35
2. La Régression Linéaire Simple 23
prix 350 300 155 245 200 325 85 78 375 200 270 295 85 495
X 86 65 32 52 40 70 28 30 105 52 80 60 20 100
Une représentation des couples (Xi ; Yi ),donne un nuage de points dont la la forme
autorise un ajustement linéaire. On pose donc le modèle Y = + X + " et on supposera
" @(0; 2 ). Des calculs élémentaires conduisent aux résultats suivants : x = 70:08333m2
et y = 309331F
q P24 q P24
1 2 1
sx = 24 i=1 (xi x)2 = 44:6915 m et sy = 24 i=1 (yi y)2 = 182950F et
P24
Cov(x; y) i=1 (xi x)(yi y)
r= = = 0:9733
sx sy 24sx sy
Il y’a une forte corrélation qui signi…e qu’à 97.33 pour cent le prix d’un appartement
est expliqué par sa surface.
On en déduit les estimations a ^ et ^b de a et b respectivement telsque : a
^ = 30:09221
et ^b = 3:9844
b2 = n
s2
n 2 y=x
= 1922:38 b = 43:84
Hypothèses
On fait l’hypothèse qu’il n’y a pas de liaison entre les variables, c’est-à-dire tester les
hypothèses suivantes
(
H0 : a = 0, les deux variables sont indépendantes
H1 : a 6= 0, les deux variables sont corrélées
Dans la théorie des test d’hypothèses, la décision du test peut être prise en fonction
de l’intervalle de con…ance (zone d’acceptation et de rejet) du paramètre (moyenne,
fréquence, variance). Par exemple, le tableau suivant établit les correspondances pour la
région d’acceptation de la zone d’acceptation de H0 :
S
- Si a^ 2 IC (a) =] 1; tn 2;1 =2 [ ]tn 2;1 =2 ; 1[ alors on rejette H 0
Décision
- Sinon on accepte l’hypothèse H 0
On peut construire un autre test utilisant une autre statistique qui évite de calculer
B. Pn Pn
i=1 (Yi Y )2 B2 i=1 (Xi X)2 2
2
= 2 1
P
On a ni=1 (Yi Yi = 2 suit une loi de 2n 2 .
On peut construire un autre test utilisant une autre statistique qui évite de calculer
B.
P
On a que ni=1 (Yi Yi )2 = 2 suit une loi de 2n 2 . De plus, si l’hypothèse H0 de non
régression linéaire est satisfaite, i.e si = 0, alors :
qP
n
B i=1 (Xi X)
@(0; 1)
et donc
Pn Pn
i=1 (Yi Y )2 B2 i=1 (Xi X)2 2
2
= 2 1
P P
On en déduit (par le théorème de Cochran) que ni=1 (Yi Y )2 et ni=1 (Yi Yi )2
sont indépendante et
Pn
(Y Y )2
Pni=1 i (n 2) z(1; n 2)
i=1 (Yi Yi )2
En pratique yi y = yi yi + yi y et d’après la décomposition de la la régression ((Th
2.1)
X
n X
n X
n
2 2
(yi y) = (yi yi ) + (Yi y)2
i=1 i=1 i=1
Comme on sait que :
sy
y =y+r (x x)
sx
On en déduit que :
Pn Pn
i=1 (yi y)2 = r2 s2y = r2 i=1 (yi y)2 .
et que :
Pn Pn
i=1 (yi yi )2 = ns2y=x = (1 r2 ) i=1 (yi y)2 = (1 r2 )s2y .
r2
La statistique testée ci-dessus correspond donc à (n 2).
(1 r2 )
2. La Régression Linéaire Simple 26
* Hypothèses :
(
H0 : XY = 0; corrélation nulle
, test bilatéral
H1 : XY 6= 0; corrélation pas nulle
Remarque : Le test sur la corrélation est aussi appelé test sur la pente de
la droite de régression. En e¤et, en considérant l’hypothèse nulle H0 on a :
* Statistique du test :
Sous l’hypothèse nulle H0 ; le rapport de rXY sur son écart r type r suit suit la loi de
2
rXY 1 rXY
Student à n-2 degré de liberté, i.e Tn 1 où rXY = :
r n 2 p
jrXY j n 2
- on calcule la statistique tcal = p 2
Ainsi, pour un risque …xé, 1 RXY
- on lit sur la table de Student à n-2 la valeur observée tobs :
p p
jrXY j n 2 0:9891 7 2
tcal = p 2
= p = 15: 02
1 RXY 1 0:98912
Pour un risque de 5%, on a : tobs = t5 (0:5) =
On a : tcal tobs =) On rejette H0 pour conclure qu’il existe be et bien une
corrélation signi…cative (dépendance linéaire forte) entre X et Y.
* Décision et conclusion :
- Si Rcal Robs alors on accepte l’hypothèse H0 :
- Si Rcal > Robs alors on accepte l’hypothèse H0 :
Variables qualitatives
Distribution conjointe des deux variables binormale (Rmq : marges normales 6 =)
loi conjointe binormale)
Indépendance des observations
les coe¢ cients de corrélation de rang
Les dé…nitions de ces coe¢ cients sont généralement liées à la notion de concordance
et d’association. Ils constituent une généralisation du coe¢ cient de corrélation linéaire
dans les cas des variables aléatoires ordinales, discrètes ou si les extrêmes(outliers en
anglais) risquent de biaiser les résultats.
b) Le tau de Kendall
Dé…nition 2 Soit (X1 ; Y1 ) et (X2 ; Y2 ) deux vecteurs aléatoires continus i.i.d. On dé…nit
le tau de Kendall par :
4P
S’il y a discordance totale, P = 0 et on a bien n(n 1)
1= 1.
c) Le rhô de Spearman
P P
où Ri = nk=1 1fxk xi g est le rang de xi ; Sj = nk=1 1fyk yi g celui de yi , R et S en sont
les moyennes respectives.
Les coe¢ cients de corrélation sont des indicateurs statistiques permettant de mesurer
la dépendance entre variables aléatoires. Cependant, ils ne donnent pas d’information
sur la structure de cette dépendance. C’est pourquoi nous avons recours à la copule qui
est un outil relativement innovant de modélisation de la structure de dépendance de
plusieurs variables aléatoires. La connaissance de cet outil statistique est essentielle à
l’appréhension de nombreux domaines d’application de la …nance quantitative, notam-
ment dans la mesure des risques …nanciers que nous aborderons plus tard dans le chapitre
4. Ainsi, à chaque fois qu’il est nécessaire de modéliser une structure de dépendance de
plusieurs variables aléatoires, nous pouvons faire appel aux copules.
^b 2 1 x2
@ b; + Pn :
n i=1 (xi x)2
Hypothèses
En procédant comme précédemment, on peut tester les hypothèses suivantes,
(
H0 : b = 0, la droite passe par l’origine
; test bilatéral
H1 : a 6= 0, la droite ne passe pas par l’origine
2. La Régression Linéaire Simple 30
s
^b 1 x2
b P
+ n
n i=1 (xi x)2
Il en découle que : Tn 2 ; Student à n-2 degré de
^
liberté où ^ étant l’estimateur sans biais de : s
2
^b 1 + Pn x
n i=1 (xi x)2
Par conséquent, sous H0 ; la valeur calculée de la statistique est tcal = :
^
Décision
On prend une décision classique. Ou en passant par les intervalles de con…ance,
S
- Si a
^ 2 IC (a) =] 1; tn 2;1 =2 [ ]tn 2;1 =2 ; 1[ alors on rejette H 0
- Sinon on accepte l’hypothèse H 0
Hypothèses
(
H0 : a1 = a2 ; même pente
, test bilatéral sur la pente
H1 : a1 6= a2 ; pas même pente
Les variable aléatoires a1 et a2 suivent chacune une loi normale telle que :
2
9
>
>
a
^1 N a1 ; Pn 2 = 2
(x
i=1 i x) Sous H0
2 =) a ^ N a; Pn
>
> i=1 (xi x)2
a
^2 N a2 ; Pn ;
i=1 (xi x)2
pPn
a^ a (^
a a) i=1 (xi x)2
Il en découle que : N (0; 1). En particulier
pPn ^
(x x) 2
i=1 i
Tn 2
exp( + X)
Y = exp( X) ou encore le modèle logistique Y 0 = 1+exp( + X)
, qui rend compte des
variations d’un taux de réponse 0 Y 1 en fonction d’une excitation X.
Cependant ce n’est pas toujours possible ou aussi évident. Par exemple, le modèle
Y = + X + X 2 est linéaire mais est à deux variables explicatives : Si on pose
Z = X 2 on obtient Y = + X + Z c’est de la régression multiple.
Modèles Linéarisations
linéaire : Y = ax + b _
Exponentielle : Y = B:Ax ln Y = X ln A + ln B () y = aX + b
Puissance ou log-linéaire : Y = BX a ln Y = a ln X + ln B () y = ax + b
logarithmique : Y = aX + b
Hyperbolique : Y = x ax0 + y0 ?Y = a
x x0
+ y0
ymax ymin
logistique : Y = ymin + 1+exp(ax+b) aX + b
Parabolique : Y = ax2 + bx + c : Y = ax2 + bx + c
Modèle linéaire : Y = aX + b
Chapitre 3
33
3. Le modèle de régression multiple 34
y = f (x1 ; x2 ; :::x7 )
y = nombre d’heures passées dans les activités criminelles
x1 = salaire pour une heure passée dans une activité criminelle
x2 = salaire pour une heure passée dans une activité normale
x3 = autre revenu (que les activités criminelles et légales)
où
x4 = probabilité d’être attrapé
x5 = probabilité d’être reconnu coupable si attrapé
x6 = sentance si attrapé et reconnu coupable
x7 = âge
L’équation de régression associée à ce modèle est
3.1.4 Hypothèses
Comme dans la RLS, les hyptohèses permettent de déterminer les propriétés des
estimateurs (avec ou sans biais, convergence) et les lois de distribution (loi de Student
pour chaque coe¢ cient pris individuellement et loi de Fisher dès que l’on traite d’un
groupe de coe¢ cients). En particulier, On distingue deux types d’hypothèses.
a) Hypothèses stochastiques
Hypothèses Commentaires
(H1 ) Xj non aléatoires Xj non aléatoires Observées sans erreurs.
Espérance des erreurs En moyenne le modèle
(H2 ) E ("i ) = 0
(perturbations) nulle est bien spéci…é
E ("2i ) = 0
(H3 ) Variance constante contexte d’homoscédasticité
() V ("i ) = 0
non auto-corrélation E (X t ") = 0 Les erreurs sont indépendantes
(H4 )
des erreurs () cov (xi ; "i ) = 0 des variables explicatives
indépendantes des
(H5 ) Non corrélation des erreurs E ("i "j ) = 0 si i 6= j.
variables explicatives
(H6 ) Normalité des erreurs "j N (0; ) ;
(H1 ) : Les Xj sont non aléatoires (variables certaines) c’est à dire que les xij sont
observées sans erreurs.
(H2 ) : E ("i ) = 0 i.e l’espérance de l’erreur (perturbations) est nulle. En moyenne le
modèle est bien spéci…é. Autrement dit, l’ensemble des déterminants
(H3 ) : E ("2i ) = V ("j ) = 2
; la variance des est constante (contexte d’homoscédasti-
cité)
(H4) : E ("i "j ) = 0 si i 6= j. Les erreurs sont indépendantes des variables explicatives
(hypothèses de non auto-corrélation des erreurs). (H4) () cov ("i ; "j ) = 0
(H5 ) : E (X t ") = 0 () cov (xi ; "i ) = 0: Les erreurs sont indépendantes (non-
corrélation des erreurs) des variables explicatives.
(H6 ) : normalité des erreurs. En particulier, le résultat suivant est une conséquence
immédiate des hypothèses 3 et 4.
Théorème 2.1 : Sous les (H3 ) et (H4 ) la matrice des variance-covariance des
erreurs est donnée par E ("t ") = 2 In où I n est la matrice unitaire d’ordre n.
3. Le modèle de régression multiple 37
0 1 0 1
"1 "21 "1 "2 :::: "1 "2
B C B C
B "2 C B "2 "1 "22 :::: "1 "2 C
Preuve. En e¤et, " " = B
t
B .. C
C "1; "2 ; ...,"n =B
B .. .. ... .. C
C
@ . A @ . . . A
"n "n "1 "n "2 :::: "2n
0 1 0 1
2
0 :::: 0 1 0 :::: 0
B 2 C B C
B 0 :::: 0 C B 0 1 :::: 0 C
=) E " " = B
t
B .. .. .. .. C=
C
2B
B .. .. .. .. C
C = In
2
@ . . . . A @ . . . . A
2
0 0 :::: 0 0 :::: 1
b) Hypothèses structurelles
On passe de nouveau par les dérivées partielles. Plus précisement, les solutions a
^0 ; a
^1 ; :::; a
^p
du problème (3.6) sont solutions du système suivant
8 8 P
>
> @S > 2 ni=1 "i = 0
>
> = 0 >
>
>
> @a >
> P
> @S0
> >
> 2 ni=1 xl1 "i = 0
>
> =0 >
> ..
>
> @a >
> .
>
> 1 >
>
>
< .. >
<
.
@S () Pn
>
> = 0 >
> 2 i=1 xij "i = 0
>
> @a >
>
>
> j >
> ..
>
> .
.. >
> .
>
> >
>
>
> >
>
>
> @S >
> P
>
: =0 :
@ap 2 ni=1 xpi "i = 0
8
>
> a0 + a1 x1 + a2 x2 + ::: + ap xp =y
>
> P P P P
>
> na0 x1 + a1 ni=1 x2i1 + a2 ni=1 xi1 xi2 + ::: + ap ni=1 xi1 xip = a2 ni=1 xi1 yi
>
>
>
< .. ..
. .
() Pn Pn Pn 2 Pn
>
> na 0 x p + a 1 x i1 x ip + a 2 x ip x i2 + ::: + a p i=1 xip = i=1 xip yi
>
> i=1 i=1
>
> .
.. ..
>
> .
>
: P P P Pn
na0 xp + a1 ni=1 xi1 xip + a2 ni=1 xip xi2 + ::: + ap ni=1 x2ip = i=1 xip yi
On passe généralement par la forme matricielle. En particulier, soit " = ("1 ; :::; "n ) on
P
a : ni=1 "2i = "t " où " = Y Xa: Par conséquent, l’équation (3.6) s’écrit matriciellement
Application
La relation (3.7) s’écrit :
t
S = (Y Xa)t (Y Xa) = Y t at X t (Y Xa) =Y t Y Y t aX Y t Xa + (Xa)t Xa
=) S = Y t Y 2Y t Xa + at X t Xa
0
1
c1
B . C P p @ (X t C)
Preuve. i) X t C = (x1 ; :::; xp ) B
@
.. C = xi ci =)
A i=1 = ci
@xi
cp
0 1
@ (X t C)
0 1
B @x1 C c1
B .. C
B . C B . C
B C B .. C
@ (X t C) B B @ (X t
C) C B
C B
C
C
=) =B C = B ci C = C
@X B @xi C B . C
B .. C B .. C
B . C @ A
B C
@ @ (X C) A t cp
@xp
0 Pp 1
0 10 1 0 1 xs
s11 s12 ::: s1p x1 x1 s11 x2 s12 ::: xp s1p B i=1 i 1i C
B .. C
B . .. .. .. C B . C B . .. .. .. C B . C
B .. . . . C B . C B .. C B C
B CB . C B . . . C B Pp C
B CB C B C B C
ii) SX = B si1 si2 ::: sip C B xi C=B x1 si1 si2 ::: xp sip C=B xi sji C
B . .. .. .. C B . C B . .. .. .. C B i=1 C
B .. . C B C B .. C B C
@ . . A @ .. A @ . . . A B ..
. C
B C
s11 s12 ::: s1p xp x1 s11 x2 s12 ::: xp s1p @ Pp A
xi spi
i=1
0 Pp 1
xs
B i=1 i 1i C
B .. C
B . C
B C
B Pp C
B C
=) X t SX = (x1 ; x2 ; :::; xp ) B xi sji C
B i=1 C
B .. C
B . C
B C
@ Pp A
xi spi
i=1
p p p 1
X X X
t
=) X SX = x211 s11 + x1 xi s1i + x22 s22 + x2 xi s2i + ::: + x2p spp + xp xi spi
i=1 i=1;i6=2 i=1
p
X XX
t
=) X SX = x2i sii + xi xj sij ou i; j = 1; :::; p:
i=1 i6=j
@X SX t X
=) = 2xi sii + 2 xi sij
@xi i6=j
0 P
p 1
2x1 s11 + 2 xi si1 0 10 1
B i=2 C s11 s12 :::: s1p x1
B .. C
B . C B .. .. .. .. C B . C
B C B . . . . C B . C
t
@X SX B B P
p C B CB . C
C B CB C
=) = B 2xi sii + 2 xi sij C = 2B si1 si2 :::: sip C B xi C = 2SX
@X B i=2 C B .. .. .. .. C B . C
B C B . C B C
B ..
. C @ . . . A @ .. A
B C
@ Pp A s11 s12 :::: s1p xp
2xp spp + 2 xj spj
j=1
3. Le modèle de régression multiple 40
Propriétés 3.2
1
L’estimateur des MCO â de a est donné par ba = (X t X) (X t Y )
De plus cet estimateur est sans biais de a
Rappels (P roprietes3:3)
1
L’estimateur des MCO â de a est donné par ba = (X t X) (X t Y )
De plus cet estimateur est sans biais de a
b) Variance
La variance de l’estimateur (plus précisément sa matrice-covariance car c’est un vec-
teur) permet d’évaluer la précision de l’estimateur.
Proposition 3.4
2 1
La variance de l’estimateur des MCO b
a de a est V (b
a) = (X t X)
1
Master MAIME 2014-2015 Pr D. Barro UFR-SEG, U.O2 Cours d’Econométrie
3. Le modèle de régression multiple 41
a) est une matrice symétrique avec sur sa diagonale principale les variances
V (b
Par ailleurs et par dé…nition, on a :
V (b
a) = E (b
a a))2 i:e V (b
E (b a) = E (b
a E (b
a)) (b
a a))t
E (b
1
En considérant l’expression ci-dessus de b
a; il vient que : b
a a = (X t X) X t"
t h i
1 1 1 1
=) V (b
a) = E X tX X t" X tX X t" =E X tX X t ""t X X t X
h it
1 1
car (X t X) = (X t X) symetrie
1 1
a) = X t X
=) V (b X t XE ""t X X t X car Xj n0 est pas stochastique
1 1 1 1
a) = X t X
=) V (b X t XE ""t X X t X = E "2 X X t X = 2
X tX
c) Propriétés asymptotiques
Les propriétés ci-dessous de l’estimateur MCO sont obtenues à distance …nie c-à-d
pour un nombre …ni d’observations. En d’autres termes, quel est le comportement de
l’estimation MCO lorsque la taille de l’échantillon augmente (n ! 1) ?
* Convergence de â
Propriété 3.5
Sous les hypothèses (H6 ) et (H8 ) l’estimateur MCO est convergent
P
en probabilité i.e a
^ a:
n!1
* Convergence de ^ 2
2
Dans un modèle de RLS l’estimateur sans biais de 2
est ^ 2 = n 2
:
Propriété 3.6
ky yk2
Dans un modèle de RLM, l’estimateur sans biais de 2
est ^ 2 =
X n 2
où ky yk = (y y)2
le logarithme.
Théorème 3.2
~ et ~ 2 de a et de V (a) par la méthode du maximum
Les estimateurs respectis a
1 t ~"t~"
de vraisemblance sont tels que : a~ = (X t X) X t Y et ~ 2 = (Y X~a)n(Y X~a) =
n
Preuve. Sous les hypothèses classiques du modèle, le vecteur " est gaussien i.e "
N (0; 2 In ). Par conséquent Y = Xa + " N (Xa; ? 2 In ) et donc E(Y ) = Xa et
V(Y ) = 2 In : Par ailleurs, la loi normale multivariée de vecteur moyen et de matrice
de covariance a pour densité
1 1
f (x) = p exp (x )t 1
(x ) :
(2 )n det 2
En particulier en dimension
! 2, on obtient une!!
loi normale bivariée de corrélation ;
2
1 1 1 2
X = (X1 ; X2 ) N ; 2
de densité
2 2 1 2
où pour i = 1; 2 on a : "i = xi i:
2
Soit = (a; ) le vecteur à estimer. La fonction de vraisemblance est,
2 1 1 (Y Xa)t (Y Xa)
L (y; ) = L y; a; =p n
exp 2
(2 ) det 2
n
avec ou det = ( 2 ) : Ainsi,
n n 1
ln L y; a; 2
= ln (2 ) ln 2
2
(Y Xa)t (Y Xa)
2 2 2
~ et ~ 2 sont solutions du système di¤érentiel suivant
Les estimateurs cherchés a
8 8
> @ ln L > 1
< =0 < 2 X t (Y Xa) = 0
@a =) n 1
> @ ln L > (Y Xa)t (Y Xa) = 0
: = 0 : 2
+ 2
@ 2 2 2( ) 2
8 1
< a~ = (X t X) X t Y = a ^
Par suite t
: ~ 2 = (Y X~ a) (Y X~ a) ~"t~"
=
n n
pas avec une certitude sur la valeur des coe¢ cients contribuznt à générer les réalisations
de y dans le modèle linéaire Y = Xa + ":
On peut classer les tests économétriques en deux grandes catégories : les tests de
rectrictions sur le modèle et les test de spéci…cations.1
- Les tests de rectrictions sur le modèle examinent à l’intérieur des hypothèses stchas-
tiques (de H 1 à H 5 ) s’il est possible de simpli…er le modèle soit en supprimant
des variables (signi…cativité des variables, signi…cativité globale, signi…cativité par
bloc) soit en imposant des conditions sur les coe¢ cients ( ? Stabilité des coe¢ cients
(tests de Chow)).
- Les étudiants de spéci…cation examinent la pertinence des hypothèses stochastiques ( H 1
à H 5 ). En e¤et, l’application des certians outils et techniques d’estimations (MCO)
étant conditionnée par des hypothèses, il faut chercher à les véri…er avant d’utiliser
les résultats de tels outils (tests de noramlité des résidus, test d’autocorrélation,
test d’hétéroscédasticité).
Dans un modèle de RLS, la somme des carrés totale admet la décomposition suivante :
Pn P P
i=1 (yi y^i )2 = ni=1 (yi y^i )2 + ni=1 (^
yi yi )2
(3.7)
Pn
Preuve. En notant SCT = i=1 (yi yi )2 (somme des carrés totaux), on obtient la
décomposition suivante :
X
n
SCT = (yi y^i + y^i yi )2
i=1
X
n X
n X
n
2 2
= (yi y^i ) + (^
yi yi ) + 2 (yi y^i ) (^
yi yi )
i=1 i=1 i=1
1
U.A.M FAST Master 2 de Maths 2015 Statistique des Modèles Linéaires Pr D. BARRO
3. Le modèle de régression multiple 45
Pn P
Or i=1 yi yi ) = ni=1 a^"i (xi x) = 0 car cov("; xi ) = 0:
(yi y^i ) (^
Par conséquent, on obtient le résultat suivant
d’où : SCT = SCE + SCR
La relation est dite équation d’analyse de la variance
SCT indique la variabilité totale de Y c.-à-d. l’information disponible dans les don-
nées.
SCE traduit la variabilité expliquée par le modèle c.-à-d. la variation de Y expliquée
par X.
SCR indique la variabilité non-expliquée (résiduelle) par le modèle c.-à-d. l’écart entre
les valeurs observées de Y et celles prédites par le modèle.
Remarques :
Deux situations extrêmes peuvent survenir
! Meilleur des cas :SCR = 0. Dans ce cas la prévision est parfaite, le nuage statis-
tique présente des points alignés, Y est complètement expliqué par les x.
! Pire des cas : SCE = 0. Mauvaise prévision, X n’apporte aucune information le
dans la description de Y.
Le tableau d’analyse de la variance est
Le problème consiste à prévoir la valeur de yn+1 étant données les valeurs xn+1 =
(1; xn+1;1 ; :::; xn+1;p ) : Ainsi, on obtient yn+1 = xn+1 a + "n+1
E ("n+1 ) = 0
Et comme pour le modèle de RLS, on a : V ("n+1 ) = 2 .
"n+1 est indépendante des "i
En particulier si les valeurs des variables explicatives X(n+1) sont connues en (n + 1)
points, alors la prévision Y^n+1 = Yn+1 est telle que
: Y^n+1 = Xn+1 a
^ + ^"n+1
E (^
en+1 ) = E (xn+1 (^
a a))+E (^"n+1 ) = xn+1 E (^
a a)+E (^"n+1 ) = 0 =) E (^
en+1 ) =
0
Conclusion : Le prédicteur Yn+1 est sans biais.
Variance V(^ en+1 )
V (^
en+1 ) = V (xn+1 (^
a a) + ^"n+1 ) = V (xn+1 (^
a a) + ^"n+1 )
(
1
1 ^ = (X t X) X t Y avecY = Xa + "
a
= V xn+1 X t X X t " + "n+1 en e¤et : 1
^ a = (X t X) X t "
a
h i2
1
= xn+1 X t X Xt V (") + V ("n+1 ) car cov ("i ; "n+1 ) = 0
h i2
1
= xn+1 X t X Xt 2
+ 2
h i2
2 1
= 1 + xn+1 X t X Xt
h i2
2 t 1 t
=) V (^
en+1 ) = 1 + xn+1 (X X) X :
48
Chapitre 5
49
5. Violation des hypothèses 50
L’hétéroscédasticité est une situation rencontrée fréquemment dans les données, il est
donc
important de savoir la détecter et la corriger.
3.1.2. Les sources usuelles du problème
Variables explicatives inobservées de variance di¤érentes pour certains groupes (dé-
…nis par
des variables observées)
ex. : - productivité inobservée par niveaux d’éducation
- qualité inobservée d’un bien par niveau de prix
- déterminants sociologiques du taux d’épargne par niveau de revenu
Exemple : Modèle de la part du revenu disponible dépensé en loisirs.
Les familles à faibles revenus dépensent relativement peu en loisirs. Les variations de
ces
dépenses entre ces familles sont donc faibles.
Pour les familles avec des revenus importants, le montant moyen relatif dépensé en
loisirs
sera plus élevé, mais il y aura une plus grande variabilité entre de telles familles.
Observations représentant des moyennes sur des sous-groupes d’individus.
Cours_économétrie1_M1_économie_appliquée_ISGO_2013_2014
20
Répétition d’une même valeur de la variable à expliquer pour des valeurs di¤érentes
d’une
variable explicative (ex : regroupement en tranches pour le revenu, etc.).
3.1.3. Hétéroscédasticité et estimation par les moindres carrés généralisés
La violation de l’hypothèse d’homoscédasticité conduit à redé…nir la matrice de va-
riance
covariance des perturbations. Elle devient non scalaire puisqu’elle n’est plus dé…nie
par le
produit de la matrice identité et d’un scalaire :
Les termes non nuls en dehors de la diagonale manifestent la présence d’autocorrél-
lation et
les termes di¤érents sur la diagonale indiquent la présence d’hétéroscédasticité.
Dans ce cas, les MCO n’étant plus à variance minimale, la méthode des moindres
carrés
généralisés (MCG) fournit un estimateur e¢ cace.
Le principe des MCG est le suivant :
On transforme le modèle de base en le multipliant par une matrice P de dimension
(NXN)
PY = PXb + Pe
5. Violation des hypothèses 51
La matrice P est telle que : PWP’ = I. il est à noter : P’(PWP’) P = P’P d’où il
vient que
P’P = W-1. Cette transformation permet de se ramener à des écarts aléatoires qui
sont
homoscédastiques et sériellement indépendants. La forme de P dépend du problème
à traiter,
par exemple, dans le cas de l’hétéroscédasticité, la matrice P s’écrit :
Cours_économétrie1_M1_économie_appliquée_ISGO_2013_2014
b
-
--
---
=
==W
=WW
L’estimateur des moindres carrés généralisés est également connu sous le nom d’esti-
mateur
d’Aitken. on voit qu’il est di¤érent de l’estimateur des MCO, lequel utilise la matrice
identité
I comme « matrice de pondération » au lieu de W-1 .
3.1.4. propriétés de l’estimateur des moindres carrés généralisés
Si ( ) * * * * E e / X = 0 (avece = Pe ; X = PX ) , alors
( ) ( ) ( ) ’1 ’’1 ’
***********
Eb /XEXXXY/XbEXXXe/Xb= - =+ - =
où * Y = PY
l’estimateur b est sans biais.
l’estimateur des MCG est convergent si ( ) ’
* * * p lim 1 n X X = Q , où * Q est une matrice …nie
dé…nie positive.
L’estimateur MCG est de distribution asymptotique normale, de moyenne b et de
variance
( ) ( ) ( ) 2 ’1 2 1 1
***
Var b / X s X X s X ’X = - = W- -
L’estimateur MCG b est l’estimateur linéaire sans biais de variance minimale pour
la
régression généralisée, en vertu du théorème de Gauss-Markov. Il est le meilleur
estimateur
Cours_économétrie1_M1_économie_appliquée_ISGO_2013_2014
5. Violation des hypothèses 52
22
linéaire sans biais (théorème d’Aitken). le théorème d’Aitken (1935) inclut le théorème
de
Gauss-Markov comme cas particulier lorsque W = I
Dans la pratique, le principal problème rencontré concerne la connaissance de la
matriceW.
En e¤et, l’estimateur MCG n’est pas opérationnel puisqueW est généralement incon-
nue. La
procédure d’estimation, dans ce cas, comporte deux étapes. Dans un 1er temps, on
calcule W
par les MCO et dans 2ème temps, on applique les MCO sur les données transformées
en rem
plaçant W par W :
()1
’ 1 ’ 1 mcqg b X X X Y
---=WW
Cet estimateur est connu sous le nom d’estimateur des moindres carrés quasi-généralisés
(Feasible Generalized Least Square), MCQG. Les MCQG, comme tout estimateur en
deux
étapes, sont potentiellement biaisés. Ils sont Cependant convergents.
3.2. Remise en cause de l’hypothèse E (e ) = 0 : les résidus sont autocorrélés.
3.2.1. Dé…nition :
L’autocorrélation est la présence de corrélation entre les termes de perturbations. Ce
cas est
fréquent avec des séries temporelles. Par exemple, si l’on s’intéresse aux évolutions
du salaire
d’un même individu au cours de sa carrière, il est di¢ cile de croire que les termes
d’erreur,
qui sont lié aux déterminants non observés du salaire, ne sont pas corrélés entre eux
au cours
du temps. Un "choc" sera vraisemblablement persistant : on parlera alors d’autocor-
rélation
Bibliographie
Bourbonnais R. 2000. Econométrie. Manuel et exercices corrigés. 3e édition.
Bourbonnais R. 2008. Exercices pédagogiques d’économétrie. Economica Green W.
2005. Econométrie. 5e édition
Phillippe Tassi : méthodes statistiques
Claudio Araujo, Jean-François Brun et Jean Louis Combes. 2004. Econométrie. Col-
lection Amphi