Académique Documents
Professionnel Documents
Culture Documents
Mais la thorie ne nous fournit pas de mesure numrique de ces
relations.
L'objet donc de l'conomtrie est de donner un contenu quantitatif
aux relations conomiques, de vrifier la validit de telle ou telle
thorie et ensuite de faire de la prvision. La mthodologie de
lconomtrie est donc la suivante :
Thorie Economique
Modle Economtrique de la thorie
Collecte des Donnes
Estimation
Infrence
Rejet ou Accepte Prvision
4
Il existe 3 structures de donnes en conomtrie
Les donnes Cross-Section consistent en un ensemble
dindividus, de firmes, de mnages, de rgions ou mme de
pays pris en un point du temps donn. Ce type de donnes
est trs utilis en conomie et sciences sociales, march du
travail, finances publiques, organisation industrielle, conomie
spatiale, dmographie, conomie de la sant, etc.
Les donnes en sries temporelles aussi appeles sries
chronologiques consistent en observations temporelles. Le PIB,
Les prix, la consommation, les importations, les exportations,
la monnaie sont autant de sries temporelles. Il existe
diffrentes frquences dans les sries temporelles, annuelles,
trimestrielles, mensuelles, hebdomadaires, journalire, intra-
journalire. Ce type de donnes est trs souvent utilis en
macro-conomie et en finance.
Les donnes de panel encore appeles donnes longitudinales
consistent en donnes temporelles pour chaque cross-section.
En dautres ternes les donnes de panel sont une
combinaison de donnes Cross-Section et donnes en sries
temporelles. Le terme anglophone pour dsigner les donnes
de panel est Cross-section-Time-series c.a.d. une
combinaison de donnes Cross-section et de donnes en
sries temporelles.
Une distinction importante en Economtrie et Statistiques en gnral
est la distinction entre population et chantillon.
Une population est lensemble du groupe dont on veut tirer une
information. A cause des problmes de cots et de temps, les
conomtres travaillent plutt sur des chantillons.
5
Un chantillon est un sous-ensemble de la population que lon veut
examiner afin de tirer des informations.
Une exprimentation consiste slectionner un chantillon dune
population. Les conclusions sur la population sont tires partir de
notre chantillon.
Exemple 2 On veut connatre le pourcentage dtudiants la
facult de Droit et Sciences Economiques de Marrakech qui lit
durant les week-ends. Donc lensemble des tudiants la facult
de Droit et Sciences Economiques de Marrakech constitue la
population. On slectionne 2000 tudiants de cette population, ces
2000 tudiants constituent donc notre chantillon.
Le concept fondamental utilis tout au long de l'conomtrie est
celui de rgression:
Dfinition Rgression fait rfrence ltude de la dpendance
d'une variable sur une autre ou plusieurs autres en vue d'estimer
et/ou prdire la moyenne de la population.
Avant d'aller plus loin, il convient de prciser la nature des relations
qui existent en Economtrie. En analyse de rgression, nous
sommes plus intresss aux dpendances statistiques entre variables
quaux dpendances dterministiques ou fonctionnelles.
Dpendance statistique veut dire que les variables utilises sont des
variables alatoires (ci- aprs VA) ou des variables stochastiques
i.e. des variables qui possdent des distributions de probabilit.
Dpendance dterministique veut dire que les variables utilises sont
des variables simples. En dautres termes une relation
dterministique est une relation exacte mathmatiquement. Par
exemple on sait que la surface dun rectangle est donne par la
6
formuleS l L = . Ceci constitue une relation dterministique. Un
autre exemple de dpendance dterminative serait la loi de Newton
1 2
2
m m
F = k( )
r
O F est la Force, m
1
et m
2
, les masses de deux particules, r la
distance, et k une constante de proportionnalit. Ces types de
relations sont des relations exactes c.a.d. que l'on peut toujours
prdire exactement la variable endogne si l'on connat la valeur des
variables droite. Mais si les variables sont mesures par
exemple avec erreurs, alors les variables endognes ne seront plus
des variables simples, elles deviennent des VA.
Un objectif frquent en recherche est la spcification d'une relation
fonctionnelle entre deux variables soit y = f(x).
7
Figure 1 montre que pour chaque valeur de X il existe une et une
seule valeur pour Y. Ceci constitue une relation dterministique.
Figure 2 montre que la nature stochastique du modle de rgression
implique que quelque soit la valeur de X, il existe une distribution
de probabilit pour les valeurs de Y. Pour chaque valeur de X il
existe plusieurs valeurs possibles pour Y. Ceci veut dire donc que
les valeurs de Y ne peuvent jamais tre prdit exactement.
L'incertitude concernant Y vient de la prsence de u
t
le rsidu
comme nous allons le voir dans un instant.
Considrons par exemple une fonction de production d'une firme et
supposons que y = f(L) o L est le travail et Y loutput. Mais
une mme quantit de travail ne conduira pas toujours la mme
quantit d'output cause des variations dans le climat, la
performance humaine, la frquence laquelle les machines se
cassent etc Donc Y dpendra non seulement de L mais aussi
8
d'un large nombre de causes alatoires que nous rsumons sous
u
t
.
1
Puisque nous n'anticipons pas une relation parfaite, on crira alors
( ) Y f L u =
1.2 Le Modle Classique de Rgression Linaire
1.2.1 Les Hypothses du Modle Classique
En analyse de rgression, le modle le plus utilis est le modle
OLS (Ordinary Least Squares) d Carl Friedrich Gauss. Soit le
modle
t t t
Y = + X + u (1.1)
O
t
Y est appele variable endogne, et
t
X est appele variable
exogne. Endogne veut tout simplement dire que la variable
t
Y
est explique par notre modle, et exogne veut dire que la
variable nest pas explique par notre modle. Modle (1.1) tente
dexpliquer
t
Y et prend
t
X comme exogne ou encore variable
explicative, en ce sens que cest
t
X qui explique
t
Y et non
linverse. En fait quation (1.1) est dj une hypothse, celle de
linarit, c.a.d. que le modle est linaire.
Gauss fait les hypothses suivantes
1.
2
u ~ N(0, )
t
En ralit hypothse 1 constitue deux hypothses que lon a
condens en une seule, savoir que
1
u mesure notre ignorance.
9
t t t t t
E(u / X ) = 0 E(Y / X ) = + X = (1.2)
et
2 2 2
t t t t t
Var(u / X ) = E[(u - E(u )] = E(u ) = (1.3)
Gomtriquement hypothse (1.2) peut tre vue de la manire
suivante
Comme indiqu sur la figure, chaque Y observation correspondant
un X donn, est distribu autour de sa moyenne avec quelques
valeurs de Y au dessus de la moyenne et quelques valeurs de Y
au dessous. Les distances de tous les points par rapport la
moyenne ne sont rien d'autre que les u
t
et la condition
t t
E(u / X ) = 0
requiert que la moyenne de ces dviations soit gale 0.
2
Hypothse (1.3) qui est quivalente lhypothse que
2
t t
Var(Y / X ) = exige que la variance de u soit gale un nombre
constant
2
. Ceci est lhypothse d'homoscdasticit.
2
PRF veut dire Population Regression function.
10
2.
t s s s t t t s
Cov(u , u ) = 0 E(u - E(u ))(u - E(u )) = E(u , u ) = 0 pour t s = =
O t et s sont deux diffrentes observations. Hypothse 2 rfre
l'hypothse d'absence d'autorrlation.
t s t t s s
t t s s t s
E(u , u ) = E[Y - - X ][Y - - X ]
= E[Y - E(Y )][Y - E(Y )] = E(Y, Y )
en dautres termes dire que
t
u et
s
u sont non-corrls, cest aussi
dire que
t
Y et
s
Y sont non-corrls.
3. Cov(u
t
, X
t
) = E(u
t
- E(u
t
))(X
t
- E(X
t
) = 0
u et X sont uncorrls. Sils sont corrls, on ne peut distinguer
les effets de u et X sparment.
4. X est non stochastique. En dautres termes ce n'est pas une
variable alatoire.
Le Modle Complet peut donc scrire comme
1.
t t t
Y = + X + u
2.
2
t
u ~ N(0, )
3.
t s
E(u , u ) = 0 t s \ =
4. X est non stochastique
5.
t t t t t t
Cov(u , X ) = E((u - E(u )(X - E(X )) = 0
Quelles sont les inconnues dans le modle ci-dessus?
2
, , ,
trois paramtres inconnus estimer. Un modle satisfaisant les
hypothses 1 5 est connu sous le nom de Modle Classique de
Rgression Linaire. Nous avons spcifi le modle de rgression
de manie complte. Regardons quelques unes de ses
caractristiques.
11
t t t
Y = + X + u
do
t t
E(Y ) = + X
cest dire que la moyenne de Y nest rien dautre que
t
+ X .
On obtient ce rsultat car et sont des paramtres et X est
non stochastique c.a.d. que ce nest pas une variable alatoire.
Dautre part
2 2 2 2
t t t t t t t
Var(Y ) = E[Y - E(Y )] = E( + X + u - - X ) = E(u ) =
Mais
t t t
Y = + X + u
or dans lexpression
t t
+ X + u , et sont deux paramtres et
X nest pas une variable alatoire, donc seul
t
u est une variable
alatoire. Donc
( )
t t
Y f u =
Donc si u ~ N alors Y ~ N et donc on a le rsultat important suivant
2
t t
Y ~ N( + X , ) (1.4)
On peut illustrer le rsultat (1.4) graphiquement. Gomtriquement
une ligne de rgression est simplement l'ensemble des points
reprsentant la moyenne de Y pour des valeurs fixes de X.
12
t t
E(Y ) = + X est la PRF. Que mesurent et ?
mesure la valeur moyenne de Y correspondant X = 0
mesure le changement dans la valeur de la moyenne de Y
correspondant un changement unitaire de X
Cependant la PRF n'est pas connue, on doit donc l'estimer, cest
dire que l'on doit estimer et partir d'un chantillon. Quand
et sont estimes, on obtient alors une SRF(Sample
Regression Function). Si et sont estims par les
estimateurs
et , la SRF sera alors donne par la fonction
t t
Y X =
13
O
t
Y est un estimateur de ( )
t
E Y . est un estimateur de et
est un estimateur de
. Donc on peut crire
t t t t t
Y Y u X u = =
14
On peut voir le problme d'estimation des paramtres d'un modle
de rgression comme un problme d'estimation des paramtres d'une
distribution de probabilit de Y. En effet, comme on l'a dj vu
2
t t
Y ~ N( + X , )
Le problme donc d'estimation des paramtres, et
2
est
quivalent au problme d'estimation de la moyenne de Y et sa
variance. Ceci peut tre rsolu de plusieurs manires. Nous
allons dcrire ici la procdure dite OLS. Notre objet est d'obtenir
un estimateur qui aurait autant de proprits statistiques dsirables
que possible. Un tel estimateur pourra alors tre utilis pour les
tests dhypothses (Infrence).
Avant daller plus loin, donnons un exemple qui clarifierait tout ce
qui vient dtre dit. Supposons une population de 56 familles.
Nous nous intressons la relation entre consommation des familles
(C) et le revenu disponible (Y). Nous partitionnons les 56
familles en 10 groupes de mme revenu, soit donc la table suivante
(toutes les donnes sont en dollars)
Tableau 1
Y
C
t t t
Y X u =
do
t t t
Y Y u =
il vient donc ncessairement que
t t t
u Y Y =
Critre 1 Soient T observations sur Y et X, on veut dterminer la
SRF de telle manire ce qu'elle soit aussi proche que possible
de Y actuel(la valeur observe sur Y). Donc on veut choisir la
SRF tel que Min
( )
t t t
u Y Y
.
Figure 9 La Mthode
( )
t t t
u Y Y
23
La mthode n'est pas bonne car les
t
u reoivent les mmes poids.
Supposez par exemple que
1 2 2 4
10 u 2 u 2 u 10 u
donc
0
t
u =
_
1
u et
2
u reoivent les mmes poids alors mme quils sont plus
loigns que
3
u et
4
u .
Critre 2 Le Critre des Moindre Carrs (OLS)
Il sagit ici de minimiser la somme des carrs des rsidus
2
t
u
_
.
Soit donc la fonction objective minimiser
2 2 2
( ) ( )
t t t t t
u Y Y Y X = =
_ _ _
Minimiser cette fonction revient prendre les drives partielles par
rapport et
. Soit
donc
2 2
( )
t t t
S u Y X = =
_ _
il vient alors
2 ( ) 0
t t
S
Y X
= =
_
et
24
2 ( ) 0
t t t
S
Y X X
= =
_
on obtient alors
( ) 0
t t
Y X =
_
(1.8)
do
0
t
u =
_
et
( ) 0
t t t
Y X X =
_
(1.9)
do
0
t t
u X =
_
Equations (1.8) et (1.9) sont appeles les Equations Normales.
De ces quations on obtient les quantits suivantes
t t
Y T X =
_ _
(1.10)
2
t t t t
Y X X X =
_ _ _
(1.11)
On a donc deux inconnues et deux quations. Le systme (1.10)
- (1.11) peut tre rcrit comme
2
t t
t t t t
T X Y
X X Y X
l l l
l l l
=
l l l
l l l
l l l
_ _
_ _ _
25
Do par la mthode de Cramer, on obtient les quantits suivantes
Y X = (1.12)
et
2
( )( )
( )
t t
t
X X Y Y
X X
_
_
(1.13)
si on pose
t t
x X X = et
t t
y Y Y = , alors quation (1.13) peut
tre rcrite comme
2
t t
t
x y
x
=
_
_
(1.14)
1.3 Proprits de la SRF
26
1. Les estimateurs obtenus sont uniquement fonction de quantits
observables
2. Ils sont des points estimateurs
3. La ligne de rgression passe par les points ) , ( Y X . En effet
t t
Y X =
si donc
t
X X = , alors
t
Y X Y X X Y = = =
4.
t t
Y Y Y TY Y Y = = = = =
_ _ _
5. La moyenne des rsidus = 0. Ce rsultat est vident si on
regarde lquation (1.8), la premire quation normale.
6. Les rsidus sont uncorrls avec les X
t
. Ici aussi, ce rsultat
est obtenu directement de lquation (1.9).
(u )( ) ( ) 0
t t t t t t t t t
u X X u X X u X X u u X = = = =
_ _ _ _ _
7. Les rsidus sont uncorrls avec les
t
Y , ce qui veut dire que
(u , ) 0
t t
Cov Y = . En effet,
27
( ) 0
t t t t t t t
Yu X u u X u = = =
_ _ _ _
Remarque
t t t
Y X u =
donc on peut crire
t t
Y T X =
_ _
Do
t t
Y X
T T
=
_ _
Alors
Y X =
Mais
t t t
Y X =
Donc
( )
t t t
Y Y X X u =
ou encore
t t t
y x u = (1.15)
ce qui implique que
28
t t
y x = (1.16)
c'est dire qu'en forme dviationnelle l'intercepte n'existe pas.
1.4 Le Coefficient de Dtermination : le R
2
Le R
2
indique la proportion de variation dans la variable endogne
qui est explique par la variable exogne. Pour driver la formule
du R
2
, on part de lexpression suivante
t t t
y y u =
en sommant cette dernire expression
2 2 2 2 2 2 2
2 ( )
t t t t t t t t t
y y u y u y u Y Y u = = =
_ _ _ _ _ _ _ _
Donc
2 2 2 2
t t t
y x u =
_ _ _
do
2 2 2 2
( ) ( )
t t t
Y Y X X u =
_ _ _
(1.17)
Dfinissons la quantit TSS, Total Sum of Squares, ESS, Explained
Sum of Squares, et RSS, Residual Sum of Squares.
2
( )
t
Y Y
_
= TSS
2 2
( )
t
X X
_
= ESS
2
t
u
_
= RSS
29
Equation (1.17) stipule que
TSS = ESS + RSS (1.18)
Divisons cette dernire par TSS, on obtient alors
ESS RSS
+ 1
TSS TSS
=
Dfinissons
2
ESS
R =
TSS
. R
2
mesure donc la proportion de la somme
explique par rapport la somme totale.
2
0 R 1. _ _
Graphiquement, la dcomposition (1.18) peut tre vue dans le
graphique ci-dessous.
On peut donner une formule pour R
2
.
30
2 2
2 2
2 2
t t
t t
y x
ESS
R
TSS y y
= = =
_ _
_ _
(1.19)
Soit r le coefficient de corrlation. Celui-ci peut tre calcul de
deux manires, une manire indirecte soit
2
r R = (1.20)
soit de manire directe
2 2
t t
t t
x y
r
x y
=
_
_ _
(1.21)
De manire gnrale
1 1 r _ _
Quelle diffrence y-a-t-il entre coefficient de dtermination et
coefficient de corrlation ? Bien que ces deux concepts soient lis,
ils sont totalement diffrents. Le coefficient de corrlation entre
deux variables X et Y mesure le degr dassociation entre ces
deux variables. Dans cette optique, les deux variables X et Y
sont traites symtriquement, cest dire quil ny a pas de
distinction entre variable endogne et variable exogne. En dautres
termes le coefficient de corrlation ne mesure pas la direction de
causalit entre deux variables. Au contraire dans le coefficient de
dtermination les variables sont traites asymmtriquement, cest
dire quune variable est endogne et lautre exogne, dit autrement,
le coefficient de dtermination mesure la direction de causalit entre
deux variables.
A quoi sert le coefficient de corrlation ? la rponse est
dcevante, pas grand chose. Quelques exemples vont illustrer ce
31
point. On observe une forte corrlation entre consommation deau
et vente de lunettes de soleil. Daprs notre dfinition, il y a un
fort degr dassociation entre ces deux variables, et point final.
Mais nous ne pouvons dire que la consommation deau cause le
port de lunettes de soleil, moins que la consommation deau
fasse mal aux yeux et nous oblige par consquent porter des
lunettes de soleil. Nous ne pouvons non plus dire que le port de
lunettes de soleil provoque lenvie de boire. Ce que nous prenons
donc pour une cause nest rien dautre quune simultanit. Il est
bien vident daprs notre discussion que les deux variables
consommation deau et port de lunettes de soleil sont relies une
troisime variable, la chaleur. Donc bien que la forte corrlation
entre eau et lunettes de soleil soit intressante en tant que telle,
elle ne dfinit pas une causalit. Pour cela il faut penser un
modle explicative, lestimer et utiliser le
2
R et non le coefficient de
corrlation.
De plus le coefficient de corrlation nous donne des rsultats assez
souvent sans intrt, cest le cas des concidences. En effet de
nombreuses variables sont trs souvent croissantes sur une longue
priode. Elles prsenteront donc des coefficients de corrlation
linaire assez levs sans quaucun lien de causalit nexiste entre
elles. Le PIB Marocain et le taux de mortalit des lphants en
Afrique, la population Bolivienne et le prix du
2
m dans le centre
ville de Tokyo, les ventes totales de Toyota et le nombre
dcrivains dans le monde etc
Le lien entre causalit et corrlation peut donc se synthtiser de la
manire suivante
Causalit = Corrlation
Corrlation = Causalit
32
Exemple 3 Dans une estimation de la variable Consommation des
mnages(C) contre Revenu des mnages(Y)(les donnes sont
dans le tableau 3), on trouve les rsultats suivants
2
=13.918 0.71736
0.956047
t t t
C Y Y
R
=
=
Comment interprter les valeurs numriques des estimateurs et le
2
R ?. Concernant la pente(