Chap 1 Le Modele Classique de Regression Lineaire Simple2013

Universit Cadi Ayyad
Facult des Sciences Juridiques Economiques et Sociales

Marrakech
ECONOMETRIE I
Polycopi lattention des Etudiants de la Filire Economie et Gestion,
Semestre 5 : Option Economie
Document de Soutien Prpar par les Professeurs Chakib Tahiri et
Mustapha Kchirid
2
Chapitre 1
Le Modle Classique de Rgression Linaire
Simple
1.1 Introduction
Le terme Economtrie a pour la premire fois t employ en 1926
par Ragnar A. K. Frisch, un conomiste Norvgien, qui partagea en
1969 avec un autre conomtre Jan Tinbergen, le premier prix
Nobel en Economie. Bien que beaucoup dconomistes aient utilis
des donnes bien avant 1926, Frisch sentit quil fallait un nouveau
terme pour dcrire lutilisation et linterprtation des donnes en
conomie.
De nos jours, lconomtrie est un vaste domaine dtude
lintrieur mme de lconomie. Le domaine change mesure que
de nouvelles techniques surgissent, mais le corps de lconomtrie
contient un ensemble stable dides et de principes fondamentaux.
Le prsent cours dconomtrie tournera autour de ces ides et de
ces principes fondamentaux.
Economtrie veut dire Mesure en Economie. Que mesure t-on?
La thorie conomique trs souvent met des hypothses de nature
qualitative.
3
Exemple 1 La thorie Keynsienne de la consommation soutient
qu mesure que le revenu des mnages saccrot, leur
consommation saccrot aussi en moyenne. Si on pose C, la
consommation des mnages, et Y le revenu, alors la thorie
Keynsienne suppose que 0
C
Y

Mais la thorie ne nous fournit pas de mesure numrique de ces
relations.
L'objet donc de l'conomtrie est de donner un contenu quantitatif
aux relations conomiques, de vrifier la validit de telle ou telle
thorie et ensuite de faire de la prvision. La mthodologie de
lconomtrie est donc la suivante :
Thorie Economique
Modle Economtrique de la thorie
Collecte des Donnes
Estimation
Infrence
Rejet ou Accepte Prvision
4
Il existe 3 structures de donnes en conomtrie
Les donnes Cross-Section consistent en un ensemble
dindividus, de firmes, de mnages, de rgions ou mme de
pays pris en un point du temps donn. Ce type de donnes
est trs utilis en conomie et sciences sociales, march du
travail, finances publiques, organisation industrielle, conomie
spatiale, dmographie, conomie de la sant, etc.
Les donnes en sries temporelles aussi appeles sries
chronologiques consistent en observations temporelles. Le PIB,
Les prix, la consommation, les importations, les exportations,
la monnaie sont autant de sries temporelles. Il existe
diffrentes frquences dans les sries temporelles, annuelles,
trimestrielles, mensuelles, hebdomadaires, journalire, intra-
journalire. Ce type de donnes est trs souvent utilis en
macro-conomie et en finance.
Les donnes de panel encore appeles donnes longitudinales
consistent en donnes temporelles pour chaque cross-section.
En dautres ternes les donnes de panel sont une
combinaison de donnes Cross-Section et donnes en sries
temporelles. Le terme anglophone pour dsigner les donnes
de panel est Cross-section-Time-series c.a.d. une
combinaison de donnes Cross-section et de donnes en
sries temporelles.
Une distinction importante en Economtrie et Statistiques en gnral
est la distinction entre population et chantillon.
Une population est lensemble du groupe dont on veut tirer une
information. A cause des problmes de cots et de temps, les
conomtres travaillent plutt sur des chantillons.
5
Un chantillon est un sous-ensemble de la population que lon veut
examiner afin de tirer des informations.
Une exprimentation consiste slectionner un chantillon dune
population. Les conclusions sur la population sont tires partir de
notre chantillon.
Exemple 2 On veut connatre le pourcentage dtudiants la
facult de Droit et Sciences Economiques de Marrakech qui lit
durant les week-ends. Donc lensemble des tudiants la facult
de Droit et Sciences Economiques de Marrakech constitue la
population. On slectionne 2000 tudiants de cette population, ces
2000 tudiants constituent donc notre chantillon.
Le concept fondamental utilis tout au long de l'conomtrie est
celui de rgression:
Dfinition Rgression fait rfrence ltude de la dpendance
d'une variable sur une autre ou plusieurs autres en vue d'estimer
et/ou prdire la moyenne de la population.
Avant d'aller plus loin, il convient de prciser la nature des relations
qui existent en Economtrie. En analyse de rgression, nous
sommes plus intresss aux dpendances statistiques entre variables
quaux dpendances dterministiques ou fonctionnelles.
Dpendance statistique veut dire que les variables utilises sont des
variables alatoires (ci- aprs VA) ou des variables stochastiques
i.e. des variables qui possdent des distributions de probabilit.
Dpendance dterministique veut dire que les variables utilises sont
des variables simples. En dautres termes une relation
dterministique est une relation exacte mathmatiquement. Par
exemple on sait que la surface dun rectangle est donne par la
6
formuleS l L = . Ceci constitue une relation dterministique. Un
autre exemple de dpendance dterminative serait la loi de Newton
1 2
2
m m
F = k( )
r
O F est la Force, m
1
et m
2
, les masses de deux particules, r la
distance, et k une constante de proportionnalit. Ces types de
relations sont des relations exactes c.a.d. que l'on peut toujours
prdire exactement la variable endogne si l'on connat la valeur des
variables droite. Mais si les variables sont mesures par
exemple avec erreurs, alors les variables endognes ne seront plus
des variables simples, elles deviennent des VA.
Un objectif frquent en recherche est la spcification d'une relation
fonctionnelle entre deux variables soit y = f(x).
7
Figure 1 montre que pour chaque valeur de X il existe une et une
seule valeur pour Y. Ceci constitue une relation dterministique.
Figure 2 montre que la nature stochastique du modle de rgression
implique que quelque soit la valeur de X, il existe une distribution
de probabilit pour les valeurs de Y. Pour chaque valeur de X il
existe plusieurs valeurs possibles pour Y. Ceci veut dire donc que
les valeurs de Y ne peuvent jamais tre prdit exactement.
L'incertitude concernant Y vient de la prsence de u
t
le rsidu
comme nous allons le voir dans un instant.
Considrons par exemple une fonction de production d'une firme et
supposons que y = f(L) o L est le travail et Y loutput. Mais
une mme quantit de travail ne conduira pas toujours la mme
quantit d'output cause des variations dans le climat, la
performance humaine, la frquence laquelle les machines se
cassent etc Donc Y dpendra non seulement de L mais aussi
8
d'un large nombre de causes alatoires que nous rsumons sous
u
t
.
1
Puisque nous n'anticipons pas une relation parfaite, on crira alors
( ) Y f L u =
1.2 Le Modle Classique de Rgression Linaire
1.2.1 Les Hypothses du Modle Classique
En analyse de rgression, le modle le plus utilis est le modle
OLS (Ordinary Least Squares) d Carl Friedrich Gauss. Soit le
modle
t t t
Y = + X + u (1.1)
O
t
Y est appele variable endogne, et
t
X est appele variable
exogne. Endogne veut tout simplement dire que la variable
t
Y
est explique par notre modle, et exogne veut dire que la
variable nest pas explique par notre modle. Modle (1.1) tente
dexpliquer
t
Y et prend
t
X comme exogne ou encore variable
explicative, en ce sens que cest
t
X qui explique
t
Y et non
linverse. En fait quation (1.1) est dj une hypothse, celle de
linarit, c.a.d. que le modle est linaire.
Gauss fait les hypothses suivantes
1.
2
u ~ N(0, )
t

En ralit hypothse 1 constitue deux hypothses que lon a
condens en une seule, savoir que
1
u mesure notre ignorance.
9
t t t t t
E(u / X ) = 0 E(Y / X ) = + X = (1.2)
et
2 2 2
t t t t t
Var(u / X ) = E[(u - E(u )] = E(u ) = (1.3)
Gomtriquement hypothse (1.2) peut tre vue de la manire
suivante
Comme indiqu sur la figure, chaque Y observation correspondant
un X donn, est distribu autour de sa moyenne avec quelques
valeurs de Y au dessus de la moyenne et quelques valeurs de Y
au dessous. Les distances de tous les points par rapport la
moyenne ne sont rien d'autre que les u
t
et la condition
t t
E(u / X ) = 0
requiert que la moyenne de ces dviations soit gale 0.
2
Hypothse (1.3) qui est quivalente lhypothse que
2
t t
Var(Y / X ) = exige que la variance de u soit gale un nombre
constant
2
. Ceci est lhypothse d'homoscdasticit.
2
PRF veut dire Population Regression function.
10
2.
t s s s t t t s
Cov(u , u ) = 0 E(u - E(u ))(u - E(u )) = E(u , u ) = 0 pour t s = =
O t et s sont deux diffrentes observations. Hypothse 2 rfre
l'hypothse d'absence d'autorrlation.
t s t t s s
t t s s t s
E(u , u ) = E[Y - - X ][Y - - X ]
= E[Y - E(Y )][Y - E(Y )] = E(Y, Y )

en dautres termes dire que
t
u et
s
u sont non-corrls, cest aussi
dire que
t
Y et
s
Y sont non-corrls.
3. Cov(u
t
, X
t
) = E(u
t
- E(u
t
))(X
t
- E(X
t
) = 0
u et X sont uncorrls. Sils sont corrls, on ne peut distinguer
les effets de u et X sparment.
4. X est non stochastique. En dautres termes ce n'est pas une
variable alatoire.
Le Modle Complet peut donc scrire comme
1.
t t t
Y = + X + u
2.
2
t
u ~ N(0, )
3.
t s
E(u , u ) = 0 t s \ =
4. X est non stochastique
5.
t t t t t t
Cov(u , X ) = E((u - E(u )(X - E(X )) = 0
Quelles sont les inconnues dans le modle ci-dessus?
2
, , ,
trois paramtres inconnus estimer. Un modle satisfaisant les
hypothses 1 5 est connu sous le nom de Modle Classique de
Rgression Linaire. Nous avons spcifi le modle de rgression
de manie complte. Regardons quelques unes de ses
caractristiques.
11
t t t
Y = + X + u
do
t t
E(Y ) = + X
cest dire que la moyenne de Y nest rien dautre que
t
+ X .
On obtient ce rsultat car et sont des paramtres et X est
non stochastique c.a.d. que ce nest pas une variable alatoire.
Dautre part
2 2 2 2
t t t t t t t
Var(Y ) = E[Y - E(Y )] = E( + X + u - - X ) = E(u ) =
Mais
t t t
Y = + X + u
or dans lexpression
t t
+ X + u , et sont deux paramtres et
X nest pas une variable alatoire, donc seul
t
u est une variable
alatoire. Donc
( )
t t
Y f u =
Donc si u ~ N alors Y ~ N et donc on a le rsultat important suivant
2
t t
Y ~ N( + X , ) (1.4)
On peut illustrer le rsultat (1.4) graphiquement. Gomtriquement
une ligne de rgression est simplement l'ensemble des points
reprsentant la moyenne de Y pour des valeurs fixes de X.
12
t t
E(Y ) = + X est la PRF. Que mesurent et ?
mesure la valeur moyenne de Y correspondant X = 0
mesure le changement dans la valeur de la moyenne de Y
correspondant un changement unitaire de X
Cependant la PRF n'est pas connue, on doit donc l'estimer, cest
dire que l'on doit estimer et partir d'un chantillon. Quand
et sont estimes, on obtient alors une SRF(Sample
Regression Function). Si et sont estims par les
estimateurs

et , la SRF sera alors donne par la fonction

t t
Y X =
13
O
t
Y est un estimateur de ( )
t
E Y . est un estimateur de et
est un estimateur de
. Donc on peut crire

t t t t t
Y Y u X u = =
14
On peut voir le problme d'estimation des paramtres d'un modle
de rgression comme un problme d'estimation des paramtres d'une
distribution de probabilit de Y. En effet, comme on l'a dj vu
2
t t
Y ~ N( + X , )
Le problme donc d'estimation des paramtres, et
2
est
quivalent au problme d'estimation de la moyenne de Y et sa
variance. Ceci peut tre rsolu de plusieurs manires. Nous
allons dcrire ici la procdure dite OLS. Notre objet est d'obtenir
un estimateur qui aurait autant de proprits statistiques dsirables
que possible. Un tel estimateur pourra alors tre utilis pour les
tests dhypothses (Infrence).
Avant daller plus loin, donnons un exemple qui clarifierait tout ce
qui vient dtre dit. Supposons une population de 56 familles.
Nous nous intressons la relation entre consommation des familles
(C) et le revenu disponible (Y). Nous partitionnons les 56
familles en 10 groupes de mme revenu, soit donc la table suivante
(toutes les donnes sont en dollars)
Tableau 1
Y
C
70 80 100 120 130 140 160 200 210 220

Consommation
par Famille
par Mois en
$
55
60
70
75
80
65
70
75
90
95
98
76
85
90
98
80
90
95
120
125
140
145
100
120
125
130
148
110
120
126
130
143
125
132
141
150
130
134
149
152
156
172
182
143
154
163
172
187
198
150
160
171
182
194
201
210
15
La table ci-dessus doit tre interprte de la faon suivante.
Correspondant un revenu de 70$ par mois, il y a cinq familles
ayant une consommation entre 55 et 80$ par mois. Similairement,
pour un revenu de 220$ par mois, il y a 7 familles ayant une
consommation mensuelle entre 150 et 210 $ et ainsi de suite. En
dautres termes, chaque colonne de la table nous donne la
distribution conditionnelle de la consommation (C) pour un niveau
de revenu (Y) fix.
A partir de cette table, nous pouvons calculer par exemple la
probabilit conditionnelle de C pour un Y donn. Par exemple
quelle est la probabilit dobtenir une consommation de 80$ pour un
revenue de 70$, et on crira ( 80/ 70) p C Y = = . Puisque lon a cinq
familles dans la catgorie de revenu gal a 70$, alors
1
( 80/ 70)
5
p C Y = = =
de la mme faon
1
( 140/ 120)
7
p C Y = = =
Nous pouvons aussi calculer les moyennes conditionnelles soit
( / ) E C Y . Par exemple
5
1
1 55 60 70 75 80
( / 70) 68
5 5
i
i
E C Y Y
=

= = = =
_
la table ci-aprs nous donne les moyennes conditionnelles pour
chaque niveau de revenu.
16
Tableau 2
La moyenne conditionnelle nest rien dautre que lesprance
mathmatique. Tableaux 1 et 2 peuvent tre mis graphiquement,
soit la figure 6.
Y
C
70 80 100 120 130 140 160 200 210 220

Consommation
par Famille par
Mois en $
55
60
70
75
80
65
70
75
90
95
98
76
85
90
98
80
90
95
120
125
140
145
100
120
125
130
148
110
120
126
130
143
125
132
141
150
130
134
149
152
156
172
182
143
154
163
172
187
198
150
160
171
182
194
201
210
( / ) E C Y 68 82.16 87.25 113.57 124.6 125.8 137 153.57 169.5 181.14
17
Le graphique 6 montre clairement la distribution conditionnelle de la
consommation correspondant divers valeurs de revenu. Bien quil
y ait des diffrences de consommation entre familles, le graphique
montre clairement que la consommation augmente en moyenne avec
le revenu, en effet, la moyenne conditionnelle augmente. Toutes
les moyennes conditionnelles sont sur une mme ligne, la ligne de
rgression. En dautres termes donc, la ligne de rgression nest
rien dautre que lensemble des points reprsentant les moyennes
conditionnelles. Pour tout revenu donn, il existe une population de
valeurs de la consommation dont on fait lhypothse quelle est
normalement distribue, soit la figure 7.
18
Il est clair que la moyenne conditionnelle ( / )
i
E C Y est une fonction
de Y. Symboliquement donc on crira
( / ) ( )
i i
E C Y f Y =
plus explicitement
( / )
i i
E C Y Y = (1.5)
o et sont des paramtres fixes. Equation (1.5) nest rien
dautre que la PRF. Quel est maintenant le lien entre
consommation familiale et moyenne. Nous pouvons voir dans le
tableau 1 que la consommation familiale naugmente pas
ncessairement avec le revenu. Par exemple pour un revenu de
80$ il y a une famille qui consomme seulement 65$ ce qui est
infrieur la consommation de trois familles dont le revenu est de
19
70$. Nous pouvons donc crire pour chaque niveau de revenu la
relation suivante
( / )
i i i
u C E C Y =
ou encore
( / )
i i i
C E C Y u = (1.6)
qui daprs quation (1.5) peut encore scrire comme
i i i
C Y u = (1.7)
Equation (1.6) postule que la consommation par famille
correspondant un revenu donn est gale la moyenne de la
consommation de toutes les familles avec ce revenu plus une
quantit positive ou ngative qui est alatoire.
Remarque Dire que la ligne de rgression passe par les points
de moyenne cest aussi dire que la moyenne conditionnelle de u
est gale zro. En effet si
( / )
i i i
C E C Y u =
alors en prenant les esprances de part et dautre
( / ) ( / ) ( / )
i i i
E C Y E C Y E u Y =
do
( / ) 0
i
E u Y =
Les donnes dans le tableau 1 constituent la population. En
ralit, nous ne disposons jamais de la population mais plutt dun
chantillon. Supposons donc que les donnes dans le tableau 1
20
nous taient inconnues et que nous disposions que dun chantillon
soit le tableau 3 ci-dessous
Tableau 3
Y C
70 70
80 65
100 76
120 90
130 120
140 126
160 132
200 152
210 163
220 171
La relation entre Consommation et Revenu peut tre mise dans un
graphique Cartsien, soit la figure 8.
21
Avant d'aller plus loin essayons de voir que reprsente u le rsidu.
(i). Omission de Variables. C'est le problme dit de lerreur de
Spcification. L'quation est mal spcifie en ce sens que d'autres
variables peuvent aussi jouer cte de la variable choisie.
(ii). Indtermination humaine. Le comportement humain est
erratique en ce sens que diffrentes actions peuvent tre prises
sous des conditions similaires.
(iii). Erreur de mesure. Il est possible que la variable tant
explique soit mesure avec erreur cause des problmes de
collecte des donnes.
22
1.2.2 Procdure Destimation, La Mthode OLS
Soit le modle de rgression

t t t
Y X u =
do
t t t
Y Y u =
il vient donc ncessairement que
t t t
u Y Y =
Critre 1 Soient T observations sur Y et X, on veut dterminer la
SRF de telle manire ce qu'elle soit aussi proche que possible
de Y actuel(la valeur observe sur Y). Donc on veut choisir la
SRF tel que Min
( )
t t t
u Y Y

.
Figure 9 La Mthode
( )
t t t
u Y Y

23
La mthode n'est pas bonne car les
t
u reoivent les mmes poids.
Supposez par exemple que
1 2 2 4
10 u 2 u 2 u 10 u
donc
0
t
u =
_
1
u et
2
u reoivent les mmes poids alors mme quils sont plus
loigns que
3
u et
4
u .
Critre 2 Le Critre des Moindre Carrs (OLS)
Il sagit ici de minimiser la somme des carrs des rsidus
2
t
u
_
.
Soit donc la fonction objective minimiser
2 2 2

( ) ( )
t t t t t
u Y Y Y X = =
_ _ _
Minimiser cette fonction revient prendre les drives partielles par
rapport et
et galiser ainsi ces drives zro. Les deux

quations ainsi drives peuvent tre rsolues pour et
. Soit
donc
2 2
( )
t t t
S u Y X = =
_ _
il vient alors
2 ( ) 0
t t
S
Y X
= =
_
et
24
2 ( ) 0
t t t
S
Y X X
= =
_
on obtient alors
( ) 0
t t
Y X =
_
(1.8)
do
0
t
u =
_
et
( ) 0
t t t
Y X X =
_
(1.9)
do
0
t t
u X =
_
Equations (1.8) et (1.9) sont appeles les Equations Normales.
De ces quations on obtient les quantits suivantes
t t
Y T X =
_ _
(1.10)
2
t t t t
Y X X X =
_ _ _
(1.11)
On a donc deux inconnues et deux quations. Le systme (1.10)
- (1.11) peut tre rcrit comme
2
t t
t t t t
T X Y
X X Y X
l l l
l l l
=
l l l
l l l
l l l
_ _
_ _ _
25
Do par la mthode de Cramer, on obtient les quantits suivantes
Y X = (1.12)
et
2
( )( )
( )
t t
t
X X Y Y
X X
_
_
(1.13)
si on pose
t t
x X X = et
t t
y Y Y = , alors quation (1.13) peut
tre rcrite comme
2
t t
t
x y
x
=
_
_
(1.14)
1.3 Proprits de la SRF
26
1. Les estimateurs obtenus sont uniquement fonction de quantits
observables
2. Ils sont des points estimateurs
3. La ligne de rgression passe par les points ) , ( Y X . En effet

t t
Y X =
si donc
t
X X = , alors

t
Y X Y X X Y = = =
4.
Y Y = . Cela veut dire que la Moyenne Estime = Moyenne

Actuelle, Ce rsultat est facilement dmontrable. En effet,

( ) ( )
t t t t
Y X Y X X Y X X = = =

( )
t t
Y Y X X =
_ _ _

t t
Y Y Y TY Y Y = = = = =
_ _ _
5. La moyenne des rsidus = 0. Ce rsultat est vident si on
regarde lquation (1.8), la premire quation normale.
6. Les rsidus sont uncorrls avec les X
t
. Ici aussi, ce rsultat
est obtenu directement de lquation (1.9).
(u )( ) ( ) 0
t t t t t t t t t
u X X u X X u X X u u X = = = =
_ _ _ _ _
7. Les rsidus sont uncorrls avec les
t
Y , ce qui veut dire que
(u , ) 0
t t
Cov Y = . En effet,
27

( ) 0
t t t t t t t
Yu X u u X u = = =
_ _ _ _
Remarque

t t t
Y X u =
donc on peut crire
t t
Y T X =
_ _
Do
t t
Y X
T T
=
_ _
Alors
Y X =
Mais
t t t
Y X =
Donc
( )
t t t
Y Y X X u =
ou encore
t t t
y x u = (1.15)
ce qui implique que
28
t t
y x = (1.16)
c'est dire qu'en forme dviationnelle l'intercepte n'existe pas.
1.4 Le Coefficient de Dtermination : le R
2
Le R
2
indique la proportion de variation dans la variable endogne
qui est explique par la variable exogne. Pour driver la formule
du R
2
, on part de lexpression suivante

t t t
y y u =
en sommant cette dernire expression
2 2 2 2 2 2 2
2 ( )
t t t t t t t t t
y y u y u y u Y Y u = = =
_ _ _ _ _ _ _ _
Donc
2 2 2 2
t t t
y x u =
_ _ _
do
2 2 2 2
( ) ( )
t t t
Y Y X X u =
_ _ _
(1.17)
Dfinissons la quantit TSS, Total Sum of Squares, ESS, Explained
Sum of Squares, et RSS, Residual Sum of Squares.
2
( )
t
Y Y
_
= TSS
2 2
( )
t
X X
_
= ESS
2
t
u
_
= RSS
29
Equation (1.17) stipule que
TSS = ESS + RSS (1.18)
Divisons cette dernire par TSS, on obtient alors
ESS RSS
+ 1
TSS TSS
=
Dfinissons
2
ESS
R =
TSS
. R
2
mesure donc la proportion de la somme
explique par rapport la somme totale.
2
0 R 1. _ _
Graphiquement, la dcomposition (1.18) peut tre vue dans le
graphique ci-dessous.
On peut donner une formule pour R
2
.
30
2 2
2 2
2 2
t t
t t
y x
ESS
R
TSS y y
= = =
_ _
_ _
(1.19)
Soit r le coefficient de corrlation. Celui-ci peut tre calcul de
deux manires, une manire indirecte soit
2
r R = (1.20)
soit de manire directe
2 2
t t
t t
x y
r
x y
=
_
_ _
(1.21)
De manire gnrale
1 1 r _ _
Quelle diffrence y-a-t-il entre coefficient de dtermination et
coefficient de corrlation ? Bien que ces deux concepts soient lis,
ils sont totalement diffrents. Le coefficient de corrlation entre
deux variables X et Y mesure le degr dassociation entre ces
deux variables. Dans cette optique, les deux variables X et Y
sont traites symtriquement, cest dire quil ny a pas de
distinction entre variable endogne et variable exogne. En dautres
termes le coefficient de corrlation ne mesure pas la direction de
causalit entre deux variables. Au contraire dans le coefficient de
dtermination les variables sont traites asymmtriquement, cest
dire quune variable est endogne et lautre exogne, dit autrement,
le coefficient de dtermination mesure la direction de causalit entre
deux variables.
A quoi sert le coefficient de corrlation ? la rponse est
dcevante, pas grand chose. Quelques exemples vont illustrer ce
31
point. On observe une forte corrlation entre consommation deau
et vente de lunettes de soleil. Daprs notre dfinition, il y a un
fort degr dassociation entre ces deux variables, et point final.
Mais nous ne pouvons dire que la consommation deau cause le
port de lunettes de soleil, moins que la consommation deau
fasse mal aux yeux et nous oblige par consquent porter des
lunettes de soleil. Nous ne pouvons non plus dire que le port de
lunettes de soleil provoque lenvie de boire. Ce que nous prenons
donc pour une cause nest rien dautre quune simultanit. Il est
bien vident daprs notre discussion que les deux variables
consommation deau et port de lunettes de soleil sont relies une
troisime variable, la chaleur. Donc bien que la forte corrlation
entre eau et lunettes de soleil soit intressante en tant que telle,
elle ne dfinit pas une causalit. Pour cela il faut penser un
modle explicative, lestimer et utiliser le
2
R et non le coefficient de
corrlation.
De plus le coefficient de corrlation nous donne des rsultats assez
souvent sans intrt, cest le cas des concidences. En effet de
nombreuses variables sont trs souvent croissantes sur une longue
priode. Elles prsenteront donc des coefficients de corrlation
linaire assez levs sans quaucun lien de causalit nexiste entre
elles. Le PIB Marocain et le taux de mortalit des lphants en
Afrique, la population Bolivienne et le prix du
2
m dans le centre
ville de Tokyo, les ventes totales de Toyota et le nombre
dcrivains dans le monde etc
Le lien entre causalit et corrlation peut donc se synthtiser de la
manire suivante
Causalit = Corrlation
Corrlation = Causalit
32
Exemple 3 Dans une estimation de la variable Consommation des
mnages(C) contre Revenu des mnages(Y)(les donnes sont
dans le tableau 3), on trouve les rsultats suivants
2

=13.918 0.71736
0.956047
t t t
C Y Y
R
=
=
Comment interprter les valeurs numriques des estimateurs et le
2
R ?. Concernant la pente(
0.71736 = ), celle-ci nous dit la chose

suivante, si le revenu augmente de 1$, la consommation
augmenterait en moyenne de 0.71$.
3
Concernant
lintercepte( 13.918 = ), il est tentant de dire que pour un revenu
gal zro, la consommation serait en moyenne de 13.9$. Les
consommateurs dspargneraient. Cependant bien que cette
interprtation soit valide dans le cas de notre modle Cons-Rev, ce
type dinterprtation nest pas toujours adquat comme nous le
verrons par la suite.
2
R nous dit ici que environ 95% des variations de la consommation
des mnages est explique par le revenu des mnages. En
dautres termes, le revenu explique environ 95% des variations de
la consommation. Bien videmment, les 5% restants sont ds aux
rsidus, c.a.d. ce que notre modle nexplique pas.
4
Exemple 4 Comment interprter les estimateurs si les donnes
taient mesures en milliers de dollars plutt quen dollars. Dans
3
La pente ici nest rien dautre que la fameuse propension marginale
consommer.
4
Un modle dans lequel la variable exogne explique 100% des variations de
la variable endogne serait trs douteux.
33
ce cas si le revenu augmente de 1000$, la consommation
augmenterait en moyenne de 710$.
Vous pouvez remarquer deux choses dans linterprtation que nous
avons faite des estimateurs. Premirement, les units de mesure
sont importantes puisque ce sont elles qui nous aident interprter
correctement nos rsultats. Deuximement, vous remarquerez le
terme en moyenne. En effet, les consommations
individuelles(dans notre cas les consommations/famille) ne nous
intressent pas, elles peuvent diminuer ou augmenter, ce nest pas
important, ce qui nous intresse plutt cest le comportement moyen
cest dire la consommation moyenne.
5
5
La Science Economique est une science des moyennes. Par exemple si le
prix dune marchandise augmente, je ne peux prdire ce que fera un individu
particulier, mais je peux prdire quen moyenne les consommateurs de cette
marchandise diminueront leur quantit demande.

Chap 1 Le Modele Classique de Regression Lineaire Simple2013

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap 1 Le Modele Classique de Regression Lineaire Simple2013

Transféré par

Droits d'auteur :

Formats disponibles

Universit Cadi Ayyad

Facult des Sciences Juridiques Economiques et Sociales

70 80 100 120 130 140 160 200 210 220

70 80 100 120 130 140 160 200 210 220

et galiser ainsi ces drives zro. Les deux

Y Y = . Cela veut dire que la Moyenne Estime = Moyenne

0.71736 = ), celle-ci nous dit la chose

Vous aimerez peut-être aussi