Vous êtes sur la page 1sur 59

La rgression simple

Expliquer un estimateur et le paramtre


estimer. Pourquoi le premier est alatoire et le
second non alatoire
Discuter et interprter le sens de la constante et
la pente
Expliquer la dcomposition dune variable y en
une composante systmatique et composante
alatoire
Discuter et expliquer chacune des hypothses
dune rgression linaire dun modle
Expliquer la faon dont OLS estime une droite
dajustement ; expliquer les rsidus et
lestimation de la variable dpendante
Dfinir llasticit de y en respectant x
1.1 Le modle conomtrique
Supposant quon sintresse ltude de la
relation entre le revenu des mnages et les
dpenses alimentaires. Considrant, quon
choisit un mnage dune manire alatoire, la
population tudie est lensemble des mnages
dans une ville, dans une rgion, dans un pays.
Supposant, quon est intress par un mnage
qui gagne 1000$ par semaine. Pour cette
exprience on a slectionn alatoirement un
nombre de mnages appartenant la population
1 2 t t t
Y X u = + +
(1.1)
Ou y est la variable dpendant, endogne expliquer, X est
la variable explicative, exogne , indpendante
1 2
et
sont des paramtres estims et u un terme
alatoire. On pourrait aussi crire ce modle :
/ 1 2
( / )
Y X
E Y X X = = +
La fonction E(Y/X) est appele la fonction
de rgression simple, est dite simple non
par rfrence facile mais dans le sens
quil y a une seule variable explicative
Pour un modle de dpenses alimentaire
reprsente les dpenses alimentaires
moyennes par semaine lorsque le revenu
est nul ; reprsente le changement dans
E(Y/X) suite un changement unitaire du
revenu hebdomadaire, ce quon nomme
propension marginale a dpenser
1

2
( / ) ( / ) E Y X dE Y X
X dX


= =

(1.2)
Le modle conomique
rsume ce que dit la thorie sur la relation
entre revenu des mnages et les
dpenses alimentaires. Les
paramtres sont des paramtres de la
population
1 2
( / ) E Y X X = +
1 2
et
2.2 Modle conomtrique
Le modle dcrit le
comportement conomique dans un sens abstrait .
Si on prend un chantillon alatoire des mnages
avec un revenu hebdomadaire X = 1000$ on
connat donc que
Si on veut chantillonner un notre niveau des
dpenses on prend
1 2
( / ) E Y X X = +
/ 1 2
( / 1000) (1000)
Y X
E Y X = = = +
1 2
( / ) E Y X X = +
Le graphique ci-dessus que pour chaque
niveau du revenu moyenne correspond
une valeur des dpenses des mnages
Afin de complter le modle
conomtrique certaines hypothses sont
ncessaires
Dans le graphiques ci-dessus la variance
des valeurs de Y autour de sa moyenne
est
on pourrait faire la mme hypothse sur la
dispersion des valeurs du revenu
2
var( / 1000) Y X = =
Les distributions de deux revenus peuvent
tre diffrentes en moyenne mais elles ont
une variance identique
La constance de la variance signifie qu
chaque niveau de revenu X, les donnes
satisfaisant cette condition sont dites
homoscdastiques
Si cette hypothse nest pas
vrifie pour toute les valeurs de X, les donnes
sont dites htroscdastiques .
On dcrit lchantillon comme tant alatoire,
cette description signifie que lorsque les
donnes sont collectes statistiquement
indpendantes
lhypothse de lindpendance avec X non
alatoire
2
var( / ) Y X
( , ) 0 pour i j
i J
Cov Y Y =
2
: (0, ) u N
les hypothses
La valeur moyenne de Y pour chaque
valeur de X est donne
Pour chaque valeur de X, les valeur de Y
sont distribues autour de la moyenne
avec la mme distribution de probabilit
dont la variance
1 2
( / ) E Y X X = +
2
( / ) V Y X =
La covariance de Yi et Yj est nulle
X est non alatoire
( , ) 0 pour i j
i J
Cov Y Y =
2.2.1 introduction du terme
alatoire
Lessence de la rgression suppose que
Y se dcompose en deux partie ; une
partie systmatique et une partie
spcifique (alatoire) . la composante
systmatique est , la
composante alatoire est la diffrence
entre Y et E(Y/X) . cest ce quon appelle
terme alatoire
1 2
( / ) E Y X X = +
1 2
( / ) u Y E Y X Y X = =
(1.3)
En rarrangeant (1 .3) ; on obtient le
modle de rgression simple
1 2
Y X u = + +
(1.4)
variable endogne, X variable exogne et u
terme alatoire
Lquation montre que Y et u diffrent
seulement par le terme
1 2
( / ) E Y X X = +
et qui nest pas alatoire alors que Y
et u le sont
la valeur moyenne du terme alatoire
tant donn X est nulle. Y est u diffrent
donc par une constante ( un facteur qui
n est pas alatoire ; leur variance est
identique : . Les fonctions de densit
sont identiques sauf pour leur
emplacement
1 2
( / ) ( / ) 0 E u X E Y X X = =
2

Les hypothses des OLS


H1 : chaque valeur de Y, pour toute valeur de
X, est donne
H2 : ce qui est quivalent
H3 : la variance du terme alatoire
les variables Y et u ont la mme variance mais
diffrent au niveau de la constante
1 2 i i i
Y X u = + +
I mpossible dafficher limage.
1 2
( ) E Y X = +
2
( ) ( ) V u V Y = =
H4 : la covariance entre est nulle
H5 : la variable X est non alatoire
H6 :
Y est observable u est non observable
u reprsente lensemble des facteurs affectant
Y autres que X
On introduit X comme seule variable expliquant
les dpenses alimentaires Y, le reste des
facteurs sont inclus dans u
Le terme alatoire u capture toute approximation
suite lhypothse de la linarit
j
u
i
u et
I mpossible dafficher limage.
H6 :
Y est observable u est non observable
u reprsente lensemble des facteurs affectant
Y autres que X
On introduit X comme seule variable expliquant
les dpenses alimentaires Y, le reste des
facteurs sont inclus dans u
Le terme alatoire u capture toute approximation
suite lhypothse de la linarit

2
(0, ) u N
Le Principe de lOLS
1 2

i i
Y X = +
(1.5)
(1.6)
1 2

i i i i i
u Y Y Y X = =
Li near Regr essi on - Est i mat i on by Least Squar es
Dependent Var i abl e FOOD
Usabl e Obser vat i ons 40 Degr ees of Fr eedom 38
Cent er ed R**2 0. 385002 R Bar **2 0. 368818
Uncent er ed R**2 0. 917960 T x R**2 36. 718
Mean of Dependent Var i abl e 283. 57350000
St d Er r or of Dependent Var i abl e 112. 67518102
St andar d Er r or of Est i mat e 89. 51700453
Sumof Squar ed Resi dual s 304505. 17583
Regr essi on F( 1, 38) 23. 7888
Si gni f i cance Level of F 0. 00001946
Log Li kel i hood - 235. 50882
Dur bi n- Wat son St at i st i c 1. 893880
Var i abl e Coef f St d Er r or T- St at Si gni f
*******************************************************************************
1. Const ant 83. 416002021 43. 410163135 1. 92158 0. 06218242
2. I NCOME 10. 209642968 2. 093263531 4. 87738 0. 00001946
Linterprtation des estimateurs respecte le
contexte conomique pour lequel elle tait
effectue. La valeur comme
estimateur de (X reprsente les dpenses en
100$ alimentaires par mnage se qui signifie si
le revenu augmente de 100$ les dpenses
alimentaires augmentent de 10.21$
il faut tre trs prudent dans linterprtation de
dans notre cas on pourrait dire que lorsque X=0
les dpenses alimentaires exigent 83.42$
2

10.21 =
1

Llasticit
Llasticit du revenu est utile pour donner
la rponse des dpenses alimentaires
un changement du revenu
%de changement deY /
=
% de X /
Y Y Y X
elasticit
de changement X X X Y

= =

On sait que
2
( ) E Y
X

Alors llasticit des dpenses moyennes


en tenant compte du revenu est
2
E(Y)/Y ( )
=
/ ( ) ( )
E Y X X
elasticit
X X X E Y E Y


= =

(1.7)
2

10.21 =
( ; ) (283.57 19.60) Y X =
Afin destimer llasticit on remplace
par
, et en tenant du couple
2
19.60

= 10.21 0.71
283.57
X
elasticit
Y
= =
Un accroissement de 1% du revenu
implique un accroissement en moyenne
de 0.71% des dpenses alimentaires
Llasticit est infrieure un ce qui
implique que les dpenses alimentaires
sont une ncessit et non des dpenses
de luxe.
Les estimateurs OLS
( )( )
( )
2
2
2 2
( ; )

( )
i i i i
i i
X X Y Y X Y nXY
Cov X Y
Var X
X X X nX


= = =



1 2

Y X =
(1.8)
(1.9)
est un estimateur linaire puisquil peut
scrire
ou
nest pas alatoire puisquil ne dpend
que de X
2

i i
wY =

2
( )
i
i
i
X X
w
X X

i
w
(1.11)
(1.10)
2 2

i i
wu = +

(2.12)
Lesprance mathmatique des
estimateurs
est un estimateur sans biais
2 2

( ) E =
2 2 2 1 1 2 2

( ) ( ... )
i i n n
E E wu E wu w u w u

= + = + + + +

2 1 1 2 2
2 2 2
( ) ( ) ( ) ... ( )
( ) ( ) ( )
n n
i i i i
E E wu E w u E w u
E wE u wE u


= + + + +
= + = + =

(1.13)
Dans (1.13) on a utilis deus hypothses
Car w
i
nest pas alatoire
Et E(u
i
) = 0 si
( ) ( )
i i i i
E wu wE u =

2 2

( ) 0 ( )
i
E u E
1 1

( ) E =
Afin dillustrer la proprit de labsence de
biais, on prsente le tableau ci-dessous de
10 chantillons alatoires des dpenses
alimentaires de taille n = 40 observations
de la mme population qui ont le mme
niveau de dpenses
1

Echantillon
1
2
3
4
5
6
7
8
9
10
131.69
57.25
103.91
46.50
84.23
26.63
64.21
79.66
97.30
95.96
6.48
10.88
8.14
11.90
9.90
13.55
10.93
9.76
8.05
7.77
Tableau2.2
Notons la variabilit des estimateurs dun
chantillon lautre. Cette variabilit est
due la prise de 40 mnages diffrents
pour chaque chantillon.
La proprit du biais porte sur des
moyennes
La moyennes sur les 10 chantillons:
1

78.74 =
2

9.68 =
Si on avait pris les moyennes des estimateurs
issues de plusieurs chantillons approches les
vraies valeurs des paramtres
Lhypothse de labsence de biais ne dit pas que
lestimation issues dun chantillon donn donne
des estimateurs sans biais
Labsence de biais est lie la procdure OLS
Les variances et covariance des
estimateurs
Le tableau 2.2 donne les diffrentes
estimations des 10 chantillons, il tablit
aussi les variabilits dun chantillon
lautre .
On va maintenant chercher obtenir les
variances des estimateurs
2
2 2

2 2

( ) ( ) Var E

= =
Les deux densits ont mme moyenne mais
des diffrentes variances
( )
1
2
2 2
1
2

( )
i
i
X
Var
N X X





= =

( )
2
2
2

( )
i
Var
X X

( )
2
1 2
2

( ; )
i
X
Cov
X X


(1.14)
(1.15)
(1.16)
Les facteurs qui affectent aussi bien les
variances que les covariances
La variante du terme alatoire
2
touche
aussi bien les variances que les covariances
Si
2
est grande, les variances des
estimateurs les sont aussi. Les estimateurs
deviennent moins prcises
La somme des carts des valeurs par
rapport leur moyenne
apparat aussi bien dans les variances
que la covariance . Autant cet cart est
grand autant les estimateurs seront prcis
La taille de lchantillon n aussi grande
serait meilleur
Le terme dans
2
( )
i
X X

2
i
X
1

Les lois des estimateurs


( )
2 2
1;
2

: ( ; )
i
i
i
X
N
n X X

(1.18)
2
2 2
2

: ;
( )
i
N
X X

(1.17)
Estimation de la variance des
erreurs
Le terme
2
est inconnu
2 2 2

( ) ( ) ( )
i i i i
V u E u u E u = = =
Puisque E(u) = 0
2
2

2
i
u
n
=

(1.19)
1 2

i i i i i
u Y Y Y X = =
1
2
2 2

2

( )
i
i
X
n X X

1. .20
2
2
2

( )
i
X X

1.21
2
1 2
2

cov( ; )
( )
i
X
X X


1.22
1 1
2



=
1.23
2 2
2



=
1.24
2
2

304505.2
8013.29
2 38
i
u
n
= = =

2

89.517 = =
1 1 2
1 2 2
2

2


1884.442 85.90316
85.90316 4.381752








=




1

4 3 . 4 1 0

=
2

2 . 0 9 3

=
Le t de student
2
2 2
2

: ;
( )
i
N
X X

2 2
2 2

: (0;1)
( )
i
Z N
X X

2 2 2 2
2 2 2

/ ( ) / ( ) 1
i i
P t X X t X X



+ =




2

Si est inconnue, on lestime par


2
2

2
i
u
n
=

2
2 2 2 2
( 2)

2 2

( )
stat stat n
i
t t
X X



= = =

En gnral

i= 1 , 2

i
i i
tat
t

=
La distribution de student
Les intervalles de confiances
( )


( ) ( ) 1
i i
i stat i i stat
P t t

+ =
Exemple des dpenses
alimentaires
( )
2 2
2 2 2


2.024 2.024 0.95 P

+ =
2

4.38 2.09

= =
Do
( )
2
10.21 2.024 2.09 10.21 2.024 2.09 0.95 P + =
2
(5.97 14.45) 0.95 P =
1

Les tests dhypothses


exemple
0 1
: 0 contre H : 0
i i
H =
2
2

10.21

( ) 4.88
2.09
stat
t

= = =
(5%) 1.96
l
t =