Vous êtes sur la page 1sur 34

Sance 2 Le modle de rgression simple

Emmanuel Flachaire

conomtrie Applique

Le modle de rgression

Le modle de rgression est l'outil principal de l'conomtre Qu'est ce que l'analyse de rgression ? L'analyse de rgression est l'tude de la relation entre une variable dpendante ( ) et une ou plusieurs autres variables
k

y explicatives (x1 , x2 , ..., x

Dans le cas d'une rgression simple, nous nous limitons au cas d'une seule variable explicative ( ). Il est alors possible de reprsenter graphiquement le nuage de points des donnes observes.

Emmanuel Flachaire

conomtrie Applique

Le modle de rgression : un exemple

La relation entre les 2 variables peut tre exprime par une droite

Emmanuel Flachaire

conomtrie Applique

Le modle de rgression : un exemple

Dans cet exemple, l'quation d'une droite permet d'exprimer la relation entre les deux variables :

y =+x
Nanmoins, tous les points ne passent pas par cette droite On introduit un terme d'erreur dans la relation :

y =+x +

est un terme alatoire ayant des proprits statistiques La relation n'est plus dterministe, elle devient stochastique, les coecients

et

ne sont plus calculs, ils sont estims

Emmanuel Flachaire

conomtrie Applique

Le modle de rgression : problmatique

Soit le modle de rgression linaire

y =+x +
L'analyse de rgression comporte deux aspects essentiels :

Estimation : l'estimation consiste trouver les valeurs des paramtres

et

de telle sorte que la droite passe au mieux

dans le nuage de points Infrence : l'infrence consiste dterminer dans quelle mesure les valeurs estimes de adquat

et

sont des approximations plus ou

moins prcises des vraies valeurs et tester si le modle est

Emmanuel Flachaire

conomtrie Applique

Estimation des paramtres


Comment choisir les valeurs de

et

On veut la droite qui passe au mieux dans le nuage de points

et

t.q. les distances des points la droite soient minimises

Emmanuel Flachaire

conomtrie Applique

Estimation des paramtres: les MCO

La mthode des Moindres Carrs Ordinaires (MCO) est la plus couramment employes pour trouver la droite qui passe au mieux dans un nuage de points On mesure les carts de chaque points la droite (en vertical), que l'on lve au carr pour obtenir une distance. La mthode des MCO consiste minimiser la somme de ces distances Notation:
yi est la i

me

observation de la variable dpendante

yi est la valeur ajuste/prdite de yi sur la droite de rgression


i

est le rsidu, yi

Emmanuel Flachaire

conomtrie Applique

Estimation des paramtres

Emmanuel Flachaire

conomtrie Applique

Estimation des paramtres : principe

Pour un chantillon de

2 + 2 + 2 + 2 + 2 + + 2 , 1 2 3 4 5
n

n observations, on minimise donc


ou encore
n i

2 =1 i , la y

somme des carrs des rsidus (SCR)

Qu'est ce que
i

? C'est la dirence entre le valeur observe


i

et sa valeur correspondante sur la droite de rgression

Autrement dit: Minimiser est quivalent Minimiser ou encore Minimiser SCR par rapport
n i n i

=1 (i

y )2
i

= 1 i

et

Emmanuel Flachaire

conomtrie Applique

Estimation des paramtres : calculs

On cherche les valeurs de

et

qui minimisent la SCR :

1. on crit SCR en fonction des paramtres

et

2. on pose la drive de cette fonction p/r 3. on pose la drive de cette fonction p/r

gale 0 gale 0

4. on rsoud ce systme de 2 quations 2 inconnues Les valeurs qui rsolvent ce systme de 2 quations 2 inconnues, nots

et

sont appels les paramtres estimes des MCO

Emmanuel Flachaire

conomtrie Applique

Estimation des paramtres : calculs

1.

Sachant que

=y + =+x + ,
i i i i

on a :

SCR
2.

=
i

(y x )2
i i

=1

La drive de SCR par rapport

est gale :

SCR = 2
3.

(y x ) = 0
i i

=1

La drive de SCR par rapport

est gale :

SCR = 2

x (y
i

x )=0
i

=1

Emmanuel Flachaire

conomtrie Applique

Estimation des paramtres : calculs

4.

On rsoud le systme de 2 quations 2 inconnues suivant :

SCR / = 0 SCR / = 0
Comme

et

y n x y x
i i i

=0

x2 = 0
i

= ny

= nx ,

la 1re quation se rcrit:

y x =0
On peut ensuite remplacer

=y x y x :

dans la 2me quation par

xy
i

( x ) nx y

x2 = 0
i

C'est une quation une seule inconnue. En la rarrangeant, on peut identier

en fonction des seules valeurs observes de

et

x.

Emmanuel Flachaire

conomtrie Applique

Estimation des paramtres : calculs


4. (suite)

xy
i

( x ) nx y ny x + nx 2
i i

x2 = 0
i

xy
i

x2 = 0
i


On montre
i

x 2 nx 2

xy
i

ny x
i

x 2 nx = nVar (x ) et

xy
i

ny x = nCov (x , y ).1

Par consquent, on a :

[nVar (x )] = nCov (x , y ) = Cov (x , y )/Var (x )


P P 2 P P 1 2 ( 2 P x 2 2x x + nx 2 = P nVar (x ) = (x x ) = 2x 2x x + x ) = P 2 x nx et nCov (x , y ) = [(x x )(y y )] = P x 2x nx + nx = P P [x y x y y x + x y ] = x y nx y ny x + nx y = x y ny x Emmanuel Flachaire conomtrie Applique
i i i i i i i i i i i i i i i i i

Estimation des paramtres : MCO

Soit le modle de rgression linaire :

y =+x +
Les estimateurs MCO des paramtres sont :

Cov (x , y ) Var (x )

et

=y x

(1)

Sur la base d'un chantillon de valeurs observes, les paramtres estims par MCO de la droite de rgression sont obtenus en appliquant ces formules.

Emmanuel Flachaire

conomtrie Applique

Estimation des paramtres : interprtation

Soit le modle de rgression

y =+x +
L'estimation par MCO fournit les rsultats suivants :

y =+x
1. Le coecient unit,

y augmente de units

est la pente de la droite : si

x x

augmente de 1

2. Le coecient est gal

est l'ordonne l'origine : si

est gal 0,

Emmanuel Flachaire

conomtrie Applique

Estimation des paramtres : interprtation


La valeur ajuste

y est une estimation de la moyenne de y sachant x , c'est--dire de la moyenne de y conditionnelle x , note E (y |x ).


Soit le modle de rgression linaire :

y =+x +
Si on applique une esprance conditionnelle

(2)

aux 2 termes, on a :

E (y |x ) = E ( + x + |x ) = + x + E (|x )
Si

E (|x ) = 0, la rgression linaire (2) est quivalente : E (y |x ) = + x


(3)

Pour des valeurs estimes des paramtres, on a :

E (y |x ) = + x = y
Emmanuel Flachaire conomtrie Applique

Estimation des paramtres : interprtation

Soit le modle de rgression

y =+x +
y =+x
1. Si

E (y |x ) = + x E (y |x ) = + x

L'estimation par MCO fournit les rsultats suivants :

x augmente de 1 unit, y augmente de units Si x augmente de 1 unit, y augmente en moyenne de units Si x augmente de 1 unit, l'augmentation espere de y est
Si

2. Si

x x

est gal zro, la valeur de

est gal zro, la valeur moyenne de

y est gale y est estime

Emmanuel Flachaire

conomtrie Applique

Le modle de rgression : interprtation

Attention : mieux vaut ne pas interprter de

s'il n'y a pas de valeurs

proches de 0 dans l'chantillon

Emmanuel Flachaire

conomtrie Applique

Estimation des paramtres : exemple 1

Soit un chantillon sur le salaire horaire en euros ( ) et le nombre d'anne d'tudes au del du baccalaurat ( ) d'un grand nombre de personnes ayant le bac. Les rsultats de l'estimation par MCO d'un modle de rgression linaire sont les suivants :

y = 9.74 + 1.25 x
1.

: pour 1 anne d'tude supplmentaire, le salaire horaire

augmente en moyenne de 1.25 euros 2. : le salaire horaire moyen des individus ayant juste le bac est

estim 9.74 euros

Emmanuel Flachaire

conomtrie Applique

Estimation des paramtres : exemple 2


Soit un chantillon sur les taux de rendement excdentaires du titre IBM

2 ( ) et du CAC40 ( ), pour lequel on obtient les rsultats

suivants :

y = 0.24 + 1.64 x

1.

: lorsque le taux de rendement excdentaire du CAC40

augmente de 1 units, celui du titre IBM augmente en moyenne de 1.64 units 2.

: lorsque le taux de rendement excdentaire du CAC40 est

nul, celui du titre IBM est en moyenne de -0.24. Si un analyste nancier s'attend ce que l'an prochain le march donne un rendement 20% plus lev que pour un placement sans risque, vous pouvez lui dire que le rendement espr du titre IBM serait pour sa part 32.8% plus lev (=100*[1.64*0.2]) .

c'est la dirence entre le taux de rendement du titre IBM et celui obtenu avec un placement sans risque
Emmanuel Flachaire conomtrie Applique

Modle de rgression et PGD


Lorsqu'on considre le modle de rgression linaire suivant :

y =+x +
On suppose que le processus qui a gnr les donnes (PGD) est

y = 0 + 0 x +
o

et

sont des valeurs inconnues.

Avec un chantillon, on obtient une estimation du modle :

y =+x +
Autrement dit, Question:

et

sont des estimations de

et

dans quelle mesure

et

sont-elles de bonnes

approximations des vraies valeurs

et

Emmanuel Flachaire

conomtrie Applique

Qualit des estimateurs MCO

Question:

dans quelle mesure

et

sont-elles de bonnes

approximations des vraies valeurs

et

Pour rpondre cette question, il faut tudier 1. les proprits des estimateurs MCO Gauss-Markov 2. la prcision des estimateurs MCO 3. laabilit des estimateurs MCO

thorme de

carts-type

infrence statistique

Emmanuel Flachaire

conomtrie Applique

Proprites des estimateurs : les hypothses du modle

Soit le modle de rgression

y
Le terme d'erreur

=+x +
i

est alatoire et a des proprits statistiques.

Les hypothses classiques sur le terme d'erreur du modle sont : 1. 2. 3. 4.

E ( ) = 0 : la moyenne des erreurs est nulle Var ( ) = : la variance des erreurs est constante Cov ( , ) = 0 : les erreurs sont satistiquement indpendantes Cov ( , x ) = 0 : pas de relation entre l'erreur et le rgresseur3
i i i j i i

Cette hypothse est vrie si x est suppos non-stochastique, dterministe


Emmanuel Flachaire conomtrie Applique

Proprites des estimateurs : Thorme de Gauss-Markov


Thorme de Gauss-Markov : sous les hypothses classiques du modle de rgression, les estimateurs

et

meilleurs estimateurs linaires sans biais

des MCO sont ils sont BLUE.

les

Best : ce sont les estimateurs qui ont la plus petite variance, parmi la classe des estimateurs sans biais Linear : ils sont linaires par rapport Unbiased : en moyenne, les valeurs de vraies valeurs Estimator : et

y

et

sont gales leurs

0 et 0 et sont des

approximations des vraies valeurs

Autrement dit, il n'existe pas d'autres estimateurs sans biais qui soient plus prcis que ceux des MCO

ce sont les meilleurs.

Emmanuel Flachaire

conomtrie Applique

Proprites des estimateurs

1. Convergents : les valeurs estimes se rapprochent des vraies valeurs lorsque

n augmente l'inni

lim Pr
n

| 0 | > = 0

> 0

C'est une hypothse de validit, sinon l'estimateur est inutile 2. Sans biais : convergence 3. Ecients : un estimateur est ecient s'il est sans biais et de variance minimale estime

= 0 ,

c'est une hypothse plus forte que la

la probabilit d'obtenir une valeur

loigne de la vraie valeur

est minimise

Emmanuel Flachaire

conomtrie Applique

Prcision des estimateurs : les carts-types

1. Les valeurs estimes

et

sont spciques un chantillon :

avec un chantillon dirent on obtient des valeurs direntes 2. Une mesure de leur prcision est indispensable : sans elle, aucune conclusion ne peut etre tire 3. La prcision d'une valeur estime est donne par son cart-type 4. L'cart-type indique quelle est, en moyenne, la distance entre les valeurs estimes

et la vraie valeur

Emmanuel Flachaire

conomtrie Applique

Prcision des estimateurs : les carts-types

Soit le modle de rgression

y =+x + Cov (x , y ) Var (x ) x2 n2 Var (x )


i

IID (0, 2 )

Les estimateurs MCO des paramtres sont :

et

=y x

Leurs variances sont gales :

2 = 2

et

2 = 2

nVar (x )

est un paramtre inconnu. Il faut le remplacer par une valeur

estime pour pouvoir utiliser ces mesures en pratique.

Emmanuel Flachaire

conomtrie Applique

Prcision des estimateurs : les carts-types

1. La variance du terme d'erreur est gale

2 = Var () = E ( E ())2 = E 2
Elle peut etre estime par la moyenne des

2
i

2. La moyenne des carrs des rsidus est un estimateur convergent de cette variance :

2 =

n
1

2 =
i

SCR n SCR n2

mais il est biais. Un estimateur sans biais est :

2 =
4

n2
i

2 =
i

est un estimateur convergent de qui lui, est inobservable Emmanuel Flachaire conomtrie Applique
i

Prcision des estimateurs : les carts-types

Soit le modle de rgression

y =+x +
paramtres sont

IID (0, 2 )

(4)

Sous les hypothses classiques, les estimateurs MCO des

Cov (x , y ) Var (x ) x2 n2 Var (x )


i

et

=y x

Leurs carts-types sont :

et

nVar (x )

Emmanuel Flachaire

conomtrie Applique

Prcision des estimateurs : Commentaires

Les carts-types sont :

x2 n2 Var (x )
i

et

nVar (x )

Ces estimateurs sont d'autant plus prcis que : 1. 2. 3.

n est grand la taille de l'chantillon est leve Var (x ) est grand les valeurs de x

est petit sont disperses

les rsidus sont peu disperss

Emmanuel Flachaire

conomtrie Applique

Prcision des estimateurs : Commentaires

L'estimateur est d'autant plus prcis que autrement dit les valeurs de

Var (x ) est grand,

sont disperses

Emmanuel Flachaire

conomtrie Applique

Prcision des estimateurs : Commentaires

L'estimateur est d'autant plus prcis que les rsidus sont peu disperses

est petit, autrement dit

Emmanuel Flachaire

conomtrie Applique

Prcision des estimateurs : Commentaires

Les rsultats de l'estimation d'un modle de rgression linaire

y =+x +
sont habituellement prsents comme suit :

y = 0.5912 +
(0.034)
ou encore

(0.011)

0.35

y = 0.5912 +
(0.034)

(0.011)

0.35

x +

Les carts-type sont indiqus entre parenthses.

Emmanuel Flachaire

conomtrie Applique

L'infrence statistique

Voir les transparents de Brooks partir de :

An Introduction to Statistical Inference

Emmanuel Flachaire

conomtrie Applique

Vous aimerez peut-être aussi