Régression

Sance 2 Le modle de rgression simple
Emmanuel Flachaire
conomtrie Applique
Le modle de rgression
Le modle de rgression est l'outil principal de l'conomtre Qu'est ce que l'analyse de rgression ? L'analyse de rgression est l'tude de la relation entre une variable dpendante ( ) et une ou plusieurs autres variables
k
y explicatives (x1 , x2 , ..., x
Dans le cas d'une rgression simple, nous nous limitons au cas d'une seule variable explicative ( ). Il est alors possible de reprsenter graphiquement le nuage de points des donnes observes.
Emmanuel Flachaire
conomtrie Applique
Le modle de rgression : un exemple
La relation entre les 2 variables peut tre exprime par une droite
Emmanuel Flachaire
conomtrie Applique
Le modle de rgression : un exemple
Dans cet exemple, l'quation d'une droite permet d'exprimer la relation entre les deux variables :
y =+x
Nanmoins, tous les points ne passent pas par cette droite On introduit un terme d'erreur dans la relation :
y =+x +
est un terme alatoire ayant des proprits statistiques La relation n'est plus dterministe, elle devient stochastique, les coecients
et
ne sont plus calculs, ils sont estims
Emmanuel Flachaire
conomtrie Applique
Le modle de rgression : problmatique
Soit le modle de rgression linaire
y =+x +
L'analyse de rgression comporte deux aspects essentiels :
Estimation : l'estimation consiste trouver les valeurs des paramtres
et
de telle sorte que la droite passe au mieux
dans le nuage de points Infrence : l'infrence consiste dterminer dans quelle mesure les valeurs estimes de adquat
et
sont des approximations plus ou
moins prcises des vraies valeurs et tester si le modle est
Emmanuel Flachaire
conomtrie Applique
Estimation des paramtres

Comment choisir les valeurs de
et
On veut la droite qui passe au mieux dans le nuage de points
et
t.q. les distances des points la droite soient minimises
Emmanuel Flachaire
conomtrie Applique
Estimation des paramtres: les MCO
La mthode des Moindres Carrs Ordinaires (MCO) est la plus couramment employes pour trouver la droite qui passe au mieux dans un nuage de points On mesure les carts de chaque points la droite (en vertical), que l'on lve au carr pour obtenir une distance. La mthode des MCO consiste minimiser la somme de ces distances Notation:
yi est la i
me
observation de la variable dpendante
yi est la valeur ajuste/prdite de yi sur la droite de rgression

i
est le rsidu, yi
Emmanuel Flachaire
conomtrie Applique
Estimation des paramtres
Emmanuel Flachaire
conomtrie Applique
Estimation des paramtres : principe
Pour un chantillon de
2 + 2 + 2 + 2 + 2 + + 2 , 1 2 3 4 5
n
n observations, on minimise donc

ou encore
n i
2 =1 i , la y
somme des carrs des rsidus (SCR)
Qu'est ce que
i
? C'est la dirence entre le valeur observe

i
et sa valeur correspondante sur la droite de rgression
Autrement dit: Minimiser est quivalent Minimiser ou encore Minimiser SCR par rapport
n i n i
=1 (i
y )2
i
= 1 i
et
Emmanuel Flachaire
conomtrie Applique
Estimation des paramtres : calculs
On cherche les valeurs de
et
qui minimisent la SCR :
1. on crit SCR en fonction des paramtres
et
2. on pose la drive de cette fonction p/r 3. on pose la drive de cette fonction p/r
gale 0 gale 0
4. on rsoud ce systme de 2 quations 2 inconnues Les valeurs qui rsolvent ce systme de 2 quations 2 inconnues, nots
et
sont appels les paramtres estimes des MCO
Emmanuel Flachaire
conomtrie Applique
1.
Sachant que
=y + =+x + ,
i i i i
on a :
SCR
2.
=
i
(y x )2
i i
=1
La drive de SCR par rapport
est gale :
SCR = 2
3.
(y x ) = 0
i i
=1
La drive de SCR par rapport
est gale :
SCR = 2
x (y
i
x )=0
i
=1
Emmanuel Flachaire
conomtrie Applique
4.
On rsoud le systme de 2 quations 2 inconnues suivant :
SCR / = 0 SCR / = 0
Comme
et
y n x y x
i i i
=0
x2 = 0
i
= ny
= nx ,
la 1re quation se rcrit:
y x =0
On peut ensuite remplacer
=y x y x :
dans la 2me quation par
xy
i
( x ) nx y
x2 = 0
i
C'est une quation une seule inconnue. En la rarrangeant, on peut identier
en fonction des seules valeurs observes de
et
x.
Emmanuel Flachaire
conomtrie Applique

4. (suite)
xy
i
( x ) nx y ny x + nx 2
i i
x2 = 0
i
xy
i
x2 = 0
i

On montre
i
x 2 nx 2
xy
i
ny x
i
x 2 nx = nVar (x ) et
xy
i
ny x = nCov (x , y ).1
Par consquent, on a :
[nVar (x )] = nCov (x , y ) = Cov (x , y )/Var (x )

P P 2 P P 1 2 ( 2 P x 2 2x x + nx 2 = P nVar (x ) = (x x ) = 2x 2x x + x ) = P 2 x nx et nCov (x , y ) = [(x x )(y y )] = P x 2x nx + nx = P P [x y x y y x + x y ] = x y nx y ny x + nx y = x y ny x Emmanuel Flachaire conomtrie Applique
i i i i i i i i i i i i i i i i i
Estimation des paramtres : MCO
Soit le modle de rgression linaire :
y =+x +
Les estimateurs MCO des paramtres sont :
Cov (x , y ) Var (x )
et
=y x
(1)
Sur la base d'un chantillon de valeurs observes, les paramtres estims par MCO de la droite de rgression sont obtenus en appliquant ces formules.
Emmanuel Flachaire
conomtrie Applique
Estimation des paramtres : interprtation
Soit le modle de rgression
y =+x +
L'estimation par MCO fournit les rsultats suivants :
y =+x
1. Le coecient unit,
y augmente de units
est la pente de la droite : si
x x
augmente de 1
2. Le coecient est gal
est l'ordonne l'origine : si
est gal 0,
Emmanuel Flachaire
conomtrie Applique

La valeur ajuste
y est une estimation de la moyenne de y sachant x , c'est--dire de la moyenne de y conditionnelle x , note E (y |x ).

Soit le modle de rgression linaire :
y =+x +
Si on applique une esprance conditionnelle
(2)
aux 2 termes, on a :
E (y |x ) = E ( + x + |x ) = + x + E (|x )
Si
E (|x ) = 0, la rgression linaire (2) est quivalente : E (y |x ) = + x

(3)
Pour des valeurs estimes des paramtres, on a :
E (y |x ) = + x = y
Emmanuel Flachaire conomtrie Applique
y =+x +
y =+x
1. Si
E (y |x ) = + x E (y |x ) = + x
L'estimation par MCO fournit les rsultats suivants :
x augmente de 1 unit, y augmente de units Si x augmente de 1 unit, y augmente en moyenne de units Si x augmente de 1 unit, l'augmentation espere de y est
Si
2. Si
x x
est gal zro, la valeur de
est gal zro, la valeur moyenne de
y est gale y est estime
Emmanuel Flachaire
conomtrie Applique
Le modle de rgression : interprtation
Attention : mieux vaut ne pas interprter de
s'il n'y a pas de valeurs
proches de 0 dans l'chantillon
Emmanuel Flachaire
conomtrie Applique
Estimation des paramtres : exemple 1
Soit un chantillon sur le salaire horaire en euros ( ) et le nombre d'anne d'tudes au del du baccalaurat ( ) d'un grand nombre de personnes ayant le bac. Les rsultats de l'estimation par MCO d'un modle de rgression linaire sont les suivants :
y = 9.74 + 1.25 x
1.
: pour 1 anne d'tude supplmentaire, le salaire horaire
augmente en moyenne de 1.25 euros 2. : le salaire horaire moyen des individus ayant juste le bac est
estim 9.74 euros
Emmanuel Flachaire
conomtrie Applique
Estimation des paramtres : exemple 2

Soit un chantillon sur les taux de rendement excdentaires du titre IBM
2 ( ) et du CAC40 ( ), pour lequel on obtient les rsultats
suivants :
y = 0.24 + 1.64 x
1.
: lorsque le taux de rendement excdentaire du CAC40
augmente de 1 units, celui du titre IBM augmente en moyenne de 1.64 units 2.
: lorsque le taux de rendement excdentaire du CAC40 est
nul, celui du titre IBM est en moyenne de -0.24. Si un analyste nancier s'attend ce que l'an prochain le march donne un rendement 20% plus lev que pour un placement sans risque, vous pouvez lui dire que le rendement espr du titre IBM serait pour sa part 32.8% plus lev (=100*[1.64*0.2]) .
c'est la dirence entre le taux de rendement du titre IBM et celui obtenu avec un placement sans risque
Modle de rgression et PGD

Lorsqu'on considre le modle de rgression linaire suivant :
y =+x +
On suppose que le processus qui a gnr les donnes (PGD) est
y = 0 + 0 x +
o
et
sont des valeurs inconnues.
Avec un chantillon, on obtient une estimation du modle :
y =+x +
Autrement dit, Question:
et
sont des estimations de
et
dans quelle mesure
et
sont-elles de bonnes
approximations des vraies valeurs
et
Emmanuel Flachaire
conomtrie Applique
Qualit des estimateurs MCO
Question:
dans quelle mesure
et
sont-elles de bonnes
et
Pour rpondre cette question, il faut tudier 1. les proprits des estimateurs MCO Gauss-Markov 2. la prcision des estimateurs MCO 3. laabilit des estimateurs MCO
thorme de
carts-type
infrence statistique
Emmanuel Flachaire
conomtrie Applique
Proprites des estimateurs : les hypothses du modle
y
Le terme d'erreur
=+x +
i
est alatoire et a des proprits statistiques.
Les hypothses classiques sur le terme d'erreur du modle sont : 1. 2. 3. 4.
E ( ) = 0 : la moyenne des erreurs est nulle Var ( ) = : la variance des erreurs est constante Cov ( , ) = 0 : les erreurs sont satistiquement indpendantes Cov ( , x ) = 0 : pas de relation entre l'erreur et le rgresseur3
i i i j i i
Cette hypothse est vrie si x est suppos non-stochastique, dterministe

Proprites des estimateurs : Thorme de Gauss-Markov

Thorme de Gauss-Markov : sous les hypothses classiques du modle de rgression, les estimateurs
et
meilleurs estimateurs linaires sans biais
des MCO sont ils sont BLUE.
les
Best : ce sont les estimateurs qui ont la plus petite variance, parmi la classe des estimateurs sans biais Linear : ils sont linaires par rapport Unbiased : en moyenne, les valeurs de vraies valeurs Estimator : et
y

et
sont gales leurs
0 et 0 et sont des
Autrement dit, il n'existe pas d'autres estimateurs sans biais qui soient plus prcis que ceux des MCO
ce sont les meilleurs.
Emmanuel Flachaire
conomtrie Applique
Proprites des estimateurs
1. Convergents : les valeurs estimes se rapprochent des vraies valeurs lorsque
n augmente l'inni
lim Pr
n
| 0 | > = 0
> 0
C'est une hypothse de validit, sinon l'estimateur est inutile 2. Sans biais : convergence 3. Ecients : un estimateur est ecient s'il est sans biais et de variance minimale estime
= 0 ,
c'est une hypothse plus forte que la
la probabilit d'obtenir une valeur
loigne de la vraie valeur
est minimise
Emmanuel Flachaire
conomtrie Applique
Prcision des estimateurs : les carts-types
1. Les valeurs estimes
et
sont spciques un chantillon :
avec un chantillon dirent on obtient des valeurs direntes 2. Une mesure de leur prcision est indispensable : sans elle, aucune conclusion ne peut etre tire 3. La prcision d'une valeur estime est donne par son cart-type 4. L'cart-type indique quelle est, en moyenne, la distance entre les valeurs estimes
et la vraie valeur
Emmanuel Flachaire
conomtrie Applique
y =+x + Cov (x , y ) Var (x ) x2 n2 Var (x )

i
IID (0, 2 )
Les estimateurs MCO des paramtres sont :
et
=y x
Leurs variances sont gales :
2 = 2
et
2 = 2
nVar (x )
est un paramtre inconnu. Il faut le remplacer par une valeur
estime pour pouvoir utiliser ces mesures en pratique.
Emmanuel Flachaire
conomtrie Applique
1. La variance du terme d'erreur est gale
2 = Var () = E ( E ())2 = E 2
Elle peut etre estime par la moyenne des
2
i
2. La moyenne des carrs des rsidus est un estimateur convergent de cette variance :
2 =
n
1
2 =
i
SCR n SCR n2
mais il est biais. Un estimateur sans biais est :
2 =
4
n2
i
2 =
i
est un estimateur convergent de qui lui, est inobservable Emmanuel Flachaire conomtrie Applique
i
y =+x +
paramtres sont
IID (0, 2 )
(4)
Sous les hypothses classiques, les estimateurs MCO des
Cov (x , y ) Var (x ) x2 n2 Var (x )

i
et
=y x
Leurs carts-types sont :
et
nVar (x )
Emmanuel Flachaire
conomtrie Applique
Prcision des estimateurs : Commentaires
Les carts-types sont :
x2 n2 Var (x )
i
et
nVar (x )
Ces estimateurs sont d'autant plus prcis que : 1. 2. 3.
n est grand la taille de l'chantillon est leve Var (x ) est grand les valeurs de x

est petit sont disperses
les rsidus sont peu disperss
Emmanuel Flachaire
conomtrie Applique
L'estimateur est d'autant plus prcis que autrement dit les valeurs de
Var (x ) est grand,
sont disperses
Emmanuel Flachaire
conomtrie Applique
L'estimateur est d'autant plus prcis que les rsidus sont peu disperses
est petit, autrement dit
Emmanuel Flachaire
conomtrie Applique
Les rsultats de l'estimation d'un modle de rgression linaire
y =+x +
sont habituellement prsents comme suit :
y = 0.5912 +
(0.034)
ou encore
(0.011)
0.35
y = 0.5912 +
(0.034)
(0.011)
0.35
x +
Les carts-type sont indiqus entre parenthses.
Emmanuel Flachaire
conomtrie Applique
L'infrence statistique
Voir les transparents de Brooks partir de :
An Introduction to Statistical Inference
Emmanuel Flachaire
conomtrie Applique

Régression

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Régression

Transféré par

Droits d'auteur :

Formats disponibles

Sance 2 Le modle de rgression simple

y explicatives (x1 , x2 , ..., x

Le modle de rgression : un exemple

Le modle de rgression : un exemple

ne sont plus calculs, ils sont estims

Le modle de rgression : problmatique

Soit le modle de rgression linaire

Estimation : l'estimation consiste trouver les valeurs des paramtres

de telle sorte que la droite passe au mieux

sont des approximations plus ou

moins prcises des vraies valeurs et tester si le modle est

Estimation des paramtres

On veut la droite qui passe au mieux dans le nuage de points

t.q. les distances des points la droite soient minimises

Estimation des paramtres: les MCO

observation de la variable dpendante

yi est la valeur ajuste/prdite de yi sur la droite de rgression

Estimation des paramtres

Estimation des paramtres : principe

n observations, on minimise donc

somme des carrs des rsidus (SCR)

? C'est la dirence entre le valeur observe

et sa valeur correspondante sur la droite de rgression

Estimation des paramtres : calculs

On cherche les valeurs de

qui minimisent la SCR :

1. on crit SCR en fonction des paramtres

sont appels les paramtres estimes des MCO

Estimation des paramtres : calculs

La drive de SCR par rapport

La drive de SCR par rapport

Estimation des paramtres : calculs

On rsoud le systme de 2 quations 2 inconnues suivant :

la 1re quation se rcrit:

dans la 2me quation par

C'est une quation une seule inconnue. En la rarrangeant, on peut identier

en fonction des seules valeurs observes de

Estimation des paramtres : calculs

[nVar (x )] = nCov (x , y ) = Cov (x , y )/Var (x )

Estimation des paramtres : MCO

Soit le modle de rgression linaire :

Estimation des paramtres : interprtation

Soit le modle de rgression

est la pente de la droite : si

2. Le coecient est gal

est l'ordonne l'origine : si

Estimation des paramtres : interprtation

y est une estimation de la moyenne de y sachant x , c'est--dire de la moyenne de y conditionnelle x , note E (y |x ).

E (|x ) = 0, la rgression linaire (2) est quivalente : E (y |x ) = + x

Pour des valeurs estimes des paramtres, on a :

Estimation des paramtres : interprtation

Soit le modle de rgression

L'estimation par MCO fournit les rsultats suivants :

est gal zro, la valeur de

est gal zro, la valeur moyenne de

y est gale y est estime

Le modle de rgression : interprtation

Attention : mieux vaut ne pas interprter de

s'il n'y a pas de valeurs

proches de 0 dans l'chantillon

Estimation des paramtres : exemple 1

: pour 1 anne d'tude supplmentaire, le salaire horaire

estim 9.74 euros

? C'est la dirence entre le valeur observe

C'est une quation une seule inconnue. En la rarrangeant, on peut identier

2. Le coecient est gal

Cette hypothse est vrie si x est suppos non-stochastique, dterministe

sont spciques un chantillon :