Vous êtes sur la page 1sur 56

ECO 4272 : Introduction a` l’econom ´

etrie ´

Notes sur le modele `

de regression ´

simple

Steve Ambler

Departement ´

´

des sciences economiques ´

Ecole des sciences de la gestion

Universite´ du Quebec ´

a` Montreal ´

c 2014 : Steve Ambler

Automne 2014

Ces notes sont en cours de developpement. ´

J’ai besoin de vos commentaires et de vos suggestions pour

les ameliorer. ´

Vous pouvez

me faire

part de

vos commentaires en personne ou en envoyant un message

a`

1

Table des matieres `

  • 1 Introduction

  • 2 Objectifs du cours

  • 3 Le modele ` de regression ´ simple

  • 4 Estimateur moindres carres´ ordinaires (MCO)

4

4

4

5

  • 4.1 Propriet´ es´ algebriques ´

cles´ de l’estimateur MCO

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

9

4.1.1

La somme des residus ´

est zero ´

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

10

4.1.2

La valeur moyenne de la variable dependante ´

predite ´

est egale ´

a` la moyenne

 

echantillonnale ´ de la variable dependante ´

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

10

4.1.3

Orthogonalite´ entre la variable explicative et les residus ´

 

.

11

  • 4.2 La notion de l’ajustement statistique (R 2 )

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

12

  • 4.3 L’ecart ´ type de la regression ´

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

17

`

  • 5 Hypotheses

`

statistiques de base du modele

  • 5.1 conditionnelle nulle de l’erreur

Esperance ´

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

17

18

  • 5.2 i.i.d.

Observations

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

18

  • 5.3 Les observations aberrantes sont peu probables

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

18

  • 5.4 .

Notre approche

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

19

  • 6 Propriet´ es´ statistiques de l’estimateur

 

20

  • 6.1 Absence de biais de l’estimateur

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

20

ˆ

6.1.1

β 1

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

20

ˆ

6.1.2

β 0

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

22

  • 6.2 Convergence de l’estimateur

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

23

  • 6.3 Efficience de l’estimateur .

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

23

6.3.1

Theor ´

eme `

Gauss-Markov .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

24

  • 6.4 Erreur quadratique moyenne

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

28

  • 7 Propriet´ es´ echantillonnales

´

de l’estimateur

 

34

  • 7.1 Estimateur convergent de σ

2

37

ˆ

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

β

1

  • 7.2 Estimateur convergent de σ

2

en cas d’homoscedasticit ´

.

 

38

ˆ

.

.

.

.

.

.

.

.

.

.

.

.

.

.

β

1

  • 7.3 Detecter ´

l’het´ erosc ´ edasticit ´

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

40

`

  • 8 Tests d’hypothese

41

  • 8.1 Approche general ´

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

41

  • 8.2 alternative bilaterale ´

Hypothese `

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

42

  • 8.3 alternative unilaterale ´

Hypothese `

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

42

  • 9 Intervalles de confiance pour les coefficients

 

43

  • 9.1 Intervalles de confiance pour les predictions ´

.

`

  • 10 Un exemple d’estimation du modele

´

de regression

.

.

.

.

.

.

.

.

.

simple avec R

.

.

.

.

.

.

.

.

.

.

.

44

45

2

11

`

Le modele

´

de regression

simple lorsque X est une variable dichotomique

12

Concepts a` retenir

13

Ref´ erences

´

51

56

56

3

1

Introduction

  • 2 Objectifs du cours

— Presenter ´ le modele ` de regression ´ simple.

— Deriver ´

l’estimateur moindres carres´ ordinaires (MCO).

 

´

Etudier les propriet´ es´ algebriques ´

de cet estimateur.

´

Etudier la mesure habituelle de l’ajustement statistique, le R 2 .

— Regarder les hypotheses `

statistiques derriere `

le modele `

et analyser leurs consequences ´ pour

l’estimateur MCO (absence de biais, convergence, efficience).

— Montrer l’absence de biais de l’estimateur MCO.

— Deriver ´ les propriet´ es´ echantillonnales ´ de l’estimateur MCO et montrer sa convergence.

— Distinguer entre les cas d’erreurs het´ erosc ´ edastiques ´

et erreurs homoscedastiques. ´

— Montrer, sous les hypotheses ` d’homoscedasticit ´ e´ et normalite,´ l’efficience de l’estimateur

MCO (theor ´

eme `

Gauss-Markov).

— Analyser les tests d’hypothese ` concernant les parametres ` estimes´ du modele. `

— Analyser le calcul d’intervalles de confiance pour les parametres ` estimes´ dans le cadre du

modele. `

  • 3 Le modele `

de regression ´

simple

— Le modele `

de base peut s’ecrire ´

Y i = β 0 + β 1 X i + u i .

L’idee´ de base est qu’une variable economique ´ Y i peut etre ˆ predite ´ ou explique´ par une autre va-

riable economique ´ X i . La relation entre les deux variables est lineaire. ´ Sans le terme u i , l’equation ´

est l’equation ´ d’une droite. Si on mesure Y i sur l’axe vertical, β 0 est l’ordonnee´ a` l’origine et β 1 est

4

la pente de la droite. On peut penser au parametre `

β 0 comme etant ´

associe´ a` une deuxieme `

variable

explicative qui est une constante qu’on normalise pour etre ˆ

egale ´

a` un. Autrement dit, on aurait pu

ecrire ´

le modele `

comme

Y i = β 0 × 1 + β 1 × X i + u i .

 

Le modele `

de regression ´

simple contient une constante par defaut. ´

Il est possible aussi d’etudier ´

le

modele `

suivant :

Y i = βX i + u i .

Ce modele, ` sans constante, a des propriet´ es´ statistiques assez differentes. ´ Pour ceux qui s’interessent ´

a` poursuivre ce sujet, voir Windmeijer (1994), ou Eisenhauer (2003).

On appelle communement ´

Y i la variable dependante ´

du modele `

de regression, ´

et on appelle

X i la variable explicative du modele ` de regression. ´

  • 4 Estimateur moindres carres´ ordinaires (MCO)

— Nous considerons ´

le probleme `

de predire ´

la valeur de la variable dependante ´

Y i , etant ´

donnee´ la valeur de X i .

— L’erreur de prevision ´ peut s’ecrire ´ Y i β 0 β 1 X i .

— Le probleme ` a` resoudre ´ est celui de choisir les valeurs de β 0 et de β 1 afin de minimiser la

somme des erreurs de prevision ´ au carre´ :

— Notez que le critere ` de minimiser la somme des erreurs au carre´ n’est pas le seul critere `

possible. Par exemple, on pourrait decider ´ de minimiser la somme des erreurs en valeur

absolue.

— Il y a deux raisons fondamentales pour la popularite´ et l’importance de l’estimateur MCO

dans l’histoire de la statistique et de l’econom ´

etrie. ´

1. D’abord, l’algebre ` est relativement simple. Le critere ` est une expression quadratique

(du deuxieme `

degre), ´

et donc les conditions du premier ordre donnent un systeme `

5

d’equations ´ lineaires ´ . Il est tres` facile de resoudre ´ un systeme ` de deux equations ´ lineaires. ´

2. Deuxiement, ` sous certaines conditions (a` voir plus tard), l’estimateur MCO des coef-

ficients β 0 et β 1 est l’estimateur avec la plus petite variance parmi tous les estimateurs

lineaires ´ et non biaises´ – autrement dit, il est l’estimateur le plus efficient parmi les

estimateur lineaires ´ non biaises. ´

— Le probleme `

de minimisation peut s’ecrire ´

comme suit.

n

min

β 0 1

i=1

(Y i β 0 β 1 X i ) 2 .

— Les conditions du premier ordre (CPOs) pour ce probleme `

sont comme suit. D’abord par

rapport au choix de β 0 :

n

2

i=1

Y i β 0 β 1 X i = 0.

ˆ

ˆ

Ensuite, par rapport au choix de β 1 :

n

2

i=1

Y i β 0 β 1 X i X i = 0,

ˆ

ˆ

ou` j’ai ecrit ´

un chapeau sur β 0 et β 1 pour souligner le fait qu’il s’agit de nos estimateurs

MCO, c’est a` dire les solutions au probleme `

de minimisation. 1

— Il s’agit de deux equations ´

ˆ

ˆ

ou` les deux inconnus sont β 0 et β 1 .

ˆ

ˆ

ˆ

— Il est facile d’isoler β 0 en fonction de β 1 et par la suite de trouver la solution pour β 1 .

— Nous avons a` partir de la premiere `

CPO :

n

i=1

Y i β 0 β 1 X i = 0

ˆ

ˆ

n

ˆ

ˆ

β 0 = n β 0 =

i=1

n

i=1

Y i

β 1 X i

ˆ

  • 1. En principe, il faudrait verifier ´

les conditions du deuxieme `

ordre pour savoir que nous avons trouve´ un minimum

et non un maximum. Nous n’allons pas faire cet exercice ici.

6

ˆ

β 0 =

1

n

n

Y i

i=1

ˆ

β 1

1

n

n

X i
X
i

i=1

ˆ

¯

β 0 = Y

ˆ

β 1

¯

X.

ˆ

Nous venons de trouver la solution pour β 0 en fonction des moyennes echantillonnales ´

¯

X

¯

ˆ

et Y et de la solution pour β 1 .

— Maintenant, substituant cette solution dans la deuxieme `

CPO, nous avons :

n ¯ ˆ ¯ ˆ Y i − Y + β 1 X − β 1
n
¯
ˆ
¯
ˆ
Y i − Y +
β 1
X
− β 1 X i X i = 0.
i=1
1
— Multipliant des deux cotˆ es´ de l’equation ´
par n et rearrangeant, ´
nous obtenons
n
n
n
n
1
1
1
1
¯
ˆ
ˆ
¯
Y i X i −
Y X i −
β 1 (X i ) 2 +
β 1
XX i = 0
n
n
n
n
i=1
i=1
i=1
i=1
n
n
1
¯
Y i X i − Y 1
X
i
n
n
i=1
i=1
n
n
1
1
ˆ
¯
β 1
(X i ) 2 − X
X i = 0
n
n
i=1
i=1
n
1
¯
¯
Y i X i − Y X
n
i=1
n
1
ˆ
¯
¯
β 1
(X i ) 2 − X X = 0
n
i=1
1
¯ ¯
X Y
ˆ
n i=1 n Y i X i −
⇒ β 1 =
1
¯
− X 2
n i=1 n (X i ) 2
1
¯
¯
Y X i − X
ˆ
n i=1 n Y i −
⇒ β 1 =
.
1
¯
X 2
n i=1 n X i −
Cette solution depend ´
des identites´
n
n
1
1
¯ ¯
¯
¯
Y i X i − X Y =
Y i − Y X i − X
n
n
i=1
i=1
7

et

1

n

n

i=1

(X i ) 2 X 2 =

¯

1

n

n

i=1

X i X 2 .

¯

Ceci est facile a` montrer. Nous avons

n

  • 1

n

i=1

Y i Y X i X

¯

¯

1

n

n

i=1

Y i X i Y i X X i Y + X Y

¯

¯

¯ ¯

=

1

n

n

Y i X i

i=1

1

n

n

Y i

¯

X

i=1

1

n

n

¯

X

i

Y +

i=1

1

n

n

¯ ¯

X Y

i=1

=

1

n

n

Y i X i

i=1

X 1

¯

n

n

i=1

Y i Y 1

¯

n

n

X i +

i=1

n

¯ ¯

X Y

n

=

1

n

n

Y i X i

i=1

¯ ¯

¯

¯

¯ ¯

X

Y Y X + X Y

=

1

n

n

i=1

Y i X i

¯ ¯

X

Y .

La preuve pour le denominateur ´

est semblable.

C’est une premiere `

fac¸on d’exprimer la solution. Multipliant numerateur ´

et denominateur ´

par n nous avons aussi

ˆ

β 1 =

n

i=1 Y i

Y X i X

¯

¯

i=1 X i

n

X 2

¯

.

C’est une deuxieme ` fac¸on d’exprimer la solution. Maintenant, divisant numerateur ´ et denominateur ´

par (n 1) nous avons aussi

ˆ

β 1 =

(n1) i=1 n Y i

1

Y X i X

¯

¯

(n1) i=1 n X i

1

  • X 2

¯

.

— Donc, nous avons trois expressions equivalentes ´

ˆ

pour la solution pour β 1 .

— Comme aide-memoire, ´ la derniere ` expression est peut-etre ˆ la plus utile. Elle dit que l’es-

8

timateur MCO de β 1 est le ratio entre la covariance echantillonnale ´ entre X et Y et la

variance echantillonnale ´ de X (voir le chapitre sur la theorie ´ des probabilites´ pour les

definitions ´ de covariance echantillonnale ´ et variance echantillonnale). ´

— Pour rep´ eter ´

ceci en notation algebrique ´

:

ˆ

β 1 =

Cov (X , Y )

.

Var (X)

— Je crois qu’il n’est pas trop difficile de se souvenir de cette fac¸on d’ecrire ´

la solution pour

ˆ

ˆ

β 1 , et de se souvenir de la solution pour β 0 en termes des moyennes echantillonnales ´

¯

X et

¯

ˆ

Y et β 1 .

  • 4.1 Propriet´ es´ algebriques

´

cles´ de l’estimateur MCO

— L’estimateur MCO possede ` quelques propriet´ es´ de base que nous allons demontrer ´ dans

cette section.

— Nous allons par la suite nous servir de ces propriet´ es´ a` maintes reprises par la suite pour

trouver d’autres propriet´ es´ de l’estimateur MCO.

— J’appelle ces propriet´ es´ les propriet´ es´ algebriques ´ puisqu’elles ne dependent ´ pas d’hy-

potheses `

concernant les propriet´ es´ statistiques des variables aleatoires ´

Y , X ou u.

— Autrement dit, pour n’importe quelles series ´ de donnees ´ sur deux variables X et Y , ces

propriet´ es´ doivent tenir. On n’a meme ˆ pas besoin de supposer que X et Y sont des variables

aleatoires ´

en bonne et due forme.

Plusieurs de ces propriet´ es´ dependent ´ du fait que le modele ` de regression ´ inclut une constante.

— Pour le cas de modeles ` qui n’incluent pas une constante, voir l’article de Windmeijer

(1994), ou encore celui d’Eisenhauer (2003).

9

´

  • 4.1.1 La somme des residus

´

est zero

— Definissons ´

ˆ

ˆ

uˆ i Y i β 0 β 1 X i ,

le residu ´

de la regression ´

pour l’observation i.

— Nous voulons montrer que :

— Voici la preuve.

1

n

=

 

1

n

uˆ i = 0.

 

n

 
 

i=1

 

n

n

  • 1

n

¯

ˆ

¯

ˆ

uˆ i =

Y i Y +

β 1

X

β 1 X i

 

i=1

 

i=1

n

n

1

Y i Y

¯

ˆ

β 1

1

X i X = 0.

¯

n

n

 

i=1

 

i=1

 
  • 4.1.2 La valeur moyenne de la variable dependante ´ predite ´ est egale ´ a` la moyenne echantillonnale ´

´

de la variable dependante

— Definissons ´

ˆ

ˆ

ˆ

Y i β 0 + β 1 X i ,

la valeur predite ´

de Y i .

— Nous voulons montrer que :

— Voici la preuve :

1

n

n

ˆ

¯

Y i = Y .

i=1

ˆ

Y i Y i uˆ i

1

n

n

ˆ

Y i =

i=1

1

n

n

Y i

i=1

1

n

n

uˆ i =

i=1

1

n

n

¯

Y i Y .

i=1

10

4.1.3

Orthogonalite´ entre la variable explicative et les residus

´

— Nous voulons montrer que :

n

X i uˆ i = 0.

i=1

— Ceci est la definition ´

de l’orthogonalite´ entre deux variables.

— Puisque nous allons utiliser l’algebre ` lineaire ´ dans le chapitre sur le modele ` de regression ´

multiple, c’est peut-etre ˆ opportun d’introduire ici le concept d’orthogonalite´ entre deux

vecteurs. Nous pouvons re´ecrire ´ cette equation ´ en notation vectorielle comme

 

uˆ

1

n

uˆ

X i uˆ i = X 1

X 2

 

X n

2

ˆ

X U = 0.

.

.

.

 

 

.

i=1

 

.

 

.

 

uˆ

n

— Donc c’est la definition ´

habituelle d’orthogonalite´ entre deux vecteurs en algebre `

lineaire. ´

— Nous verrons plus loin qu’il y a aussi une interpretation ´

geom´

etrique. ´

— Voici la preuve :

n

X i uˆ i =

i=1

n

X i uˆ i

i=1

n

¯

X

uˆ i

i=1

=

n

i=1

X i X uˆ i

¯

=

n

i=1

X i X Y i Y +

¯

¯

ˆ

β 1

¯

X

β 1 X i

ˆ

=

n

i=1

X i X Y i Y β 1 X i X

¯

¯

ˆ

¯

=

n

i=1

X i X Y i Y

¯

¯

ˆ

β 1

n

i=1

X i X 2

¯

=

n

i=1

X i X Y i Y

¯

¯

11

n

i=1 X i

X Y i Y

¯

¯

i=1 X i

n

X 2

¯

n

i=1

X i X 2

¯

=

n

i=1

X i X Y i Y

¯

¯

n

i=1

X i X Y i Y

¯

¯

= 0.

— L’orthogonalite´ est reliee´ a` l’interpretation ´ geom´ etrique ´ de la methode ´ des MCO. Estimer

un modele ` par MCO revient a` projeter la variable dependante ´ dans l’espace traverse´ par la

variable explicative (ou les variables explicatives dans le cas de la regression ´ multiple).

— Le principe est illustre´ par la Figure 1 ci-dessous. Nous constatons sur le graphique que si

nous prenons la ligne de regression ´ comme un vecteur, la ligne pointillee´ sur le graphique

est un vecteur dont la longueur egale ´ la valeur de uˆ i a` ce point. Il forme un angle droit par

rapport a` la ligne de regression, ´ d’ou` le terme orthogonal .

— Pour ceux qui veulent aller plus loin, tout ce qu’on pourrait vouloir savoir concernant l’in-

terpretation ´ geom´ etrique ´ de la regression ´ simple se trouve dans l’article de Davidson et

MacKinnon (1999).

Figure 1

− n i =1 i X Y − Y ¯ ¯ i =1 i n X
  • 4.2 La notion de l’ajustement statistique (R 2 )

— Definissons ´

:

TSS

n

i=1

Y i Y 2 ,

¯

12

la somme totale des carres´ ( total sum of squares en anglais) ;

SSR

n

i=1

Y i

Y i 2

ˆ

,

la somme des residus ´

au carre´ ( residual sum of squares en anglais) ;

ESS

n

i=1

Y i Y 2 ,

ˆ

¯

la somme expliquee´

des carres´ ( explained sum of squares en anglais).

— Nous pouvons montrer que :

TSS = ESS + SSR.

— Voici la preuve :

n

¯ TSS = Y i − Y 2 i=1 n Y 2 ˆ ˆ ¯ =
¯
TSS =
Y i − Y 2
i=1
n
Y 2
ˆ
ˆ
¯
=
Y i − Y i + Y i −
i=1
n
n
ˆ
ˆ
¯
=
Y i −
Y i 2
+
Y i − Y 2
i=1
i=1
n
Y i
ˆ
ˆ
¯
+2
Y i −
Y i − Y
i=1
n
ˆ
¯
= SSR + ESS + 2
uˆ i Y i − Y
i=1
n
n
ˆ
¯
= SSR + ESS + 2
uˆ i Y i − 2 Y
uˆ i
i=1
i=1
n
ˆ
= SSR + ESS + 2
uˆ i
Y i
i=1
n
ˆ
ˆ
= SSR + ESS + 2
uˆ i β 0 +
β 1 X i

i=1

13

= SSR + ESS + 2

ˆ

β 0

n

uˆ i + 2

ˆ

β 1

i=1

n

uˆ i X i

i=1

= SSR + ESS.

Notez que nous avons invoque´ a` quelques reprises les propriet´ es´ algebriques ´ de l’estimateur

MCO que nous avons dej´ a` demontr ´ ees. ´

— Maintenant, definissons ´

R 2

ESS

.

TSS

— Puisque TSS, ESS et SSR sont la somme de termes au carre´ (et pour cette raison sont des

termes positifs sinon strictement positifs), il faut que :

— Il faut aussi que

0 R 2 1.

R 2 = 1

SSR

.

TSS

— L’ajustement statistique s’appelle aussi le coefficient de determination ´ de la regression. ´

— L’ajustement statistique est defini ´ independamment ´ des propriet´ es´ statistiques du modele `

de regression. ´ Il a l’interpretation ´ du pourcentage de la variation de la variable dependante ´

Y autour de sa moyenne qui peut etre ˆ explique´ par les variations de la variable explicative

X.

— Pour le modele ` de regression ´ simple, il y a une relation algebrique ´ exacte entre le R 2 et le

coefficient de correlation ´

entre les variables X et Y . La relation est

R 2 = Corr (X, Y ).

— Je montre ce resultat ´

dans l’encadre´ qui suit.

— La lecture de l’encadre´ est facultative, mais je vous encourage a` retenir le resultat ´

(egalit ´

entre la mesure R 2 et le coefficient de correlation ´

entre X et Y au carre). ´

14

Je demontre ´ ici que l’ajustement statistique (dans le modele ` de regression ´ simple) doit
Je demontre ´
ici que l’ajustement statistique (dans le modele `
de regression ´
simple) doit etre ˆ
egal ´
au carre´ du coefficient de correlation ´
entre X et Y . Nous avons
n
ˆ
¯
Y i − Y 2
i=1
R 2 ≡
n
¯
Y 2
i=1 Y i −
Nous avons aussi (en multipliant le numerateur ´ et le denominateur ´ dans la definition ´ de la
correlation ´ echantillonnale ´ par (n − 1))
Corr (X , Y ) 2 ≡
2
n
¯
¯
X Y i − Y
i=1 X i −
n
¯
¯
X 2 n
Y 2
i=1 X i −
i=1 Y i −
n
Y 2
¯
¯
X Y i −
i=1 X i −
=
n
¯
¯
X 2 n
Y 2
i=1 X i −
i=1 Y i −
Donc, il faut montrer que
n
n
Y 2
ˆ
¯
Y i − Y 2
¯
¯
i=1
X Y i −
i=1 X i −
=
n
n
¯
¯
¯
Y 2
X 2 n
Y 2
i=1 Y i −
i=1 X i −
i=1 Y i −
n
n
n
ˆ
¯
¯
¯
¯
Y i − Y 2
X i − X 2 =
X i − X Y i − Y 2 .
i=1
i=1
i=1
Travaillant avec le bras gauche de cette equation, ´
nous avons
n
n
ˆ
¯
¯
Y i − Y 2
X i − X 2
i=1
i=1
n
n
ˆ
ˆ
¯
¯
=
β 0 + β 1 X i − Y 2
X i − X 2
i=1
i=1
n
n
¯
ˆ
¯
ˆ
¯
¯
=
Y −
β 1
X + β 1 X i − Y 2
X i − X 2
i=1
i=1

15

n

 

¯

n

ˆ

ˆ

=

β 1 X i

β 1

2

X

i=1

 

i=1

 

n

n

ˆ

¯

= β

2

1

X i X 2

 

i=1

i=1

i=1 X i

X Y i Y

¯

¯

2

 

¯

2

 

i=1 X i

n

X

 

n

 

 

¯

=

i=1

¯

X i X 2

¯

X i X 2

¯

n

i=1

= n

X i X 2 2

¯

X i X Y i Y 2 ,

ce qui fut a` demontrer. ´

Donc, meme ˆ si nous sommes en train de discuter des propriet´ es´

algebriques

´

du modele `

de regression ´

simple, et meme ˆ si la notion du R 2 est definie ´

independamment ´

des propriet´ es´

statistiques des variables X et Y , nous voyons que le R 2 est relie´ au concept statistique de

correlation. ´ Il existe des tests d’hypothese ` de la significativite´ de correlations ´ entre variables

aleatoires ´ (que nous n’allons pas explorer dans ce cours).

— Tel qu’indique´ plus tot, ˆ l’ajustement statistique R 2 est defini ´ independamment ´ des hy-

potheses ` statistiques derriere ` le modele. `

— Nous venons de voir (dans l’encadre´ prec´ edant) ´ qu’il y a un lien stricte dans le modele `

de regression ´

simple entre le R 2

et le coefficient de correlation ´

entre la variable

dependante ´ Y et la variable explicative X.

— Le R 2 a aussi une autre interpretation ´ statistique. On peut l’utiliser pour tester l’hy-

pothese ` nulle de l’absence de relation entre la variable explicative (les variables expli-

catives a` part la constante dans le modele ` de regression ´ multiple). Voir Giles (2013b,

2013c). Selon Giles, le R 2 suit, sous l’hypothese ` nulle (et sous l’hypothese ` de l’ho-

moscedasticit ´ e), ´ une distribution Beta.

— Nous allons voir dans le chapitre sur la regression ´ multiple qu’on peut construire une

16

autre statistique pour tester la meme ˆ hypothese `

qui suit une distribution F de Fisher.

4.3

´

L’ecart

´

type de la regression

— Definissons ´

:

s

2

uˆ

=

1

(n 2)

n

i=1

u i ) 2 =

SSR

(n 2) .

— Dans le cas ou` nous supposons une variance constante du terme d’erreur du modele ` (voir la

section suivante concernant les hypotheses ` statistiques du modele), ` c’est un estimateur non

biaise´ de la variance du terme d’erreur.

2

— Il s’agit du cas ou` les erreurs sont homoscedastiques ´ , ou` donc Var (u i ) = σ u , une variance

constante.

Notez que cette hypothese ` (variance constante des erreurs) ne fera pas partie des hypotheses `

statistiques de base que nous adopterons.

— Nous divison par (n 2) afint d’obtenir un estimateur non biaise.´

— Il y a une autre raison pour la division par (n2). On perd deux degres´ de liberte´ car il faut

estimer deux parametres ` inconnus (β 0 et β 1 ) afin de calculer les residus ´ de la regression. ´

— Maintenant, definissons ´

:

s uˆ s

2

uˆ .

´

s uˆ est l’ecart

´

type de la regression

.

— L’ecart ´

type de la regression ´

est un des resultats ´

d’estimation que fournissent automatique-

ment la plupart des logiciels econom ´ etriques. ´

  • 5 Hypotheses `

statistiques de base du modele `

`

A partir de ce point, nous elaborons ´

quelques propriet´ es´ statistiques de l’estimateur MCO.

Elles dependront ´

de certaines hypotheses `

statistiques de base, que voici.

17

— Ces hypotheses ` seront cruciales pour montrer les propriet´ es´ d’absence de biais et de conver-

gence.

— Nous en aurons besoin aussi (avec une hypothese ` additionnelle) pour montrer l’efficience

de l’estimateur MCO.

´

  • 5.1 Esperance

conditionnelle nulle de l’erreur

— Nous supposons que :

E (u i |X = X i ) = 0.

— Intuitivement, l’hypothese `

nous dit que le fait de connaˆıtre la valeur realis ´

ee´

de la variable

explicative ne donne pas d’information concernant la valeur de l’erreur.

  • 5.2 Observations i.i.d.

— Nous supposons que :

(X i ,

Y i ), i = 1, 2,

. . .

, n i.i.d.

— Nous avons dej´ a` vu le concept d’observations i.i.d. dans le chapitre sur la statistique.

On suppose que nos observations sont independantes ´ et qu’elles sont identiquement dis-

tribuees. ´

— Notez que nous ne faisons pas une hypothese `

concernant le type de distribution qui gen´ ere `

les observations (normale, exponentielle, paretienne ´ stable, etc.). Tout ce qu’on suppose

c’est que les observations sont toujours gen´ er´ ees ´ par la meme ˆ distribution.

  • 5.3 Les observations aberrantes sont peu probables

— Nous supposons que :

  • 0 < E X 4 < ;

  • 0 < E Y 4 < ;

18

— Cette hypothese ` sert a` nous rappeler que l’estimateur MCO peut etre ˆ sensible aux observa-

tions aberrantes.

— Il est toujours bon d’examiner les residus ´

afin de detecter ´

la presence ´ de ces observations,

qui pourraient indiquer des problemes ` comme des erreurs de transcription des valeurs dans

les donnees, ´

etc.

 

— Il est important de noter qu’en presence ´ d’observations aberrantes importantes, la valeur de

ˆ

β 1 peut etre ˆ

tres` sensible a` cette ou a` ces valeurs, meme ˆ si elles sont peu nombreuses. Intui-

tement, meme ˆ un nombre tres` faible de ces observations aberrantes peut avoir une influence

prepond ´

erantes ´

sur les valeurs estimees ´ des parametres. ` Dans un tel cas, les estimateurs

MCO ne seront pas convergents puisqu’ils dependent ´

d’un petit nombre d’observations.

  • 5.4 Notre approche

Par rapport a` l’approche dans certains manuels de base en econom ´ etrie, ´

nous adoptons une

approche plus gen´ erale. ´

  • 1. Souvent, la premiere ` fois qu’on presente ´ le modele ` de regression ´ simple, on suppose que les observations sur la variable explicative X sont constantes a` travers des echantillons ´ differents. ´ Pour deriver ´ les propriet´ es´ statistiques de notre estimateur MCO, on peut traiter les observations comme des constantes au lieu de les traiter comme des realisations ´ d’une variable aleatoire. ´ L’algebre ` est plus facile, mais c’est beaucoup moins realiste. ´

  • 2. Souvent, lorsqu’on presente ´ le modele ` de base, on suppose aussi que la variance condition- nelle du terme d’erreur est egale ´ a` sa variance non conditionnelle et qu’elle est constante. Autrement dit,

Var (u i |X = X i ) = Var (u i