Vous êtes sur la page 1sur 11

ECONOMETRIE

Mme SEGHIR SONIA


CHAPITRE 1 : Le modèle de régression linéaire simple
OBJECTIFS DU CHAPITRE

Présenter des concepts de base à partir d’un modèle économétrique simple

- Variable endogène ou expliquée


- Variable exogène ou explicative
- Aléas
- Estimateur des Moindres Carrés Ordinaires
- Droite de régression
- Analyse de la variance
- Coefficient de détermination
- Test de significativité des paramètres
- Prédictions

1. PRESENTATION DU MODELE DE REGRESSION LINEAIRE SIMPLE

Le modèle de régression linéaire simple permet d’expliquer une variable endogène


en fonction d’une variable explicative

yi = β0 + β1xi + εi i=1,……,N (1)

avec

y : la variable endogène (la variable expliquée) elle est déterminée par le modèle

x : la variable explicative supposée exogène

ɛ : un aléa

N : le nombre d’observations (ces observations sont des données individuelles ou temporelles)

Les variables y et x sont des variables observées pour un nombre N d’individus. La


variable y est une variable aléatoire dont les observations sont issues d’un tirage aléatoire d’un
échantillon dans une population. On suppose pour simplifier, que la variable x est non
aléatoire, les données observées de x ne résultent donc pas d’un tirage aléatoire d’un
échantillon dans une population. Pour alléger les écritures les notations ne distinguent pas les
variables aléatoires et leurs réalisations. Par exemple, la notation y désigne la variable
aléatoire Y et sa réalisation y.
L’aléa ɛ est non observé. Il s’agit d’un terme d’erreur stochastique qui permet de prendre en
compte le fait que la variable y est affectée par d’autres variables que la variable x, autrement
dit le fait que x n’explique pas pleinement la variable y.

Le modèle est supposé linéaire par rapport aux paramètres β 0 et β1

Exemple1 :

Considérons l’analyse, pour l’année 2015, de la dépense de consommation des étudiants en


communications téléphoniques en fonction du revenu des parents. On construit un modèle
économétrique dans lequel la variable endogène est la dépense de consommation en
communications téléphoniques et la variable exogène est le revenu des parents. On note que
des étudiants dont les parents ont le même revenu ne dépensent pas un montant identique en
communications téléphoniques, d’autres facteurs expliquent le comportement de l’étudiant
(étendue du réseau d’amis, goût pour le bavardage, etc.). Dans le modèle économétrique, ces
facteurs sont pris en compte par l’aléa.

Dans la pratique, on ne dispose pas des observations sur toute la population estudiantine mais
il est possible de constituer un échantillon de cette population afin d’évaluer la relation entre
les deux variables. Pour une valeur fixée de la variable revenu des parents, on observe dans
l’échantillon une dépense de consommation.

A partir des données observées (les données de l’échantillon) il est possible d’estimer
la relation (1). Soient et les valeurs estimées des paramètres β0 et β1, la droite de
régression de l’échantillon est donnée par

= + xi i= 1,……, N

et ei le résidu d’estimation, ei = yi- , mesure pour chaque individu l’écart entre la valeur
observée yi et la valeur estimée . La valeur estimée est aussi appelée la valeur ajustée ou
prédiction.

La droite de régression de la population pourrait être évaluée si l’on disposait des


observations sur toute la population, elle correspond à la valeur espérée de la variable
aléatoire y pour une valeur fixée de x

E(yi/xi)=β0+ β1 xi

On suppose que E(ɛi/xi)=0


L’objectif de cette démarche est de trouver des estimateurs non biaisés, efficaces et
convergents. Un estimateur non biaisé est un estimateur dont l’espérance est égale à la valeur
des paramètres de la population, il est efficace si, parmi les estimateurs non biaisés des
paramètres, il a la variance la plus faible. Enfin, il est convergent en probabilité si, lorsqu’on
accroît la taille de l’échantillon, la probabilité que les valeurs des paramètres soient
différentes des valeurs β1et β2 des paramètres est nulle.

2. ESTIMATION AVEC LA METHODE DES MOINDRES CARRES


ORDINAIRES

La méthode d’estimation de base des paramètres du modèle (1) est la méthode des
Moindres Carrée Ordinaires (MCO). Dans cette section sont présentés les hypothèses
du modèle, l’estimateur des (MCO), les caractéristiques et les propriétés de cet
estimateur.

A/ Hypothèses sur le modèle de régression linaire simple

Les hypothèses de base sont les suivantes

1. La distribution de l’erreur ɛ est indépendante de X ou X est fixe,


2. L’erreur est centrée et de variance constante (homoscédasticité) :

3. et sont constants, pas de rupture du modèle.

4. Hypothèse complémentaire pour les inférences : .

B/ Estimateur des Moindres Carrés Ordinaires (MCO)

L’estimation des paramètres , et est obtenue en maximisant la vraisemblance, sous


l’hypothèse que les erreurs sont gaussiennes, ou encore par minimisation de la somme des
carrés des écarts entre observations et modèle (moindres carrés). Les deux approches
conduisent aux mêmes estimations tandis que le maximum de vraisemblance induit de
meilleures propriétés des estimateurs.
Pour une séquence d’observations , le critère des moindres carrés s’écrit:
=

D’après les conditions de premier ordre, la solution est donnée par :

La résolution des équations (1.4) et (1.5) donne

et - (1.6)

La droite de régression de l’échantillon est alors donnée par

= i= 1,…………..N (1.7)

Et les caractéristiques de la solution sont les suivantes

 la droite de régression de l’échantillon passe par le point moyen ( , )

= +

 la somme des résidus est nulle, d’après l’équation (1.4)

=0

Par conséquent =

 le vecteur des résidus et de la variable explicative sont orthogonaux, d’après l’équation


(1.5)

=0

De ces caractéristiques, il est possible de déduire l’équation d’analyse de la variance

= + (1.8)
Au facteur (1/N) près, la variance totale de la variable endogène est la somme de la variance
expliquée par le modèle et la variance résiduelle. Le coefficient de détermination qui
mesure le rapport entre la variance expliquée par le modèle et la variance totale est un
indicateur de la qualité de l’ajustement. Il donne le pourcentage de la variance totale de y
expliquée par le modèle de régression

=1- (1.9)

Dans le modèle de régression simple le coefficient de détermination est égal au coefficient de


corrélation entre les variables y et x
2
 N 
  ( xi  x)( y i  y 
R 2  r 2  N i 1 N
 (1.10)
 ( xi  x ) 2  ( y i  y ) 2
i 1 i 1

Dans le modèle de régression linéaire avec constante, le coefficient de détermination est


compris entre 0 et 1, une valeur proche de 1 traduit une bonne qualité de l'ajustement. Le rôle
de la constante est important car la somme des résidus est nulle seulement lorsque le modèle
comporte une constante. L'équation d'analyse de la variance n'est vérifiée que dans un modèle
avec constante.

3. Propriétés de l'estimateur des MCO

Théorème de Gauss-Morkov

Sous les hypothèses 1, 2, 3 et 4, l'estimateur des MCO est Best Linear Unbiaised Estimator
(BLUE).
Autrement dit, l'estimateur des MCO est
• une fonction linéaire de y
• non biaisé: E ( ˆ1 )  1 et E ( ˆ 2 )   2
• efficace : parmi les estimateurs linéaires non biaisés des paramètres  1 , et  2 du modèle,
l'estimateur des MCO a la variance la plus faible. La matrice de variance-covariance des
paramètres est donnée par
 var(ˆ1 cov(ˆ1 , ˆ 2 ) 
 
 cov(ˆ , ˆ ) var(ˆ 
 1 2 2

Avec var(ˆ1 ) ˆ  E(ˆ1  E(ˆ1 ))  E(ˆ2   2 ) 2


2 2

2 x 2
i
 N
i 1
(1.11)
 (x
N
i  x) 2

i 1

var(ˆ2   2ˆ  E(ˆ2  E(ˆ2   2 ) 2


2
 N (1.12)
 (x
i 1
i  x) 2

cov(ˆ1 , ˆ 2 ) E ( ˆ1  E ( ˆ1  E ( ˆ1  E ( ˆ2 ))  E ( ˆ1  1 )(ˆ2   2 )


2
 x N (1.13)
 (x
i 1
i  x) 2

La matrice de variance-covariance des paramètres ne peut pas être calculée car la valeur de
 2 n'est pas connue. Pour déterminer cette matrice de variance-covariance, il faut déterminer
un estimateur ̂ non biaisé de la variance des aléas. On montre que :
2

 N 
E   ei2   ( N  2) 2 (1.14)
 i 1 
d'où
1
̂ 2  N (1.15)
N  2 ei2
i 1

est un estimateur non biaisé de  2


1  N 2
E (ˆ ) 
2
E   ei  (1.16)
N  2  i 1 
On peut alors en déduire une valeur estimée de la matrice de variance-covariance des
paramètres
N N

ˆ 2  xi2 ˆ
2 x 2
i
ˆ 2ˆ  N
i 1
ˆ 2ˆ  N
i 1
(1.17)
 (x  (x
1
N 2
N
i  x) 2
i  x) 2

i 1 i 1
ˆ 2
cov(ˆ , ˆ 2 )   x N

 (x
i 1
i  x) 2
4. INTERVALLES DE CONFIANCE ET TEST DE SIGNIFICATIVITÉ DES
PARAMÈTRES

Afin de déterminer les intervalles de confiance des paramètres du modèle, il faut déterminer la
distribution statistique des valeurs estimées ̂ , . ̂ 2
Les principales distributions statistiques utilisées en économétrie appliquée sont la
2
distribution Normale (N ) , la distribution du Chi-deux ( x ) , la distribution de Fisher-
Snédécor (F) et la distribution de Student (  ).
Soient z1 , z 2,..., z r une suite de variables normales centrées réduites indépendantes, la variable
N
X 2   z i2
i 1
2
 
est distribuée suivant une loi du Chi-deux à r degrés de liberté X (r ) . Si ces variables ne
sont pas indépendantes mais liées entre elles par p (p < r), relations linéaires distinctes, alors
la variable X est distribuée suivant une loi à r - p degrés de liberté X (r  p)
2 2
 
2
La variable F (r, m), rapport d'une variable distribuée suivant un X (r) et d'une variable
2
distribuée suivant un X (m)
X 2 (r ) / 
F ( r , m) 
X 2 ( m) / m
est distribuée suivant une loi de Fisher-Snédecor à r et m degrés de liberté.
Enfin la variable  (r ) rapport d'une variable normale centrée réduite et de la racine carrée
2
d'un X (r ) / r
N (0,1)
r (r ) 
X 2 (r ) / r
est distribuée suivant une loi de Student à r degrés de liberté.
Pour déterminer la distribution statistique puis les intervalles de confiance des
paramètres on pose une hypothèse supplémentaire

Hypothèse 5
Les aléas sont distribués de manière identique et indépendante selon une loi normale
i N (0, 2 ) i  1,....N (1.18)
La variable endogène y , étant une fonction linéaire des aléas, est aussi distribuée selon une loi
normale
yi N (1   2 xi , 2 ) i  1,....N (1.19)
Les yi sont distribués de manière indépendante mais ils ne sont pas distribués de manière
identique car ils n'ont pas la même espérance.
La valeur estimée des paramètres dépend de l'échantillon de données, c'est une variable
aléatoire linéaire par rapport aux yi On en déduit que
ˆ1 
N 1 ,  ˆ
2
1
, ˆ 2

N  2 ,  2ˆ 2  (1.20)

ˆ  1 ˆ   2
D’où (1.21)
 1 2
On ne peut pas en déduire directement les intervalles de confiance des paramètres car on ne
peut pas calculer les écarts type  1 et   2 On utilise pour cela ̂ 2 l'estimateur non biaisé de
 2 et dont la distribution est un X 2 àN  2 degré de liberté -
ˆ 2 x 2 ( N  2)
(1.22)
2 N 2
Ainsi on obtient
(1.23)

et les intervalles de confiance des paramètres

Pr
ˆ K  ˆ ˆ   / 2( N  2)   K  ˆ K  ˆ ˆ   / 2 ( N  2)
K K
 (1.24)
 1  ............K  1,2

avec  le risque de première espèce généralement fixé à 5 % ou 10 %.


À partir de (1.23) on peut réaliser le test de significativité des paramètres

H0 : K  0
K  1,2 (1.25)
H1 :  K  0
On calcule la statistique
ˆ K
t cal  (1.26)
ˆ ˆ
K

distribuée selon une distribution de Student à N - 2 degrés de liberté.


Si t cal >   / 2 ( N  2) alors l'hypothèse H 0 est refusée au seuil x et le coefficient  K peut être
considéré significativement différent de 0. Ce test est un test de base qui a pour but de vérifier
que la variable explicative x influence la variable y . Le non rejet de l'hypothèse nulle
H 0 :  2  0 signifie que la variable x n'explique pas la variable y. Une manière alternative de
réaliser ce test dans un modèle de régression simple est d'utiliser le coefficient de
détermination, c'est-à-dire le coefficient de corrélation entre x et y . En effet on peut montrer
que
2
 ˆ 
t 2
F 2  (1.27)
ˆ 2
cal

R 2 /1

(1  R 2 ) / N  2
Si la statistique de Fisher F est supérieure à la valeur tabulée a F (1, N  2) alors l'hypothèse
est rejetée au seuil 
5. RÉALISATION DE PRÉDICTIONS ET INTERVALLES DE CONFIANCE DES
PRÉDICTIONS

À partir de l'équation de la droite de régression de l'échantillon, il est possible de fournir des


prédictions. Pour une valeur de la variable x donnée, notée x 0 , on peut calculer la valeur
estimée ŷ 0

yˆ 0  ˆ1  ˆ2 x 0 (1.28)


Il ne s'agit pas ici forcément de prévision du futur. On détermine la valeur prédite de y par le
modèle lorsque la variable explicative exogène x se modifie. La prédiction consiste à
calculer la valeur estimée de y à l'intérieur ou en dehors de l'échantillon des observations.
La valeur de y lorsque x=x0 , serait y0  1   2 x 0   0 . D'après le théorème de Gauss-Markov
ŷ 0 est un estimateur BLUE de E ( y0 / x0 ).
L'erreur de prévision se définit comme l'écart entre y 0 et ŷ 0

 0  y0  yˆ 0  (1  ˆ1 )  ( 2  ˆ2 ) x0   0 (1.29)

c'est une variable aléatoire. En utilisant les hypothèses 1, 2, 3 on montre que l'espérance et la
variance de l'erreur de prévision sont données par

Vous aimerez peut-être aussi