Vous êtes sur la page 1sur 43

Introduction Généralités Les MCO ANOVA Les tests Conclusion

LE MODELE DE REGRESSION SIMPLE


Econométrie

David Guerreiro
david.guerreiro@univ-paris8.fr

Année 2013-2014
Université Paris 8
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Une brève présentation de l’économétrie

Qu’est-ce que l’économétrie


Renvoie à la mesure des phénomènes économiques.
Branche de la science économique.
Unification de la théorie éco, à la stat, aux maths, et à l’info.

A quoi sert l’économétrie


1 Expliquer empiriquement des phénomènes économiques.
2 Tester empiriquement la validité de théories économiques.
3 Prévoir l’évolution de l’économie.
4 Outil très utilisé pr évaluer csq des pol éco.
5 Outil d’aide à la décision en finance.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Table des matières


1 Introduction
Le modèle
Les différents types de données
Les variables du modèles
2 Généralités
Linéarité
Régression simple et propriétés du terme d’erreur
3 Les MCO
Principe des MCO
Les estimateurs MCO
Les propriétés des estimateurs
4 ANOVA
Equation d’analyse de la variance
Le coefficient de détermination
5 Les tests
La validation du modèle
La significativité individuelle : test de Student
La significativité globale : test de Fisher
6 Conclusion
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Le modèle

Econométrie et modèle
Partie importante de l’économétrie consiste à construire et estimer
un modèle.
Modèle met en relation diverses variables (souvent grandeurs éo-
nomiques).
Modèle est représentation formalisée d’un phénomène ou théorie
éco => Modélisation !

Définition modèle
Représentation simplifiée de la réalité (sous forme d’équations).
Permet spécifier relations entre variables.
Expliquer façon dont certaines variables sont déterminées par
d’autres.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Le modèle

Exemple : fonction de conso keynésienne affine

C = f(Y)
0
où f est affine et telle que f > 0, donc :

C = cY + C0

avec 0 < c < 1 et C0 > 0.


Ici, c et C0 sont des paramètres (ou coefficients) qui doivent être
estimés.
Plusieurs méthodes d’estimations sont possibles (nous verrons MCO).
Ce modèle comporte 1 seule équation.
Equation comportementale : rend compte des décisions de conso
des ménages.
Il existe d’autre types de relations (technologiques, comptables...).
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Les différents types de données

Après avoir spécifier modèle et en vue de l’estimer...


Il faut trouver des données représentatives des phénomène éco-
nomiques étudiés.
Ds exemple de fct˚ de C, la conso et les revenus des ménages étudiés !

On distingue 3 types de données :

Les séries temporelles


Appelées encore séries chronologiques ou chroniques.
Variables observées à des intervalles de temps régulier, pour une
population donnée.
L’intervalle de temps est appelé fréquence.
Exemple : la conso trimestrielle des ménages français entre 1970 et
2010.
Séries indicées par le temps !
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Les différents types de données

Les données en coupe instantanée


Appelées aussi données en coupe (transversale).
Variables observées au même instant du temps, mais pour dif-
férents individus de la population.
Par exemple la consommation en 2005 des ouvriers en France.
Séries indicées par l’individu !

Les données de panel


Combinaison entre séries temporelles et en coupe.
Variables qui concernent un groupe d’individus et qui sont me-
surées à intervalle de temps réuliers.
Par exemple la consommation trimestrielle agrégée des ouvriers dans
chaque région française entre 1970 et 2010.
Séries indicées par le temps et les individus !
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Variable expliquée/variable explicative/terme d’erreur


Variable expliquée
Variable endogène ou dépendante.
Variable que l’on cherche à expliquer.
Ds modèle de fonction de conso keynésien : la consommation.

Variable explicative
Variable exogène ou indépendante.
Variable qui permet d’expliquer l’endogène.
Ds modèle de fonction de conso keynésien : le revenu.

Le terme d’erreur
Appelé aussi perturbation.
Variable aléatoire (généralement ) prenant en compte les variables
explicatives oubliées ou les erreurs de mesures des variables
considérées.
=> erreur de spécification du modèle.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

L’hypothèse de linéarité

Linéarité dans les variables


Y = f(X)
Avec Y variable expliquée, et X la variable explicative. La fonction f est
dite linéaire en X si :
La puissance de X est égale à l’unité.
X n’est pas multiplié ou divisé par une autre variable.
=> Y est reliée linéairement à X si la dérivée de Y par rapport à X
est indépendante de X.

Exemple
Y = 3X est linéaire par rapport à X et Y.
logY = α + βlogX est linéaire par rapport à logX et logY .
Introduction Généralités Les MCO ANOVA Les tests Conclusion

L’hypothèse de linéarité

Linéarité dans les paramètres


Une fonction est dite linéaire dans ses paramètres si ces paramètres :
Sont affectés d’une puissance égale à l’unité.
Ne sont pas multipliés ou divisés par un ou plusieurs autres
paramètres.

Exemples
Y = α + βX est linéaire dans les paramètres α et β. Y = α + βX2 est
linéaire dans les paramètres α et β. Y = α + β 2 X n’est pas linéaire dans
le paramètre β

Modèle linéaire
Linéarité dans les paramètres.
Linéarité dans les variables ou dans n’importe quelle transofma-
tion des variables.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Le modèle de régression simple

Modèle général
Le modèle que nous allons étudier tout au long du chapitre est le suivant :

Y = α + βX +  (1)

Y : variable explicative, X : variable expliquée,  : le terme d’erreur.


α et β : paramètres (ou coefficients) du modèle.
X est observée sans erreur => variable certaine, indépendante de
.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Le modèle de régression simple

Modèle en série temporelles


A supposer que X et Y comprennent des observations “déterminées” par le
temps, on peut réécrire le modèle 1 :

Yt = α + βXt + t (2)

où t est un indice qui désigne la date à laquelle la valeur de la variable


a été observée.

Le terme d’erreur ne peut être prévu pour chaque observation.


Il est possible de faire un certain nombre d’hypothèses.
Ainsi on suppose :
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Hypothèses sur les erreurs

La nullité de l’erreur moyenne


Erreur peut prendre valeurs positives ou négatives.
Pas de biais en faveurs des erreurs positives ou négatives (pas d’erreur
systématique).
L’espérance mathématique de l’erreur est nulle E(t ) = 0.
En moyenne le modèle est correctement spécifié.

Absence d’autocorrélation des erreurs


Valeur de l’erreur en t ne dépend pas de l’erreur en t − 1.
Erreur commise à une date n’a pas d’influence sur erreur commise
à une autre date.
E(t t−1 ) = 0 ∀ t 6= t − 1.
Hypothèse de non autocorrélation des erreurs.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Hypothèses sur les erreurs

Homoscédasticité des erreurs


Homoscédasticité : variance des erreurs est constante quel que soit
t.
Le risque de l’amplitude de l’erreur est le même quel que soit la pé-
riode.
(Hétéroscédasticité : variance des erreurs non constante.)
E(2t ) = σ2 ∀ t.
Où σ2 représente la variance du terme de l’erreur.

La normalité du terme d’erreur


Terme d’erreur suit une loi normale d’espérance nulle et de va-
riance constante.
t ,→ N(0, σ2 )
Permet de contruire des tests statistiques.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Les Moindres Carrés Ordinaires

Objectif
Paramètres α et β du modèle (2) sont inconnus.
But de la régression simple va être de les estimer.
A partir des valeur observées de Xt et Yt , on cherche relation quantifiée
entre ces 2 variables :

Ŷt = α̂ + β̂Xt (3)

α̂ et β̂ désignent les estimateurs des paramètres de α et β.


est la valeur estimée (ou ajustée) de Yt .
Méthode utilisé pour estimation : MCO.
Nécessite les hypothèses que nous avons précèdemment posées.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Les Moindres Carrés Ordinaires

Principe des MCO


On reporte sur un plan les valeurs du couple (Xt , Yt ).
Diagramme de dispersion ou nuage de points.
MCO consiste à tracer une droite à travers ce nuage de points.
=> Droite de régression.

Droite de régression
Droite n’est pas tracée n’importe comment.
MCO cherchent à tracer droite de façon à ce qu’elle représente
au mieux le nuage de points.
Equation droite MCO : Ŷt = α̂ + β̂Xt
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Les Moindres Carrés Ordinaires


Introduction Généralités Les MCO ANOVA Les tests Conclusion

Les Moindres Carrés Ordinaires

Les résidus
Certains points du couple (Xt , Yt ) sont au dessus de la droite, d’autres
en dessous.
On note ces écarts à la droite et :

et = Yt − Ŷt = Yt − α̂ − β̂Xt (4)


|{z} |{z}
vraie valeur Y valeur estimee Y

Ces écarts sont appelés résidus.


On peut les interpréter comme la part de Yt que notre modèle
n’arrive pas à expliquer.
Plus les écarts sont faibles, plus notre modèle a un bon pouvoir
explicatif.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Les Moindres Carrés Ordinaires

A retenir
MCO cherchent à
Tracer droite de façon à ce que distance entre chaque point et
droite soit le plus petit possible !
Trouver α̂ et β̂ de sorte que somme des carrés des écarts entre
Yt et Ŷt soit minimale !
Minimiser la distance au carré entre chaque observation et droite de
régression.
Minimiser le carré des résidus !
T
X
MCO ⇐⇒ Min e2t (5)
t=1
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Les estimateurs MCO

Comment trouver les estimateurs ?


On sait que MCO reviennent à :
T
X
Min e2t
t=1

C’est-à-dire qu’on cherche les valeurs de α̂ et β̂ telles que :


   
PT 2
PT 2
∂ e
t=1 t ∂ e
t=1 t
= =0 (6)
∂ α̂ ∂ β̂
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Les estimateurs MCO

Résolution
Grâce à minimisation, on obtient les équations normales suivantes :
(P P
Yt = Tα̂ + β̂ Xt
Xt Yt = α̂ Xt + β̂ X2t
P P P

A partir desquelles on trouve nos estimateurs α̂ et β̂ :

α̂ = Ȳ − β̂ X̄ (7)
cov(Xt , Yt )
β̂ = (8)
V(Xt )
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Propriétés de la régression MCO

Droite de régression
La droite MCO passe par le point moyen (X̄, Ȳ).
Découle de la relation Y
ct = α̂ + β̂Xt .
¯
On en déduit Yct = α̂ + β̂ X̄ = Ȳ.

Variables observée et estimée


¯ = Ȳ.
Elles sont de même moyenne : Ŷ

Les résidus
En moyenne, résidus sont nuls : ē = 0
PT
La somme des résidus est nulle : t=1 (et ) = 0.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Propriétés de la régression MCO

Lien variable explicative/résidus


Absence de corrélation entre la variable explicative Xt et les résidus
et .
Cov(Xt , et ) = 0
La variables explicative et les résidus ne présentent aucun lien.

Lien variable estimée/résidu


Absence de corrélation entre la variable estimée Y
ct et les résidus et .
Cov(Y
ct , et ) = 0
La variables estimée et les résidus ne présentent aucun lien.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Propriétés des estimateurs MCO


Ne pas confoncre estimateur (qui est la formule ou la méthode
utiliser pour estimer un paramètre) et l’estimation (qui est la
valeur numérique résultant de l’application de la formule).
Estimateurs linéaires
α̂ est une fonction linéaire de Yt .
β̂ est une fonction linéaire de Yt .
=> α̂ est un estimateur linéaire de α.
=> β̂ est un estimateur linéaire de β.

Estimateurs sans biais


α̂ est un estimateur sans biais de α.
β̂ est un estimateur sans biais de β.

E(α̂) = α (9)
E(β̂) = β (10)
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Propriétés des estimateurs MCO


Estimateurs convergents de variance minimale

σ2
V(β̂) = (11)
TV(Xt )
PT 2
2 t=0 Xt
V(α̂) = σ (12)
T2 V(Xt )

Estimateurs convergents :

lim V(β̂) = 0
T→∞

lim V(α̂) = 0
T→∞

Variance minimale : estimateur qui va minimiser les écarts par


rapport à vrai valeur des paramètres (=> estimateur perfor-
mant).
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Propriétés des estimateurs MCO

Estimateurs BLUE
Combinaison de toutes ces propriétés indique qu’estimateur MCO
est BLUE.
BLUE : Best Linear Unbiased Estimator.
C’est le meilleur estimateur possible (le plus performant) parmi la
classe des estimateurs linéaires sans biais.

Estimateur de la variance de l’erreur


L’estimateur de la variance de l’erreur nous est donné par :
T
1
σˆ2 =
X
e2t (13)
T−2 t=1
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Propriétés des estimateurs MCO

Estimation des variances des estimateurs MCO


L’estimateur de la variance du terme d’erreur nous permet de donner l’es-
timation de la variance des estimateurs MCO, α̂ et β̂ :

[ ˆ = σˆ2
V(β) (14)
TV(Xt )
PT 2
\ ˆ = σˆ2 t=1 Xt
V(α) (15)
 2
T V(Xt )
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Equation d’analyse de la variance


On sait que :
Yt = Y
ct + et

En réécrivant cette relation en termes de variance, on obtient :

V(Yt ) = V(Y
ct + et ) = V(Y
ct ) + V(et ) + 2cov(Y
ct , et ) (16)

Or nous avons vu précèdemment que cov(Y


ct , et ) = 0, on a donc :

V(Yt ) = V(Y
ct ) + V(et ) (17)

Soit encore sous forme de somme des carrés :


T
X T
X T
X
(Yt − Ȳ)2 = ct − Ŷ)2 +
(Y (et − ē)2 (18)
t=1 t=1 t=1
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Equation d’analyse de la variance

Par ailleurs, on sait que ē = 0 et Ŷ = Y , ce qui nous permet de réécrire


(18) comme :
T
X T
X T
X
(Yt − Ȳ)2 = ct − Y)2 +
(Y (et )2 (19)
t=1 t=1 t=1

L’équation (22) est appelée équation d’analyse de la variance.


Introduction Généralités Les MCO ANOVA Les tests Conclusion

Equation d’analyse de la variance


Décomposition équation de la variance
Variance totale peut être exprimée en 2 termes :
Variance expliquée : variance de la variable estimée V (Yct ). Variance
expliquée par modèle, càd par variable explicative Xt .
Variance des résidus ou variance résiduelle (V (et )). Variance qui
n’est pas expliquée par modèle.

Autre formulation
Somme des carrés des écarts de la variable expliquée à sa moyenne :
somme des carrés totale, SCT.
Somme des carrés des écarts de la variable estimée à sa moyenne :
somme des carrés expliquée, SCE.
Somme des carrés des résidus, SCR.

SCT = SCE + SCR (20)


Introduction Généralités Les MCO ANOVA Les tests Conclusion

Coefficient de détermination

Qu’est-ce que le coefficient de détermination ?


Equation analyse de la variance permet de juger qualité régres-
sion.
On tire d’ANOVA le coefficient de détermination, ou R2 .
PT c − Y)2 PT 2
2 V(Y
ct )
t=1 (Yt t=1 (et )
R = = PT = 1 − PT (21)
V(Yt ) t=1 (Yt − Y)2 t=1 (Yt − Y)2

Soit encore :
SCE SCR
R2 = =1− (22)
SCT SCT

R 2 est rapport entre variance expliquée et variance totale.


Quantifie proximité de variance expliquée par rapport à variance totale.
Donne la part de la variance totale expliquée par modèle.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Coefficient de détermination

Indications données par R 2


R2 toujours compris entre 0 et 1 <=> 0 < R2 < 1.
Quand R 2 proche de 0 => modèle de mauvaise qualité.
Part de la variabilité que le modèle arrive à expliquer proche de 0.
Quand R 2 proche de 1 => modèle de bonne qualité.
Variabilité est reproduite quasi entièrement par le modèle.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Coefficient de détermination

Remarques
Puisque V(Y
b t ) = V(α
b + βV(X
b t )) on peut réécrire :

βb2 V(Xt )
R2 =
V(Yt )
cov(Xt ,Yt )
De plus βb = V(Xt )
, donc :

[cov(Xt , YT )]2
R2 = = [ρ(Y, X)]2
V(Xt )V(Yt )
Introduction Généralités Les MCO ANOVA Les tests Conclusion

La significativité individuelle

Jusqu’à present nous n’avons pas utilisé la propriété de normalité des


erreurs.
Permet de réaliser des tests statistiques sur paramètres.
Essentiels à validation statistique du modèle économétrique.
La démarche économétrique comporte 3 étapes :
1 Spécification du modèle sur bases d’intuitions théoriques.
2 Régression pour obtenir les valeurs estimées des paramètres qui nous
intéressent.
3 Validation du modèle.

Dernière étape est essentielle. Permet de savoir si les


résultats que l’on a obtenu sont “statisiquement fiables”.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

La validation du modèle

Comment valider un modèle ?


S’appuyer sur plusieurs éléments :
Le coefficient de détermination : donne une idée globale.
Les tests de significativité individuelle.
Les tests de significativité globale.

Qu’est-ce qu’un bon modèle (statistique) ?


La combinaison des éléments précédents :
R2 ≈ 1.
Constante et coeff de pente significativement différents de 0.
Modèle globalement significatif.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

La significativité individuelle

Qu’est-ce qu’un test de significativité individuelle ?


Test qui va être réalisé sur nos paramètres pris 1 par 1 ( càd de
manière indépendante).
Permet de dire si paramètre testé est égal ou différent de 0.
Régression nous donne une valeur estimé des paramètres.
Test nous dit si un paramètre a une influence sur l’explication.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Quel test va-t’on réaliser ?

Test de Student (avec β un paramètre quelconque, constante ou


coeff de pente) :
Hypothèses : (
H0 : β = 0
Ha : β 6= 0

Statistique de test :

βb
tβb = ,→ TT−k−1
σ
cβ̂

Où σ
cβ̂ est l’écart type estimé associé à β,
b à savoir la racine carré

de V[(β̂) (la variance estimée du coefficient estimé).


Introduction Généralités Les MCO ANOVA Les tests Conclusion

Quel test va-t’on réaliser ?

Régle de décision :
(
Si : |tβb| ≤ tp/2 alors on ne rejette pas H0 , β = 0.
Si : |tβb| > tp/2 alors on rejette H0 , β 6= 0.

Avec tp/2 la valeur tabulée, càd la valeur donnée par la table de


Student au seuil statistique de p%.
On peut appliquer indifféremment ce test à la constante ou au coeffi-
cient de pente, les hyptohèses, stats de test et règles de décisions ne
sont pas modifiées.
Remarque, lorsque le test est appliqué au coefficient de pente, on teste
en fait la significativité de la variable exogène : on teste sa capacité à
pouvoir réellement expliquer la variable endogène.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

La significativité globale

Qu’est-ce qu’un test de significativité globale ?


Test permettant de savoir si les variables endogènes utilisées ont un
réel pouvoir explicatif.
Test portant uniquement sur les variables explicatives (constante est
exclue).
Test s’appuyant sur équation d’analyse de la variance.
Permet de donner une idée sur la bonne spécification du modèle.
Si le modèle est globalement non significatif => revient à dire que
variables explicatives n’ont pas de pouvori explicatif => trouver un
autre modèle.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Quel test va-t’on réaliser ?

Soit le modèle : Yt = α + βXt + t .


Test de Fisher
Hypothèses : (
H0 : β = 0 ⇔ R2 = 0
Ha : β 6= 0 ⇔ R2 6= 0
H0 signifie que le modèle est globalement non-significatif, Ha l’inverse.
Statistique de test :
SCE
F= ,→ F(1,T−2)
SCR/T − 2
ou
R2
F= ,→ F(1,T−2)
(1 − R2 )/(T − 2)
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Quel test va-t’on réaliser ?

Régle de décision :



 Si : F ≤ F(1,T−2) alors on ne rejette pas H0 , β = 0, ce qui signifie
que le modèle est globalement non-significatif.



Si : F > F(1,T−2) alors on rejette H0 , β 6= 0, ce qui signifie

que le modèle est globalement significatif : ici Xt contribue à





l’explication de Y .
t

Avec F(1,T−2) la valeur tabulée, càd la valeur donnée par la table


de Fisher pour (1, T − 2) degrés de liberté.
Ce test ne prend jamais en compte la constante.
Introduction Généralités Les MCO ANOVA Les tests Conclusion

Remarques

Ce test s’utilise généralement dans un cadre multiple du type :

Yt = α + β1 X1,t + β2 X2,t + ... + βn Xn,t + t

.
Il permet de voir si les variables Xi,t prises dans leur ensemble per-
mettent d’expliquer Yt . Dans ce cas là les hypothèses testées sont :
(
H0 : β1 = β2 = ... = βn = 0 ⇔ R2 = 0
Ha : Au moins un des βi 6= 0 ⇔ R2 6= 0

Dans le modèle simple, réaliser un test de significativité globale revient


à tester uniquement β, càd le coeff de pente.
Introduction Généralités Les MCO ANOVA Les tests Conclusion