Vous êtes sur la page 1sur 50

Économétrie

49
68
03
21
:15
15
Régis Bourbonnais
7.2
0
9.1
.12
05
8:1
6
23
85
:88

10e édition
03
6
38
95
:78
ra
nit
Ke
G
NC
:E
om
x.c

Cours complet
larvo
ho
sc
w.
ww

Nombreux exemples

Applications corrigées sous Excel,


Eviews, Gretl ou Stata
49
68
03
21
:15
15
7.2
0
9.1
.12
05
8:1
6
23
85
:88
03
6
38
95
:78
ra
nit
Ke
G
NC
:E
om
x.c
larvo
ho
sc
w.
ww

© Dunod, 2018
11, rue Paul Bert, 92240 Malakoff
www.dunod.com
ISBN 978-2-10-077721-1
Table des matières

49
68
03
21
:15
15
7.2
0
9.1
.12
Avant-propos XI
05
8:1
6
23
85

1  Qu’est-ce que l’économétrie ?


:88
03

1
6
38
95
:78

Section 1 La notion de modèle 2


ra
nit
Ke

1. Définition 2
G
NC

2. La construction des modèles en économétrie2


:E
om
x.c

Section 2 Le rôle de l’économétrie 5


larvo
ho

1. L’économétrie comme validation de la théorie  5


sc
w.
ww

2. L’économétrie comme outil d’investigation  5


Section 3 La théorie de la corrélation  6
1. Présentation générale  6
© Dunod – Toute reproduction non autorisée est un délit.

2. Mesure et limite du coefficient de corrélation  8

2  Le modèle de régression simple  13


Section 1 Présentation du modèle  14
1. Exemple introductif  14
2. Rôle du terme aléatoire  15
3. Conséquences du terme aléatoire  17
Section 2 Estimation des paramètres  18
1. Modèle et hypothèses  18
2. Formulation des estimateurs  18
3. Les différentes écritures du modèle : erreur et résidu 22
4. Propriétés des estimateurs 22
Économétrie

Section 3 Conséquences des hypothèses : construction des tests 25


1. Hypothèse de normalité des erreurs 25
2. Conséquences de l’hypothèse de normalité des erreurs 25
3. Test bilatéral, test unilatéral et probabilité critique d’un test29
Section 4 Équation et tableau d’analyse de la variance 35
1. Équation d’analyse de la variance 35
2. Tableau d’analyse de la variance 36
Section 5 La prévision dans le modèle de régression simple 41

3  Le modèle de régression multiple  51

49
68
03
21
Section 1 Le modèle linéaire général 52

:15
15
7.2
1. Présentation 52

0
9.1
2. Forme matricielle 52
.12
05
8:1
Section 2 Estimation et propriétés des estimateurs 53
6
23
85
:88

1. Estimation des coefficients de régression 53


03
6

2. Hypothèses et propriétés des estimateurs 56


38
95
:78

3. Équation d’analyse de la variance et qualité d’un ajustement 58


ra
nit
Ke

Section 3 Les tests statistiques 63


G
NC
:E

1. Le rôle des hypothèses 63


om
x.c

2. Construction des tests 64


larvo
ho

3. T
 ests sur les résidus : valeur anormale, effet de levier et point
sc
w.

d’influence66
ww

Section 4 L’analyse de la variance 72


1. Construction du tableau d’analyse de la variance
et test de signification globale d’une régression  72
2. Autres tests à partir du tableau d’analyse de la variance 74
3. Généralisation des tests par analyse de la variance 80
Section 5 L’utilisation de variables indicatrices 81
1. Constitution et finalités des variables indicatrices 81
2. Exemples d’utilisation 82
Section 6 La prévision à l’aide du modèle linéaire général
et la régression récursive88
1. Prédiction conditionnelle 88
2. Fiabilité de la prévision et intervalle de prévision 89
3. Les tests de stabilité par la régression récursive 92
4. Le test de spécification de Ramsey93

IV
Table des matières

Section 7 Exercices récapitulatifs 97


Annexe 111
1. Interprétation géométrique de la méthode des moindres carrés  111
2. R ésolution de l’exercice 1 par des logiciels informatiques
de régression multiple  112
3. Estimation de la variance de l’erreur  114

4  Multicolinéarité et sélection du modèle optimal  115


Section 1 Corrélation partielle  116
1. Exemple introductif 116

49
68
03
2. Généralisation de la notion de corrélation partielle 116

21
:15
15
Section 2 Relation entre coefficients de corrélation simple,

7.2
0
partielle et multiple 121

9.1
.12
Section 3 Multicolinéarité : conséquences et détection 122 05
8:1
6
23
85

1. Conséquences de la multicolinéarité 123


:88
03

2. Tests de détection d’une multicolinéarité 124


6
38
95

3. Comment remédier à la multicolinéarité ? 128


:78
ra
nit

Section 4 Sélection du modèle optimal128


Ke
G
NC
:E
om

5  Problèmes particuliers : la violation des hypothèses 


x.c

135
rvo
la
ho
sc
w.

Section 1 L’autocorrélation des erreurs 136


ww

1. Présentation du problème 136


2. L’estimateur des Moindres Carrés Généralisés (MCG) 137
3. Les causes et la détection de l’autocorrélation des erreurs 138
© Dunod – Toute reproduction non autorisée est un délit.

4. Les procédures d’estimation en cas d’autocorrélation des erreurs 145


Section 2 L’hétéroscédasticité 153
1. Présentation du problème 153
2. Correction de l’hétéroscédasticité 155
3. Tests de détection de l’hétéroscédasticité 159
4. Autre test d’hétéroscédasticité : le test ARCH165
Section 3 Modèles à erreurs sur les variables 166
1. Conséquences lorsque les variables sont entachées d’erreurs 166
2. La méthode des variables instrumentales 167
3. Le test d’exogénéité d’Hausman 168
4. La méthode des moments généralisée 169

V
Économétrie

6  Les modèles non linéaires  179


Section 1 Les différents types de modèles non linéaires 180
1. Les fonctions de type exponentiel 180
2. Les modèles de diffusion 183
Section 2 Méthodes d’estimation des modèles non linéaires 184
1. Initiation aux méthodes d’estimation non linéaires 184
2. Exemples d’application 186

7  Les modèles à décalages temporels  191

49
68
Section 1 Les modèles linéaires autorégressifs 192

03
21
:15
1. Formulation générale 192

15
7.2
2. Test d’autocorrélation et méthodes d’estimation 193

0
9.1
.12
Section 2 Les modèles à retards échelonnés 198
05
8:1
6

1. Formulation générale 198


23
85
:88

2. Détermination du nombre de retards 199


03
6
38

3. Distribution finie des retards 203


95
:78

4. Distribution infinie des retards 208


ra
nit
Ke

Section 3 Deux exemples de modèles dynamiques 214


G
NC
:E

1. Le modèle d’ajustement partiel 214


om
x.c

2. Le modèle d’anticipations adaptatives 215


larvo
ho
sc

8  Introduction aux modèles à équations simultanées 


w.
ww

235
Section 1 Équations structurelles et équations réduites 236
1. Exemple introductif 236
2. Le modèle général 238
Section 2 Le problème de l’identification 239
1. Restrictions sur les coefficients 239
2. Conditions d’identification 239
Section 3 Les méthodes d’estimation 241
1. Les moindres carrés indirects 241
2. Les doubles moindres carrés 241
3. Autres méthodes d’estimation 242
Annexe 255
Identification : les conditions de rang 255

VI
Table des matières

9  Éléments d’analyse des séries temporelles 257


Section 1 Stationnarité 258
1. Définition et propriétés 258
2. Fonctions d’autocorrélation simple et partielle258
3. Tests de « bruit blanc » et de stationnarité 260
Section 2 La non-stationnarité et les tests de racine unitaire263
1. La non-stationnarité : les processus TS et DS 263
2. L es tests de racine unitaire et la stratégie séquentielle
de test267
Section 3 Les modèles ARIMA276

49
68
03
1. Typologie des modèles AR, MA et ARMA 276

21
:15
2. L’extension aux processus ARIMA et SARIMA 279

15
7.2
0
Section 4 La méthode de Box et Jenkins 280

9.1
.12
1. Recherche de la représentation adéquate : l’identification 280 05
8:1
6
23

2. Estimation des paramètres281


85
:88

3. Tests d’adéquation du modèle et prévision282


03
6
38
95

10  La modélisation VAR 


:78
ra
nit

297
Ke
G
NC

Section 1 Représentation d’un modèle VAR298


:E
om
x.c

1. Exemple introductif 298


larvo
ho

2. La représentation générale 299


sc
w.

3. La représentation ARMAX 301


ww

Section 2 Estimation des paramètres 301


1. Méthode d’estimation 301
© Dunod – Toute reproduction non autorisée est un délit.

2. Détermination du nombre de retards 302


3. Prévision302
Section 3 Dynamique d’un modèle VAR 308
1. Représentation VMA d’un processus VAR308
2. Analyse et orthogonalisation des « chocs »308
3. Décomposition de la variance 312
4. Choix de l’ordre de décomposition 312
Section 4 La causalité 316
1. Causalité au sens de Granger316
2. Causalité au sens de Sims317

VII
Économétrie

11  La cointégration et le modèle à correction d’erreur  321


Section 1 Exemples introductifs 322
1. Premier exemple322
2. Deuxième exemple323
Section 2 Le concept de cointégration 324
1. Propriétés de l’ordre d’intégration d’une série 324
2. Conditions de cointégration 326
3. Le modèle à correction d’erreur (ECM)326
Section 3 Cointégration entre deux variables 327
1. Test de cointégration entre deux variables 328

49
68
03
2. Estimation du modèle à correction d’erreur 328

21
:15
15
Section 4 Généralisation à k variables 331

7.2
0
9.1
1. La cointégration entre k variables332
.12
2. Estimation du modèle à correction d’erreur333 05
8:1
6
23

3. Le modèle à correction d’erreur vectoriel333


85
:88

4. Tests de relation de cointégration335


03
6
38
95

5. Test d’exogénéité faible338


:78
ra

6. Synthèse de la procédure d’estimation339


nit
Ke
G
NC

12  Introduction à l’économétrie des variables qualitatives 


:E
om

345
x.c
larvo

Section 1 Les problèmes et les conséquences de la spécification binaire346


ho
sc
w.
ww

Section 2 Les modèles de choix binaires348


1. Le modèle linéaire sur variable latente348
2. Les modèles Probit et Logit 349
3. Interprétation des résultats et tests statistiques351
Section 3 Les modèles à choix multiples 356
1. Les modèles Probit et Logit ordonnés 357
2. L e modèle de choix multiples non ordonné :
le Logit multinomial 361
Section 4 Les modèles à variable dépendante limitée : le modèle Tobit 363
1. Le modèle Tobit simple : modèle de régression tronqué
ou censuré364
2. Estimation et interprétation des résultats366

VIII
Table des matières

13  Introduction à l’économétrie des données de panel  371


Section 1 Présentation des modèles à données de panel372
1. Spécificités des données de panel372
2. La méthode SUR 373
3. Le modèle linéaire simple 374
Section 2 Les tests d’homogénéité375
1. Procédure séquentielle de tests375
2. Construction des tests 376
Section 3 Spécifications et estimations des modèles à effets individuels381
1. Le modèle à effets fixes individuels381

49
68
03
2. Le modèle à effets aléatoires 383

21
:15
3. Effets fixes ou effets aléatoires ? Le test d’Hausman 384

15
7.2
0
9.1
.12
Liste des exercices 388
05
8:1
6
23
85

Tables statistiques 391


:88
03
6
38
95

Bibliographie 399
:78
ra
nit
Ke

Index 402
G
NC
:E
om
x.c
larvo
ho
sc
w.
ww
© Dunod – Toute reproduction non autorisée est un délit.

IX
ww
w.
sc
ho
larvo
x.c
om
:E
NC
G
Ke
nit
ra
:78
95
38
603
:88
85
23
68:1
05
.12
9.1
0 7.2
15
:15
21
03
68
9 4
Avant-propos

49
68
03
21
:15
15
7.2
0
9.1

C
.12
05
8:1
6
23
85
:88

ette dixième édition, gage que ce livre répond à un besoin constant des étu-
03
6
38

diants, marque la volonté d’une mise à jour permanente de ce manuel tant sur
95
:78
ra

le plan des concepts de l’économétrie moderne que des applications, tout en lui
nit
Ke

conservant son aspect très pédagogique. Dans cette nouvelle édition nous avons
G
NC

intégré de manière systématique les logiciels Gretl et Stata dans la correction des
:E
om

exercices à l’aide des fichiers « script » de commandes.


x.c
larvo
ho

Ce livre couvre tous les champs de l’économétrie : régression simple et multiple,


sc
w.

violation des hypothèses (hétéroscédasticité, autocorrélation des erreurs, variables


ww

explicatives aléatoires), modèle à décalage, analyse des séries temporelles, tests de


racine unitaire, équations multiples, VAR, cointégration, VECM, économétrie des
variables qualitatives et des données de panel…
© Dunod – Toute reproduction non autorisée est un délit.

Sur l’ensemble de ces thèmes, ce livre vous propose un cours, des exercices cor-
rigés, et une présentation des logiciels d’économétrie les plus répandus. Souhaitons
qu’il corresponde à votre attente.
En effet, nous avons voulu, par une alternance systématique de cours et d’exer-
cices, répondre à un besoin pédagogique qui est de mettre rapidement en pratique
les connaissances théoriques et ainsi, d’utiliser de manière opérationnelle les acquis
du cours ; les exercices sont repérés grâce à un bandeau grisé. De surcroît, le recours
à des logiciels1, lors de la résolution des exercices, permet une découverte de ces
outils et donne une dimension pratique que recherchent l’étudiant et le praticien.

1. Quatre logiciels sont utilisés : EXCEL (copyright Microsoft), Eviews (copyright Quantitative Micro
Software), Stata (copyright StataCorp.) et Gretl. Nous recommandons particulièrement le logiciel Gretl (http://gretl.
sourceforge.net/) qui est un logiciel d’économétrie gratuit, complet et très facile d’apprentissage.

XI
Économétrie

Afin que le lecteur puisse lui-même refaire les exercices, les données utilisées
(sous format Excel, Eviews, Gretl et Stata) ainsi que les programmes de traitement
de Eviews (extension .prg) ou de Gretl (extension .INP) sont disponibles par télé-
chargement sur le serveur web.
Les corrigés des exercices et les données sous format Stata ont été réalisés par
Dalila Chenaf-Nicet, maître de conférences en économie à l’Université de Bordeaux,
et sont disponibles également par téléchargement sur le site web :
http://regisbourbonnais.dauphine.fr
Pour chaque exercice faisant appel à un fichier de données, le nom du fichier est
cité en tête de l’exercice et repéré par l’icône suivante :  .

49
68
Nous avons voulu faire de ce manuel un livre d’apprentissage facilement acces-

03
21
:15
sible ; c’est pourquoi les démonstrations les plus complexes font l’objet de renvois

15
7.2
à une bibliographie plus spécialisée. Cependant, il convient de préciser que l’écono-

0
9.1
métrie fait appel à des notions d’algèbre linéaire et d’induction statistique qu’il est
.12
souhaitable de connaître. 05
8:1
6
23
85

Dans le terme « économétrie » figure la racine du mot « économie » car son utili-
:88
03

sation est surtout destinée à des fins de traitement de données économiques ; cepen-
6
38
95

dant, d’autres domaines tels que la finance, la recherche agronomique, la médecine,


:78
ra

etc., font maintenant le plus souvent appel à ces techniques.


nit
Ke
G

Ce livre s’adresse en premier lieu aux étudiants (sciences économiques, gestion,


NC
:E

écoles de commerce et d’ingénieurs, etc.) dont la formation requiert une connais-


om
x.c

sance de l’économétrie. Gageons qu’il sera un support de cours indispensable et un


larvo
ho

allié précieux pour préparer les séances de travaux dirigés.


sc
w.
ww

N’oublions pas cependant le praticien de l’économétrie (économiste d’entreprise,


chercheur, etc.) qui, confronté à des problèmes d’estimation statistique, trouvera
dans ce livre les réponses pratiques aux différentes questions qu’il peut se poser.
Enfin, j’exprime toute ma gratitude à toutes les personnes – collègues et étudiants –
qui ont eu la gentillesse de me faire des commentaires et dont les conseils et sugges-
tions contribuent à la qualité pédagogique de ce livre. Je reste, bien entendu, le seul
responsable des erreurs qui subsisteraient1.

1.  Les lecteurs souhaitant faire des commentaires ou des remarques peuvent me contacter : Régis Bourbonnais,
université de Paris-Dauphine, place du Maréchal de Lattre de Tassigny, 75775 Paris Cedex 16,
E-mail : regis.bourbonnais@dauphine.fr

XII
Chapitre
Qu’est-ce que
1 l’économétrie ?

49
68
03
21
:15
15
7.2
0
9.1
.12
05
8:1
6
23
85
:88
03
6
38
95
:78
ra
nit
Ke
G
NC
:E

SOMMAIRE
om
x.c
larvo
ho

Section 1 La notion de modèle


sc
w.
ww

Section 2 Le rôle de l’économétrie


Section 3 La théorie de la corrélation
Chapitre 1  ■  Qu’est-ce que l’économétrie ?

C e premier chapitre est consacré à la présentation de l’économétrie et à sa


liaison avec la théorie économique.

Section
1 LA NOTION DE MODÈLE

1 Définition

49
68
03
Il est délicat de fournir une définition unique de la notion de modèle1. Dans le

21
:15
cadre de l’économétrie, nous pouvons considérer qu’un modèle consiste en une

15
7.2
présentation formalisée d’un phénomène sous forme d’équations dont les variables

0
9.1
.12
sont des grandeurs économiques. L’objectif du modèle est de représenter les traits
05
8:1
les plus marquants d’une réalité qu’il cherche à styliser. Le modèle est donc l’outil
6
23
85

que le modélisateur utilise lorsqu’il cherche à comprendre et à expliquer des phéno-


:88
03

mènes. Pour ce faire, il émet des hypothèses et explicite des relations.


6
38
95
:78
ra

• Pourquoi des modèles ?


nit
Ke

• Nombreux sont ceux – sociologues, économistes ou physiciens – qui fondent


G
NC

leurs analyses ou leurs jugements sur des raisonnements construits et élaborés.


:E
om
x.c

Ces constructions refèrent implicitement à des modèles ; alors pourquoi ne pas


larvo

expliciter clairement les hypothèses et les relations au sein d’un modèle ?


ho
sc
w.
ww

Le modèle est donc une présentation schématique et partielle d’une réalité natu-
rellement plus complexe. Toute la difficulté de la modélisation consiste à ne retenir
que la ou les représentations intéressantes pour le problème que le modélisateur
cherche à expliciter. Ce choix dépend de la nature du problème, du type de décision
ou de l’étude à effectuer. La même réalité peut ainsi être formalisée de diverses
manières en fonction des objectifs.

2 La construction des modèles en économétrie

Dans les sciences sociales, et particulièrement en économie, les phénomènes étudiés


concernent le plus souvent des comportements afin de mieux comprendre la nature et
le fonctionnement des systèmes économiques. L’objectif du modélisateur est, dans le
cadre de l’économétrie et au travers d’une mesure statistique, de permettre aux agents

1.  La notion de modèle est relative au point de vue auquel nous nous plaçons : la physique, l’épistémologie...

2
Qu’est-ce que l’économétrie ?  ■  Chapitre 1

économiques (ménages, entreprises, État...) d’intervenir de manière plus efficace. La


construction d’un modèle comporte un certain nombre d’étapes qui sont toutes impor-
tantes. En effet, en cas de faiblesse d’un des « maillons », le modèle peut se trouver
invalidé pour cause d’hypothèses manquantes, de données non représentatives ou
observées avec des erreurs, etc. Examinons les différentes étapes à suivre lors de la
construction d’un modèle, ceci à partir de l’exemple du modèle keynésien simplifié.

2.1  Référence à une théorie


Une théorie s’exprime au travers d’hypothèses auxquelles le modèle fait référence.
Dans la théorie keynésienne, quatre propositions sont fondamentales :

49
1.  la consommation et le revenu sont liés ;

68
03
21
2.  le niveau d’investissement privé et le taux d’intérêt sont également liés ;

:15
15
7.2
3.  il existe un investissement autonome public ;

0
9.1
4.  enfin, le produit national est égal à la consommation plus l’investissement privé
.12
et public. 05
8:1
6
23
85
:88
03
6

2.2  Formalisation des relations et choix de la forme des fonctions


38
95
:78
ra

À partir des propositions précédentes, nous pouvons construire des relations :


nit
Ke
G

1.  la consommation est fonction du revenu : C = f (Y ) avec f ′ > 0 ;


NC
:E

2.  l’investissement privé dépend du taux d’intérêt : I = g(r ) avec g′ < 0 ;


om
x.c
rvo

3.  il existe un investissement autonome public : I ;


la
ho
sc

4.  enfin, le produit national (ou le revenu national) est égal à la consommation plus
w.
ww

l’investissement : Y ≡ C + I + I .
À ce stade, nous n’avons postulé aucune forme particulière en ce qui concerne les
fonctions f et g. Ainsi, bien que des considérations d’ordre théorique nous renseignent
© Dunod – Toute reproduction non autorisée est un délit.

sur le signe des dérivées, il existe une multitude de fonctions de formes très différentes
et ayant des signes de dérivées identiques, par exemple C = a0 + a1 Y et
C = a0 Y a1. Cependant, ces deux relations ne reflètent pas le même comportement ; une
augmentation du revenu provoque un accroissement proportionnel pour la première
relation, alors que, dans la seconde, l’effet s’estompe avec l’augmentation du revenu (si
0 < a1 < 1). Nous appelons « forme fonctionnelle » ce choix (arbitraire ou fondé) de
spécification précise du modèle. Dans notre exemple, le modèle explicité s’écrit :
C = a0 + a1 Y avec a0 > 0 et 0 < a1 < 1
a1 = propension marginale à consommer
et a0 = consommation incompressible ;
I = b0 + b1 r avec b0 > 0 et b1 < 0 ;
Y ≡C+I+I

3
Chapitre 1  ■  Qu’est-ce que l’économétrie ?

Les deux premières équations reflètent des relations de comportements alors que
la troisième est une identité (aucun paramètre n’est à estimer).

2.3  Sélection et mesure des variables


Le modèle étant spécifié, il convient de collecter les variables représentatives des
phénomènes économiques. Ce choix n’est pas neutre et peut conduire à des résultats
différents, les questions qu’il convient de se poser sont par exemple :
–– Faut-il raisonner en euros constants ou en euros courants ?
–– Les données sont-elles brutes ou CVS1 ?
–– Quel taux d’intérêt faut-il retenir (taux au jour le jour, taux directeur de la Banque
centrale européenne...) ? etc.

49
68
03
Nous distinguons plusieurs types de données selon que le modèle est spécifié en :

21
:15
–– série temporelle : c’est le cas le plus fréquent en économétrie, il s’agit de variables

15
7.2
0
observées à intervalles de temps réguliers (la consommation annuelle, totale France,

9.1
.12
exprimée en euros courants sur 20 ans) ;
05
8:1
–– coupe instantanée : les données sont observées au même instant et concernent les
6
23
85

valeurs prises par la variable pour un groupe d’individus2 spécifiques (consomma-


:88
03

tion observée des agriculteurs pour une année donnée) ;


6
38
95

–– panel : la variable représente les valeurs prises par un échantillon d’individus à inter-
:78
ra

valles réguliers (la consommation d’un échantillon de ménages de la région pari-


nit
Ke

sienne sur 20 ans) ;


G
NC
:E

–– cohorte : très proches des données de panel, les données de cohorte se distinguent
om
x.c

de la précédente par la constance de l’échantillon, les individus sondés sont les


larvo

mêmes d’une période sur l’autre.


ho
sc
w.
ww

2.4  Décalages temporels


Dans le cadre de modèle spécifié en séries temporelles, les relations entre les
variables ne sont pas toujours synchrones mais peuvent être décalées dans le temps.
Nous pouvons concevoir que la consommation de l’année t est expliquée par le
revenu de l’année t − 1 et non celui de l’année t. Pour lever cette ambiguïté, il est
d’usage d’écrire le modèle en le spécifiant à l’aide d’un indice de temps :
Ct = a0 + a1 Yt−1. La variable Yt−1 est appelée « variable exogène retardée ».

On appelle « variable exogène » une variable dont les valeurs sont prédétermi-
nées, et « variable endogène » une variable dont les valeurs dépendent des
variables exogènes.

1.  Corrigées des Variations Saisonnières.


2.  Le terme d’individu est employé au sens statistique, c’est-à-dire comme un élément d’une population : une
personne, une parcelle de terre...

4
Qu’est-ce que l’économétrie ?  ■  Chapitre 1

2.5  Validation du modèle


La dernière étape est celle de la validation1 du modèle :
–– Les relations spécifiées sont-elles valides ?
–– Peut-on estimer avec suffisamment de précision les coefficients ?
–– Le modèle est-il vérifié sur la totalité de la période ?
–– Les coefficients sont-ils stables ? Etc.
À toutes ces questions, les techniques économétriques s’efforcent d’apporter des
réponses.

49
Section

68
03
LE RÔLE DE L’ÉCONOMÉTRIE

21
:15
15
7.2
0
9.1
1 L’économétrie comme validation de la théorie
.12
05
8:1
6
23
85
:88

L’économétrie est un outil à la disposition de l’économiste qui lui permet d’infir-


03
6

mer ou de confirmer les théories qu’il construit. Le théoricien postule des relations ;
38
95
:78

l’application de méthodes économétriques fournit des estimations sur la valeur des


ra
nit

coefficients ainsi que la précision attendue.


Ke
G
NC

Une question se pose alors : pourquoi estimer ces relations, et les tester statistique-
:E
om

ment ? Plusieurs raisons incitent à cette démarche : tout d’abord cela force l’individu
x.c
rvo

à établir clairement et à estimer les interrelations sous-jacentes. Ensuite, la confiance


la
ho
sc

aveugle dans l’intuition peut mener à l’ignorance de liaisons importantes ou à leur


w.
ww

mauvaise utilisation. De plus, des relations marginales mais néanmoins explicatives,


qui ne sont qu’un élément d’un modèle global, doivent être testées et validées afin
de les mettre à leur véritable place. Enfin, il est nécessaire de fournir, en même
temps que l’estimation des relations, une mesure de la confiance que l’économiste
© Dunod – Toute reproduction non autorisée est un délit.

peut avoir en celles-ci, c’est-à-dire la précision que l’on peut en attendre. Là encore,
l’utilisation de méthodes purement qualitatives exclut toute mesure quantitative de
la fiabilité d’une relation.

2 L’économétrie comme outil d’investigation

L’économétrie n’est pas seulement un système de validation, mais également un


outil d’analyse. Nous pouvons citer quelques domaines où l’économétrie apporte
une aide à la modélisation, à la réflexion théorique ou à l’action économique par :

1.  Validation, c’est-à-dire en conformité avec les données disponibles.

5
Chapitre 1  ■  Qu’est-ce que l’économétrie ?

–– la mise en évidence de relations entre des variables économiques qui n’étaient pas
a priori évidentes ou pressenties ;
–– l’induction statistique ou l’inférence statistique, qui consiste à inférer, à partir des
caractéristiques d’un échantillon, les caractéristiques d’une population. Elle permet
de déterminer des intervalles de confiance pour des paramètres du modèle ou de
tester si un paramètre est significativement1 inférieur, supérieur ou simplement dif-
férent d’une valeur fixée ;
–– la simulation qui mesure l’impact de la modification de la valeur d’une variable sur
une autre (DCt = a1DYt) ;
–– la prévision2, par l’utilisation de modèles économétriques, qui est utilisée par les
pouvoirs publics ou l’entreprise afin d’anticiper et éventuellement de réagir à l’envi-
ronnement économique.

49
68
03
Dans cet ouvrage, nous nous efforcerons de montrer, à l’aide d’exemples, les dif-

21
:15
férentes facettes de l’utilisation des techniques économétriques dans des contextes

15
7.2
0
et pour des objectifs différents.

9.1
.12
05
8:1
6
23
85

3
:88

Section
03
6

LA THÉORIE DE LA CORRÉLATION
38
95
:78
ra
nit
Ke

1 Présentation générale
G
NC
:E
om
x.c
rvo

Lorsque deux phénomènes ont une évolution commune, nous disons qu’ils sont
la
ho
sc

« corrélés ». La corrélation simple mesure le degré de liaison existant entre ces deux
w.
ww

phénomènes représentés par des variables. Si nous cherchons une relation entre trois
variables ou plus, nous ferons appel alors à la notion de corrélation multiple.
Nous pouvons distinguer la corrélation linéaire, lorsque tous les points du couple
de valeurs (x,y) des deux variables semblent alignés sur une droite, de la corrélation
non linéaire lorsque le couple de valeurs se trouve sur une même courbe d’allure
quelconque.
Deux variables peuvent être :
–– en corrélation positive ; on constate alors une augmentation (ou diminution, ou
constance) simultanée des valeurs des deux variables ;
–– en corrélation négative, lorsque les valeurs de l’une augmentent, les valeurs de
l’autre diminuent ;

1.  Au sens statistique, c’est-à-dire avec un seuil (risque d’erreur à ne pas dépasser, souvent 5 %).
2. Pour découvrir l’utilisation de l’économétrie à des fins de prévision de ventes, voir Bourbonnais R.
et Usunier J.-C. (2017).

6
Qu’est-ce que l’économétrie ?  ■  Chapitre 1

–– non corrélées, il n’y a aucune relation entre les variations des valeurs de l’une des
variables et les valeurs de l’autre.
Le tableau 1, en croisant les critères de linéarité et de corrélation, renvoie à une
représentation graphique.

Tableau 1 – Linéarité et corrélation


Corrélation positive Corrélation négative Absence de corrélation
Relation linéaire Graphe 1 Graphe 2 Graphe 5
Relation non linéaire Graphe 3 Graphe 4 Graphe 5

49
68
03
21
:15
15
7.2
0
9.1
.12
05
8:1
6
23
85
:88
03
6
38
95


:78
ra

Graphe 1 Graphe 2
nit
Ke
G
NC
:E
om
x.c
larvo
ho
sc
w.
ww
© Dunod – Toute reproduction non autorisée est un délit.


Graphe 3 Graphe 4

Graphe 5

7
Chapitre 1  ■  Qu’est-ce que l’économétrie ?

2 Mesure et limite du coefficient de corrélation


2.1  Le coefficient de corrélation linéaire
La représentation graphique ne donne qu’une « impression » de la corrélation
entre deux variables sans donner une idée précise de l’intensité de la liaison, c’est
pourquoi nous calculons une statistique appelée coefficient de corrélation linéaire
simple, noté rx,y. Il est égal à :
n
∑ ( xi −x )( yi −y )
Cov ( x , y ) i =1
rx , y = = [1]
σ xσ y

4
n n

9
∑ ( xi ) ∑ ( yi )
2 2

68
−x −y

03
21
:15
i =1 i =1

15
07.2
avec :

9.1
.12
05
Cov ( x , y ) = covariance entre x et y ; 68:1
23

σ x et σ y = écart type de x et écart type de y ;


85
:88
03

n = nombre d’observations.
6
38
95
:78

En développant la formule [1], il vient :


ra
nit
Ke
G

n n n
NC

∑ xi yi − ∑ xi ∑ yi
:E

n
om
x.c

i =1 i =1 i =1
rvo

rx , y = [2]
la

2 2
ho

n  n  n  n 
sc

n ∑ xi2 −  ∑ xi  n ∑ yi2 −  ∑ yi 
w.
ww

i =1  i =1  i =1 i =1 

On peut démontrer que, par construction, ce coefficient reste compris entre –1 et 1 :


–– proche de 1, les variables sont corrélées positivement ;
–– proche de –1, les variables sont corrélées négativement ;
–– proche de 0, les variables ne sont pas corrélées.
Dans la pratique, ce coefficient est rarement très proche de l’une de ces trois
bornes et il est donc difficile de proposer une interprétation fiable à la simple lecture
de ce coefficient. Ceci est surtout vrai en économie où les variables sont toutes plus
au moins liées entre elles. De plus, il n’est calculé qu’à partir d’un échantillon
d’observations et non pas sur l’ensemble des valeurs. On appelle rx,y ce coefficient
empirique qui est une estimation du coefficient vrai rx,y. La théorie des tests statis-
tiques nous permet de lever cette indétermination.
Soit à tester l’hypothèse H0 : rx,y = 0, contre l’hypothèse H1 : rx,y ≠ 0.

8
Qu’est-ce que l’économétrie ?  ■  Chapitre 1

ρx,y
Sous l’hypothèse H0, nous pouvons démontrer que suit une loi de
(1 − ρ x2, y )
n−2
Student à n – 2 degrés de liberté1. Nous calculons alors une statistique, appelé le t
de Student empirique :

ρx, y
t∗ = 
(1 − ρ x2, y ) [3]
n−2

4
Si t ∗ > tnα−/ 22 valeur lue dans une table de Student2 au seuil a = 0,05 (5 %) à n – 2

9
68
03
21
degrés de liberté3, nous rejetons l’hypothèse H0, le coefficient de corrélation est

:15
15
donc significativement différent de 0 ; dans le cas contraire, l’hypothèse d’un coef-

7.2
0
ficient de corrélation nul est acceptée. La loi de Student étant symétrique, nous

9.1
.12
calculons la valeur absolue du t empirique et nous procédons au test par comparai-
05
8:1
son avec la valeur lue directement dans la table.
6
23
85
:88
03

EXERCICE n° 1
6
38
95
:78
ra
nit
Ke

Fichier C1EX1
G
NC
:E
om

Calcul d’un coefficient de corrélation


x.c
rvo
la
ho
sc

Un agronome s’intéresse à la liaison pouvant exister entre le rendement de maïs x


w.
ww

(en quintal) d’une parcelle de terre et la quantité d’engrais y (en kilo). Il relève 10
couples de données consignés dans le tableau 2.

Tableau 2 – Rendement de maïs et quantité d’engrais


© Dunod – Toute reproduction non autorisée est un délit.

Rendement x 16 18 23 24 28 29 26 31 32 34
Engrais y 20 24 28 22 32 28 32 36 41 41

1 ■
Tracer le nuage de points et le commenter.
2 ■ Calculer le coefficient de corrélation simple et tester sa signification par rap-
port à 0 pour un seuil a = 0,05.

1.  La notion de degrés de liberté est explicitée au chapitre 2.


2.  Les lois de probabilité sont en fin d’ouvrage.
3.  Si le nombre d’observations n est supérieur à 30, on peut approximer la loi de Student par une loi normale,
soit ta /2 ≈ 1,96.

9
Chapitre 1  ■  Qu’est-ce que l’économétrie ?

Solution
1 ■ Le nuage de points (graphique 6) indique que les couples de valeurs sont
approximativement alignés : les deux variables semblent corrélées positivement.

49
68
03
21
:15
15
7.2
0
9.1
.12
05
8:1
6
23
85
:88
03
6
38
95
:78

Graphique 6 – Nuage du couple de valeurs : rendement-quantité d’engrais


ra
nit
Ke

2 ■ Afin d’appliquer la formule [2], nous dressons le tableau de calcul 3.


G
NC
:E
om

Tableau 3 – Calcul d’un coefficient de corrélation


x.c
larvo
ho

x y x2 y2 xy
sc
w.
ww

16 20 256 400 320


18 24 324 576 432
23 28 529 784 644
24 22 576 484 528
28 32 784 1 024 896
29 28 841 784 812
26 32 676 1 024 832
31 36 961 1 296 1 116
32 41 1 024 1 681 1 312
34 41 1 156 1 681 1 394
Somme 261 304 7 127 9 734 8 286

(10 ) (8 286 ) − ( 261)( 304 ) 3 516


ρx,y = =
(10 ) ( 7 127 ) − 2612 (10 ) ( 9 734 ) − 304 2 (56, 11)( 70, 17 )
soit ρ x , y = 0,89 et ρ x2, y = 0, 79

10
Qu’est-ce que l’économétrie ?  ■  Chapitre 1

Le t de Student empirique (d’après [3]) est égal à :

ρx, y 0,89
t∗ = = = 5, 49 > t80,025 = 2,306
(1 − ρ x2, y ) 0,1620
n−2

le coefficient de corrélation entre x et y est significativement différent de 0.

2.2  Limites de la notion de corrélation

49
■■  La relation testée est linéaire

68
03
21
:15
L’application de la formule [1] ou [2] ne permet de déterminer que des corrélations

15
7.2
linéaires entre variables. Un coefficient de corrélation nul indique que la covariance

0
9.1
.12
entre la variable x et la variable y est égale à 0. C’est ainsi que deux variables en
05
8:1
totale dépendance peuvent avoir un coefficient de corrélation nul, comme l’illustre
6
23
85

l’exemple suivant : l’équation d’un cercle nous est donnée par (x − x1)2 + (y − y1)2 =
:88
03

R2, les variables x et y sont bien liées entre elles fonctionnellement (graphique 7) et
6
38
95

pourtant leur covariance est nulle et donc leur coefficient de corrélation égal à 0.
:78
ra
nit

Pour pallier cette limite, il convient éventuellement de transformer les variables,


Ke
G

préalablement au calcul du coefficient de corrélation, afin de linéariser leur relation,


NC
:E
om

par exemple au moyen d’une transformation de type logarithmique.


x.c
rvo
la
ho
sc
w.
ww
© Dunod – Toute reproduction non autorisée est un délit.

Graphique 7 – La relation fonctionnelle n’est pas corrélation linéaire

11
Chapitre 1  ■  Qu’est-ce que l’économétrie ?

■■  Corrélation n’est pas causalité


Le fait d’avoir un coefficient de corrélation élevé entre deux variables ne signifie
pas qu’il existe un autre lien que statistique. En d’autres termes, une covariance
significativement différente de 0 n’implique pas une liaison d’ordre économique,
physique ou autre. Nous appelons corrélation fortuite ce type de corrélation que rien
ne peut expliquer.
L’exemple le plus fameux concerne la forte corrélation existante entre le nombre
de taches solaires observées et le taux de criminalité aux États-Unis. Cela ne signifie
pas qu’il existe une relation entre les deux variables, mais qu’une troisième variable,
l’évolution de long terme (la tendance) ici, explique conjointement les deux phéno-
mènes. La théorie de la cointégration traite de ce problème (cf. chapitre 11).

49
68
03
21
:15
15
7.2
0
9.1
.12
05
8:1
6
23
85
:88
03
6
38
95
:78
ra
nit
Ke
G
NC
:E
om
x.c
larvo
ho
sc
w.
ww

12
Chapitre
Le modèle de
2 régression simple

49
68
03
21
:15
15
7.2
0
9.1
.12
05
8:1
6
23
85
:88
03
6
38
95
:78
ra
nit
Ke
G
NC
:E

SOMMAIRE
om
x.c
larvo
ho

Section 1 Présentation du modèle


sc
w.
ww

Section 2 Estimation des paramètres


Section 3 Conséquences des hypothèses : construction des tests
Section 4 Équation et tableau d’analyse de la variance
Section 5 La prévision dans le modèle de régression simple
Chapitre 2  ■  Le modèle de régression simple

N ous commençons notre étude par le modèle le plus simple : une variable
endogène est expliquée par une variable exogène.

Section
1 PRÉSENTATION DU MODÈLE

1 Exemple introductif

49
68
03
Soit la fonction de consommation keynésienne :

21
:15
15
C = a0 + a1Y

7.2
0
9.1
où :
.12
05
8:1
C = consommation,
6
23
85

Y = revenu,
:88
03
6

a1 = propension marginale à consommer,


38
95
:78

a0 = consommation autonome ou incompressible.


ra
nit
Ke
G
NC
:E
om

1.1 Vocabulaire
x.c
larvo
ho

• La variable consommation est appelée « variable à expliquer » ou « variable


sc
w.
ww

endogène ».
• La variable revenu est appelée « variable explicative » ou « variable exogène »
(c’est le revenu qui explique la consommation).
• a1 et a0 sont les paramètres du modèle ou encore les coefficients de régression.

1.2 Spécification
Nous pouvons distinguer deux types de spécifications :
• Les modèles en série temporelle, les variables représentent des phénomènes obser-
vés à intervalles de temps réguliers, par exemple la consommation et le revenu
annuel sur 20 ans pour un pays donné. Le modèle s’écrit alors :
Ct = a0 + a1 Yt   t = 1,…, 20
où :
Ct = consommation au temps t,
Yt = revenu au temps t.

14
Le modèle de régression simple  ■  Chapitre 2

• Les modèles en coupe instantanée, les variables représentent des phénomènes


observés au même instant mais concernant plusieurs individus, par exemple la
consommation et le revenu observés sur un échantillon de 20 pays. Le modèle
s’écrit alors :

Ci = a0 + a1 Yi   i = 1,…, 20
où :
Ci = consommation du pays i pour une année donnée,
Yi = revenu du pays i pour une année donnée.

49
68
2 Rôle du terme aléatoire

03
21
:15
15
7.2
0
Le modèle tel qu’il vient d’être spécifié n’est qu’une caricature de la réalité. En

9.1
.12
effet, ne retenir que le revenu pour expliquer la consommation est à l’évidence
05
8:1
même insuffisant ; il existe une multitude d’autres facteurs susceptibles d’expliquer
6
23
85

la consommation. C’est pourquoi nous ajoutons un terme (et) qui synthétise l’en-
:88
03

semble de ces informations non explicitées dans le modèle : Ct = a0 + a1 Yt + et si le


6
38
95

modèle est spécifié en série temporelle (Ci = a0 + a1 Yi + ei) si le modèle est spécifié
:78
ra

en coupe instantanée), où et représente l’erreur de spécification du modèle, c’est-à-


nit
Ke
G

dire l’ensemble des phénomènes explicatifs de la consommation non liés au revenu.


NC
:E

Le terme et mesure la différence entre les valeurs réellement observées de Ct et les


om
x.c

valeurs qui auraient été observées si la relation spécifiée avait été rigoureusement
larvo

exacte. Le terme et regroupe donc trois erreurs :


ho
sc
w.

–– une erreur de spécification, c’est-à-dire le fait que la seule variable explicative n’est
ww

pas suffisante pour rendre compte de la totalité du phénomène expliqué ;


––une erreur de mesure, les données ne représentent pas exactement le phénomène ;
–– une erreur de fluctuation d’échantillonnage, d’un échantillon à l’autre les observa-
© Dunod – Toute reproduction non autorisée est un délit.

tions, et donc les estimations, sont légèrement différentes.

EXERCICE n° 1

Fichier C2EX1

Génération d’une consommation aléatoire


Le tableau 1 présente le revenu moyen par habitant sur 10 ans exprimé en dollars
pour un pays.

15
Chapitre 2  ■  Le modèle de régression simple

Tableau 1 – Évolution du revenu moyen par habitant en dollars


Année Revenu
1 8 000
2 9 000
3 9 500
4 9 500
5 9 800
6 11 000
7 12 000
8 13 000
9 15 000
10 16 000

49
Sachant que la propension marginale à consommer est de 0,8 et que la consommation

68
03
21
incompressible est 1 000, on demande :

:15
15
1 ■ de calculer la consommation théorique sur les 10 ans ;

7.2
0
9.1
2 ■ considérant que notre erreur d’observation suit une loi normale de moyenne
.12
0 et de variance 20 000, de générer cette variable aléatoire et de calculer une 05
8:1
6
23

consommation observée tenant compte de cette erreur.


85
:88
03
6

Solution
38
95
:78
ra
nit

Les calculs des questions 1) et 2) sont présentés dans le tableau 2.


Ke
G
NC

La consommation théorique (colonne 3) est calculée par application directe de la


:E
om

formule : Ct = 1 000 + 0,8 Yt.


x.c
larvo

La génération de la variable aléatoire et (et → N(0; 20 000)) ne pose pas de difficulté


ho
sc
w.

particulière ; bien entendu il en existe une infinité, un exemple en est présenté en


ww

colonne 4.
La consommation « observée » (colonne 5) est donc égale à Ct = 1 000 + 0,8 Yt + et,
soit la somme de la colonne 3 et de la colonne 4.
Tableau 2 – Calcul de la consommation observée
(1) (2) (3) (4) (5)
Année Revenu Consommation Aléa Consommation
disponible théorique dt observée
1 8 000 7 400 - 10,01 7 389,99
2 9 000 8 200 - 30,35 8 169,65
3 9 500 8 600 231,71 8 831,71
4 9 500 8 600 52,84 8 652,84
5 9 800 8 840 - 51,92 8 788,08
6 11 000 9 800 - 183,79 9 616,21
7 12 000 10 600 - 6,55 10 593,45
8 13 000 11 400 - 213,89 11 186,11
9 15 000 13 000 - 241,91 12 758,09
10 16 000 13 800 69,62 13 869,62
Moyenne : - 38,42
Écart type : 137,24

16
Le modèle de régression simple  ■  Chapitre 2

Nous observons que la moyenne de et, ε = −38,42, et la variance de et, Var(et) =


18 834,81 sont légèrement différentes des valeurs théoriques. Cela est la conséquence
du tirage particulier d’un échantillon de taille assez faible (dix observations).

3 Conséquences du terme aléatoire

Dans l’exercice précédent, les valeurs vraies a0 et a1 sont parfaitement connues,


cependant, dans la réalité, nous ne connaissons pas ces valeurs mais seulement les
deux séries d’observations Ct et Rt. Les estimateurs1 de a0 et a1, notés respective-
ment â0 et â1, sont des variables aléatoires, qui suivent les mêmes lois de probabilité,
celle de et, puisqu’ils sont fonctions de la variable aléatoire et. Les caractéristiques

49
68
03
de moyenne et d’écart type de ces coefficients permettent de construire des tests de

21
:15
validité du modèle estimé.

15
7.2
0
Si à l’aide d’un programme informatique (C2EX1.PRG ou C2EX1.INP) nous

9.1
.12
construisons 150 échantillons de valeurs différentes pour la variable aléatoire et →
05
8:1
N(0 ; 20 000), nous allons alors trouver 150 estimations de a1 légèrement différentes
6
23
85

entre elles dont la distribution aura la forme de l’histogramme du graphique 1.


:88
03
6
38

Cette distribution a pour moyenne 0,801 et écart type 0,032, nous pouvons observer
95
:78

qu’elle est à peu près symétrique par rapport à la moyenne et qu’elle a la forme d’une
ra
nit

courbe en « cloche » : tous ces éléments suggèrent bien une distribution normale de :
Ke
G

a1 → N(0,801 ; 0,032). Cela est la conséquence directe de la normalité des erreurs.


NC
:E
om
x.c
larvo
ho
sc
w.
ww
Fréquence
© Dunod – Toute reproduction non autorisée est un délit.

Coefficient â 1

Graphique 1 – Histogramme de la distribution de 150 â1

1.  Il ne faut pas confondre : estimateur â de a et estimation de â qui est la valeur particulière de l’estimateur pour
un échantillon.

17
Chapitre 2  ■  Le modèle de régression simple

Section
2 ESTIMATION DES PARAMÈTRES

1 Modèle et hypothèses

Soit le modèle suivant :


yt = a0 + a1 xt + et    pour   t = 1,…,n
avec :
yt = variable à expliquer au temps t ;

4
= variable explicative au temps t ;

9
xt

68
03
21
a0, a1 = paramètres du modèle ;

:15
15
7.2
et =  erreur de spécification (différence entre le modèle vrai et le modèle spécifié),

0
9.1
.12
cette erreur est inconnue et restera inconnue ;
05
8:1
n = nombre d’observations.
6
23
85
:88
03

■■  Hypothèses
6
38
95
:78

• H1 : le modèle est linéaire en xt (ou en n’importe quelle transformation de xt).


ra
nit
Ke
G

• H2 : les valeurs xt sont observées sans erreur (xt non aléatoire).


NC
:E
om

• H3 : E (ε t ) = 0, l’espérance mathématique de l’erreur est nulle : en moyenne le


x.c
rvo

modèle est bien spécifié et donc l’erreur moyenne est nulle.


la
ho
sc
w.

• H4 : E (ε t2 ) = σ ε2 , la variance de l’erreur est constante1 : le risque de l’amplitude


ww

de l’erreur est le même quelle que soit la période.


 (et et′) = 0 si t ≠ t′, les erreurs sont non corrélées (ou encore indépendantes) :
• H5 : E
une erreur à l’instant t n’a pas d’influence sur les erreurs suivantes.
• H6 : Cov(xt, et) = 0, l’erreur est indépendante de la variable explicative.

2 Formulation des estimateurs

En traçant un graphique (2) des couples de données liant le revenu et la consom-


mation observée, nous obtenons un nuage de points que nous pouvons ajuster à
l’aide d’une droite.

1.  Cette hypothèse s’appelle l’hypothèse d’homoscédasticité ; dans le cas où cette hypothèse n’est pas vérifiée,
on parle alors de modèle hétéroscédastique.

18
Le modèle de régression simple  ■  Chapitre 2

L’estimateur des coefficients a0 et a1 est obtenu en minimisant la distance au carré


entre chaque observation et la droite, d’où le nom d’estimateur des moindres carrés
ordinaires (MCO).
La résolution analytique est la suivante :
t=n t=n
Min ∑ ε t2 = Min ∑ ( yt − a0 − a1 xt )2 = Min S
t =1 t =1

49
68
03
21
:15
15
7.2
0
9.1
.12
05
68:1
23
85
:88
03
6
38
95
:78
ra
nit
Ke
G
NC
:E
om
x.c
larvo
ho
sc
w.

Graphique 2 – Ajustement d’un nuage de points par une droite


ww

En opérant par dérivation par rapport à a0 et a1 afin de trouver le minimum1 de


cette fonction, on obtient les résultats suivants :
© Dunod – Toute reproduction non autorisée est un délit.

δS δS
= −2∑ ( yt − â0 − â1 xt ) = 0 et = −2∑ xt ( yt − â0 − â1 xt ) = 0
δ a0 t δ a1 t

Sommant par rapport à t, il vient :

∑ xt yt − â0 ∑ xt − â1 ∑ xt2 = 0
t t t

∑ yt − nâ0 − â1 ∑ xt =0
t t

1.  Nous considérons les conditions du deuxième ordre comme vérifiées car la fonction est convexe.

19
Chapitre 2  ■  Le modèle de régression simple

qu’on appelle les équations normales et qui impliquent que :

t=n t=n
∑ ( xt − x )( yt − y ) ∑ xt yt − nx y
t =1 t =1
â1 = t=n
= t=n [1]
∑ ( xt − x )2 ∑ xt2 − nx 2
t =1 t =1

aˆ0 = y − aˆ1 x [2]

Nous pouvons faire deux remarques :


–– l’écriture du modèle n’est pas neutre ;

49
68
03
La spécification : yt = a0 + a1 xt + et n’est pas équivalente à : xt = a0′ + a1′ yt + ε t′.

21
:15
Dans le premier modèle, xt est la cause de yt, alors que dans la deuxième spécifica-

15
7.2
tion, c’est yt qui est la cause de xt.

0
9.1
.12
05
Nous remarquons que : â1 × â1′ = ρ 2 68:1
23
85

(r = coefficient de corrélation entre x et y);


:88
03
6
38

–– le coefficient a1 représente la pente de la droite ou encore une propension


95
:78

marginale.
ra
nit
Ke

Nous avons : ∆yt = â1∆xt . L’impact d’une variation de xt se mesure directement


G
NC

sur yt au travers du coefficient â1.


:E
om
x.c
rvo

■■  Cas particulier : modèle sans terme constant


la
ho
sc
w.

La théorie économique postule parfois des relations dans lesquelles a0 = 0 : c’est


ww

le cas par exemple pour une fonction de production de produit industriel où le fac-
teur de production (unique) nul entraîne une production nulle. L’estimation de a1 est
alors donnée par la formule suivante :
t=n
∑ xt yt
t =1
â1 = t=n
[3]
∑ xt2
t =1

Nous remarquons qu’il s’agit de l’application de la formule [1] dans laquelle x et


y sont nulles. Dans le cas de variables centrées1, c’est donc cette formule [3] qu’il
convient d’employer car le terme constant est nul.

1.  Les données sont centrées lorsque les observations sont centrées sur leur moyenne : (xt − x), la somme des
données centrées est donc par construction nulle.

20
Le modèle de régression simple  ■  Chapitre 2

EXERCICE n° 2

Fichier C2EX2

Estimation des coefficients de régression


À partir des données du tableau 2 de l’exercice 1, on demande de calculer les
estimations de â0 et â1.

Solution

49
68
03
21
Le tableau 3 présente les calculs à effectuer.

:15
15
7.2
Tableau 3 – Calcul d’un coefficient de régression

0
9.1
.12
05
(1) (2) (3) (4) (5) 8:1 (6) (7)
yt - y- xt - x-
6

t yt xt (5)* (5) (4)* (5)


23
85
:88

1 7 389,99 8 000 – 2 595,59 – 3 280 10 758 400 8 513 518


03
6

2 8 169,65 9 000 – 1 815,93 – 2 280 5 198 400 4 140 300


38
95

3 8 831,71 9 500 – 1 153,87 – 1 780 3 168 400 2 053 879


:78
ra

4 8 652,84 9 500 – 1 332,74 – 1 780 3 168 400 2 372 268


nit
Ke

5 8 788,08 9 800 – 1 197,50 – 1 480 2 190 400 1 772 292


G

6 9 616,21 11 000 – 369,37 – 280 78 400 103 422


NC
:E

7 10 593,45 12 000 607,88 720 518 400 437 670


om
x.c

8 11 186,11 13 000 1 200,54 1 720 2 958 400 2 064 920


rvo

9 12 758,09 15 000 2 772,52 3 720 13 838 400 10 313 755


la
ho

10 13 869,62 16 000 3 884,05 4 720 22 278 400 18 332 692


sc
w.
ww

Somme 99 855,75 112 800 0 0 64 156 000 50 104 729


Moyenne 9 985,57 11 280 0 0 6 415 600 5 010 472

t=n
∑ ( xt − x )( yt − y )
© Dunod – Toute reproduction non autorisée est un délit.

t =1 50 104 729
â1 = t=n
= = 0, 78
64 156 000
∑ ( x t − x )2
t =1
â0 = y − â1 x = 9 985, 57 − 0, 78 × 11 280 = 1 176, 08

Ces estimations sont à comparer aux valeurs vraies (respectivement 0,8 et 1 000),
les différences importantes en ce qui concerne surtout le terme constant sont impu-
tables à l’aléa d’observation qui « perturbe » l’estimation des coefficients.

21
Chapitre 2  ■  Le modèle de régression simple

3 Les différentes écritures du modèle : erreur et résidu

Le modèle de régression simple peut s’écrire sous deux formes selon qu’il s’agit
du modèle théorique spécifié par l’économiste ou du modèle estimé à partir d’un
échantillon.
• Modèle théorique spécifié par l’économiste avec et l’erreur inconnue :

yt = a0 + a1 x1 + ε t

• Modèle estimé à partir d’un échantillon d’observations :


yt = aˆ0 + aˆ1 xt + et = yˆt + et   et = résidu

49
68
03
21
(Bien noter les « chapeaux » sur les a.)

:15
15
7.2
Le résidu observé et est donc la différence entre les valeurs observées de la

0
9.1
variable à expliquer et les valeurs ajustées à l’aide des estimations des coefficients
.12
du modèle ; 05
8:1
6
23
85

ou encore :
:88
03

yˆt = aˆ0 + aˆ1 xt


6
38
95
:78
ra
nit
Ke
G
NC

4 Propriétés des estimateurs


:E
om
x.c
larvo

yt = a0 + a1xt + et
ho

[4]
sc
w.
ww

y = a0 + a1 x + ε [5]
[ 4 ] − [5] = yt − y = a1 ( xt − x ) + (ε t − ε )

En remplaçant dans la formule [1] de l’estimateur aˆ1 , yt − y par son expression, on


obtient :
t=n t=n
∑ ( xt − x )(ε t − ε ) ∑ ( xt − x )ε t
t =1 t =1
â1 = a1 + t=n
= a1 + t=n
[6]
∑ ( xt − x )2 ∑ ( xt − x )2
t =1 t =1

n n ∑ xt
car ε ∑ ( xt − x ) = ε ∑ xt − ε nx = ε nx − ε nx = 0 avec x = t =1

t =1 t =1 n

22
Le modèle de régression simple  ■  Chapitre 2

• Les estimateurs sont-ils sans biais ?


(Rappel : un estimateur est sans biais si E ( â ) = a.)
t=n
∑ ( xt − x )ε t
t =1
â1 = a1 + t=n
 [7]
∑ ( xt − x )2
t =1
t=n
∑ ( xt − x )E (ε t )
t =1
d’où : E (aˆ1 ) = E (a1 ) + t=n 
∑ ( xt −

4
x )2

9
68
03
t =1

21
:15
15
7.2
Soit E ( â1 ) = a1 car E (ε t ) = 0

0
9.1
.12
De même on démontre que E ( â0 ) = a0 .
05
8:1
6
23
85

y = â0 + â1 x → â0 = a0 + ε − (â1 − a1 ) x
:88
03

y = a0 + a1 x + ε
6
38
95
:78

E (â0 ) = a0 + E (ε ) − E ((â1 − a1 ) x ) = a0
ra
nit
Ke

car E(â1 − a1 ) = 0 et E (ε ) = 0
G
NC
:E
om

 n 
car E (ε ) est par hypothèse nulle, E  ∑ ε t  = 0
x.c
rvo

 t =1 
la
ho
sc
w.
ww

Les estimateurs sont sans biais.

• Les estimateurs sont-ils convergents ?


© Dunod – Toute reproduction non autorisée est un délit.

Puisque les estimateurs sont sans biais, il suffit pour qu’ils soient convergents
que :
Lim V (â1 ) → 0 lorsque n → ∞ où V (â1 ) est la varaiance de â1 .
2
 t = n  
 ∑ ( xt − x )ε t  
V (â1 ) = E{â1 − E (â1 )}2 = E (â1 − a1 )2 = E  tt==1n   (d’après [7])
  
  ∑ ( xt − x ) 
2


 t =1  
2
    
V (â1 ) = E  ∑ ω t ε t   = E  ∑ ω t2ε t2 + 2 ∑ ω t ω t ′ ε t ε t ′ 
 t    t t <t′ 

23
Chapitre 2  ■  Le modèle de régression simple

( xt − x )
avec  ω t = t=n
∑ ( x t − x )2
t =1

V ( â1 ) = ∑ ω t2 E(ε t2 ) + 2∑ ω t ω t′ E(ε t ε t′ )
t t <t′

Or, d’après les hypothèses :


–– H4 E (ε t2 ) = σ ε2 ;
–– H5 E (ε t ε t ′ ) = 0 si t ≠ t ′.

σ ε2
V ( â1 ) = ∑ ω t2 σ ε2 =  [8]

4
∑ ( x t − x )2

9
68
03
t

21
t

:15
15
7.2
Lorsque n → ∞ alors ∑ ( xt − x )2 tend également vers ∞, d’où V( â1 ) tend vers 0

0
9.1
.12
05
t 8:1
puisque σ ε2 est constant.
6
23
85

Nous pouvons observer sur l’expression de la variance de â1 que cet estimateur est
:88
03
6

d’autant plus précis que ∑ ( xt − x )2 est élevé, c’est-à-dire lorsque :


38
95
:78

t
ra
nit

–– le nombre d’observations est important ;


Ke
G
NC

–– et/ou les valeurs de la variable explicative sont très dispersées autour de la moyenne.
:E
om
x.c

Une démonstration analogue pour â0 conduit aux résultats suivant :


larvo
ho

 
sc
w.

x2
ww

V ( â0 ) = σ ε2 1 +  [9]
n

∑ t
( x − x ) 2

t

Lim V (aˆ0 ) → 0 lorsque n → ∞.


Nous remarquons que :
σ ε2
V ( â0 ) = + x 2V ( â1 ) Cov( â0 , â1 ) = − x V ( â1 )
n

Les estimateurs sont convergents.

24
Le modèle de régression simple  ■  Chapitre 2

Section
3 CONSÉQUENCES DES HYPOTHÈSES :

CONSTRUCTION DES TESTS

1 Hypothèse de normalité des erreurs

Nous allons maintenant introduire de nouveau l’hypothèse qui est celle de la nor-
malité des erreurs (cf. exercice 1). Cette hypothèse n’est pas indispensable afin
d’obtenir des estimateurs convergents mais elle va nous permettre de construire des
tests statistiques1 concernant la validité du modèle estimé.

49
68
03
Soit ε t → N ( 0, σ ε2 )

21
:15
15
Le graphique 3 illustre cette hypothèse sur la distribution des valeurs projetées sur

7.2
0
9.1
la droite des moindres carrés.

.12
05
8:1
6
23
85
:88
03
6
38
95
:78
ra
nit
Ke
G
NC
:E
om
x.c
larvo
ho
sc
w.
ww
© Dunod – Toute reproduction non autorisée est un délit.

Graphique 3 – Les erreurs suivent une loi normale

2 Conséquences de l’hypothèse de normalité des erreurs

En préliminaire, cherchons un estimateur de la variance de l’erreur.


Le résidu est donné par :
et = yt − y t = yt − â1 xt − â0

1.  En effet, cette hypothèse permet de définir la loi de probabilité des estimateurs.

25
Chapitre 2  ■  Le modèle de régression simple

Sans rien changer à l’expression précédente, nous pouvons écrire :


et = yt − â1 xt − â0 − â1 x + â1 x
Ou encore : et = yt − â1 x − â0 − â1 xt + â1 x
Or y = â1 x + â0
D’où : et = yt − y − â1 ( xt − x )
En remplaçant yt et y par leurs expressions [4] et [5], il vient :
et = ( a1 − â1 )( xt − x ) + (ε t − ε )
Nous obtenons en élevant ce terme au carré et effectuant la somme sur les n
observations :

49
68
∑ et2 = (a1 − â1 )2 ∑ ( xt − x )2 + ∑ (ε t − ε )2 + 2(a1 − â1 )∑ ( xt − x )(ε t − ε )

03
21
:15
t t t t

15
7.2
Or d’après l’expression [6], nous avons :

0
9.1
.12
∑ ( xt − x )(ε t − ε ) = −(a1 − â1 )∑ ( xt − x )2 8:1
6
05
t t
23
85

que nous remplaçons dans l’expression précédente et après simplification :


:88
03
6

∑ et2 = ∑ (ε t − ε )2 − (a1 − â1 )2 ∑ ( xt − x )2
38
95
:78
ra

t t t
nit
Ke

En prenant l’espérance mathématique de cette dernière expression :


G
NC
:E
om

   
E  ∑ et2  = E  ∑ (ε t − ε )2  − E[( a1 − â1 )2 ]∑ ( xt − x )2
x.c
rvo
la

 t   t 
ho

t
sc
w.

Examinons les deux membres de cette équation.


ww

     
• a) E  ∑ (ε t − ε )2  = E  ∑ (ε t2 − 2εε t + ε 2 )  = E  ∑ ε t2 − 2ε ∑ ε t + ∑ε 2 
 t   t   t t t 
   
= E  ∑ (ε t2 − 2ε nε + nε 2 )  = E  ∑ ε t2 − 2nε 2 + nε 2 
 t   t 
   
= E  ∑ (ε t2 − nε 2 )  = E  ∑ ε t2 − ε ∑ ε t 
 t   t t 
 2
   
 ∑
 ε t
    1 
2
 
= E  ∑ ε t2 −
t
 =  ∑ E (ε t ) − E  ∑ ε t  
2
 t n   t n  t  

Nous savons que : E [ε t2 ] = σ ε2

26
Le modèle de régression simple  ■  Chapitre 2

  1
E  ∑ (ε t − ε )2  = nσ ε2 − E (ε1 + ε 2 +  + ε n )2
 t  n
Or, d’après l’hypothèse d’indépendance des erreurs, les doubles produits sont
donc tous nuls. Nous obtenons alors :
  1
E  ∑ (ε t − ε )2  = nσ ε2 − nσ ε2 = nσ ε2 − σ ε2
 t  n

• b) E [(a1 − aˆ1 )2 ] ∑ ( xt − x )2 = σ ε2
t
σ ε2

4
En effet E [( a1 − â1 )2 ] =

9
68
∑ ( x t − x )2

03
21
:15
15
t

7.2
D’où :

0
9.1
.12
 
E  ∑ et2  = ( n − 1)σ ε2 − σ ε2 = ( n − 2)σ ε2 05
8:1
6

 t 
23
85
:88
03

2
6

L’estimateur de la variance de l’erreur (σ ε2 ) noté σ ε est donc égal à :


38
95
:78
ra
nit

1
∑ et2 [10]
Ke

2
σ ε =
G
NC

n−2 t
:E
om
x.c

Ce qui nous permet de définir, en remplaçant la variance des erreurs par son esti-
larvo

mateur dans les expressions [8] et [9], les estimateurs empiriques1 de la variance de
ho
sc
w.

chacun des coefficients.


ww

2
2 σ ε
σ â1 =
∑ ( x t − x )2
© Dunod – Toute reproduction non autorisée est un délit.

t
[11]
 
2 2 1 x2

σ â0 = σ ε +
n

∑ ( xt − x )2 
t

L’hypothèse de normalité des erreurs implique que :

â1 − a1 â − a0
 et  0
σ â1 σ â0

1.  Bien noter les chapeaux qui différencient les estimateurs théoriques (inconnus) des estimations empiriques
(calculables).

27
Chapitre 2  ■  Le modèle de régression simple

suivent une loi normale centrée réduite N(0, 1).


n
∑ et2 2
σ ε
t =1
= ( n − 2) 2
σ ε2 σε
suit une loi du χ 2 (chi-deux) à n - 2 degrés de liberté1 (somme au carré de n – 2
variables aléatoires indépendantes normales centrées réduites).
n
2
σ ε
2
σ a
∑ et2
t =1
Nous pouvons remarquer que ( n − 2) = ( n − 2 ) =
σ ε2 σ a2 σ â2 ∑ ( xt − x )2

49
t

68
03
21
suit donc aussi une loi du χ 2 (chi-deux) à n - 2 degrés de liberté.

:15
15
7.2
Il en résulte que :

0
9.1
.12
â − a1 â0 − a0
⇒ 1 05
et (l’écart type théorique est remplacé par l’écart type 8:1
σ â1 σ â0
6
23
85
:88

empirique) suivent une loi de Student à n – 2 degrés de liberté.


03
6
38

â1 − a1
95
:78
ra

â − a1 σ â1
nit

En effet 1 =
Ke

est le rapport d’une loi normale centrée


G

σ â1
NC

2
σâ
 1
:E

( n − 2) 21
om

σ â1 ( n − 2)
x.c
larvo
ho

réduite à la racine carrée d’un chi-deux divisé par son degré de liberté.
sc
w.
ww

Il est donc possible maintenant de mettre en place des tests statistiques afin d’ap-
porter des réponses à des problèmes tels que :
–– la comparaison d’un coefficient de régression par rapport à une valeur fixée ;
–– la comparaison de deux coefficients de régression provenant de deux échantillons
différents ;
–– la détermination d’un intervalle de confiance pour un coefficient.

1.  La notion de degré de liberté correspond au nombre de valeurs restant réellement à disposition après une
procédure d’estimation statistique. Si un échantillon comprend 10 observations et qu’on dispose en plus de la
moyenne de cet échantillon, on ne peut choisir librement les valeurs que pour 9 de ces observations, la dixième se
déduisant de la valeur de la moyenne. Dans le cas présent, le modèle de régression simple, le nombre de degrés de
liberté est donc de n - 2 car nous avons estimé deux paramètres a0 et a1.

28
Le modèle de régression simple  ■  Chapitre 2

3 Test bilatéral, test unilatéral et probabilité critique d’un test


3.1  Test bilatéral
Soit à tester, à un seuil de 5 %, l’hypothèse H0 : a1 = 0 contre l’hypothèse H1 :
a1 ≠ 0.
â − a1
Nous savons que 1 suit une loi de Student à n - 2 degrés de liberté.
σ â1
â −0
Sous H0 (a1 = 0) le ratio appelé ratio de Student 1 suit donc une loi de
σ â1
Student à n - 2 degrés de liberté. Le test d’hypothèses bilatéral consiste donc à

4
â

9
68
comparer le ratio de Student empirique t* = 1 à la valeur du t de Student lue dans

03
σ â1

21
:15
15
la table à n – 2 degrés de liberté1 et pour un seuil de probabilité égal à 5 %, soit si

7.2
0
n - 2 > 30, t∞0,05 = 1, 96, (la table 2 de Student en fin du livre est tabulée pour les tests

9.1
.12
bilatéraux). Si t* > t∞0,05 = 1, 96, nous rejetons l’hypothèse H0 (cf. graphique 4), le
05
8:1
6

coefficient théorique et inconnu a1 est significativement différent de 0.


23
85
:88
03
6
38
95
:78
ra
nit
Ke
G
NC
:E
om
x.c
larvo
ho
sc
w.
ww
© Dunod – Toute reproduction non autorisée est un délit.

2,5 % 95 % 2,5 %

–1,96 +1,96

Graphique 4 – Test bilatéral à 5 %

1.  Si le degré de liberté est supérieur à 30, la loi de Student peut être approximée par une loi normale.

29
Chapitre 2  ■  Le modèle de régression simple

3.2  Test unilatéral


Soit à tester, à un seuil de 5 %, l’hypothèse H0 : a1 = 0 contre l’hypothèse H1 :
a1 > 0 ou a1 < 0 selon que le coefficient estimé soit positif ou négatif.
Le test d’hypothèses unilatéral consiste donc à comparer le ratio de Student
â
empirique t * = 1 à la valeur du t de Student lue dans la table à n - 2 degrés de
σ â1

liberté et pour un seuil de probabilité égal à 5 %, soit si n - 2 > 30, t * > t∞0,05 = 1, 65
Si t∞0,05 = 1, 65, nous rejetons l’hypothèse H0 (cf. graphique 5), le coefficient théo-
rique et inconnu a1 est significativement différent de 0. Attention, la table de
Student en fin du livre est tabulée pour les tests bilatéraux, il faut donc lire à

49
10 % = 2 × 0,05.

68
03
21
:15
15
7.2
0
9.1
.12
05
8:1
6
23
85
:88
03
6
38
95
:78
ra
nit
Ke
G
NC
:E
om
x.c
rvo

5%
la
ho

95 %
sc
w.
ww

+1,65

Graphique 5 – Test unilatéral à 5 % (H1 : a1 > 0)

Remarque
Si nous rejetons l’hypothèse H0 pour un test bilatéral, alors nous rejetons forcément
(pour un même seuil de probabilité) l’hypothèse H0 pour un test unilatéral.

3.3  Probabilité critique d’un test


La probabilité critique – risque de rejeter à tort l’hypothèse H0 – ou encore risque
de première espèce est donnée par la valeur de la probabilité α c telle que :
â
tnα− 2 = t * = 1 , par la lecture sur une table de Student à n – 2 degrés de liberté.
C

σ â1

30
Le modèle de régression simple  ■  Chapitre 2

La probabilité critique d’un test unilatéral peut directement se déduire de la


probabilité critique d’un test bilatéral par une simple division par
2 → α unilatéral
c = α bilatéral
c /2 (opération inverse de celle de la lecture de la table).

Exemple
α = 2,53. Par lecture de la tableC
Pour t* = 2,53 et n - 2 = 20, soit à déterminer α c tel que t20
de Student à 20 degrés de liberté, nous trouvons α = 2 % pour un test bilatéral et donc
c

1 % pour un test unilatéral.

EXERCICE n° 3

49
68
03
21
:15
15
Fichier C2EX2

7.2
0
9.1
.12
Test de coefficient et intervalle de confiance 23
8:1
6
05
85

En reprenant les résultats de l’exercice 2, on demande de répondre aux questions


:88
03

suivantes.
6
38
95

1 ■ La propension marginale à consommer est-elle significativement différente


:78
ra
nit

de 0 ?
Ke
G

2 ■ Quel est l’intervalle de confiance au seuil (ou niveau) de 95 % pour la


NC
:E
om

propension marginale à consommer ?


x.c
larvo

Solution
ho
sc
w.
ww

1 ■ La propension marginale à consommer est-elle significativement différente


de 0 ?
Cette question est très importante en économétrie. En effet, dans le cas d’une
© Dunod – Toute reproduction non autorisée est un délit.

réponse négative - le coefficient n’est pas significativement différent de 0 - la


variable explicative Revenu ne sera pas considérée comme étant explicative de la
consommation puisque son coefficient de pondération est nul.
Il peut paraître étonnant de tester la différence par rapport à zéro et non pas seule-
ment la positivité ou la négativité du coefficient de régression. En effet, il est com-
mode de ne s’interroger que sur la contribution de la variable explicative, qu’elle soit
positive ou négative.
Ce problème peut être formulé à l’aide de la théorie des tests à partir des deux hypo-
thèses suivantes :
H0 : a1 = 0
H1 : a1 ≠ 0

31
Chapitre 2  ■  Le modèle de régression simple

Si nous rejetons l’hypothèse H0, à un seuil a1 fixé, alors la propension marginale à


consommer est considérée comme étant significativement différente de 0. Le seuil
le plus communément employé est α = 0, 05, soit un risque de rejeter à tort H0
de 5 %.
Nous savons que :

â1 − a1
suit une loi de Student à n – 2 degrés de liberté.
σ â1
Sous l’hypothèse H0, cette relation devient :
aˆ1 − 0 aˆ
= 1 = ta*ˆ1 → loi de Student à n – 2 degrés de liberté.
σ aˆ1
ˆ σ aˆ1
ˆ

49
68
03
21
* est appelé le ratio de Student.
tâ1

:15
15
7.2
Nous avons calculé â1 lors de l’exercice 2, il convient donc de calculer σˆ aˆ1 ; or,

0
9.1
d’après [11],
.12
05
8:1
σˆ ε2
∑ ( xt − x )2 = 64 156 000
6
23

σˆ a2ˆ1 = , nous connaissons


85

∑ ( xt − x ) 2
:88

t
03
6
38

t
95
:78

(colonne 6 du tableau de calcul 3). L’estimateur de la variance de l’erreur nous est


ra
nit

donné par [10] :


Ke
G
NC

∑ et2
:E
om
x.c

σˆ ε2 = t
, où et est le résidu de l’estimation (et = yt − yˆt )
rvo

n−2
la
ho
sc
w.

a) Calcul de yˆt et de et
ww

La série ajustée yˆt est calculée par application des estimations â0 et â1 :
yˆt = aˆ0 + aˆ1 xt
soit yˆ1 = aˆ0 + aˆ1 x1 → e1 = y1 − yˆ1
ŷ1 = 1 176,08 + 0,78 × 8 000 = 7 423,952 → e1 = 7 389,99 − 7 423,95 = −33,96
ŷ2 = 1 176,08 + 0,78 × 9 000 = 8 204,93 → e2 = 8 169,65 − 8 204,93 = −35,28
Les résultats sont consignés dans le tableau 4. Nous remarquons bien que ∑ et = 0
(propriété de la méthode des moindres carrés). t

1.  Le seuil a est aussi appelé risque de première espèce : c’est la probabilité de rejeter l’hypothèse H0 bien
qu’elle soit vraie.
2.  Les petites différences constatées sont dues aux arrondis.

32
Le modèle de régression simple  ■  Chapitre 2

Tableau 4 – Calcul du résidu d’estimation

yˆt et et2
7 423,95 -   33,96 1 153,38
8 204,93 -   35,28 1 244,98
8 595,43 236,28 55 830,26
8 595,43 57,41 3 296,40
8 829,72 -   41,64 1 733,93
9 766,90 -150,69 22 707,42
10 547,88 45,57 2 076,39
11 328,87 -142,76 20 379,08
12 890,83 -132,74 17 620,12
13 671,81 197,81 39 127,38
Somme 0,00 165 169,3

49
Moyenne 0,00 16 516,93

68
03
21
b) Calcul de l’estimation de la variance de l’erreur et de l’écart type du coefficient

:15
15
de régression.

7.2
0
9.1
L’estimation de la variance de l’erreur est donc égale à :
.12
05
8:1

∑t et2
6
23
85

165 169,3
:88

σˆ ε2 = = = 20 646,16
03

n−2 10 − 2
6
38
95
:78

ce qui nous permet de calculer la variance estimée de â1 :


ra
nit
Ke

σˆ ε2 20 646,16
G
NC

σˆ a2ˆ1 = = = 0, 000 321 8


:E

∑t ( xt − x )
2
64 156 000
om
x.c
larvo
ho

soit σˆ aˆ1 = 0, 017 9


sc
w.
ww

c) Calcul du ratio de Student et règle de décision.



Nous savons que 1 = ta*ˆ1 est distribué selon une loi de Student à n - 2 degrés de
σˆ aˆ1
liberté, la distribution d’échantillonnage sous H0 est donc représentée par le
© Dunod – Toute reproduction non autorisée est un délit.

graphique 6.

α/ 2 α/ 2
H1 − tn− 2 + tn− 2 H1

H0

Graphique 6 – Distribution d’échantillonnage sous l’hypothèse H0

33
Chapitre 2  ■  Le modèle de régression simple

La règle de décision pour un seuil a est alors la suivante :



On calcule le ratio empirique de Student ta*ˆ1 = 1 (rapport du coefficient sur son
écart type) σˆ aˆ1
α / 2 α
––Si tâ1 est inférieur à −tn − 2 ou supérieur à +tn − 2 alors on rejette l’hypothèse H0 (nous
* / 2

sommes dans la zone hachurée H1), le coefficient a1 est alors significativement


différent de 0 (on accepte a1 ≠ 0) ; la variable explicative Rt est donc contributive à
l’explication de la variable Ct.
* est compris dans l’intervalle ± t α / 2, alors nous ne sommes pas en mesure
––Si tâ1 n−2
de rejeter l’hypothèse H0 (donc on l’accepte), le coefficient a1 n’est pas
significativement différent de 0 (on accepte a1 = 0) ; la variable explicative Rt n’est
donc pas explicative de la variable Ct.

49
68
Il est plus simple de profiter de la symétrie de la loi de Student et donc de calculer

03
21
la valeur absolue du ratio de Student et de la comparer directement à la valeur lue

:15
15
dans la table.

7.2
0
9.1
La règle de décision pour un seuil α = 0,05 est alors la suivante :
.12
05
8:1

6

––si ta*ˆ1 = 1 > tn0,0025


23

→ on rejette l’hypothèse H0, le coefficient a1 est alors


85

−2
σˆ aˆ1
:88
03
6

significativement différent de 0 (on accepte a1 ≠ 0) ; la variable explicative Rt est


38
95
:78

donc contributive à l’explication de la variable Ct ;


ra
nit


Ke

––si ta*ˆ1 = 1 ≤ tn0,025


− 2 → on accepte l’hypothèse H0, le coefficient a1 n’est donc pas
G
NC

σˆ aˆ1
:E
om

significativement différent de 0 (on accepte a1 ≠ 0); la variable explicative Rt n’est


x.c
rvo

donc pas contributive à l’explication de Ct.


la
ho
sc
w.

Nous voyons l’importance que revêt ce test dans l’investigation économétrique ; en


ww

effet, il permet de tester la pertinence d’une variable explicative qui figure dans
un  modèle et sa contribution à l’explication du phénomène que l’on cherche à
­modéliser.
Dans notre exemple, nous calculons le ratio de Student :
aˆ1 0, 78
ta*ˆ1 = = = 43,57 > t80,025 = 2,3061 → a1 ≠ 0
σˆ aˆ1 0, 017 9
La propension marginale à consommer est donc significativement différente de 0, la
variable Revenu est bien explicative de la variable Consommation.

1.  Les tables statistiques sont en fin d’ouvrage. Dans le cas d’un test unilatéral, il convient d’utiliser une table
correspondant à ce type de test, c’est-à-dire dont seule la partie de gauche est hachurée. Dans le cas d’un test bila-
téral, ce sont les tables dont les deux parties extrêmes sont hachurées. Bien entendu, cela n’est vrai que pour les lois
de probabilité symétriques.

34
Le modèle de régression simple  ■  Chapitre 2

2 ■
Détermination d’un intervalle de confiance, au seuil de 95 %, pour la propen-
sion marginale à consommer.
Nous savons que :
aˆ1 − a1 aˆ − a1 α
suit une loi de Student à n – 2 degrés de liberté, soit 1 = tn − 2, l’intervalle
σˆ aˆ1 σˆ aˆ1
de confiance nous est donné (cf. graphique 4, section 3, 3.1) par :
aˆ1 − a1
= ± tnα−/ 22 → a1 = aˆ1 ± σˆ aˆ1 × tnα−/ 22
σˆ aˆ1
Application numérique pour un seuil a  = 0,95 :
a1 = 0,78 ± 2,306 × 0,0179

49
68
03
Nous avons donc un risque de 5 % que le véritable coefficient a1 se trouve à

21
:15
15
l’extérieur de l’intervalle [0,74 ; 0,82] ; nous constatons que 0 ne figure pas dans

7.2
0
cet intervalle de confiance, ce qui est bien entendu cohérent avec la question

9.1
.12
­précédente.
05
8:1
6
23
85
:88
03

4
6
38

Section
95
:78

É QUATION ET TABLEAU D’ANALYSE DE LA


ra
nit

VARIANCE
Ke
G
NC
:E
om
x.c

1 Équation d’analyse de la variance


larvo
ho
sc
w.
ww

Démontrons les deux relations suivantes :


−∑ et = 0 : la somme des résidus est nulle (la droite de régression passe par le
t
© Dunod – Toute reproduction non autorisée est un délit.

point moyen1).
yt = aˆ0 + aˆ1 xt + et → ∑ yt = ∑ aˆ0 + aˆ1 ∑ xt + ∑ et →
t t t t

∑t yt − naˆ0 − aˆ1 ∑t xt = ∑t et Or, aˆ0 = y − aˆ1 x, en divisant par n il apparaît que

∑t et = 0.
−∑ yt = ∑ yˆt, il y a égalité entre la moyenne de la série à expliquer et la moyenne
t t

de la série ajustée.

1.  Cela n’est vrai que pour les modèles comportant un terme constant, ou bien, pour les modèles sans terme
constant, si les données sont centrées sur leur moyenne.

35
Chapitre 2  ■  Le modèle de régression simple

yt − yˆt = et → ∑ yt − ∑ yˆt = ∑ et = 0 → y = yˆ
t t t
De ces deux relations nous pouvons en déduire l’équation fondamentale d’analyse
de la variance :

∑t ( yt − y )2 = ∑t ( yˆt − yˆ )2 + ∑t et2
[12]
SCT = SCE + SCR
La variabilité totale (SCT) est égale à la variabilité expliquée (SCE) + la variabi-
lité des résidus (SCR).
Cette équation va nous permettre de juger de la qualité de l’ajustement d’un

49
68
modèle. En effet, plus la variance expliquée est proche de la variance totale, meilleur

03
21
est l’ajustement du nuage de points par la droite des moindres carrés. Il est d’usage

:15
15
7.2
de calculer le rapport :

0
9.1
.12
∑t ( yˆt − y )2 ∑t et2 8:1
6
05
R2 = =1−
23

[13]
∑t ( yt − y )2 ∑t ( yt − y )2
85
:88
03
6
38
95
:78

R2 est appelé le coefficient de détermination, et R le coefficient de corrélation


ra
nit
Ke

multiple (dans le cas particulier du modèle de régression à une seule variable expli-
G
NC

cative, il est égal au coefficient de corrélation linéaire simple entre x et y).


:E
om
x.c

2 Tableau d’analyse de la variance


rvo
la
ho
sc
w.
ww

Le tableau 5 présente l’analyse de la variance pour un modèle de régression simple.

Tableau 5 – Analyse de la variance par une régression simple


Source de variation Somme des carrés Degré de liberté Carrés moyens
2
x SCE = ∑ ( y t − y ) 1 SCE/1
t

Résidu SCR = ∑ et2 n–2 SCR/(n – 2)


t
2
Total SCT = ∑ ( yt − y ) n–2
t

Les degrés de liberté correspondent au nombre de valeurs que nous pouvons choi-
sir arbitrairement (par exemple, pour la variabilité totale, connaissant n - 1 valeurs,
nous pourrons en déduire la n-ième, puisque nous connaissons la moyenne y ).
Le test H0 : a1 = 0 est équivalent au test d’hypothèse1 H0 : SCE = 0 (la variable
explicative xt ne contribue pas à l’explication du modèle).

1.  Cela n’est vrai que dans le cas du modèle de régression simple.

36
Le modèle de régression simple  ■  Chapitre 2

Soit le test d’hypothèses H0 : SCE = 0 contre l’hypothèse H1 : SCE ≠ 0.


La statistique1 de ce test est donnée par :

SCE ∑t ( yˆt − y )2
ddlSCE 1
F* = = [14]
SCR ∑ et2
ddlSCR t
(n − 2)
Ou encore :

∑t ( yˆt − y )2

49
SCE

68
R2

03
21
ddlSCE

:15
F* = = 1 = 1 [15]

15
SCR ∑ et2 (1 − R 2 )

7.2
0
9.1
ddlSCR t
(n − 2)
.12
05
(n − 2) 8:1
6
23
85
:88

La statistique F * est le rapport de la somme des carrés expliqués par xt sur la


03
6
38

somme des carrés des résidus, chacune de ces sommes étant divisée par son degré
95
:78

de liberté respectif. Ainsi, si la variance expliquée est significativement supérieure à


ra
nit
Ke

la variance résiduelle, la variable xt est considérée comme étant une variable réelle-
G
NC

ment explicative.
:E
om

F* suit une statistique de Fisher à 1 et n - 2 degrés de liberté. Si F * > F1;αn − 2 nous


x.c
rvo

rejetons au seuil a l’hypothèse H0 d’égalité des variances, la variable xt est signifi-


la
ho
sc

cative ; dans le cas contraire, nous acceptons l’hypothèse d’égalité des variances, la
w.
ww

variable xt n’est pas explicative de la variable yt.

(aˆ1 − a1 )2
En effet, suit une loi du χ 2 (chi-deux) à un degré de liberté (carré
© Dunod – Toute reproduction non autorisée est un délit.

σ ε2 / ∑ t ( xt − x )2
n

σˆ ε2 σˆ a2ˆi ∑ et2
t =1
d’une variable aléatoire normale centrée réduite) et = (n − 2) 2 = (n − 2) 2
σ ε2 σε σ aˆi
suit une loi du χ (chi-deux) à n - 2 degrés de liberté (somme au carré de n - 2
2

variables aléatoires indépendantes normales centrées réduites).


(aˆ1 − a1 )2 ∑ ( xt − x )2
t
En effectuant le rapport des deux chi-deux on obtient : F * = ,
∑t et2
(n − 2)
1.  Nous comparons la somme des carrés expliqués SCE à la somme des carrés des résidus SCR qui est représen-
tative de la somme des carrés théoriquement la plus faible.

37
Chapitre 2  ■  Le modèle de régression simple

aˆ12 ∑ ( xt − x ) SCE
2

soit sous H0 (a1 = 0) F * = t


= 1 suit une loi de Fisher à 1
∑t et2 SCR
(n − 2)
(n − 2)
et n – 2 degrés de liberté (rapport de chi-deux divisés par leurs degrés de liberté).
En effet, nous avons SCE = ∑ ( yˆt − y ) = aˆ12 ∑ ( xt − x ) car
2 2

t t

yˆt − y = aˆ0 + aˆ1 xt − aˆ0 − aˆ1 x = aˆ1 ( xt − x ).


Nous remarquons :

49
68
aˆ12 ∑ ( xt − x )2

03
2

21
 aˆ  aˆ12

:15
F * = (ta*ˆ1 )2 =  1  = 2 = t

15
 σˆ aˆ1  σˆ ε / ∑ ( xt − x )2 ∑t et2 /(n − 2)

7.2
0
9.1
t

.12
05
6 8:1

EXERCICE n° 4
23
85
:88
6 03
38
95

Équivalence des tests et analyse de la variance


:78
ra
nit
Ke
G

Un agronome cherche à estimer la relation liant la production de maïs yi au taux de


NC
:E

bauxite xi se trouvant dans la terre en formalisant la relation :


om
x.c
rvo

yi = a0 + a1xi + ei
la
ho
sc
w.

À partir d’une étude statistique portant sur 85 parcelles de terre, un économètre lui
ww

fournit les résultats suivants :


yi = 132,80 - 1,1xi + ei i = 1,…, 85
(4,3) (10,2)
(·) = ratio de Student
∑ ei2 = 6 234,32
i

1 ■ Montrer que tester l’hypothèse H0 : a1 = 0 revient à tester l’hypothèse r = 0,


où r est le coefficient de corrélation linéaire simple entre yi et xi ; le calculer.
2 ■ Construire le tableau d’analyse de la variance et vérifier les résultats obtenus
en 1) à partir du test de Fisher.
3 ■ Le coefficient a1 est-il significativement inférieur à -1 ?

38