CoursECONOMETRIE AU19-20

ECONOMETRIE1
Résumé du Cours et Exercices
S6 ME-MISS 2019-2020
Université de Fianarantsoa
Enseignant Responsable: Dr. RAKOTOMAROLAHY Patrick
1
Ce document fournit un résumé des éléments de base en économétrie théorique
ainsi qu’à des études pratiques. On s’est servi des documents en ligne du Dr. Ricco
Rakotomalala de l’Université de Lyon. On incite les étudiants à visiter son site très
riche en ressources pédagogiques et à consulter aussi les liens à d’autres sites proposant
des cours/TD/TP d’économétrie.
Mention Mathématiques 2 Faculté des Sciences
Chapter 1
REGRESSION LINEAIRE
SIMPLE
1.1 Modèle
Définition 1.1 Le modèle de régression linéaire simple s’écrit sous la forme
suivante:
Yi = β0 + β1 Xi + εi , i = 1, ..., N (1.1)
où
• Yi s’appelle la variable endogène (dépendante, à expliquer ou à prédire),
• Xi s’appelle variable exogène (indépendante, explicative ou prédictive) à

la date i,
• εi est l’erreur du modèle,
• β0 , β1 sont les paramètres du modèle.
1.2 Hypothèses
Les hypothèses suivantes sont fondamentales en régression linéaire simple.
Hypothèse 1 La variable exogène n’est pas aléatoire et le modèle est linéaire

en X par rapport aux paramètres.
Hypothèse 2 E(εi ) = 0 càd en moyenne les erreurs s’annulent.
Hypothèse 3 V (εi ) = σε2 (homoscédasticité) càd la variance de l’erreur est

constante et ne dépend pas de l’observation.
Hypothèse 4 cov(εi , εj ) = 0, ∀i 6= j (non-autocorrélation des erreurs) càd les

erreurs ne sont pas corrélées.
Hypothèse 5 εi ∼ N (0, σε2 ) càd les erreurs suivent une loi normale.
3
1.3. ESTIMATION CHAPTER 1. REGRESSION LINEAIRE SIMPLE
1.3 Estimation
L’estimation des paramètres β0 et β1 est obtenue en minimisant la somme des
carrés des erreurs. Cette méthode d’estimation s’appelle moindres carrés ordi-
naires (MCO). Les estimateurs par MCO de β0 et β1 sont donnés par:
PN
i=1 (Xi − X̄)(Yi − Ȳ )
β̂1 = PN , β̂0 = Ȳ − β̂1 X̄ (1.2)
2
i=1 (Xi − X̄)
PN PN
avec X̄ = N1 i=1 Xi et Ȳ = N1 i=1 Yi .
Les valeurs estimées pour Y sont données par Ŷi = β̂ 0 + β̂1 Xi . On obtient ainsi
N
les résidus par ε̂i = Yi − Ŷi . Après calcul, on a E[ i=1 ε̂2i ] = (N − 2)σε2 . On
P
en déduit donc un estimateur sans biais de la variance de l’erreur ayant comme
expression:
PN 2
ε̂
σ̂ε = i=1 i
2
(1.3)
N −2
1.4 Coefficient de détermination

Dans un modèle de régression linéaire, on obtient toujours la décomposition de
la variance comme suivante:
N
X N
X N
X
2 2
(Yi − Ȳ ) = (Yi − Ŷi ) + (Ŷi − Ȳ )2 ou SCT = SCR + SCE (1.4)
i=1 i=1 i=1
avec
• SCT : somme des carrés totaux
• SCE : somme des carrés expliqués par le modèle
• SCR : somme des carrés résiduels, non expliqués par le modèle
A partir de cette équation, on définit le coefficient de détermination noté R2 :
SCE
R2 = (1.5)
SCT
Ce coefficient est compris entre 0 et 1. De plus, on peut avoir une idée sur la
qualité de l’ajustement à partir de ce coefficient.
1.5 Propriétés des estimateurs par MCO

On précise dans la propriété suivante les espérances et les variances de ces esti-
mateurs par MCO.
Propriété 1.1 Supposons que les hypothèses 1 à 4 sont vérifiées, alors:
1. Les estimateurs par MCO de β0 et β1 sont des estimateurs sans biais càd
E[β̂0 ] = β0 et E[β̂1 ] = β1 .

CHAPTER 1. REGRESSION LINEAIRE SIMPLE 1.6. TESTS
2. Les variances des coefficients estimés par MCO ont pour expression:
σε2 σ 2 X¯2
σβ̂2 = PN , σβ̂2 = PN ε (1.6)
2 2
i=1 (Xi − X̄) i=1 (Xi − X̄)
1 0
Le théorème ci-après démontre l’efficacité des estimateurs par MCO (ou simple-
ment EMCO).
Théorème 1.1 (Théorème de Gauss-Markov) Parmi les estimateurs sans
biais, les EMCO sont à variance minimale. On dit qu’ils sont BLUE (Best
Linear Unbiased Estimator).
1.6 Tests
On fait appel à des tests d’hypothèses pour savoir si les coefficients sont (in-
dividuellement ou globalement) significatives. Le test de Student nous permet
de voir si le coefficient du modèle est significativement différent de zéro ou non.
Ceci correspond au test d’hypothèses suivant, H0 : βj = 0 contre H1 : βj 6= 0
pour j = 0, 1. On construit ainsi les statistiques tβ̂1 et tβ̂0 comme ci-après:
βˆ1 β̂0
tβ̂1 = ; tβ̂0 =
σ̂β̂1 σ̂β̂0
Sous l’hypothèse H0 , tβ̂j suit une loi de Student à (N-2) dl. En effet:
Si tβ̂1 > t1− α2 alors on décide β1 6= 0, sinon β1 = 0.
Si tβ̂0 > t1− α2 alors on décide β0 6= 0, sinon β0 = 0.
t1− α2 représente la statistique théorique de Student associée au niveau de risque
α.
Dans une régression linéaire simple, la significativité globale de l’ensemble des

coefficients se traduit par les hypothèses suivantes: H0 : β0 = 0 et β1 = 0 contre
H1 : ∃j ∈ {0, 1} | βj 6= 0. On a alors la statistique suivante:
(n − 2)SCE
F =
SCR
Sous l’hypothèse H0 , cette statistique suit une loi de Fisher à (1,n-2) dl. On
décide ainsi de rejeter l’hypothèse H0 au risque α si F > F1−α (1, n − 2) avec
F1−α (1, n − 2) représente la statistique théorique de Fisher associée au niveau
de risque α.
1.7 Exercices
Exercice 1.1 On s’intéresse à l’analyse du couple (X, Y ) d’échantillon :
Yi 114 124 143 158 166

Xi 35 45 55 65 75
On souhaite ajuster un modèle linéaire de la forme : Yi = α + βXi + εi pour
i = 1, ..., 5.
Dr RAKOTOMAROLAHY Patrick 5 Université de Fianarantsoa

1.7. EXERCICES CHAPTER 1. REGRESSION LINEAIRE SIMPLE
1. Tracer le nuage de points et commenter.

2. Calculer les estimateurs des moindres carrés ordinaires des paramètres α
et β.
3. Calculer l’estimateur de la variance de l’erreur.
4. Calculer les écart-types des estimateurs de la question 2.
5. Trouver les valeurs dans le tableau d’analyse de la variance.
6. Calculer le coefficient de détermination.
Exercice 1.2 En l’absence de mortalité, la croissance de toute population de

bactéries est modélisée par l’équation N (t) = N0 ekt , où N (t) est le nombre de
bactéries à l’instant t et N0 est le nombre de bactéries à l’instant initial. L’unité
de temps choisie est un jour (24 heures). Les nombres N0 et k dépendent du
type de population bactérienne considérée.
On s’intéresse à une population particulière. Des numérations faites tous les
jours à partir du 2eme donne les résultats suivants : avec ti jour de l’observation,
Ni nombre de bactéries au jour ti .
ti 2 3 4 5 6 7 8 9 10 11 12
Ni 55 90 135 245 403 665 1100 1810 3000 4450 7350
On pose yi = ln(Ni ) et Y (t) = ln(N (t)). Ainsi on obtient, Y (t) = ln(N0 ) + kt.
1. Représenter, à l’aide d’un graphe adapté, la relation entre les variables
Y et t. Les différentes hypothèses du modèle du régression linéaire vous
semble-t-elle être vérifiée?
2. Par la méthode des moindres carrés, déterminer la droite de régression de
Y en t.
3. Calculer le résidu quadratique moyen et le coefficient de détermination.
4. Calculer la matrice de la variance des paramètres de régression.
5. Vérifier votre réponse en question 1 par calcul.
6. Ecrire le modèle théorique ajusté aux données (ti , Ni ) auquel conduisent
les estimations de N0 et k.
7. Au bout d’un jour, quelle est l’estimation du nombre de bactéries? Au bout
de combien de jours peut-on prévoir que le nombre de bactéries sera 2000
fois celui du nombre initial ?
Exercice 1.3 On cherche à expliquer la consommation des ménages C par le

revenu R soit Ci = a + bRi + ei pour i = 1, ..., n.
1. Tracer le nuage de points et commenter.
2. Calculer le coefficient de corrélation linéaire entre ces deux séries.
3. Calculer les estimateurs des moindres carrés ordinaires des paramètres a
et b.

CHAPTER 1. REGRESSION LINEAIRE SIMPLE 1.7. EXERCICES
4. En déduire les valeurs estimées de C.

5. Calculer les résidus et vérifier la propriété selon laquelle la moyenne des
résidus est nulle.
6. Calculer l’estimateur de la variance de l’erreur.
7. Ecrire et vérifier l’équation d’analyse de la variance. Interpréter.
8. Calculer le coefficient de détermination.
9. Le coefficient b, représentant la propension marginale à consommer, est-il

significativement différent de zéro ?
10. Construire l’intervalle de confiance au seuil de 95% pour ce même coeffi-
cient.
11. Effectuer le test de Fisher permettant de déterminer si la régression est

significative dans son ensemble.

1.7. EXERCICES CHAPTER 1. REGRESSION LINEAIRE SIMPLE

Chapter 2
REGRESSION LINEAIRE
MULTIPLE
2.1 Formulation du modèle

Définition 2.1 Quand on considère deux ou plusieurs variables explicatives
dans un modèle de régression, on parle de modèle de régression multiple. Ce
modèle s’écrit sous la forme suivante:
Yi = βo + β1 Xi1 + β2 Xi2 + ... + βp Xip + εi (2.1)
pour i = 1, ..., N , avec Y la variable à expliquer et X 1 , · · · , X p les p variables

explicatives; ε l’erreur du modèle; β0 , β1 , ..., βp les paramètres du modèle.
L’équation (2.1) peut s’écrire aussi sous forme matricielle:
Y = Xβ + ε (2.2)
où Y est un vecteur de dimension N , X est une matrice de dimension (N ∗ (p +

1)) et β est un vecteur de dimension (p + 1) de coefficient et ε est un vecteur
de dimension N .
2.2 Hypothèses du modèle

Comme dans le cas du modèle de régression linéaire simple, on étudie le modèle
précédent sous des hypothèses.
Hypothèse 6 La matrice X est certaine.
Hypothèse 7 E(ε) = 0.
Hypothèse 8 E(εε0 ) = σ 2 IT .
0
Hypothèse 9 H3 : Rang(X X) = p + 1.
Hypothèse 10 ε ∼ N (0, σ 2 IT ).
9
2.3. ESTIMATION CHAPTER 2. REGRESSION LINEAIRE MULTIPLE
2.3 Estimation
L’estimation de vecteur β se fait toujours par la méthode de M CO, on obtient:
0 0
β̂ = (X X)−1 X Y (2.3)
0
avec (X X) une matrice inversible.
Propriété 2.1 E(β̂) = β ⇒ l’estimateur est sans biais.
2.4 Matrice de variance-covariance de coefficients

La matrice de variance-covariance de β̂ et la variance de l’erreur sont les suiv-
antes:
0 0 1
var(β̂) = σε2 (X X)−1 ≡ Ω, σ̂ε2 = ε ε et ε̂ = Y − X β̂ (2.4)
N −p−1
avec
var(β̂): la matrice de variance-covariance de coefficient estimé,
σ̂ε2 : l’estimation de la variance de l’erreur estimée,
ε̂: erreur estimée.
2.5 Inférence statistique sur les coefficients

Pour tester la significativité individuelle ou global des coefficients, on procède
de la même manière que dans le cas de la régression simple. Dans cette section,
on va s’intéresser particulièrement au test de nullité simultanée de plusieurs
coefficients. En effet, pour tester la nullité de q (q ≤ p) coefficients quelconques
parmi les p, on a les hypothèses suivantes: H0 : β1 = β2 = · · · = βq = 0 contre
H1 : ∃j ∈ {1, . . . , q} | βj 6= 0. On a alors la statistique suivante:
1 0
F = β̂ Ω−1 β̂(q)
q (q) β̂(q)
Ω−1
β̂
représente l’inverse de la matrice de variance covariance réduite aux coef-
(q)
ficients testés.
Sous l’hypothèse H0 , cette statistique F suit une loi de Fisher à (q,n-p-1) dl.
On décide ainsi de rejeter l’hypothèse H0 au risque α si F > F1−α (q, n − p − 1)
avec F1−α (q, n − p − 1) représente la statistique théorique de Fisher associée au
niveau de risque α.
On peut généraliser ce test en considérant les hypothèses suivantes: H0 : Lβ = c
contre H0 : Lβ 6= c. La statistique associée est donc :
1
F (Y ) = (Lβ̂ − c)0 [LΩL0 ]−1 (Lβ̂ − c)
q
Sous l’hypothèse H0 , cette statistique F suit une loi de Fisher à (q,n-p-1) dl.
Ainsi, la région de rejet est {y, F (y) > F1−α (q, n − p − 1)}.

CHAPTER 2. REGRESSION LINEAIRE MULTIPLE 2.6. EXERCICES
2.6 Exercices
Exercice 2.1 Soit le modèle linéaire multiple:
Y = Xβ+ ε (2.5)
(T, 1) (T, k)(k, 1) (T, 1) (2.6)
On suppose vérifiées les hypothèses suivantes:
H1 : E(ε) = 0; H2 : X certaine; H3 : Rg (X) = k; H4 : E(εε0 ) = σ 2 IT .
1. Trouver l’expression de β̂ par MCO.

2. Calculer E(β̂) et V (β̂). Comment estime-t-on V (β̂)?
3. On remplace l’hypothèse H4 par E(εε0 ) = Ω 6= σ 2 IT , dans ce cas
(a) Calculer β̂. En déduire E(β̂) et V (β̂).

(b) Que peut-on dire de V (β̂)?
Exercice 2.2 Considérons le résidu du MCO ε = y − Xβ du modèle linéaire

multiple y = Xβ + ε.
1. Trouver la matrice carré M telle que ε = M y.
2. Montrer que M est symétrique (M = M 0 )et idempotent (M = M 2 ).
3. Vérifier que M X = 0. Interpréter ce résultat.
4. Trouver la matrice de projection P telle que ŷ = P y. Montrer qu’elle est
symétrique et idempotent.
5. Comprendre que la régression de y sur X ressemble à la projection de y
dans l’espace générée par les vecteurs colonnes de X.
6. Vérifier que P M = M P = 0 et P X = X.
Exercice 2.3 Traitement des observations supplémentaires et manquantes.

1. Supposons qu’on a n observations de Xn et yn . Notons par bn l’estimateur
par MCO du coefficient de la régression de yn sur Xn . Montrer que
l’estimateur bn,s par moindre carré de la même régression avec une obser-
vation de plus xs et ys s’écrit:
1
bn,s = bn + (X 0 Xn )−1 xs (ys − x0s bn )
1 + x0s (Xn0 Xn )−1 xs n
Conclure.
2. Le traitement d’une observation manquante dans une variable explicative
est de la complétée par zéro et de rajouter dans le modèle de régression
une variable qui prend la valeur 1 pour cette observation manquante et 0
pour les autres. Montrer que dans une régression simple, en remplaçant
la valeur manquante de x par sa moyenne produit le même effet que le
rajout d’une nouvelle variable.

2.6. EXERCICES CHAPTER 2. REGRESSION LINEAIRE MULTIPLE
Exercice 2.4 On étudie l’influence des heures de travail et du capital utilisé

sur la production industrielle. Pour cela, on dispose des observations de 9 en-
treprises résumées dans le tableau ci-dessous :
Obs Travail (heures) Capital (machines/heures) Production (100 tonnes)

1 1100 300 60
2 1200 400 120
3 1430 420 190
4 1500 400 250
5 1520 510 300
6 1620 590 360
7 1800 600 380
8 1820 630 430
9 1800 610 440
On suppose que la production est expliquée par un modèle de régression linéaire

multiple avec deux variables explicatives, le travail et le capital.
1. Ecrire le modèle sous forme matricielle.
2. Estimer le vecteur β puis donner l’équation de l’hyperplan des moindres

carrés. Pour cela, on donne
 
6, 304777 −0, 007800 0, 011620
(X 0 X)−1 = −0, 007800 0, 000015 −0, 000031
0, 011620 −0, 000031 0, 000072
3. Calculer les estimations de σ 2 et V (β̂).
4. Calculer les intervalles de confiance à 95% pour βj , j = 0, 1, 2.
5. Tester l’hypothèse nulle βj = 0 pour j = 0, 1, 2.
6. Construire le tableau d’analyse de variance et réaliser le test de Fisher

global d’hypothèse nulle β1 = β2 = 0 au risque α = 5%. Conclure.
Exercice 2.5 On considère un modèle à deux variables explicatives. De l’estimation

sur n individus, on a obtenu les matrices X’X et X’Y suivantes :

200 150 350
X’X= X’Y=
150 113 263
L’ajout d’une observation a modifié ces matrices de la façon suivante :

199 149 347.5
X’X= X’Y=
149 112 261.5
1. Calculer les coefficients estimés de la régression dans les deux cas.
2. Calculer le coefficient de corrélation linéaire entre les deux variables ex-

plicatives.

CHAPTER 2. REGRESSION LINEAIRE MULTIPLE 2.6. EXERCICES
3. Commenter.
Exercice 2.6 Soit le modèle linéaire multiple:
Y = Xβ+ ε (2.7)
où β ∈ Rk , X est une matrice de taille (n, k) et ε est un vecteur aléatoire de

taille n, centré. On suppose que var(ε) = Σ est une matrice de rang n et est
connue (il conviendra dans la pratique de l’estimer).
1. Préciser la matrice Σ lorsque les variables εi sont non-corrélées mais
hétéroscédastiques de variance σi2 .
2. Déterminer l’espérance et la variance de l’estimateur β̂ des moindres carrés

ordinaires.
3. On définit pour T ∈ Rn , kT kΣ = T 0 Σ−1 T . Donner la forme explicite
de l’estimateur β̂G des moindres carrés généralisés défini comme le min-
imiseur de kY − XβkΣ . Calculer alors son espérance et sa variance.
4. En déduire que β̂G est plus efficace que β̂ (au sens du coût quadratique).
5. On suppose maintenant ε ∼ N (0; Σ). Montrer que β̂G est l’estimateur du

maximum de vraisemblance.

CoursECONOMETRIE AU19-20

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CoursECONOMETRIE AU19-20

Transféré par

Droits d'auteur :

Formats disponibles

ECONOMETRIE1

Résumé du Cours et Exercices

Enseignant Responsable: Dr. RAKOTOMAROLAHY Patrick

• Yi s’appelle la variable endogène (dépendante, à expliquer ou à prédire),

• Xi s’appelle variable exogène (indépendante, explicative ou prédictive) à

• εi est l’erreur du modèle,

• β0 , β1 sont les paramètres du modèle.

Hypothèse 1 La variable exogène n’est pas aléatoire et le modèle est linéaire

Hypothèse 2 E(εi ) = 0 càd en moyenne les erreurs s’annulent.

Hypothèse 3 V (εi ) = σε2 (homoscédasticité) càd la variance de l’erreur est

Hypothèse 4 cov(εi , εj ) = 0, ∀i 6= j (non-autocorrélation des erreurs) càd les

1.4 Coefficient de détermination

• SCT : somme des carrés totaux

• SCE : somme des carrés expliqués par le modèle

• SCR : somme des carrés résiduels, non expliqués par le modèle

A partir de cette équation, on définit le coefficient de détermination noté R2 :

1.5 Propriétés des estimateurs par MCO

Propriété 1.1 Supposons que les hypothèses 1 à 4 sont vérifiées, alors:

Mention Mathématiques 4 Faculté des Sciences

Dans une régression linéaire simple, la significativité globale de l’ensemble des

Yi 114 124 143 158 166

Dr RAKOTOMAROLAHY Patrick 5 Université de Fianarantsoa

1. Tracer le nuage de points et commenter.

Exercice 1.2 En l’absence de mortalité, la croissance de toute population de

Exercice 1.3 On cherche à expliquer la consommation des ménages C par le

Mention Mathématiques 6 Faculté des Sciences

4. En déduire les valeurs estimées de C.

9. Le coefficient b, représentant la propension marginale à consommer, est-il

11. Effectuer le test de Fisher permettant de déterminer si la régression est

Dr RAKOTOMAROLAHY Patrick 7 Université de Fianarantsoa

Mention Mathématiques 8 Faculté des Sciences

2.1 Formulation du modèle

Yi = βo + β1 Xi1 + β2 Xi2 + ... + βp Xip + εi (2.1)

pour i = 1, ..., N , avec Y la variable à expliquer et X 1 , · · · , X p les p variables

où Y est un vecteur de dimension N , X est une matrice de dimension (N ∗ (p +

2.2 Hypothèses du modèle

Hypothèse 6 La matrice X est certaine.

Propriété 2.1 E(β̂) = β ⇒ l’estimateur est sans biais.

2.4 Matrice de variance-covariance de coefficients

2.5 Inférence statistique sur les coefficients

Mention Mathématiques 10 Faculté des Sciences

On suppose vérifiées les hypothèses suivantes:

H1 : E(ε) = 0; H2 : X certaine; H3 : Rg (X) = k; H4 : E(εε0 ) = σ 2 IT .

1. Trouver l’expression de β̂ par MCO.

(a) Calculer β̂. En déduire E(β̂) et V (β̂).

Exercice 2.2 Considérons le résidu du MCO ε = y − Xβ du modèle linéaire

Exercice 2.3 Traitement des observations supplémentaires et manquantes.

Dr RAKOTOMAROLAHY Patrick 11 Université de Fianarantsoa

Exercice 2.4 On étudie l’influence des heures de travail et du capital utilisé

Obs Travail (heures) Capital (machines/heures) Production (100 tonnes)

On suppose que la production est expliquée par un modèle de régression linéaire

1. Ecrire le modèle sous forme matricielle.

2. Estimer le vecteur β puis donner l’équation de l’hyperplan des moindres

3. Calculer les estimations de σ 2 et V (β̂).

4. Calculer les intervalles de confiance à 95% pour βj , j = 0, 1, 2.

5. Tester l’hypothèse nulle βj = 0 pour j = 0, 1, 2.

6. Construire le tableau d’analyse de variance et réaliser le test de Fisher

Exercice 2.5 On considère un modèle à deux variables explicatives. De l’estimation

1. Calculer les coefficients estimés de la régression dans les deux cas.

2. Calculer le coefficient de corrélation linéaire entre les deux variables ex-

Mention Mathématiques 12 Faculté des Sciences

Exercice 2.6 Soit le modèle linéaire multiple:

où β ∈ Rk , X est une matrice de taille (n, k) et ε est un vecteur aléatoire de