Vous êtes sur la page 1sur 13

ECONOMETRIE1

Résumé du Cours et Exercices

S6 ME-MISS 2019-2020
Université de Fianarantsoa

Enseignant Responsable: Dr. RAKOTOMAROLAHY Patrick

1
Ce document fournit un résumé des éléments de base en économétrie théorique
ainsi qu’à des études pratiques. On s’est servi des documents en ligne du Dr. Ricco
Rakotomalala de l’Université de Lyon. On incite les étudiants à visiter son site très
riche en ressources pédagogiques et à consulter aussi les liens à d’autres sites proposant
des cours/TD/TP d’économétrie.
Mention Mathématiques 2 Faculté des Sciences
Chapter 1

REGRESSION LINEAIRE
SIMPLE

1.1 Modèle
Définition 1.1 Le modèle de régression linéaire simple s’écrit sous la forme
suivante:
Yi = β0 + β1 Xi + εi , i = 1, ..., N (1.1)
où

• Yi s’appelle la variable endogène (dépendante, à expliquer ou à prédire),

• Xi s’appelle variable exogène (indépendante, explicative ou prédictive) à


la date i,

• εi est l’erreur du modèle,

• β0 , β1 sont les paramètres du modèle.

1.2 Hypothèses
Les hypothèses suivantes sont fondamentales en régression linéaire simple.

Hypothèse 1 La variable exogène n’est pas aléatoire et le modèle est linéaire


en X par rapport aux paramètres.

Hypothèse 2 E(εi ) = 0 càd en moyenne les erreurs s’annulent.

Hypothèse 3 V (εi ) = σε2 (homoscédasticité) càd la variance de l’erreur est


constante et ne dépend pas de l’observation.

Hypothèse 4 cov(εi , εj ) = 0, ∀i 6= j (non-autocorrélation des erreurs) càd les


erreurs ne sont pas corrélées.

Hypothèse 5 εi ∼ N (0, σε2 ) càd les erreurs suivent une loi normale.

3
1.3. ESTIMATION CHAPTER 1. REGRESSION LINEAIRE SIMPLE

1.3 Estimation
L’estimation des paramètres β0 et β1 est obtenue en minimisant la somme des
carrés des erreurs. Cette méthode d’estimation s’appelle moindres carrés ordi-
naires (MCO). Les estimateurs par MCO de β0 et β1 sont donnés par:
PN
i=1 (Xi − X̄)(Yi − Ȳ )
β̂1 = PN , β̂0 = Ȳ − β̂1 X̄ (1.2)
2
i=1 (Xi − X̄)

PN PN
avec X̄ = N1 i=1 Xi et Ȳ = N1 i=1 Yi .
Les valeurs estimées pour Y sont données par Ŷi = β̂ 0 + β̂1 Xi . On obtient ainsi
N
les résidus par ε̂i = Yi − Ŷi . Après calcul, on a E[ i=1 ε̂2i ] = (N − 2)σε2 . On
P
en déduit donc un estimateur sans biais de la variance de l’erreur ayant comme
expression:
PN 2
ε̂
σ̂ε = i=1 i
2
(1.3)
N −2

1.4 Coefficient de détermination


Dans un modèle de régression linéaire, on obtient toujours la décomposition de
la variance comme suivante:
N
X N
X N
X
2 2
(Yi − Ȳ ) = (Yi − Ŷi ) + (Ŷi − Ȳ )2 ou SCT = SCR + SCE (1.4)
i=1 i=1 i=1

avec

• SCT : somme des carrés totaux

• SCE : somme des carrés expliqués par le modèle

• SCR : somme des carrés résiduels, non expliqués par le modèle

A partir de cette équation, on définit le coefficient de détermination noté R2 :

SCE
R2 = (1.5)
SCT
Ce coefficient est compris entre 0 et 1. De plus, on peut avoir une idée sur la
qualité de l’ajustement à partir de ce coefficient.

1.5 Propriétés des estimateurs par MCO


On précise dans la propriété suivante les espérances et les variances de ces esti-
mateurs par MCO.

Propriété 1.1 Supposons que les hypothèses 1 à 4 sont vérifiées, alors:

1. Les estimateurs par MCO de β0 et β1 sont des estimateurs sans biais càd
E[β̂0 ] = β0 et E[β̂1 ] = β1 .

Mention Mathématiques 4 Faculté des Sciences


CHAPTER 1. REGRESSION LINEAIRE SIMPLE 1.6. TESTS

2. Les variances des coefficients estimés par MCO ont pour expression:

σε2 σ 2 X¯2
σβ̂2 = PN , σβ̂2 = PN ε (1.6)
2 2
i=1 (Xi − X̄) i=1 (Xi − X̄)
1 0

Le théorème ci-après démontre l’efficacité des estimateurs par MCO (ou simple-
ment EMCO).
Théorème 1.1 (Théorème de Gauss-Markov) Parmi les estimateurs sans
biais, les EMCO sont à variance minimale. On dit qu’ils sont BLUE (Best
Linear Unbiased Estimator).

1.6 Tests
On fait appel à des tests d’hypothèses pour savoir si les coefficients sont (in-
dividuellement ou globalement) significatives. Le test de Student nous permet
de voir si le coefficient du modèle est significativement différent de zéro ou non.
Ceci correspond au test d’hypothèses suivant, H0 : βj = 0 contre H1 : βj 6= 0
pour j = 0, 1. On construit ainsi les statistiques tβ̂1 et tβ̂0 comme ci-après:

βˆ1 β̂0
tβ̂1 = ; tβ̂0 =
σ̂β̂1 σ̂β̂0

Sous l’hypothèse H0 , tβ̂j suit une loi de Student à (N-2) dl. En effet:
Si tβ̂1 > t1− α2 alors on décide β1 6= 0, sinon β1 = 0.
Si tβ̂0 > t1− α2 alors on décide β0 6= 0, sinon β0 = 0.
t1− α2 représente la statistique théorique de Student associée au niveau de risque
α.

Dans une régression linéaire simple, la significativité globale de l’ensemble des


coefficients se traduit par les hypothèses suivantes: H0 : β0 = 0 et β1 = 0 contre
H1 : ∃j ∈ {0, 1} | βj 6= 0. On a alors la statistique suivante:

(n − 2)SCE
F =
SCR
Sous l’hypothèse H0 , cette statistique suit une loi de Fisher à (1,n-2) dl. On
décide ainsi de rejeter l’hypothèse H0 au risque α si F > F1−α (1, n − 2) avec
F1−α (1, n − 2) représente la statistique théorique de Fisher associée au niveau
de risque α.

1.7 Exercices
Exercice 1.1 On s’intéresse à l’analyse du couple (X, Y ) d’échantillon :

Yi 114 124 143 158 166


Xi 35 45 55 65 75
On souhaite ajuster un modèle linéaire de la forme : Yi = α + βXi + εi pour
i = 1, ..., 5.

Dr RAKOTOMAROLAHY Patrick 5 Université de Fianarantsoa


1.7. EXERCICES CHAPTER 1. REGRESSION LINEAIRE SIMPLE

1. Tracer le nuage de points et commenter.


2. Calculer les estimateurs des moindres carrés ordinaires des paramètres α
et β.
3. Calculer l’estimateur de la variance de l’erreur.
4. Calculer les écart-types des estimateurs de la question 2.
5. Trouver les valeurs dans le tableau d’analyse de la variance.
6. Calculer le coefficient de détermination.

Exercice 1.2 En l’absence de mortalité, la croissance de toute population de


bactéries est modélisée par l’équation N (t) = N0 ekt , où N (t) est le nombre de
bactéries à l’instant t et N0 est le nombre de bactéries à l’instant initial. L’unité
de temps choisie est un jour (24 heures). Les nombres N0 et k dépendent du
type de population bactérienne considérée.
On s’intéresse à une population particulière. Des numérations faites tous les
jours à partir du 2eme donne les résultats suivants : avec ti jour de l’observation,
Ni nombre de bactéries au jour ti .
ti 2 3 4 5 6 7 8 9 10 11 12
Ni 55 90 135 245 403 665 1100 1810 3000 4450 7350

On pose yi = ln(Ni ) et Y (t) = ln(N (t)). Ainsi on obtient, Y (t) = ln(N0 ) + kt.
1. Représenter, à l’aide d’un graphe adapté, la relation entre les variables
Y et t. Les différentes hypothèses du modèle du régression linéaire vous
semble-t-elle être vérifiée?
2. Par la méthode des moindres carrés, déterminer la droite de régression de
Y en t.
3. Calculer le résidu quadratique moyen et le coefficient de détermination.
4. Calculer la matrice de la variance des paramètres de régression.
5. Vérifier votre réponse en question 1 par calcul.
6. Ecrire le modèle théorique ajusté aux données (ti , Ni ) auquel conduisent
les estimations de N0 et k.
7. Au bout d’un jour, quelle est l’estimation du nombre de bactéries? Au bout
de combien de jours peut-on prévoir que le nombre de bactéries sera 2000
fois celui du nombre initial ?

Exercice 1.3 On cherche à expliquer la consommation des ménages C par le


revenu R soit Ci = a + bRi + ei pour i = 1, ..., n.
1. Tracer le nuage de points et commenter.
2. Calculer le coefficient de corrélation linéaire entre ces deux séries.
3. Calculer les estimateurs des moindres carrés ordinaires des paramètres a
et b.

Mention Mathématiques 6 Faculté des Sciences


CHAPTER 1. REGRESSION LINEAIRE SIMPLE 1.7. EXERCICES

4. En déduire les valeurs estimées de C.


5. Calculer les résidus et vérifier la propriété selon laquelle la moyenne des
résidus est nulle.
6. Calculer l’estimateur de la variance de l’erreur.
7. Ecrire et vérifier l’équation d’analyse de la variance. Interpréter.
8. Calculer le coefficient de détermination.

9. Le coefficient b, représentant la propension marginale à consommer, est-il


significativement différent de zéro ?
10. Construire l’intervalle de confiance au seuil de 95% pour ce même coeffi-
cient.

11. Effectuer le test de Fisher permettant de déterminer si la régression est


significative dans son ensemble.

Dr RAKOTOMAROLAHY Patrick 7 Université de Fianarantsoa


1.7. EXERCICES CHAPTER 1. REGRESSION LINEAIRE SIMPLE

Mention Mathématiques 8 Faculté des Sciences


Chapter 2

REGRESSION LINEAIRE
MULTIPLE

2.1 Formulation du modèle


Définition 2.1 Quand on considère deux ou plusieurs variables explicatives
dans un modèle de régression, on parle de modèle de régression multiple. Ce
modèle s’écrit sous la forme suivante:

Yi = βo + β1 Xi1 + β2 Xi2 + ... + βp Xip + εi (2.1)

pour i = 1, ..., N , avec Y la variable à expliquer et X 1 , · · · , X p les p variables


explicatives; ε l’erreur du modèle; β0 , β1 , ..., βp les paramètres du modèle.
L’équation (2.1) peut s’écrire aussi sous forme matricielle:

Y = Xβ + ε (2.2)

où Y est un vecteur de dimension N , X est une matrice de dimension (N ∗ (p +


1)) et β est un vecteur de dimension (p + 1) de coefficient et ε est un vecteur
de dimension N .

2.2 Hypothèses du modèle


Comme dans le cas du modèle de régression linéaire simple, on étudie le modèle
précédent sous des hypothèses.

Hypothèse 6 La matrice X est certaine.

Hypothèse 7 E(ε) = 0.

Hypothèse 8 E(εε0 ) = σ 2 IT .
0
Hypothèse 9 H3 : Rang(X X) = p + 1.

Hypothèse 10 ε ∼ N (0, σ 2 IT ).

9
2.3. ESTIMATION CHAPTER 2. REGRESSION LINEAIRE MULTIPLE

2.3 Estimation
L’estimation de vecteur β se fait toujours par la méthode de M CO, on obtient:
0 0
β̂ = (X X)−1 X Y (2.3)
0
avec (X X) une matrice inversible.

Propriété 2.1 E(β̂) = β ⇒ l’estimateur est sans biais.

2.4 Matrice de variance-covariance de coefficients


La matrice de variance-covariance de β̂ et la variance de l’erreur sont les suiv-
antes:
0 0 1
var(β̂) = σε2 (X X)−1 ≡ Ω, σ̂ε2 = ε ε et ε̂ = Y − X β̂ (2.4)
N −p−1
avec
var(β̂): la matrice de variance-covariance de coefficient estimé,
σ̂ε2 : l’estimation de la variance de l’erreur estimée,
ε̂: erreur estimée.

2.5 Inférence statistique sur les coefficients


Pour tester la significativité individuelle ou global des coefficients, on procède
de la même manière que dans le cas de la régression simple. Dans cette section,
on va s’intéresser particulièrement au test de nullité simultanée de plusieurs
coefficients. En effet, pour tester la nullité de q (q ≤ p) coefficients quelconques
parmi les p, on a les hypothèses suivantes: H0 : β1 = β2 = · · · = βq = 0 contre
H1 : ∃j ∈ {1, . . . , q} | βj 6= 0. On a alors la statistique suivante:

1 0
F = β̂ Ω−1 β̂(q)
q (q) β̂(q)

Ω−1
β̂
représente l’inverse de la matrice de variance covariance réduite aux coef-
(q)
ficients testés.
Sous l’hypothèse H0 , cette statistique F suit une loi de Fisher à (q,n-p-1) dl.
On décide ainsi de rejeter l’hypothèse H0 au risque α si F > F1−α (q, n − p − 1)
avec F1−α (q, n − p − 1) représente la statistique théorique de Fisher associée au
niveau de risque α.
On peut généraliser ce test en considérant les hypothèses suivantes: H0 : Lβ = c
contre H0 : Lβ 6= c. La statistique associée est donc :

1
F (Y ) = (Lβ̂ − c)0 [LΩL0 ]−1 (Lβ̂ − c)
q

Sous l’hypothèse H0 , cette statistique F suit une loi de Fisher à (q,n-p-1) dl.
Ainsi, la région de rejet est {y, F (y) > F1−α (q, n − p − 1)}.

Mention Mathématiques 10 Faculté des Sciences


CHAPTER 2. REGRESSION LINEAIRE MULTIPLE 2.6. EXERCICES

2.6 Exercices
Exercice 2.1 Soit le modèle linéaire multiple:

Y = Xβ+ ε (2.5)
(T, 1) (T, k)(k, 1) (T, 1) (2.6)

On suppose vérifiées les hypothèses suivantes:

H1 : E(ε) = 0; H2 : X certaine; H3 : Rg (X) = k; H4 : E(εε0 ) = σ 2 IT .

1. Trouver l’expression de β̂ par MCO.


2. Calculer E(β̂) et V (β̂). Comment estime-t-on V (β̂)?
3. On remplace l’hypothèse H4 par E(εε0 ) = Ω 6= σ 2 IT , dans ce cas

(a) Calculer β̂. En déduire E(β̂) et V (β̂).


(b) Que peut-on dire de V (β̂)?

Exercice 2.2 Considérons le résidu du MCO ε = y − Xβ du modèle linéaire


multiple y = Xβ + ε.
1. Trouver la matrice carré M telle que ε = M y.
2. Montrer que M est symétrique (M = M 0 )et idempotent (M = M 2 ).
3. Vérifier que M X = 0. Interpréter ce résultat.
4. Trouver la matrice de projection P telle que ŷ = P y. Montrer qu’elle est
symétrique et idempotent.
5. Comprendre que la régression de y sur X ressemble à la projection de y
dans l’espace générée par les vecteurs colonnes de X.
6. Vérifier que P M = M P = 0 et P X = X.

Exercice 2.3 Traitement des observations supplémentaires et manquantes.


1. Supposons qu’on a n observations de Xn et yn . Notons par bn l’estimateur
par MCO du coefficient de la régression de yn sur Xn . Montrer que
l’estimateur bn,s par moindre carré de la même régression avec une obser-
vation de plus xs et ys s’écrit:
1
bn,s = bn + (X 0 Xn )−1 xs (ys − x0s bn )
1 + x0s (Xn0 Xn )−1 xs n
Conclure.
2. Le traitement d’une observation manquante dans une variable explicative
est de la complétée par zéro et de rajouter dans le modèle de régression
une variable qui prend la valeur 1 pour cette observation manquante et 0
pour les autres. Montrer que dans une régression simple, en remplaçant
la valeur manquante de x par sa moyenne produit le même effet que le
rajout d’une nouvelle variable.

Dr RAKOTOMAROLAHY Patrick 11 Université de Fianarantsoa


2.6. EXERCICES CHAPTER 2. REGRESSION LINEAIRE MULTIPLE

Exercice 2.4 On étudie l’influence des heures de travail et du capital utilisé


sur la production industrielle. Pour cela, on dispose des observations de 9 en-
treprises résumées dans le tableau ci-dessous :

Obs Travail (heures) Capital (machines/heures) Production (100 tonnes)


1 1100 300 60
2 1200 400 120
3 1430 420 190
4 1500 400 250
5 1520 510 300
6 1620 590 360
7 1800 600 380
8 1820 630 430
9 1800 610 440

On suppose que la production est expliquée par un modèle de régression linéaire


multiple avec deux variables explicatives, le travail et le capital.

1. Ecrire le modèle sous forme matricielle.

2. Estimer le vecteur β puis donner l’équation de l’hyperplan des moindres


carrés. Pour cela, on donne
 
6, 304777 −0, 007800 0, 011620
(X 0 X)−1 = −0, 007800 0, 000015 −0, 000031
0, 011620 −0, 000031 0, 000072

3. Calculer les estimations de σ 2 et V (β̂).

4. Calculer les intervalles de confiance à 95% pour βj , j = 0, 1, 2.

5. Tester l’hypothèse nulle βj = 0 pour j = 0, 1, 2.

6. Construire le tableau d’analyse de variance et réaliser le test de Fisher


global d’hypothèse nulle β1 = β2 = 0 au risque α = 5%. Conclure.

Exercice 2.5 On considère un modèle à deux variables explicatives. De l’estimation


sur n individus, on a obtenu les matrices X’X et X’Y suivantes :

   
200 150 350
X’X= X’Y=
150 113 263
L’ajout d’une observation a modifié ces matrices de la façon suivante :
   
199 149 347.5
X’X= X’Y=
149 112 261.5

1. Calculer les coefficients estimés de la régression dans les deux cas.

2. Calculer le coefficient de corrélation linéaire entre les deux variables ex-


plicatives.

Mention Mathématiques 12 Faculté des Sciences


CHAPTER 2. REGRESSION LINEAIRE MULTIPLE 2.6. EXERCICES

3. Commenter.

Exercice 2.6 Soit le modèle linéaire multiple:

Y = Xβ+ ε (2.7)

où β ∈ Rk , X est une matrice de taille (n, k) et ε est un vecteur aléatoire de


taille n, centré. On suppose que var(ε) = Σ est une matrice de rang n et est
connue (il conviendra dans la pratique de l’estimer).
1. Préciser la matrice Σ lorsque les variables εi sont non-corrélées mais
hétéroscédastiques de variance σi2 .

2. Déterminer l’espérance et la variance de l’estimateur β̂ des moindres carrés


ordinaires.
3. On définit pour T ∈ Rn , kT kΣ = T 0 Σ−1 T . Donner la forme explicite
de l’estimateur β̂G des moindres carrés généralisés défini comme le min-
imiseur de kY − XβkΣ . Calculer alors son espérance et sa variance.

4. En déduire que β̂G est plus efficace que β̂ (au sens du coût quadratique).

5. On suppose maintenant ε ∼ N (0; Σ). Montrer que β̂G est l’estimateur du


maximum de vraisemblance.

Dr RAKOTOMAROLAHY Patrick 13 Université de Fianarantsoa

Vous aimerez peut-être aussi