Vous êtes sur la page 1sur 14

Université de Lomé

FASEG
Licence 2017-2018

TD N°1 du cours d’Introduction à l’Econométrie


Chapitre 2 : Modèle de Régression Simple
Exercice 1 :

Supposons que la variable kids représente le nombre d’enfants que possèdes une
femme et la variable educ le nombre d’année d’éducation de cette femme. Un modèle
simple reliant la fertilité au nombre d’années d’éducation est donné par :
kids = β0 + β1educ + u
où u représente les termes d’erreur.

1- Quels types de facteurs sont contenus dans u ? Sont-ils corrélés avec le niveau
d’éduction ?
2- Une analyse de régression simple recourra-t-elle à l’effet ceteris paribus de
l’éducation sur la fertilité ? Expliquer. CS50: Introduction to Computer Science

Exercice 2 :
Dans un modèle de régression linéaire simple y = β0 + β1x + u , supposons que

E (u ) ≠ 0 . En posant α0 = E (u ) , montrer que le modèle peut toujours être réécrit

avec la même pente, mais avec de nouvelles constante et erreur, où le nouveau terme
d’erreur a une espérance mathématique nulle.

Exercice 3 :

Le tableau suivant contient les scores ACT et la moyenne des points GPA pour 8
universités. La moyenne des points est basée sur une échelle de quatre-points et a été
arrondie à un chiffre après la virgule.

Etudiant GPA ACT


1 2,8 21
2 3,4 24
3 3,0 26
4 3,5 27
5 3,6 29
6 3,0 25
7 2,7 25
8 3,7 30

1
1- Estimer la relation entre GPA et ACT en utilisant les MCO ; c'est-à-dire, obtenir
l’estimation de la constante et de la pente dans l’équation :
GPA = βˆ0 + βˆ1ACT
Commenter la direction de la relation. Est-ce que la constante a une bonne
interprétation ici ? Expliquez. Quel est le niveau de prédiction de GPA si la variable
ACT augmente de 5 points ?
2- Calculer les valeurs prédites et les résidus pour chaque observation et vérifier que
la somme des résidus est (approximativement) égale à zéro.
3- Quelle est la valeur prédite de GPA quand ACT = 20 ?
4- Quel niveau de variation de GPA pour cet échantillon de 8 étudiants est expliqué
par ACT ? Expliquez.

Exercice 4 :

La base de données CEOSAL2.RAW contient les informations sur les PDGs des
sociétés américaines. La variable salary est la rémunération annuelle, en milliers de
dollars, et ceoten est le nombre d’années passées au poste de PDGs de société.
1- Déterminer le salaire moyen et la durée moyenne passée au poste de PDGs dans
l’échantillon.
2- Combien de PDGs sont dans leurs premières années au poste de PDG de société
(c'està-dire, ceoten = 0) ? Quelle est la plus longue durée au poste de PDG ?
3- Estimer le modèle de régression simple
log (salary ) = β0 + β1coeten + u
et reporter les résultats sous la forme standard. Quelle est approximativement
l’augmentation prédite en pourcentage des salaires suite à une année supplémentaire
au poste de PDG.

2
TD N°2 du cours d’Introduction à l’Econométrie
Chapitre 3 : Modèle de Régression Multiple : Estimation

Exercice 1 :

Lesquels des points suivants peuvent entrainer le biais des estimateurs MCO.
1- Hétéroskedascticité.
2- Omission d’une variable importante.
3- Une simple corrélation de coefficient à 95% entre deux variables indépendantes
incluses dans le modèle.

Exercice 2 :

En utilisant les données HPRICE1.RAW pour estimer le modèle suivant :

price = β0 + β1sqrft + β2bdrms + u

où price est le prix domestique mesuré en milliers de dollar, sqrft la taille en pieds au
carré, bdrms le nombre de chambre et u les termes d’erreur.

1- Ecrire les résultats sous forme d'équation.


2- Quelle est la hausse estimée des prix pour une maison avec une chambre
supplémentaire en maintenant constante la taille en pieds au carré.
3- Quelle est la hausse des prix d’une maison comportant une chambre
supplémentaire de 140 pieds au carré en taille ? Comparer le résultat avec celui de la
question 2-).
4- Quel pourcentage de la variation du prix est expliqué par la taille en pieds au carré
et le nombre de chambre ?
5- La première maison dans l'échantillon a sqrft = 2,438 et bdrms = 4. Trouver le
prix de vente prédit pour cette maison à partir de la droite de régression des MCO.
6- Le prix de vente réel de la première maison de l'échantillon était de 300 000 $
(donc price = 300). Trouver le résidu pour cette maison. Est-ce que cela suggère que
l'acheteur paye moins ou trop pour la maison ?

Exercice 3:

On veut estimer, par la méthode des moindres carrés ordinaires (MCO), le modèle
yi = β0 + β1x i + ui . Pour cela, on utilise des données du tableau suivant :

3
xi 2 3 0 -1 1
yi 2 5 -2 2 3

a) Calculer β̂0 et β̂1 .


b) Réécrire le modèle sous la forme matricielle : y = X β + u où y, X et u sont à
préciser. Déduire du tableau des données la matrice X et le vecteur y. Calculer la

( )
−1
matrice X ′X ainsi que la matrice X ′X . Calculer également X ′y .
c) Déterminer le vecteur β̂ des paramètres estimés. Comparer ce résultat avec ceux
obtenus à la question a).
d) Donner l’équation du modèle estimé, puis calculer toutes les valeurs estimées de la
variable expliquée. En déduire, les différentes valeurs des résidus estimés.
e) Calculer la somme des carrés des résidus estimés (SCR) ainsi que la somme totale

des carrés (STC). Donner les valeurs des variances estimées de β̂0 et β̂1 .

Exercice 4 :

Considérer les donnés du tableau suivant :

PPCE, y PPDI, x1 Temps, x2


1673 1839 1(=1956)
1688 1844 2
1666 1831 3
1735 1881 4
1749 1883 5
1756 1910 6
1815 1969 7
1867 2016 8
1948 2126 9
2048 2239 10
2128 2336 11
2165 2404 12
2257 2487 13
2316 2535 14
2324 2595 15(=1970)

Dans ce tableau, y représente les dépenses de consommation par tête (PPCE), x2 le


revenu disponible par tête (PPDI) et x2 la variable de la tendance.

1- Estimer à l’aide de la méthode matricielle le modèle de régression multiple suivant:

yt = β0 + β1x 1t + β2x 2t + ut
2- Interpréter β1 .

4
3- Estimer la variance des erreurs et déduire la matrice de variance-covariance des
estimateurs.
4- Calculer la somme des carrés expliqués (SCE) et la somme totale des carrés (STC).
Déduire les coefficients de détermination R2 et R2-ajusté.

5
TD N°3 du cours d’Introduction à l’Econométrie
Chapitre 4 : Modèle de Régression Multiple : Inférence

Exercice 1 :

La variable rdintens représente les dépenses en Recherche et Développement (R&D)


en pourcentage des ventes. Les ventes sont mesurées en millions de dollars. La
variable profmarg est le profit en pourcentage des ventes.

En utilisant les données RDCHEM.RAW pour 32 firmes dans l’industrie chimique,


l’équation suivante est estimée :

rdintens = 0, 472+ 0, 321 log(sales ) + 0, 050 profmarg


(1,369) (0,216) (0,046)
2
n = 32, R = 0, 099

1- Interpréter le coefficient de log(sales). En particulier, si sales augmente de 10%,


quelle est la variation en point de pourcentage estimé de rdintens ? Est-elle
économiquement significatif ?

2- Tester les hypothèses que l’intensité des R&D ne change pas avec sales contre
l’alternative qu’elle augmente avec les ventes. Faire le test aux seuils de 5% et 10%.

Exercice 2 :

Les taux de loyer influencent-ils la population estudiantine dans les universités


urbaines ? Soit la variable rent, la moyenne du loyer mensuel payé en unité de loyer
dans une université urbaine au Etats-Unis. Soit pop la population urbaine totale,
avginc la moyenne du revenu urbain, et pctstu la population estudiantine en
pourcentage de la population totale. Un modèle pour tester la relation est :

log (rent ) = β0 + β1 log(pop ) + β2 log(avginc) + β3 pctstu + u

1- Formuler les hypothèses nulles que la taille de la population estudiantine relative à


la population totale n’a pas ceteris paribus d’effet sur les loyers mensuels. Formuler
l’hypothèse alternative qu’il existe un effet.
2- Quels signes espérés vous pour β1 et β2 ?
3- L’équation estimée en utilisant les données de 1990 de RENTAL.RAW pour 64
universités urbaines est :

6
log (rent ) = 0, 043+ 0, 066 log(pop) + 0, 507 log(avginc) + 0, 0056 pctstu + u
(0,844) (0,039) (0,081) (0,0017)
2
n = 64, R = 0, 458

Qu’est ce qui n’est pas juste dans cette affirmation : ‘‘Une augmentation de 10% dans
la population est associée à une augmentation de 6,6% du loyer’’.

4- Tester les hypothèses de la question 1-) au seuil de 1%.

Exercice 3 :

Utiliser les données de MLB1.RAW pour cet exercice.


1- Utiliser le modèle estimé ci-dessous et laisser tomber la variable rbisyr.

log (salary ) = 11,10+ 0, 0689 years + 0, 0126 gamesyr + 0, 00098 bavg


(0,29) (0,0121) (0,0026) (0,0011)

+ 0, 0144 hrunsyr + 0, 0108 rbisyr


(0,0161) (0,0072)

n = 353; SCR = 183,186; R 2 = 0, 6278

Qu’en est-il de la significativité de hrunsyr ? Qu’en est-il aussi de la taille du


coefficient de hrunsyr.
2- Ajouter les variables runsyr, fldperc, et sbasesyr au modèle de la question 1-).
Lequel des estimateurs de ces variables est individuellement significatif.
3- Dans le modèle estimé à la question 2-), tester la significativité jointe de bavg,
fldperc et sbasesyr.

7
TD N°4 du cours d’Introduction à l’Econométrie
Chapitre 5 : Modèle de Régression Multiple : Propriétés Asymptotiques des MCO

Exercice 1 :

Utiliser les données de WAGE1.RAW pour cet exercice.

1- Estimer l’équation :
wage = β0 + β1educ + β2exper + β3tenure + u
Enregistrer les résidus et représenter un histogramme.
2- Répéter la question 1-), mais avec log(wage) comme la variable dépendante.

3- Pouvez-vous dire que l’hypothèse MLR.6 est peut-être satisfaite pour le modèle en
niveau (niveau-niveau) ou le modèle semi-log (log-niveau) ?

Exercice 2 :

Utiliser les données de GPA2.RAW pour cet exercice.

1- En utilisant les 4137 observations, estimer l'équation

colgpa = β0 + β1hsperc + β2sat + u

et reporter les résultats sous forme standard.


2- Réévaluer l'équation de la partie 1-), en utilisant les 2070 premières observations.
3- Trouver le ratio des erreurs-types sur hsperc à partir des questions 1-) et 2-).
Comparer cela avec se (βˆj ) ≈ c j n.

8
TD N°5 du cours d’Introduction à l’Econométrie
Chapitre 6 : Modèle de Régression Multiple : Autres Problèmes

Exercice 1 :

Les trois équations suivantes sont estimées en utilisant les 1534 observations de la
base de données 401K.RAW :
prate = 80,29+ 5, 44 mrate + 0,269 age − 0, 0013 totemp
(0,78) (0,52) (0,045) (0,00004)
2 2
R = 0,100, R = 0, 098
prate = 97, 32+ 5, 02 mrate + 0, 314 age − 2, 66 log (totemp )
(1,95) (0,51) (0,044) (0,28)
2 2
R = 0,144, R = 0,142
prate = 80, 62+ 5, 34 mrate + 0, 290 age − 0, 00043 totemp + 0, 0000000039 totemp 2
(0,78) (0,52) (0,045) (0,00009) (0,0000000010)
2 2
R = 0,108, R = 0,106

Lequel des trois modèles préférez-vous ? Pourquoi ?

Exercice 3 :

Utilisez les données GPA2.RAW pour cet exercice.

1- Estimer le model
sat = β0 + β1hsize + β2hsize 2 + u

où hsize est la taille de la classe (en centaines), et écrire les résultats sous la forme
standard. Le terme quadratique est-il statistiquement significatif ?
2- En utilisant l’équation estimée de la question 1-), quelle est la taille ‘‘optimale’’
d’un lycée ? Justifiez votre réponse.
3- Cette analyse est-elle représentative de la performance académique de tous les
lycées ? Expliquer.
4- Trouver la valeur estimée de la taille optimale d’un lycée, en utilisant log(sat)
comme variable dépendante. Est-elle trop différente de ce que vous avez obtenu à la
question 2-) ?

9
TD N°6 du cours d’Introduction à l’Econométrie
Chapitre 7 : Modèle de Régression Multiple avec Information Qualitative : Variables
Binaires

Exercice 1 :

En utilisant les données de SLEEP75.RAW, nous obtenons l’équation estimée :

sleep = 3840, 83− 0,163 totwrk − 11, 71 educ − 8, 70 age + 0,128 age 2 + 87, 75 male
(235,11) (0,018) (5,86) (11,21) (0,134) (34,33)
2 2
n = 706; R = 0,123; R = 0,117

La variable sleep représente le temps passé en minutes à dormir la nuit et par


semaine, totwrk est le temps passé en minutes au travail et par semaine, educ et age
sont mesurées en années, et male est une variable muette du sexe.
1- Toutes choses égales par ailleurs, est-il évident que les hommes dorment plus que
les femmes ? Quelle est la force de cette évidence ?
2- Existe-t-il un compromis statistiquement significatif entre travailler et dormir ?
Quelle est la valeur estimée de ce compris ?
3- De quelle autre régression avez-vous besoin pour effectuer le test de nullité des
hypothèses que l’âge n’a pas d’effet sur le sommeil, en maintenant inchangé les autres
facteurs.

Exercice 2 :

Utiliser les données GPA1.RAW pour cet exercice.

colGPA = 1,26+ 0,157 PC + 0, 447 hsGPA + 0, 0087 ACT


(0,33) (0,057) (0,094) (0,0105)
2
n = 141; R = 0, 219

1- Ajouter les variables mothcoll et fathcoll à l’équation estimée ci-dessous et


rapporter les résultats sous la forme habituelle. Quel est l’effet estimé de la possession
d’un PC. La variable PC est-elle statistiquement significatif ?
2- Tester la significativité jointe de mothcoll et fathcoll dans l’équation de la question
1-) et reporter la p-value.
3- Ajouter hsGPA2 au modèle de la question 1-) et décider si cette généralisation est
nécessaire.

10
TD N°7 du cours d’Introduction à l’Econométrie

Chapitre 8 : Modèle de Régression Multiple : Hétroscétasticité

Exercice 1 :

Lesquels des points suivants sont la conséquence de l’hétéroscédasticité ?


(i) Les estimateurs MCO, βˆj , sont inconsistents.
(ii) La statistique F habituelle n’a pas une distribution F.
(iii) Les estimateurs MCO ne sont pas BLUE.

Exercice 2 :

Considérer un modèle linéaire pour expliquer la consommation annuelle de bière.

beer = β0 + β1inc + β2 price + β3educ + β4 female + u


( )
E u inc, price, educ, female = 0
( )
Var u inc, price, educ, female = σ 2inc 2

Ecrire l’équation transformée qui a un terme d’erreur homoscédastique.

Exercice 3 :

Utiliser la base de données VOTE1.RAW pour cet exercice.

1- Estimer un modèle avec VoteA comme variable dépendante et prtystrA, democA,


log(expendA), et log(expendB) comme variables indépendantes. Obtenir les résidus
MCO, uˆi , et régresser ceux-ci sur toutes les variables indépendantes. Expliquer
pourquoi vous obtenez R2 = 0.

2- Maintenant, effectuer le test de Breusch-Pagan pour l’héréroscédasticité. Utiliser la


version de la statistique F et reporter la p-value.

3- Calculer le cas spécial du test de White pour l’héréroscédasticité, utiliser encore la


forme de la statistique F. Quelle est maintenant la force de l’évidence de
l’hétéroscédasticité ?

11
TD N°8 du cours d’Introduction à l’Econométrie
Chapitre 9 : Spécifications et Problèmes de Données

Exercice 1 :

L’équation suivante explique le nombre d’heure hebdomadaire passé à suivre la télé


par un enfant en fonction de son l’âge, de l’éducation de sa maman, de l’éducation de
son papa, et du nombre de ses frères et sœurs.

tvhours ∗ = β0 + β1age + β2age 2 + β3motheduc + β4 fatheduc + β5sibs + u

Nous pensons que tvhours* est mesuré avec erreur dans notre base. Supposons que
tvhours représente le nombre d’heure par semaine passé à suivre la télé.
1- Est-ce que les hypothèses classiques des erreurs dans les variables (CEV) sont
nécessaires dans cette application.
2- Pensez-vous que les hypothèses CEV sont probablement vérifiées ? Expliquer.

Exercice 2 :

Utiliser les données JTRAIN.RAW pour cet exercice.

1- Considérer le modèle de régression simple

log (scrap ) = β0 + β1grant + u

où scrap est le taux de renoncement des firmes et grant est une variable muette
indiquant si une firme reçoit une subvention à l’emploi. Quelles sont les raisons pour
lesquelles les facteurs inobservables dans u peuvent être corrélés avec grant ?
2- Estimer le modèle de régression en utilisant les données de 1998. (Vous aurez 54
observations). Est-ce-que recevoir une subvention de formation d’emploi réduit
significativement le taux de renoncement des firmes ?
3- Maintenant, ajouter une variable explicative log(scrap87). Comment cela change
l’effet estimé de grant ? Interpréter le coefficient de grant. Est-il statistiquement
significatif au seuil de 5% contre l’alternative H1: βgrant <0 ?
4- Tester l’hypothèse nulle que le paramètre de log(scrap87) est égale à un contre les
deux alternatives. Reporter la p-value du test.
5- Reprendre les questions 3-) et 4-), en utilisant l’héréoscédasticité-robust de l’écart
type des erreurs, et discuter brièvement toutes les différences notables.

12
TD N°9 du cours d’Introduction à l’Econométrie
Chapitre 10 : Les Séries Temporelles

Exercice 1 :

Soit gGDPt la variation en pourcentage du PIB et intt le taux d’intérêt de court


terme. Supposer que gGDPt est liée au taux d’intérêt par :

gGDPt = α0 + δ0intt + δ1intt −1 + ut

où ut est non corrélé avec intt, intt−1, et toutes les autres valeurs des taux d’intérêt.
Supposer que la Fédérale Reserve suite la règle de politique :

intt = γ 0 + γ1 (gGDPt −1 − 3) + νt

où γ1 > 0. Quand la dernière année de croissance du PIB est au-dessus de 3%, la Fed
augmente les taux d’intérêt pour prévenir une ‘‘surchauffe’’ de l’économie. Si νt n’est
pas corrélé avec toutes les valeurs passées de intt et ut, argumenter que intt doit être
corrélée avec ut−1. [Indication : Retarder la première équation d’une période et
substituer gGDPt−1 dans la seconde équation]. Quelle hypothèse de Gauss Markov cela
viole ?

Exercice 2 :

Utiliser la base de données CONSUMP.RAW pour cet exercice.

1- Estimer un modèle de régression simple reliant la croissance de consommation (de


bien non-durable et de services) par tête à la croissance du revenu disponible par
tête. Utiliser la variation des logarithmes dans les deux cas. Signaler les résultats sous
la forme habituelle. Interpréter l'équation et discuter de la significativité statistique.
2- Ajouter un décalage à la croissance du revenu réel disponible par tête de l’équation
de la partie 1-). Que concluez-vous sur les décalages d'ajustement dans la croissance
de la consommation?
3- Ajouter le taux d'intérêt réel à l'équation de la partie 1-). Est-ce que cela affecte la
croissance de consommation ?

13
Exercice 3:

Utiliser les données de BARIUM.RAW pour cet exercice.

1- Ajouter une tendance temporelle linéaire à l'équation suivante :

log (chnimp ) = −17, 80+ 3,12 log (chempi ) + 0,196 log(gas )


(21,05) (0,48) (0,907)
+ 0, 983 log (rtwex ) + 0, 060 befile6 − 0, 032affile6 − 0, 566 afdec6
(0,400) (0,261) (0,286)
2 2
n = 131; R = 0, 305; R = 0, 271

Y a-t-il des variables, autres que la tendance, qui soit statistiquement significative?
2- Dans l'équation estimée à la partie 1-), tester la significativité conjointe des
variables sauf la tendance temporelle. Que concluez-vous?
3- Ajouter des variables mensuelles muettes à cette équation et tester la saisonnalité.
Est-ce que l'inclusion des variables muettes mensuelles change tout autre estimateur
ou son erreur type standard de manière importante ?

14

Vous aimerez peut-être aussi