LSI3 Econometrie Cours

Cours d’Économétrie
A. Zabsonré Econométrie LSI3-2023 - p. 1/135

Description du cours
Ce cours de 48 heures est le deuxième cours d’économétrie enseigné aux

étudiants de la troisième année de Licence de Statistique et d’Informatique. Il
couvre les aspects majeurs des techniques de régression linéaire basées sur
des modèles dont la variable dépendante est quantitative. Il traite également
des problèmes associés à une régression inappropriée. L’objectif de ce cours
est de fournir aux étudiants des méthodes économétriques pour traiter les
problèmes basés sur des estimations économétriques. Les méthodes seront
illustrées par des exemples et des estimations seront faites avec le logiciel
STATA.

Chapitre 1: Estimateurs des MCO, rappel
■ 1: MCO: Rappel
■ 2: Types de données
■ 3: Exercises

MCO: Rappel
■ Considérons un modèle relatif à la population dans lequel la variable
dépendante y est reliée à la variable indépendante x de la manière suivante:
y = β0 + β1 x + u, E(u|x) = 0, V (u|x) = σ 2 , (1)
et où β0 and β1 sont les paramètres de la population appelés respectivement

intercept et pente, et u est le terme d’erreur (ou la perturbation).
■ Nous voulons estimer β0 et β1 . Ainsi, nous utilisons des données sur y et x
pour estimer ces paramètres. Supposons que nous ayons un échantillon
aléatoire de taille n, (xi , yi ), i = 1, 2, . . . , n. Nous avons donc:
yi = β0 + β1 xi + ui , E(ui |xi ) = 0, V (ui |xi ) = σ 2 , i = 1, 2, . . . , n. (2)
■ Par la méthode des moments et aussi par MCO, on montre que:

P
n P
n
(xi − x̄) (yi − ȳ) (xi − x̄) yi
βˆ1 = i=1
P
n = i=1
Pn (3)
(xi − x̄)2 (xi − x̄)2
i=1 i=1

MCO: Rappel, suite
et
βˆ0 = ȳ − βˆ1 x̄. (4)
■ En effet, dans la population, nous obtenons que E(u|x) = 0. Si E(u|x) = 0,
ainsi E(u) = 0 et u est non corrélé avec x. Ce qui signifie que cov (u, x) = 0.
■ Étant donné que cov (u, x) = E (ux) − E (u) × E (x), alors
cov (u, x) = E (ux). Par conséquent,
E (y − β0 − β1 x) = 0 (5)
et
E[x (y − β0 − β1 x)] = 0. (6)
■ Supposons que nous ayons un échantillon des données. Ainsi βˆ0 et βˆ1
doivent résoudre les équations 5 et 6 sous leurs formes échantillonnales.
C’est-à-dire,
1 X
n
yi − βˆ0 − βˆ1 xi = 0 (7)
n i=1

MCO: Rappel, suite
et
1X
n
xi yi − βˆ0 − βˆ1 xi = 0 (8)
n i=1
■ Les relations (7) et (8) peuvent être réécrites respectivement par
ȳ = βˆ0 + βˆ1 x̄ =⇒ βˆ0 = ȳ − βˆ1 x̄ (9)
et
n
X h i
xi yi − (ȳ − βˆ1 x̄) − βˆ1 xi = 0, (10)
i=1
qui conduit à
n
X n
X
xi (yi − ȳ) = βˆ1 xi (xi − x̄) . (11)
i=1 i=1

MCO: Rappel, suite
■ C’est-à-dire,
P
n P
n
xi (yi − ȳ) (xi − x̄) (yi − ȳ)
βˆ1 = i=1
Pn = i=1
P
n (12)
2
xi (xi − x̄) (xi − x̄)
i=1 i=1
P
n
pourvu que (xi − x̄)2 6= 0.
i=1
■ βˆ0 et βˆ1 sont respectivement les estimateurs de β0 et β1 obtenus par la
méthode des moments.
■ Nous définisons la valeur estimée (ou ajustée) de y quand x = xi par
yî = βˆ0 + βˆ1 xi . (13)
■ Le résidu pour l’observation i est la différence entre la valeur réelle yi et sa

valeur estimée. C’est-à-dire:
ûi = yi − yî = yi − βˆ0 − βˆ1 xi . (14)

MCO: Rappel, suite
■ Définition: Nous appelons somme des carrés des résidus (SSR) ou “sum of
squared residuals”, la quantité notée par SSR, avec
n
X n
X 2
SSR = û2i = yi − βˆ0 − βˆ1 xi . (15)
i=1 i=1
■ Remarque: βˆ0 et βˆ1 sont les estimateurs qui minimisent SSR. Les équations
(7) et (8) sont alors appelées les conditions de premier ordre des estimés
des MCO.
■ Nous définissons aussi la sommes des carrés expliqués (SSE) ou “explained
sum of squares” et la somme totale des carrés (SST) ou “total sum of
squares” respectivement par
n
X 2
SSE = (yî − ȳ) (16)
i=1
Xn
et SST =
2
(yi − ȳ) . (17)
i=1

MCO: Rappel, suite
■ Remarquez que
SST = SSE + SSR. (18)
■ Définition: Goodness-of-Fit. En régression MCO, il y a un moyen de mesurer
comment la variable explicative, x, explique la variable dépendante, y: Ce
moyen est appelé R2 de la régression. Il est aussi appelé le coefficient de
détermination. Il est défini par
R2 ≡ SSE/SST = 1 − SSR/SST. (19)
■ Interprétation de R: Supposons que nous ayons des cités avec beaucoup de

zones d’entreprises (x) et le niveau d’investissement en business (y) en
Afrique. L’équation estimée donne le résultat suivant:
ŷ = 26.8 + 0.5x, R2 = 0.85. (20)

MCO: Rappel, suite
■ Ainsi, les zones d’entreprises expliquent 85% de la variation dans le niveau
d’investissement en business. Notez qu’une faible valeur de R2 ne signifie
pas nécessairement qu’une équation de régression MCO est inutile. Il est
fréquent de voir de faibles R2 dans les équations de régression obtenues
dans le cadre de l’analyse des données en coupe tranversale.
■ Interprétation de la pente: βˆ1 . Supposons que nous ayons la régression
suivante:
ŷ = 482 + 26x. (21)
où y est le salaire des dirigeants de l’entreprise (en FCFA) et x les ventes de
l’entreprise (en FCFA). Dans les études empiriques, le logarithme naturel
apparaît souvent dans les régressions. Nous résumons différentes
combinations ci-dessous.

MCO: Rappel, suite
■ Suite des interprétations.
(a) Si les ventes de l’entreprise augmentent de 1 FCFA, le salaire des
dirigeants augmente de 26CFA.
(b) Si x = log(sales) et y reste inchangée, alors une augmentation de 1%
dans les ventes de l’entreprise accroît le salaire des dirigeants de
0.26CFA.
(c) Si y = log(salary) et x reste inchangée, alors une augmentation de 1
FCFA dans les ventes de l’entreprise accroît le salaire des dirigeants de
2600%.
(d) Si y = log(salary) et x = log(sales), alors une augmentation de 1% dans
les ventes de l’entreprise accroît le salaire des dirigeants de 26%. Dans ce
cas, βˆ1 est l’élasticité estimée du salaire par rapport aux ventes.
■ Pour plus de détails relatifs à l’interprétation de la pente, lisez (W, p.44).

MCO: Rappel, suite
■ Notez que sous les hypothèses suivantes utilisées dans ce chapitre, à savoir:
1. Le modèle de la population est y = β0 + β1 x + u;
2. nous utilisons un échantillon aléatoire de n observations,

(xi , yi ), i = 1, . . . , n, tiré de la population;
3. E(u|x) = 0;
4. et V (u|x) = σ 2 (homoscédasticité);
■ les estimateurs βˆ0 et βˆ1 sont les meilleurs estimateurs linéaires sans biais
(best linear unbiased estimators - BLUE) de β0 et β1 respectivement. Ceci
est connu sous le théorème de Gauss-Markov.
■ Rappelons que βˆ0 et βˆ1 sont les estimateurs non biaisés si

E βˆ0 = β0 and E βˆ1 = β1 . (22)

Types de données
■ Dans le monde des affaires et de l’économie, il y a 4 types de données qui
sont principalement rencontrées dans les travaux appliqués: les coupes
transversales, les coupes transversales empilées, les séries chronologiques
et les données de panel.
■ Un ensemble de données en coupe transversale se compose d’un
échantillon d’individus, de ménages, d’entreprises, de villes, de provinces, de
pays, etc., observés à un moment donné dans le temps.
■ Notez que parfois, toutes les unités n’ont pas été interrogées à la même
période. Par exemple, plusieurs ménages peuvent être interrogés au cours
des différentes semaines dans une même année. Mais nous ignorons ces
différences temporelles mineures dans la collecte des données.
■ Si un ensemble de ménages a été observé au cours des différentes
semaines de la même année, disons 2014, nous considérerions cela comme
un ensemble de données en coupe transversale de 2014.

Coupes transversales
■ Le tableau suivant présente un exemple de données transversales sur 526
travailleurs. Les variables comprennent le salaire en $ par heure (wage), le
nombre d’années d’études (educ), le nombre d’années d’expérience (exper ),
le genre (female), et l’état civil (married ).

Coupes transversales, suite
Table 1: Données en coupe transversale sur les salaires et caractéristiques

individuelles

Coupes transversales empilées, suite
■ Coupes transversales empilées: Ce sont des données où il y a au moins
deux coupes transversales pour différentes périodes. Par exemple,
supposons que deux enquêtes auprès des ménages sont réalisées au
Burkina, l’une en 1994 et l’autre 1998.
■ En 1994, un échantillon aléatoire de ménages a été interviewé par rapport
aux variables telles que le revenu, l’épargne, la taille de la famille, et ainsi de
suite. En 1998, un nouvel échantillon aléatoire de ménages est utilisé pour
les mêmes questions de l’enquête. Pour augmenter la taille de notre
échantillon, nous pouvons empiler les échantillons des deux ans.
■ Le tableau suivant donne un exemple de données empilées. Les
observations 1 à 250 correspondent aux maisons vendues en 1993 aux
Etats-Unis, et les observations 251 à 520 correspondent aux 270 maisons
vendues en 1995 aux Etats-Unis.

Coupes transversales empilées, suite
Table 2: Coupes transversales empilées pour deux ans

Séries chronologiques
■ Les séries chronologiques ou séries temporelles constituent un ensemble
d’observations sur une variable ou plusieurs variables dans le temps.
■ Une caractéristique principale des séries chronologiques est que les
observations ne peuvent pas être considérées comme indépendantes. Par
exemple, considérons le PIB du Burkina de 1970 à 2010. Cela constitue une
série chronologique.
■ Une autre caractéristique des séries chronologiques qui doit attirer l’attention
est la fréquence avec laquelle les données sont collectées. Dans le monde
des affaires et de l’économie, les fréquences les plus courantes sont soit
quotidiennes, hebdomadaires, mensuelles, trimestrielles, et annuelles.
■ Dans les séries chronologiques, la saisonnalité est un facteur important dans
l’analyse.

Séries chronologiques, suite
■ Le tableau suivant contient un ensemble de données en série chronologique.
La variable avgmin fait référence au salaire minimum moyen pour l’année en
question, avgcov est le taux de couverture moyen (le pourcentage de
travailleurs couverts par la loi sur le salaire minimum), prunemp est le taux de
chômage, et prgnp est le produit national brut, en millions de dollars de 1954.

Séries chronologiques, suite
Table 3: Salaire minimum, chômage et autres données pour un pays

Données de panel
■ On appelle données de panel (ou des données longitudinales), un ensemble
de données composées à la fois d’une série chronologique et d’une coupe
transversale.
■ La principale caractéristique des données de panel qui les distingue des
données en coupes tranversales empilées est que les mêmes individus (ou
entreprises ou pays) sont suivis à chaque période.
■ Comme les données de panel requièrent d’observer les mêmes individus
pendant deux ou plusieurs années, les données de panel, en particulier
celles sur les individus, les ménages et les entreprises, sont plus difficiles à
obtenir que les coupes transversales regroupées.
■ Le tableau suivant présente des données de panel sur les crimes commis
dans 150 villes aux Etats-Unis pendant deux années.

Données de panel, suite
Table 4: Exemple de données de panel sur deux ans

Exercice I
■ Essayer de traiter l’exercice C1 du chapitre 1 à la page 17 du livre de
Wooldridge. En particuler, répondez aux questions (i), (ii) et (v).
■ Pour ceux qui veulent répondre aux questions (iii) et (iv), vous pouvez
utiliser les informations suivantes: CPI1976 = 56.9 et CPI2010 = 218. L’année
de référence de ces indices est 1982. Notez que CPI est l’abréviation de
consumer price index (indice des prix à la consommation, en abrégé, IPC).
■ De manière générale, pour convertir un montant X exprimé en francs CFA
nominal d’une année a, en un montant exprimé en francs CFA réel d’une
année b, il faut multiplier X par le rapport IP Cb sur IP Ca .

Remarque
■ Comment interpréter les IPCs? Par exemple, au Burkina, l’IPC2010 = 100
(année de référence), l’IPC2003 = 82 et l’IPC2013 = 107. Ce qui veut dire que
le coût de la vie en 2003 était 82% de celui de 2010 et que le coût de la vie en
2013 était de 7% plus élevé que celui de 2010.
■ Un autre exemple: Aux USA, l’IPC1982 = 100 (année de référence),
l’IPC1970 = 38.8 et l’IPC2002 = 179.9. Ce qui veut dire que le coût de la vie en
1970 était 38.8% de celui de 1982 et que le coût de la vie en 2002 était de
79.9% plus élevé que celui de 1982. Ainsi, les prix étaient 179.9/38.8 = 4.64
fois plus élévés en 2002 qu’en 1970.

Exercices II
■ Considérez les exercices suivants du chapitre 2 du manuel de référence
(page 60): 1, 3, C2 and C4. Notez que pour les exercices 3, C2 and C4, vous
aurez besoin de faire les régressions en utilisant Stata. Les données de ces
exercices vous seront fournies en classe.
■ Considérez la régression suivante:
y = β1 x + u. (23)
Utilisez la méthode des MCO pour trouver l’estimateur de β1 . Pour cela, vous
avez seulement besoin de minimiser
n
X 2
(yi − β1 xi ) (24)
i=1
par rapport à β1 .

Chapitre 2: Modèle de RLM
■ 1: Hypothèses et estimations
■ 2: Théorème de Frisch-Waugh-Lovell
■ 3: Interprétation des coefficients de régression
■ 4: R-carré et R-carré ajusté
■ 5: Tests de significativité (individuelle, globale), test de Chow
■ 6: Différentes méthodes d’estimation (MCO, méthode des moments,
maximum de vraisemblance)
■ 7: Régression multiple (RM) avec des variables binaires
■ 8: Exercices

Motivation
■ Jusqu’à maintenant, nous nous sommes intéressés à un modèle de
régression simple, c’est-à-dire un modèle avec une seule variable explicative.
■ Dans ce chapitre, nous allons étendre le modèle de régression en
permettant à y d’avoir plus d’une variable explicative. C’est le modèle de
régression linéaire multiple.
■ Contrairement aux modèles de régression linéaire simple, les modèles de
régression linéaire multiple sont plus flexibles car ils incluent plusieurs
variables explicatives, et de ce fait, permettent de contrôler à la fois de
nombreux facteurs qui affecteraient la variable dépendante. Ce qui est
souvent observé dans les cas réels.

Hypothèses
■ Supposons que le modèle de régression linéaire multiple de la population est
donnée par:
y = β0 + β1 x1 + β2 x2 + . . . + βk xk + u, (25)
où x1 , x2 , . . . , xk sont les variables explicatives, β0 est l’intercept, β1 est le
paramètre associé à x1 , β2 le paramètre associé à x2 et ainsi de suite. On
suppose également que k ≥ 2.
■ Remarquez que le modèle est linéaire parce qu’il est linéaire dans les
paramètres.
■ Soient les hypothèses suivantes:
■ Nous disposons d’un échantillon aléatoire de taille n de la population,
(xi1 , . . . , xik , yi ) , i = 1, 2, . . . , n.
■ Espérance conditionnelle nulle et homoscédasticité:
E (ui |xi1 , xi2 , . . . , xik ) = 0 et V (ui |xi1 , xi2 , . . . , xik ) = σ 2 ∀i = 1, . . . , n.
(26)

Hypothèses, suite
■ Les hypothèses du modèle de régression linéaire multiple sont donc les
mêmes que celles du modèle de régression linéaire simple. Cependant, il
faut ajouter une autre hypothèse très importante dans le cas de la régression
linéaire multiple: Aucune variable explicative n’est une fonction linéaire
exacte des autres variables explicatives.
■ Si cette hypothèse n’est pas vérifiée, il y a colinéarité parfaite et les MCO ne
marchent pas.

Estimations
■ On a déjà calculé les estimateurs des MCO dans le cadre d’une seule
variable explicative. Les estimateurs des MCO dans le cadre de la
régression linéaire multiple s’obtiennent de la même façon en minimisant la
somme des carrés des résidus.
■ Ce qui revient à choisir βˆ0 , βˆ1 , βˆ2 , . . . , βˆk tels qu’ils minimisent
Xn 2
yi − βˆ0 − βˆ1 xi1 − . . . − βˆk xik . (27)
i=1
■ Ce qui conduit à résoudre le système

n
P
yi − βˆ0 − βˆ1 xi1 − . . . − βˆk xik = 0
i=1
P
n
xi1 yi − βˆ0 − βˆ1 xi1 − . . . − βˆk xik = 0
i=1 (28)
..
.
P n
xik yi − βˆ0 − βˆ1 xi1 − . . . − βˆk xik = 0.
i=1

Estimations, suite
■ On montre que dans le cas de deux variables explicatives, on a:
βˆ0 = ȳ − βˆ1 x¯1 − βˆ2 x¯2 (29)

et
P
n P
n
(xi1 −x¯1 )(yi −ȳ) (xi2 −x¯2 )
βˆ1 = i=1
P
n P
n
i=1
(xi1 −x¯1 )2 (xi2 −x¯2 )2

i=1 i=1
P
n P
n P
n (30)
(xi2 −x¯2 )(yi −ȳ) (xi1 −x¯1 ) (xi2 −x¯2 )
− i=1
n
P
i=1 i=1
2
(xi1 −x¯1 )(xi2 −x¯2 )
i=1
■ L’expression de βˆ2 est encore plus complexe.

Estimations, suite
■ Comme on peut le déviner, les formules deviennent rapidement beaucoup
plus compliquées lorsqu’on a plus d’une variable explicative. C’est la raison
pour laquelle il est fréquent de voir l’utilisation des matrices dans les
estimations économétriques. En effet, soit les notations suivantes:
yi = β0 + β1 xi1 + β2 xi2 + . . . + βk xik + ui = x′i β + ui , (31)
où
x′i = (1, xi1 , xi2 , . . . , xik ) i = 1, 2, . . . , n (32)
et  
β0
 
β1 
β= 
 ..  (33)
.
βk

Estimations, suite
■ D’où le modèle de régression linéaire multiple
yi = β0 + β1 xi1 + β2 xi2 + . . . + βk xik + ui = x′i β + ui , i = 1, 2, . . . , n (34)
peut être réécrit sous la forme matricielle par
y = Xβ + u (35)
où
       
y1 1 x11 ... x1k β0 u1
       
 y2  1 x21 ... x2k  β1   u2 
y= 
 ..  X=
 .. .. .. .. 
 β= 
 ..  u= 
 ..  (36)
. . . . .  .  . 
yn 1 xn1 . . . xnk βk un

Estimations, suite
■ Remarquez que le système donné par les équations (28) peut se réécrire
par:
Pn
ûi = 0
i=1
Pn
ûi xi1 = 0
i=1 (37)
..
.
P n
ûi xik = 0.
i=1
où ûi = yi − x′i β̂ est le résidu pour l’observation i.

■ D’où en notation matricielle, on a
X ′ û = 0
X ′ y − X β̂ = 0 (38)
X ′ y − X ′ X β̂ = 0

Estimations, suite
■ On obtient alors que
X ′ y = X ′ X β̂ (39)
−1
■ Si (X ′ X) existe, nous pouvons pré-multiplier l’équation précédente par
−1
(X ′ X) . D’où
−1 −1
(X ′ X) X ′ y = (X ′ X) (X ′ X) β̂. (40)
■ Par conséquent,
−1
β̂ = (X ′ X) X ′ y. (41)
−1
■ Remarquez que (X ′ X) existe ssi rang (X ′ X) = k + 1 ou (det (X ′ X) 6= 0).
Ceci est la seule condition pour pouvoir calculer les MCO.
■ On vérifie facilement que:

−1
E β̂|X = β et V β̂|X = σ 2 (X ′ X) . (42)
■ Démonstration: en exercice.

Estimations, suite
■ En effet, on réécrit β̂ sous la forme
−1
β̂ = (X ′ X) X ′ y
−1
= (X ′ X) X ′ (Xβ + u)
−1 −1 (43)
= (X ′ X) (X ′ X) β + (X ′ X) X ′ u
−1
β̂ = β + (X ′ X) X ′ u.
D’où
h i
−1 −1
E β̂|X = E β|X + (X ′ X) X ′ u|X = β + (X ′ X) X ′ E(u|X) = β. (44)
| {z }
=0

■ Ce qui veut dire que E β̂|X = β. Par la Loi des Espérances Itérées, on a:

E β̂ = E [E (β|X)] = E (β) = β. (45)
Donc β̂ est un estimateur sans biais de β. L’estimateur des MCO est

non-biaisé.

Estimations, suite
■ Définition: Le biais de β̂, un estimateur de β, est défini comme la différence
entre son espérance mathématique et la vraie valeur du paramètre:

Biais = E β̂ − β. (46)
■ Cas de la variance:
h i h i
−1 −1
V β̂|X = V β|X + (X ′ X) X ′ u|X = V (X ′ X) X ′ u|X . (47)
Or V (Ay + b) = AV (y)A′ pour toute matrice A d’ordre k × n et b un vecteur

colonne n × 1 où n, k ≥ 1 et y un vecteur colonne n × 1. D’où
h i h i′
−1 −1
V β̂|X = (X ′ X) X ′ V (u|X) (X ′ X) X ′
| {z }
h i h2 In
=σ i
−1 −1
= σ 2 (X ′ X) X ′ X (X ′ X) (48)
−1 −1
= σ 2 (X ′ X) (X ′ X) (X ′ X)
V β̂|X = σ 2 (X ′ X)−1 .

Estimations, suite
■ Si toutes les hypothèses sont vérifiées, le théorème de Gauss-Markov
s’applique et les estimateurs des MCO sont BLUE.
■ Nous énumérons ci-après quelques propriétés découlant des MCO.
■ La somme des résidus est nulle (si le modèle contient une constante).
■ La covariance échantillonnale entre les résidus et chaque variable explicative
est nulle. Dans le jargon économétrique, on dit souvent que les résidus sont
orthogonaux aux régresseurs.

Théorème de Frisch-Waugh-Lovell
■ Le théorème de Frisch-Waugh-Lovell (FWL) donne tout simplement une
façon assez simple d’estimer une partie des coefficients du vecteur de
paramètres β. Ce sont souvent les coefficients qui intéressent l’analyste.
■ En effet, soit le modèle suivant:
y = Xβ + u = X1 β1 + X2 β2 + u (49)
où
′
X = [X1 X2 ] et β = (β1′ , β2′ ) . (50)
■ On s’intéresse seulement à β2 .

Théorème de FWL, suite
■ Selon ce théorème, β2 dans la régression (49) peut être obtenu en trois
étapes:
1. On fait une régression de X2 sur X1 et on obtient les résidus M1 X2 , où
−1
M1 = I − X1 (X1′ X1 ) X1′ . (51)
2. On fait une régression de y sur X1 et on obtient les résidus M1 y.
3. On considère alors la régression de y ∗ = M1 y sur X2∗ = M1 X2 :

y ∗ = X2∗ α2 + e. (52)
■ Alors:
β̂2 = α̂2 et û = ê. (53)

Exercice
■ Soit la régression linéaire suivante:
yi = β0 + β1 xi1 + β2 xi2 + ui , i = 1, 2, . . . , n (54)
■ Alors, l’estimateur des MCO de β̂1 peut être obtenu, soit en faisant
directement la régression multiple en (54), soit en considérant la procédure
de FWL. Trouvez l’estimateur des MCO de β̂1 par cette procédure.

Interprétation des coefficients
■ Considérons encore notre régression de départ:
yi = β0 + β1 xi1 + β2 xi2 + . . . + βk xik + ui , i = 1, 2, . . . , n. (55)
■ A l’aide d’un logiciel économétrique, on peut estimer les paramètres

β0 , β1 , . . . , βk . Nous nous intéressons ici à l’enterprétation des β̂i obtenus
après l’estimation.
■ Remarquez que βˆ1 , βˆ2 , . . . , βˆk ont des interprétations relatives à un effet
partiel. En effet, nous obtenons que
∆ŷ = βˆ1 ∆x1 + βˆ2 ∆x2 + . . . + βˆk ∆xk . (56)
■ Ainsi, pour chaque xj fixé, j = 1, . . . , k et j 6= m, on a que
∆ŷ = β̂m ∆xm . (57)
Par conséquent, nous obtenons le changement prédit dans y étant donné le

changement dans xm , ceteris paribus.

Interprétation des coefficients, suite
■ En d’autres mots, le coefficient de xm mesure le changement dans ŷ dû à
l’augmentation d’une unité de xm , étant donné toutes les autres variables
explicatives fixées.
■ Exemple: Considérons la régression suivante donnée dans le manuel du
cours (exemple 3.2 p.76).
\ = 0.284 + 0.092 educ + 0.0041 exper + 0.022 tenure,
log(wage) (58)
où educ est “le nombre d’années d’éducation”, exper est “le nombre d’années
d’expérience”, et tenure est “le nombre d’années de travail avec l’employeur
actuel”.
■ Comment interpréter les coefficients dans (58). Par exemple, le coefficient
0.092 signifie qu’une année supplémentaire d’études entraine une
augmentation de log(wage) de 0.092, ou bien de 9.2% du salaire, lorsque
exper et tenure sont fixés.

Les coefficients d’ajustement R2 et Ra2
■ Le coefficient d’ajustement R2 donne la variabilité de la variable dépendante
qui est expliquée par les variables explicatives prises ensemble. Comme
dans le cas à une seule variable explicative, on a 0 ≤ R2 ≤ 1.
■ L’ajout d’une variable explicative supplémentaire dans le modèle ne peut pas
conduire à une baisse de R2 . Le pire qui peut se produire est que R2 ne
change pas.
■ L’ajout d’une variable supplémentaire dans le modèle, même si elle
n’explique pas vraiment la variable dépendante, fait augmenter le R2 .
■ Comme le R2 n’est pas vraiment un bon indicateur lorsqu’on ajoute plusieurs
variables explicatives au modèle, une mesure alternative est le Ra2 , encore
2
noté R .
■ En général, Ra2 < R2 . De plus, Ra2 peut être négatif et dans cette situation en
pratique, il est remplacé par un zéro.

Les coefficients R2 et Ra2 , suite
■ Enfin, Ra2 est un bon indicateur pour faire le choix entre plusieurs modèles
comparativement au R2 .
■ Notez que R2 est aussi appelé le coefficient de détermination. Rappelons les
expressions mathématiques de R2 et Ra2 . Par définition,
2 SSE SSR
R = =1− (59)
SST SST
et
SSR/(n − k − 1) n−1
Ra2 =1− =1− 1−R 2
. (60)
SST /(n − 1) n−k−1
■ D’après son expresssion, Ra2 pourrait ne pas augmenter suite à l’ajout d’une
variable explicative. Ceci se vérifie de façon simple.

Tests d’hypothèses: Inférence
■ Pour mener des tests d’hypothèses dans le modèle de régression linéaire,
nous sommes tenus d’ajouter une autre hypothèse dans le modèle de
régression linéaire, à savoir, la normalité des erreurs.
■ On suppose donc que
2

ui |X ∼ N 0, σ . (61)
■ En général, on estime les modèles de régression linéaire multiple avec un
logiciel économétrique. Une fois le modèle estimé, on est capable de tester
la significativité des paramètres estimés. On peut mener le test sur un seul
coefficient, sur une partie des coefficients, sur tous les coefficients ou sur
une combinaison des coefficients.
■ Dans le cas d’un test sur un seul coefficient, on parle de significativité
individuelle. La statistique t (de Student) est souvent utilisée pour mener ce
genre de test.
■ Dans les autres cas, on parle de significativité globale. La statistique F (de
Fisher) est souvent utilisée pour ce type de test.

Significativité individuelle
■ Une fois le modèle estimé avec un logiciel, on peut obtenir les t-statistiques
des coefficients estimés. Elles sont données par les logiciels par
βbj
tβbj = , j = 0, 1, 2, . . . , k. (62)
bβbj
σ
■ Les t-statistiques données par les logiciels sont utilisées pour tester la
significativité des paramètres.
■ Remarque: En réalité, la vraie formule des t-statistiques est la suivante:
βbj − βj
tβbj = , j = 0, 1, 2, . . . , k. (63)
bβbj
σ
■ Mais lorsque nous voulons tester la significativité des paramètres, cela

voudra dire que nous comparons les coefficients estimés à la valeur 0. Donc
dans ce cas, on pose βj = 0 et on obtient les t-statistiques données par:
βbj
tβbj = , j = 0, 1, 2, . . . , k. (64)
bβbj
σ

Significativité individuelle, suite
■ Cela revient à tester les hypothèses suivantes:
H0 : βj = 0 vs
(65)
H1 : βj 6= 0.
■ Pour effectuer le test, on compare les t-statistiques à la valeur critique tcrit .
Si tcrit < tβbj alors le paramètre βj est statistiquement significatif. Dans ce
cas, on dit qu’on rejette l’hypothèse nulle H0 . De même si la p-value est
inférieure au niveau de significativité α, on dit que le paramètre βj est
statistiquement significatif et dans ce cas on rejette l’hypothèse H0 .
■ On peut également tester les hyptothèses suivantes:
H0 : βj = a vs
(66)
H1 : βj > a.
■ Après l’estimation, on peut également déterminer les intervalles de
confiance. Ils sont donnés par
h i
ICj = βbj − σ
bβbj ∗ tcrit ; βbj + σ
bβbj ∗ tcrit . (67)

Significativité individuelle, suite
■ Il existe également d’autres tests de significativié individuelle: test d’égalité
de deux paramètres. Considérons les hypothèses suivantes:
H0 : β1 = β2 vs
(68)
H1 : β1 6= β2 .
■ Ces hypothèses peuvent être réécrites de la manière suivante:
H0 : β1 − β2 = 0 vs
(69)
H1 : β1 − β2 6= 0.
■ Dans ce cas, on définit la statistique t par:
βb1 − βb2
t= . (70)
bβb1 −βb2
σ
■ Pour trouver t, il faut calculer σ(βb1 −βb2 ) . En exercice, calculez cette quantité.
Une fois t calculée, on compare sa valeur absolue à un un niveau critique.
On rejette H0 si |t| > tcrit .

Significativité globale
■ Pour définir ce test, considérons l’exemple suivant:
■ Soit la performance d’un élève basée sur un test standardisé noté score. On
suppose que ce score dépend de deux groupes de variables: un premier
groupe composé des caractéristiques des écoles (taille moyenne des
classes, frais de scolarité, compensation moyenne aux enseignants et
nombre total des inscrits) et un second groupe composé de facteurs
spécifiques pour chaque élève (revenu familial, éducation des parents et
nombre des frères et soeurs).
■ Le modèle est donné par
score = β0 + β1 classize + β2 expend + β3 tchcomp + β4 enroll

(71)
+β5 f aminc + β6 motheduc + β7 f atheduc + β8 siblings + u.

Significativité globale, suite
■ Question: Formuler l’hypothèse nulle que les variables spécifiques à chaque
élève n’ont aucun effet sur le score de l’élève une fois que les
caractéristiques scolaires ont été contrôlées. Pour répondre à cette question,
nous testons l’hypothèse:
H0 : β5 = β6 = β7 = β8 = 0 (72)
■ Ainsi, nous avons 4 restrictions (ou contraintes) imposées sur ce modèle.

Notons par q le nombre de restrictions. Désignons par SSRr la somme des
carrés des résidus du modèle restreint et SSRnr la somme des carrés des
résidus du modèle non restreint (modèle initial ou modèle sans contraintes).
■ Formellement, la statistique F est définie par le ratio
(SSRr − SSRnr )/q
F ≡ , (73)
SSRnr /(n − k − 1)
■ Remarquez que la statistique F est toujours positive, car SSRr est plus
élevé que SSRnr . De ce fait, si vous trouvez F négative, c’est qu’il y a une
erreur dans vos calculs.

■ Notez que la statistique F peut se réécrire sous la forme
2 2

Rnr − Rr /q
F ≡ 2
, du fait que (74)
(1 − Rnr ) /(n − k − 1)

SSRr = SST 1 − Rr2 et que (75)
2

SSRnr = SST 1 − Rnr . (76)
■ Cette écriture s’appelle la forme R2 de la statistique F .

■ Sous H0 , F suit une distribution de Fisher de degrés de liberté (q, n − k − 1).
Nous pouvons l’écrire comme
F ∼ Fq,n−k−1 . (77)
■ On rejette H0 si F > Fcrit lue sur une table de Fisher.

■ Soit le modèle suivant:
y = β0 + β1 x1 + β2 x2 + . . . + βk xk + u, (78)
■ Considérons le cas où aucune variable explicative n’a d’effet sur y. Ce qui

veut dire que toutes les variables explicatives x1 , x2 , . . . , xk dans leur
ensemble n’aident pas à expliquer y. Dans ce cas, l’hypothèse nulle H0
devient:
H0 : β1 = β2 = . . . = βk = 0 (79)
et l’hypothèse alternative H1 s’écrira:
H1 : au moins un des βj est différent de 0. (80)
■ Si on impose H0 au modèle, le modèle restreint sera

y = β0 + u. (81)

■ Toutes les variables explicatives ont donc été supprimées du modèle. Par
conséquent, le R2 du modèle restreint (81) est 0. La formule de la statistique
de Fisher devient alors:
2
Rnr /k
F = 2 ) /(n − k − 1)
. (82)
(1 − Rnr
■ Sous H0 , F suit une distribution de Fisher de degrés de liberté (k, n − k − 1).
■ Remarque: Le test d’égalité de deux coefficients peut se réécrire sous la
forme de test de Fisher en définissant correctement un modèle contraint et
un modèle non contraint. Traitez la question en exercice.

Test de Chow
■ Parfois on n’est pas sûr si un modèle donné peut s’appliquer sur deux bases
de données différentes.
■ Le test de Chow est un exemple de test de Fisher qui permet de déterminer
si deux groupes d’individus suivent la même régression, c’est-à-dire, si les
coefficients estimés des modèles des deux groupes sont à peu près
identiques.
■ Pour cela, on postule les hypothèses suivantes:
H0 : yi = x′i β + ui pour i = 1, . . . , n (83)
et H1
yi = x′i β1 + ui pour i = 1, . . . , n1
(84)
yi = x′i β2 + ui pour i = n + 1, . . . , n
où n = n1 + n2 .

Test de Chow, suite
■ On veut tester si β1 = β2 . On peut démontrer que la statistique F de ce test
est donnée par:
(SSRr − SSR1 − SSR2 ) /k
F = , (85)
(SSR1 + SSR2 ) /(n − 2k)
où k est le nombre de paramètres à estimer du modèle (83) et SSR1 et
SSR2 sont les SSR des modèles (84).
■ On montre que sous H0 , F ∼ Fk,n−2k .

RM avec variable binaire
■ Jusqu’à maintenant, nous avons interprété les pentes βj du modèle de
régression linéaire comme si toutes les variables explicatives étaient
continues. C’est-à-dire,
∂E (yi ) ∂ ŷi
βj = j = 1, . . . , k ou bien β̂j = j = 1, . . . , k. (86)
∂xji ∂xji
■ Mais il y a des cas où certaines variables explicatives peuvent être discrètes,
en particulier, les variables binaires. Exemple, soit le modèle simple suivant:
wage = β0 + β1 f emale + u, (87)
où (
f emale = 0 si l’individu est un homme
(88)
f emale = 1 si l’individu est une femme.

RM avec variable binaire, suite
■ Supposons que le modèle est une régression multiple, par exemple
wage = β0 + β1 f emale + β2 educ + u. (89)
■ Alors,
β1 = E (wage|f emale = 1, educ) − E (wage|f emale = 0, educ) . (90)
■ D’où β1 est la différence entre le salaire moyen d’une femme et celui d’un
homme pour le même niveau d’éducation.
■ Selon la spécification (89), le rendement de l’éducation est supposé être le
même pour les hommes que pour les femmes.
■ Mais, il est possible de différencier le rendement de l’éducation des hommes
de celui des femmes. Pour cela, on introduit une nouvelle variable qui est en
fait la variable educ multipliée par la variable f emale:
wage = β0 + β1 f emale + β2 educ + β3 f emale × educ + u. (91)

■ Dans ce cas, la variable f emale × educ est appelée terme d’interaction.
■ Pour voir comment l’introduction de la variable d’interaction agit sur le
modèle, calculons l’effet partiel de la variable educ sur le salaire. On a:
∂E(wage)
= β2 + β3 f emale (92)
∂educ
(
β2 + β3 si l’individu est une femme
= (93)
β2 si l’individu est un homme.
■ On remarque alors que dans le modèle (91), le rendement de l’éducation
dépend du sexe. Pour les hommes, le rendement de l’éducation est de β2 et
pour les femmes il est de (β2 + β3 ). Donc, β3 représente la différence dans la
pente entre les hommes et les femmes.
■ Dans le modèle (91), β1 mesure la différence entre le salaire moyen des
femmes et celui des hommes lorsque educ = 0.

■ En somme, on notera que les variables binaires permettent à l’intercept de
changer à travers les groupes. Les variables d’interaction permettent à la
pente de changer à travers les groupes.
■ Le modèle (91) est un exemple de modèle où l’intercept et les pentes
changent à travers les groupes.
■ Remarque: L’hypothèse selon laquelle le coefficient β2 est le même pour les
hommes et les femmes, revient à tester H0 : β3 = 0.
■ Nous pouvons également tester l’hypothèse que le salaire moyen est le
même pour les hommes et les femmes qui ont le même niveau d’éducation.
Ceci revient à tester les hypothèses β1 = 0, β3 = 0.
■ S’il y a discrimination contre les femmes, l’hypothèse H0 : β1 = 0 sera
automatiquement rejeté contre l’hypothèse H1 : β1 < 0.

■ Exemple: Dans le modèle suivant:
\ = 0.389 − 0.227 f emale + 0.082 educ − 0.0056 f emale × educ + . . .
ln(wage)
(0.119) (0.168) (0.008) (0.0131)
n = 526, R2 = 0.441,
(94)
quel est le rendement de l’éducation pour les hommes? Quel est le
rendement de l’éducation pour les femmes? Y’a-t-il discrimination entre les
hommes et les femmes?

RM avec variable catégorielle
■ Exemple: Considérons un modèle qui relie le salaire d’un individu à celui du
niveau d’éducation de ses parents.


 1 si aucun (groupe 1)

 2 si primaire (groupe 2)
Educparents = (95)

 3 si secondaire (groupe 3)


4 si universitaire (groupe 4)
■ Chaque individu doit être dans une et une seule catégorie. On choisit un
groupe de référence, par exemple le groupe 4. Supposons que le salaire de
l’individu dépend seulement de son niveau d’éducation de ses parents qui
est une variable polytomique ou multinomiale.
Salairei = β0 + β1 educ1i + β2 educ2i + β3 educ3i + ui (96)
■ A cause de la constante du modèle, nous avons exclu le groupe Educ4 . On

pourrait exclure une autre catégorie. Il faut juste faire attention à
l’interprétation des coefficients de la régression qui sont affectés par la
catégorie omise.

RM avec variable catégorielle, suite
■ Dans notre modèle ci-dessus, on a les interprétations suivantes :
E(Salaire/Educ1 = 1) = β0 + β1
(97)
E(Salaire/Educ4 = 1) = β0 .
■ On remarque qu’en prenant la différence entre les espérances
conditionnelles par rapport à la catégorie exclue, on obtient:
E(Salaire/Educ1 = 1) − E(Salaire/Educ4 = 1) = β1
E(Salaire/Educ2 = 1) − E(Salaire/Educ4 = 1) = β2 (98)
E(Salaire/Educ3 = 1) − E(Salaire/Educ4 = 1) = β3 .
■ Ainsi, β1 mesure la différence dans les salaires moyens entre les individus
n’ayant aucun niveau d’éducation et ceux ayant un niveau universitaire. β2
mesure la différence dans les salaires moyens entre ceux du primaire et
ceux de l’université. De même, β3 mesure la différence dans les salaires
moyens entre secondaires et universitaires.
Les méthodes d’estimation
■ En économétrie, il existe différentes méthodes d’estimation des paramètres:
les MCO, la méthode des moments et le maximum de vraisemblance.
■ Nous avons déjà utilisé dans ce chapitre les deux premières méthodes. La
dernière méthode requiert souvent de spécifier la loi des erreurs. Elle est
beaucoup plus utilisée dans l’économétrie des variables qualitatives.
■ Pour plus de détails sur la méthode du maximum de vraisemblance, revoir le
cours d’économétrie des variables qualitatives.
■ Notez que toutes ces trois méthodes aboutissent au même résultat pour
l’estimation des paramètres du modèle de régression linéaire.

Exercices
■ Faîtes les exercices donnés en classe pendant le cours.
■ Traitez également les exercices des examens précédents donnés en classe.

Chapitre 3: Violation des hypothèses
■ 1: Inclusion d’une variable non pertinente

■ 2: Omission d’une variable pertinente
■ 3: Erreurs de mesure
■ 4: Hétéroscédasticité
■ 5: Variable instrumentale
■ 6: Exercices

Inclusion d’une variable non pertinente
■ Il est possible d’inclure trop de variables lorsqu’on spécifie un modèle de
régression. On peut parfois inclure des variables qui n’ont aucun rapport
avec le modèle.
■ Par exemple, supposons qu’on spécifie le modèle de régression suivant:
yi = β0 + β1 x1i + β2 x2i + ui (99)
■ Mais le vrai modèle est :

yi = β0 + β1 x1i + εi (100)
■ Dans notre spécification, nous avons inclus une variable supplémentaire

alors que cela n’est pas correct.
■ Notre régression donnera les paramètres estimés suivants: β̂0∗ , β̂1∗ , β̂2∗ .

Variable non pertinente, suite
■ Question: Ces estimés indiquent-ils réellement les changements dans y qui
résulteraient d’un changement d’une unité dans x1 ?
■ En d’autres termes, ces estimés sont-ils sans biais ?
■ Les estimés obtenus du modèle mal spécifié sont-ils néanmoins efficaces?
Autrement dit, les estimés ont-ils chacun la plus petite variance?

Variable non pertinente, exemple
■ Supposons que le prix de l’or à une année donnée explique la croissance
économique pour cette même année au Burkina Faso:
Growtht = β0 + β1 GoldPricet + εt (101)
■ Dans cette équation, β1 nous donne le changement dans la croissance

économique résultant du changement d’une unité dans le prix de l’or.
■ Supposons qu’une variable non pertinente comme la quantité de pluie
tombée en Côte d’Ivoire est incluse dans le modèle.
■ Peut-on considérer cette mauvaise spécification et interpréter les coefficients
en toute confiance?

■ Il y a inclusion de variables non pertinentes lorsqu’une ou plusieurs variables
explicatives sont incluses dans le modèle, même si ces variables n’ont aucun
effet ou n’expliquent pas la variable dépendante.
■ Les estimateurs des moindres carrés ordinaires provenant du modèle
contenant des variables non pertinentes seront toujours sans biais.
■ En effet, considérons le modèle suivant:
y = β0 + β1 x1 + β2 x2 + β3 x3 + u. (102)
■ Avec ce modèle, on suppose que x3 n’a aucun effet sur y après que x1 et x2
ont été contrôlées. Cela signifie que β3 = 0. En termes d’espérance
conditionnelle, on a:
E (y|x1 , x2 , x3 ) = E (y|x1 , x2 ) = β0 + β1 x1 + β2 x2 . (103)
■ Malgré que x3 n’a aucun effet sur y, nous estimons quand-même le modèle:
ŷ = β̂0 + β̂1 x1 + β̂2 x2 + β̂3 x3 . (104)

■ Nous estimons aussi le vrai modèle:
ỹ = β̃0 + β̃1 x1 + β̃2 x2 . (105)

■ On vérifie facilement que E β̂j = βj , j = 1, 2, 3 et E β̃m = βm , m = 1, 2.
Donc les estimateurs des MCO sont sans biais.
■ Par contre, l’inclusion de variables non pertinentes
affectent
négativement la
variance des estimateurs. On montre que V β̂j > V β̃j , j = 1, 2. Ce qui
veut dire que les estimateurs des MCO ne sont plus efficaces.
■ Par le théorème de Gauss-Markov, β̃j est BLUE et non β̂j .

■ Exemple: Considérez l’exercice 10 du chap.3 du manuel du cours.

Omission de variables pertinentes
■ L’omission d’une variable pertinente dans un modèle de régression linéaire
entraîne généralement des estimateurs des MCO biasés. Supposons que le
bon modèle a deux variables explicatives:
y = β0 + β1 x1 + β2 x2 + u (106)
où y est le logarithme du salaire, x1 l’éducation et x2 est l’habileté (aptitude).

■ Nous sommes intéressés par l’effet partiel de x1 sur y. Au lieu d’estimer
(106), nous avons estimé le modèle:
y = β0 + β1 x1 + u, (107)
et ceci, par ignorance ou par manque de données.

■ En utilisant le modèle (107), nous obtenons que
P
n
(x1i − x̄1 ) yi
β̃1 = i=1
Pn . (108)
2
(x1i − x̄1 )
i=1

Omission de variables, suite
■ Vu que le vrai modèle est le modèle (106), nous écrivons yi comme
yi = β0 + β1 x1i + β2 x2i + ui i = 1, . . . , n. (109)
■ De ce fait,
P
n P
n
(x1i − x̄1 ) yi = (x1i − x̄1 ) (β0 + β1 x1i + β2 x2i + ui )
i=1 i=1 (110)
P
n
2 P
n P
n
= β1 (x1i − x̄1 ) + β2 (x1i − x̄1 ) x2i + (x1i − x̄1 ) ui .
i=1 i=1 i=1
■ Ainsi,
P
n P
n
(x1i − x̄1 ) x2i (x1i − x̄1 ) ui
β˜1 = β1 + β2 i=1
P
n + i=1
Pn (111)
(x1i − x̄1 )2 (x1i − x̄1 )2
i=1 i=1
■ En prenant l’espérance conditionnelle de cet estimateur, nous obtenons que

P
n
(x1i − x̄1 ) x2i
E β˜1 |x1 , x2 = β1 + β2 i=1
P
n . (112)
2
(x1i − x̄1 )
i=1
■ Remarquez que le ratio
P
n
(x1i − x̄1 ) x2i
i=1
(113)
P
n
2
(x1i − x̄1 )
i=1
est simplement le coefficient de la pente provenant de la régression de x2

sur x1 . Notons la régression estimée par
x̃2 = δ̃0 + δ̃1 x1 . (114)
■ Conséquemment, nous obtenons que

E β˜1 |x1 , x2 = β1 + β2 δ̃1 . (115)

■ En utilisant directement l’espérance inconditionnelle, nous obtenons la
relation:
E β˜1 = β1 + β2 δ̃1 . (116)
■ Le biais de la variable omise est

E β̃1 − β1 = β2 δ̃1 . (117)
■ Il y a deux cas où β̃1 est non biaisé: Premièrement, si β2 = 0, alors x2

n’apparaît pas dans le vrai modèle, et donc β̃1 est non biaisé. Deuxièment, si
δ̃1 = 0, quel que soit la valeur de β2 , β̃1 est non biaisé. Étant donné que
δ̃1 = 0 est la covariance échantillonnale entre x1 et x2 divisé par la variance
échantillonnale de x1 , δ̃1 = 0 si et seulement si, x1 et x2 sont non corrélées
dans l’échantillon.
■ De ce fait, si x1 et x2 sont non corrélées dans l’échantillon, alors β̃1 est non
biaisé.

■ Pour conclure, nous pouvons résumer le sens du biais dans δ̃1 quand x2 est
omise dans la régression (106) de la façon suivante:
Corr(x1 , x2 ) > 0 Corr(x1 , x2 ) < 0

β2 > 0 Biais positif Biais négatif
β2 < 0 Biais négatif Biais positif

■ Terminologie associée aux estimateurs biaisés: Si E β̃1 > β1 , alors nous

disons que β̃1 est biaisé vers le haut. Lorsque E β̃1 < β1 , β̃1 est biaisé
vers le bas.
■ Exemple: Supposez que le vrai modèle est
wage = β0 + β1 educ + β2 abil + u. (118)

■ Mais votre base de données ne contient pas d’information sur l’aptitude de
l’individu. Dons vous estimer une régression simple:
wage = β0 + β1 educ + u. (119)
■ Vos estimateurs des MCO dans la régression simple seront en moyenne trop
grands.

Erreurs de mesure
■ Parfois les données dont nous disposons ne sont pas assez riches.
■ Cela s’expliquerait soit parce qu’elles ont été mal collectée, ou parce que les
données ne mesure pas vraiment le facteur qui nous intéresse et qu’on veut
inclure dans le modèle.
■ Ces types de problèmes sont des problèmes d’erreur de mesure.
■ La question est de savoir si et comment les estimateurs OLS sont affectés
par les erreurs de mesure.
■ Ce problème est similaire à celui associé au biais dû à l’omission d’une
variable pertinente.
■ Les erreurs de mesure se répertorient en deux groupes: Les erreurs de
mesure dans les variables explicatives et les erreurs de mesure dans la
variable dependante.

Erreurs de mesure, suite
■ Les erreurs de mesure dans les variables explicatives sont problématiques.
■ Les erreurs de mesure dans la variable dépendante peut ne pas être un
problème.
■ Supposons qu’on n’observe pas la vraie valeur de x et de y. Mais les
variables observées sont mesurées avec erreurs.
■ soient x∗i et yi∗ , les vraies valeurs qui ne sont cependant pas observées et xi
et yi les valeurs observées.
■ Le modèle classique d’erreur dans les variables fait les hypothèses
suivantes:
xi = x∗i + ei yi = yi∗ + vi i = 1, . . . , n. (120)
où e et v sont des termes d’erreurs.

■ Ce modèle suppose que les valeurs observées sont égales aux vraies
valeurs plus un terme d’erreur qui capte l’erreur de mesure.
■ Ce modèle fait également les hypothèses que les termes d’erreurs ne sont
pas corrélées avec les vraies valeurs:
cov (x∗ , e) = cov (y ∗ , v) = 0

cov(e, v) = 0 (121)
E(e) = E(v) = 0.
■ Les erreurs de mesure dans les variables explicatives causent un biais dans
les estimateurs des MCO.

■ En effet, soit le modèle suivant:
y = β0 + β1 x∗ + u = β0 + β1 x + (u − β1 e). (122)
■ D’après les hypothèses du modèle classique d’erreur dans les variables, on

a que
cov (x, e) = cov (x∗ + e, e) = cov (x∗ , e) + σe2 = σe2 . (123)
■ D’où
cov (x, u − β1 e) = −β1 cov (x, e) = −β1 σe2 . (124)
■ Ainsi la régression de y sur x produit des estimateurs MCO biaisés et non
convergents.
■ Exercice: Montrez que
plim β̂1 6= β1 . (125)
■ Montrez aussi que les erreurs dans la variable dépendante n’affectent pas en
général les estimateurs des MCO.

Hétéroscédasticité
■ Il y a hétéroscédasticité, lorsque le terme d’erreur n’a pas une variance
constante, c’est-à-dire que la variance du terme d’erreur est fonction des
variables explicatives.
■ Notez que l’hétéroscédasticité ne cause pas de bias dans les estimateurs
MCO, ni n’affectent la convergence des estimateurs.
■ Par contre, s’il y a présence d’hétéroscédasticité, alors les écarts types des
estimateurs MCO ne sont plus valides et ne peuvent être utilisés pour
contruire des intervalles de confiance.
■ De même, les statistiques standards t et F n’ont pas les distributions
habituelles.
■ De plus, en présence d’hétéroscédasticité, les estimateurs des MCO ne sont
plus BLUE. Il existe un autre estimateur non biaisé plus efficace que
l’estimateur des MCO.

Hétéroscédasticité, suite
■ Considérons la régression simple avec une variable explicative.
Formellement, en cas d’hétéroscédasticité, le modèle s’écrit:
yi = β0 + β1 xi + ui
(126)
E (ui |xi ) = 0, V (ui |xi ) = σi2 ≡ σ 2 (xi ) .
■ Dans ce modèle ci-dessus, quel est cet estimateur non biaisé plus efficace
que l’estimateur des MCO? C’est l’estimateur des moindres carrés pondérés.
Comment l’obtient-on?
■ Si on divisait ui par (σi /σ) où σ est une constante, alors on aura un nouveau
terme d’erreur u∗i = σui /σi .
■ Ce terme d’erreur u∗i aura pour variance σ 2 . Montrez-le en exercice.
■ On montre donc que u∗i satisfait les hypothèses classiques du modèle de
régression linéaire. En particulier, il satisfait l’homoscédasticité. Le modèle
(126) devient alors:
σyi /σi = β0 σ/σi + β1 σxi /σi + u∗i . (127)

■ Lorsqu’on applique MCO à ce modèle (127), on obtient des estimateurs de
β0 et β1 BLUE. En exercice, trouvez les estimateurs MCO de ces 2
paramètres.
■ Reconsidérons la régression simple avec hétéroscédasticité:
yi = β0 + β1 xi + ui
(128)
E (ui |xi ) = 0, V (ui |xi ) = σi2 ≡ σ 2 (xi ) .
■ Comment tester l’hétéroscédasticité dans les modèles linéaires?
■ Premièrement, on considère la régression:
y = β0 + β1 x1 + β2 x2 + . . . + βk xk + u, E (u|x1 , x2 , . . . , xk ) = 0. (129)
■ Deuxièment, on pose l’hypothèse nulle de la façon suivante:

H0 : V (u|x1 , x2 , . . . , xk ) = σ 2 . (130)
Ce qui signifie que l’hypothèse nulle est l’hypothèse d’homoscédasticité.

■ Comme u a une espérance conditionnelle nulle, alors
2

V (u|x1 , x2 , . . . , xk ) = E u |x1 , x2 , . . . , xk . (131)
Par conséquent, l’hypothèse nulle d’homoscédasticité est équivalente à

H0 : E u |x1 , x2 , . . . , xk = σ 2 .
2
(132)
■ Troisièment, on suppose que u2 est une fonction linéaire d’une ou de

plusieurs variables explicatives. Ainsi, on écrit la régression suivante:
u2 = δ0 + δ1 x1 + δ2 x2 + . . . + δk xk + v, E (v|x1 , x2 , . . . , xk ) = 0. (133)
■ L’hypothèse nulle d’homoscédasticité est

H0 : δ1 = δ2 = . . . = δk = 0. (134)
■ Comme u n’est pas connu, on remplace u par û. Donc, on estime l’équation:
û2 = δ0 + δ1 x1 + δ2 x2 + . . . + δk xk + e. (135)

Hétéroscédasticité, cont’d
■ Quatrièment, on calcule la statistique F pour la significativité globale de
x1 , . . . , xk . F est donnée par:
Rû2 2 /k
F = 2
. (136)
1 − Rû2 /(n − k − 1)
La statistique F a approximativement une distribution Fk,n−k−1 sous
l’hypothèse nulle d’homoscédasticité.
■ Notez qu’il y a une seconde statistique qui peut être utilisée pour tester
l’hypothèse nulle d’homoscédasticité: la statistique LM . Elle est donnée par:
LM = n · Rû2 2 . (137)
La statistique LM a approximativement une distribution de χ2k sous

l’hypothèse nulle d’homoscédasticité.
■ Le test LM est appelé le test de Breusch-Pagan pour l’héteroscédasticité.

■ Considérons l’exemple 8.4 du manuel du cours. En utilisant les données de
HPRICE1, estimez le modèle:
[ = −21.77 + 0.00207 lotsize + 0.123 sqrf t + 13.85 bdrms
price
(29.48) (0.00064) (0.013) (9.01) (138)
2
n = 88, R = 0.672.
où price est le prix des maisons, lotsize la grandeur de la parcelle, sqrf t

l’unité de mesure et bdrms le nombre de chambres.
■ En examinant cette équation, rien ne renseigne sur l’héteroscédasticité du
terme d’erreur. En régressant û2 sur lotsize, sqrf t et bdrms, nous obtenons
que: Rû2 2 = 0.1601 et F = 5.34. La p-value associée à F est 0.002. Ce qui
signifie que l’hypothèse nulle est rejetée.
■ Si nous modifions l’équation ci-dessus en utilisant le logarithme, nous nous
retrouvons avec moins d’héteroscédasticité.

■ En effet, considérons l’équation:
\ = −1.30 + 0.168 log(lotsize) + 0.700 log(sqrf t) + 0.037 bdrms
log(price)
(0.65) (0.038) (0.093) (0.028)
n = 88, R2 = 0.643.
(139)
■ La statistique F de cette régression est 1.41, avec une p-value de 0.245. Par
conséquent, on ne rejettera pas l’hypothèse d’homoscédasticité dans le
modèle avec le logarithme.
■ Remarque: Le fait d’obtenir moins d’héteroscédasticité avec une variable
dépendante en forme logarithmique a été mentionné dans plusieurs études
empiriques.

Variable instrumentale
■ Les variables instrumentales permettent de résoudre le problème du biais dû
à l’omission d’une variable pertinente et le problème d’erreur dans les
variables explicatives.
■ Nous avons vu dans ce chapitre que dans ces deux situations, les variables
explicatives et le terme d’erreur sont corrélés. Ce qui rend les estimateurs
des MCO biaisés.
■ Supposons le modèle simple suivant:
y = α0 + α1 x + u. (140)
■ Nous pensons que cov(x, u) 6= 0 du fait de l’omission de variable ou d’erreur

de mesure.
■ La méthode d’estimation par la variable instrumentale repose sur le fait qu’il
existe une variable observable z telle que z satisfait les hypothèses
classiques suivantes:

Variable instrumentale, suite
1. z est fortement corrélée avec la variable x, c’est-à-dire

cov(z, x) 6= 0. (141)
2. z n’est pas corrélée avec le terme d’erreur u, c’est-à-dire

cov(z, u) = 0. (142)
3. Alors z est appelée une variable instrumentale.

■ Pour estimer β1 par variable instrumentale, nous exploitons la relation
suivante:
cov(z, y) = cov [z, (α0 + α1 x + u)] = α1 cov(z, x) + cov(z, u). (143)

■ Par hypothèse, cov(z, u) = 0 et cov(z, x) 6= 0.
■ D’où l’équation (143) devient:
cov(z, y)
α1 = . (144)
cov(z, x)
En passant à la forme estimée, on obtient:
P
n
(zi − z̄) yi
i=1
α̂1 = P
n . (145)
(zi − z̄) (xi − x̄)
i=1
■ α̂1 est appelé l’estimateur de la variable instrumentale (VI). Notez que

l’estimateur VI de α0 est simplement α̂0 = ȳ − α̂1 x̄.
■ Il faut noter que les estimateurs VI de α0 et α1 sont des estimateurs
convergents de α0 et α1 respectivement.

■ Remarque: L’hypothèse de cov(z, u) = 0 n’est pas testable, tout comme la
condition d’exogénéité dans les MCO.
■ Par contre, l’hypothèse de cov(z, x) 6= 0 peut être testée. Il suffit pour cela de
régresser x sur z, par exemple,
x = π0 + π1 z + ε, (146)
et de tester la significativité du coefficient π1 .

■ Notez que l’équation (146) est appelée dans le jargon économétrique
équation sous forme réduite.
■ Définition: on appelle équation sous forme réduite, toute équation dans
laquelle la variable explicative endogène est exprimée en fonction de toutes
les autres variables exogènes du modèle, y compris les instruments.

■ Ci-dessus, nous avons introduit la variable instrumentale dans le cas d’un
modèle de régression linéaire simple. Les éléments présentés restent aussi
valable dans le cas d’une régression multiple. En effet, soit l’équation:
log(wage) = β0 + β1 educ + β2 exper + u. (147)
■ On considère que educ est endogène, mais exper est exogène.

■ Notez qu’il est difficile de trouver de bons instruments. Et lorsqu’on en
obtient, il n’y a aucun moyen de prouver que la variable n’est pas corrélée
avec le terme d’erreur de la régression.
■ De plus, la variance associée à l’estimateur à variables instrumentales est
plus grande que celle de l’estimateur des MCO.
■ Donc, on doit dévélopper un estimateur convergent au prix de perdre en
terme de leur précision.
■ Les variables instrumentales fournissent une source de variation dans la
variable explicative qui serait non corrélée avec le terme d’erreur.
■ Notez que certains économistes ne croient pas trop aux variables
instrumentales vu qu’il est assez difficile de trouver de bons instruments.
Néamoins, c’est une méthode courante utilisée dans la littérature pour faire
face au problème d’endogénéité des variables explicatives. C’est-à-dire le
problème pour lequel des variables explicatives sont corrélées avec le terme
d’erreur.

■ Un vocabulaire courant dans les variables instrumentales est la notion
d’exogénéité et d’endogénéité.
■ Soit le modèle de régression linéaire suivant:
y = β0 + β1 x1 + β2 x2 + . . . + βk xk + u, (148)
où x1 , x2 , . . . , xk sont les variables explicatives et E (u|x1 , x2 , . . . , xk ) = 0.

Alors les variables explicatives xj sont dits exogènes.
■ En d’autres termes, les variables exogènes ne sont pas corrélées avec le
terme d’erreur.
■ Si pour une raison donnée, la variable explicative xi est corrélée avec le
terme d’erreur, alors xi est appelée variable explicative endogène.
■ Par définition (ou par construction du modèle), toute variable dépendante ou
expliquée est endogène. Montrez-le par le calcul de cov(y, u).

■ Il y a en gros trois cas pour lesquels une variable explicative peut être
endogène:
1. Omission de variable pertinente. Dans ce cas, la variable omise qui se
retrouve dans le terme d’erreur est généralement une fonction d’une
variable explicative présente dans le modèle. Cette variable explicative
devient donc endogène.
2. Erreur de mesure dans les variables explicatives. Revoir la partie erreur
de mesure traitée précédemment.
3. Cas de simultanéité. Ce cas intervient lorsqu’une ou plusieurs variables
explicatives sont conjointement déterminées avec la variable dépendante.
Ceci est généralement présent dans les systèmes d’équilibre (exemple,
équations liant la quantité et le prix). Nous ne développerons pas ce cas
dans ce cours.

■ Application simple pour l’estimation par la variable instrumentale: Supposons
qu’on dispose des données sur les femmes mariées et salariées. On estime
le modèle simple suivant:
ln(salaire) = β0 + β1 educ + u (149)
et on obtient l’équation
\ = −0.185 + 0.109educ
ln(salaire)
(0.185) (0.014) (150)
n = 428, R2 = 0.118.
■ Dans le modèle (149), educ est une variable endogène. Supposons qu’on
utilise le niveau d’éducation du père pereduc comme instrument pour educ.
On estime d’abord le modèle sous la forme réduite:
d = 10.24 + 0.269pereduc
educ
(0.28) (0.029) (151)
n = 428, R2 = 0.173.

■ Le t-statistique de la variable pereduc est de 9.28. Ce qui montre que le
niveau d’éducation de la femme a une corrélation positive et statistiquement
significative avec le niveau d’éducation du père.
■ En ré-estimant le modèle (149) avec pereduc comme instrument, on obtient:
\ = 0.441 + 0.059educ
ln(salaire)
(0.446) (0.035) (152)
n = 428, R2 = 0.093.
■ Une année d’éducation supplémentaire augmente le salaire de la femme de
6% au lieu de 11% comme dans le cas du MCO. Cela suggère que l’estimé
MCO est trop élevé et correspond au biais de la variable omise (la capacité
ou la compétence, ou l’aptitude).

Doubles moindres carrés, DMCO
■ Cette méthode est équivalente à la variable instrumentale.
■ Supposons le modèle simple suivant :
y = α0 + α1 x1 + α2 x2 + u (153)
■ Dans l’équation (153), x1 est considérée comme une variable endogène.

Supposons qu’on utilise deux variable z1 et z2 comme instruments pour x1 .
■ L’estimation des paramètres par la méthode de la variable instrumentale peut
s’effectuer en deux étapes. Il s’agit de la méthode des doubles moindres
carrés.
■ On estime d’abord la variable endogène sur toutes les variables explicatives
et les intruments. Cela correspond à l’équation:
x1 = π0 + π1 x2 + π2 z1 + π3 z2 + ε (154)

Doubles moindres carrés, suite
■ Notez que l’équation (154) est appelée dans le jargon économétrique
équation sous forme réduite.
■ Ré-estimer l’équation (154) par MCO en utilisant comme variable explicative
celle obtenue dans l’étape prédente :
y = δ0 + δ1 x̂1 + δ2 x2 + u (155)
■ Considérez l’exercice C2 de la page 547 au chapitre 5 du livre de

Wooldridge. On estime d’abord les équations par MCO et ensuite par DMCO.

Test d’endogénéité de Stata
■ Stata fournit plusieurs tests liés à la variable instrumentale. En particulier, les
commandes obtenues après avoir utilisé la commande ivregress (ivregress
postestimation) ou ivreg2 permettent de tester l’endogénéité d’une variable
explicative.
■ La commande estat endogenous permet de faire le test d’endogéneité. Les
autres commandes estat firststage et estat overid donnent respectivement
les statistics de la première étape et le test de sur-identification du modèle
qui permet d’avoir une idée sur la validité des instruments utilisés.

Exercices
■ Considérez les exercices suivants du chapitre 3: 3, 7, 9, C1, C3 et C6.
■ Considérez les exercices suivants du chapitre 4: 2 et 9.
■ Considérez les exercices suivants du chapitre 8: 1, 5 et C14
■ Considérez les exercices suivants du chapitre 9: C8

Chapitre 4: Données de panel
■ 1: Introduction
■ 2: Panel à deux périodes
■ 3: Modèles à effets fixes
■ 4: Modèles à effets aléatoires
■ 5: Données de panel: Cas général
■ 6: Exercices

Introduction
■ Nous avons déjà fait une distinction entre les données de panel et les coupes
transversales empilées. Notez que les coupes transversales empilées sont
obtenues en tirant des échantillons aléatoires d’une population à différents
moments.
■ Par exemple, chaque année, nous pouvons établir un échantillon aléatoire
sur les salaires mensuels, l’éducation, l’expérience, etc., de la population des
travailleurs du Burkina.
■ Les données de panel ont deux dimensions: une dimension transversale et
une dimension temporelle. Cependant, ils diffèrent sur certains aspects des
coupes transversales empilées.
■ Pour obtenir les données de panel, nous devons suivre les mêmes individus,
les ménages, les entreprises, les villes, les états, etc. à travers le temps. Par
exemple, les données de panel sur les salaires individuels, le nombre
d’heures de travail, l’éducation et d’autres facteurs sont collectées en
choisissant un échantillon de personnes à un moment donné.

Introduction, suite
■ Mais ce qui importe, c’est que les mêmes personnes soient réinterrogées
deux ou à plusieurs moments.
■ Remarquez que pour l’analyse économétrique des données de panel, nous
ne pouvons pas supposer que les observations soient distribuées de
manière indépendante dans le temps. Par exemple, les facteurs non
observés (tels que l’aptitude au travail, la compétence) qui affectent le salaire
d’un individu en 2000 affectera également le salaire de cet individu en 2001.
■ Les facteurs non observés qui affectent le taux de criminalité en Afrique du
Sud en 2018 affecteront également le taux de criminalité de ce pays en
2020.
■ Par conséquent, certains modèles particuliers (ou méthodes) ont été
développés pour l’analyse des données de panel.

Introduction, suite
■ Nous nous concentrerons sur deux méthodes pour estimer les modèles des
données de panel à effets non observés qui sont très connues dans la
littérature. Ce sont les modèles à effets fixes et les modèles à effets
aléatoires.
■ Bien que ces modèles soient un peu plus difficiles à décrire et à mettre en
œuvre, plusieurs logiciels économétriques permettent de les estimer. Les
commandes “xt” de Stata, où xt est un acronyme pour “cross-section time
series” sont les commandes utilisées pour l’analyse des données de panel
(avec Stata).

Panel à deux périodes
■ Considérons la base de données CRIME2. Il contient entre autres des
données sur le taux de criminalité (crmrte) et le taux de chômage (unem)
pour 46 villes pour 1982 et 1987. Soit t = 1 pour 1982 et t = 2 pour 1987.
■ Supposons que nous utilisons seulement les données de 1987 pour faire une
régression simple de crmrte sur unem. Nous obtenons le résultat suivant:
\ = 128.38 − 4.16 unem
crmrte
(20.76) (3.42) (156)
2
n = 46, R = 0.033.
■ De la régression ci-dessus, nous pouvons voir qu’une augmentation du taux
de chômage diminue le taux de criminalité. Ceci est surprenant.
■ Le coefficient de unem n’est pas statistiquement significatif à un niveau de
significativité usuelle. Avec ce modèle, il n’y a aucun lien entre le taux de
criminalité et le taux de chômage. Ce qui n’est pas vrai.

Panel à deux périodes, suite
■ Il est vraisemblable que la régression précédente souffre du problème
d’omission de variable pertinente. Une solution possible est d’essayer de
contrôler plus de facteurs, tels que, l’âge, le sexe, l’éducation, la loi en
vigueur, etc., dans une régression multiple.
■ Cependant, il serait difficile de contrôler tous les facteurs.
■ Une autre manière d’utiliser les données de panel est de considérer ces
facteurs non observés qui influencent la variable dépendante comme
subdivisés en deux types: ceux qui sont constants dans le temps et ceux qui
varient dans le temps.
■ Soit i l’indice pour la ville et t l’indice pour l’année. Nous pouvons écrire le
modèle avec une seule variable explicative observée comme:
yit = β0 + δ0 dt + β1 xit + ai + uit , t = 1, 2. (157)
i fait référence à un individu, entreprise, ville, etc., et t désigne la période.

■ La variable dt est une variable binaire (ou dummy) qui est égale à 0 quand
t = 1 et 1 quand t = 2.
■ Remarquez que dt ne change pas suivant i. C’est la raison pour laquelle elle
n’a pas d’indice i. Ainsi, l’intercept pour t = 1 est β0 , et l’intercept pour t = 2
est β0 + δ0 . Permettre à la constante du modèle de varier dans le temps est
important dans la plupart des applications.
■ La variable ai capture tous les facteurs non observés, à savoir, les facteurs
qui ne varient pas dans le temps (time-invariant factors) qui ont un impact sur
yit . Remarquez que ai n’a pas d’indice t. Ce qui signifie que ai ne change
pas à travers le temps.
■ En général, ai est appelé un effet non observé.
■ Il est aussi fréquent de voir que dans les applications, ai fait référence à un
effet fixe. Ce qui aide à se rappeler que ai est fixe dans le temps. En
application, vous devriez voir ai comme une hétérogénéité non observée.

■ L’erreur uit est souvent appelée l’erreur idiosyncratique ou time-varying error
car il représente les facteurs non observés qui changent dans le temps et qui
influencent yit .
■ Un modèle simple d’effets non observés pour le taux de criminalité en ville
pour 1982 et 1987 est:
crmrteit = β0 + δ0 dt + β1 unemit + ai + uit . (158)
■ Comme i désigne la ville, nous appelons ai un effet ville non observé ou un

effet fixe ville. Ce ai représente tous les autres facteurs influençant les taux
de criminalité de la ville qui ne changent pas dans le temps et qui sont
spécifiques à chaque ville.
■ Comment devrions-nous estimer le paramètre d’intérêt β1 , étant donné un
panel à deux périodes? Une possibilité est d’utiliser MCO simplement.
■ Mais dans le but d’obtenir un estimateur convergent de β1 , nous aurons
besoin de supposer que l’effet non observé, ai , n’est pas corrélé avec
unemit .

■ En conséquence, nous réécrivons le modèle (158) comme:
crmrteit = β0 + δ0 dt + β1 unemit + vit . (159)
où vit = ai + uit est souvent appelé l’erreur composite et nous supposons

que vit est non corrélé avec unemit .
■ En utilisant les MCO, nous obtenons que:
\ = 93.42 + 7.94 d + 1.427 unuem
cmrte
(12.74) (7.98) (1.188) (160)
2
n = 92, R = 0.012.
■ Le coefficient de unem est positif mais a une valeur de t très petite. Donc
l’usage des MCO sur deux périodes n’a pas substantiellement changé les
choses par rapport à l’usage d’une seule coupe transversale.
■ Ceci n’est pas surprenant du moment où les MCO, même appliqués à des
données sur deux périodes ne résolvent pas le problème d’omission de
variables pertinentes.

Equation en différence première
■ Dans la plupart des applications, la principale raison de la collecte des
données de panel est de permettre que l’effet non observé ai soit corrélé
avec les variables explicatives. Par exemple, dans le modèle relatif au crime,
nous voulons permettre aux facteurs non observés ai qui affectent le taux de
criminalité d’être aussi corrélés avec le taux de chômage.
■ Ceci est simple à faire. Il suffit d’écrire deux modèles (un pour chaque
année) et de prendre la différence entre les deux:
yi1 = β0 + β1 unemi1 + ai + ui1 (t = 1)

(161)
yi2 = β0 + δ0 + β1 unemi2 + ai + ui2 (t = 2).
■ En soustrayant la seconde équation de la première, nous obtenons que:
(yi2 − yi1 ) = δ0 + β1 (unemi2 − unemi1 ) + (ui2 − ui1 ). (162)

Différence première, suite
■ Nous pouvons réécrire l’équation ci-dessus comme:
∆yi = δ0 + β1 ∆unemi + ∆ui . (163)
où ∆ dénote la variation de t = 1 à t = 2. L’effet inobservé ai disparaît.

■ L’équation (163) est appelée l’équation en différence première et l’estimateur
β1 des MCO qui en résulte est appelé estimateur en différence première.
■ Notez que si nous suspectons que ui et unemi sont corrélées, alors
l’estimateur des MCO serait biaisé. Pour résoudre ce problème, nous aurons
besoin d’inclure plus de facteurs dans l’équation (163).
■ Dans le cas général, unem représente toute variable explicative x qui varie
dans le temps.
■ En plus du modèle en différence première, il y a aussi le modèle à effets fixes
et le modèle à effets aléatoires.

Modèle à effets fixes
■ Considérons que notre modèle en panel est donné par:
yit = ai + β1 xit1 + β2 xit2 + . . . + βk xitk + uit i = 1, 2, . . . , n et t = 1, 2, . . . , T.
(164)
■ Un modèle alternatif meilleur au modèle en différence première et qui
marche sous certaines conditions est le modèle à effets fixes ou
(fixed-effects model, FE).
■ Les paramètres estimés du modèle FE sont identiques à ceux du modèle en
différence première (FD) quand T = 2. Cependant, lorsque T ≥ 3, les
estimateurs de FE et FD ne sont pas les mêmes. Lequel des deux modèles
est le meilleur?
■ Notez que les deux modèles donnent des estimateurs sans biais, et
convergents quand T est fixé et n → ∞. Le choix entre FE et FD dépend de
l’efficacité des estimateurs.

Modèle à effets aléatoires
■ Généralement, il est difficile de choisir entre FE et FD quand les deux
donnent des résultats différents. Cependant, dans la plupart des études
empiriques, FE est la méthode la plus utilisée pour l’estimation avec des
données de panel.
■ La commande Stata pour FE est une option qui peut être choisie à travers la
commande générale “xtreg”.
■ Un autre modèle économétrique utilisé pour estimer l’équation (164) est le
modèle à effets aléatoires (random-effects model, RE).
■ Dans le cas du modèle RE, il est supposé que les effets ai soient purement
aléatoires. C’est une hypothèse très forte qui implique que ai est non corrélé
avec les régresseurs xitj .
■ Attention: Le terme “effets fixes” en parlant des effets ai est trompeur, car
dans les deux models FE et RE, les ai sont aléatoires. Mais la différence
entre les deux models réside dans le fait que cov (ai , xit ) 6= 0 dans FE alors
que cov (ai , xit ) = 0 dans RE.

Effets fixes ou effets aléatoires?
■ L’avantage du modèle RE est qu’il permet d’estimer tous les paramètres et
les effets marginaux, même les paramètres associés aux régresseurs
invariant dans le temps.
■ Par contre, son inconvénient est qu’il produit des estimés non convergents si
le modèle FE est approprié. Le choix entre modèle FE et le modèle RE est
une question pertinente qui retient habituellement l’attention des chercheurs.
■ Comme les effets fixes permettent une corrélation arbitraire entre ai et xitj ,
alors que les effets aléatoires ne le sont pas, FE est largement considéré
comme un outil plus convaincant pour estimer les effets.
■ Cependant, les effets aléatoires sont aussi utilisés, en particulier lorsque les
variables explicatives clées sont constantes dans le temps. Dans ce cas,
nous ne pouvons pas utiliser FE pour estimer leurs effets sur y.
■ Par exemple, considérons le tableau suivant:

FE ou RE?, suite
Table 5: Trois estimateurs différents de l’équation du salaire

FE ou RE? suite
■ Il est fréquent de voir que les chercheurs appliquent les deux méthodes à la
fois dans leurs articles.
■ Mais ils testent ensuite s’il y a une différence statistiquement significative
dans les coefficients des régresseurs variant dans le temps.
■ Dans le tableau ci-dessus, les coefficients concernés sont ceux associés aux
variables exper 2 , married, et union.
■ Hausman (1978) est le premier à avoir proposé un tel test.
■ Des logiciels comme Stata fournissent le test de Hausman sous l’hypothèse
nulle que RE est le modèle préféré à cause de son efficacité plus grande,
contre l’alternative que FE est au moins convergent, et donc, est préféré à
RE.
■ L’idée du test est d’utiliser le modèle RE, à moins que le test de Hausman le
rejette. Pour plus de détails, lire le manuel du cours à la page 496.

FE ou RE? suite
■ Le résultat du test peut être résumé comme suit:
H0 est vraie H1 est vraie

Estimateur RE Convergent - efficace Non convergent
Estimateur FE Convergent - inefficace Convergent

Données de panel: Cas général
■ Lorsqu’on a plusieurs variables explicatives, le modèle de régression linéaire
en panel peut s’écrire de la façon suivante:
yit = β0 +β1 xit1 +β2 xit2 +. . .+βk xitk +uit , i = 1, . . . , n t = 1, . . . , T avec T ≪ n.
(165)
■ Si on veut tenir compte des spécificités individuelles et temporelles dans le
modèle, il suffit d’introduire dans le modèle ces effets spécifiques (souvent
appelés effets fixes). Soient ai l’effet fixe individuel et λt l’effet fixe temporel.
Alors le modèle ci-dessus devient:
k
X
yit = β0 + ai + λt + βj xitj + uit , i = 1, . . . , n et t = 1, . . . , T. (166)
j=1
■ Exemple: Supposons que l’on a un échantillon de pays et supposons que yit

représente la production du pays i à la date t et les variables explicatives
sont les variables de production usuelles (capital, travail, niveau d’étude de la
population, etc.)

Données de panel: Cas général, suite
■ Remarque: D’après ce modèle, à la première date donnée, deux pays ayant
les mêmes caractéristiques observables (i.e., les mêmes variables
explicatives) doivent avoir, à une constante près, le même niveau de
production. En espérance mathématique, on a:
k
X
E (yit /xit1 , xit2 , . . . , xitk ) = β0 + ai + λt + βj xitj . (167)
j=1
■ Ainsi, une différence dans le niveau de production entre ces deux pays si elle
existe est alors liée à des spécificités inobservables, stables dans le temps,
dont l’effet est mesuré par ai .
■ Par exemple, ce coefficient ai peut rendre compte des influences sur la
croissance des différences socio-culturelles ou religieuses. Ces différences
sont difficiles à quantifier mais leurs effets nous intéressent.

Données de panel: Cas général, suite
■ De même, le coefficient λt mesure l’effet sur les variables temporelles de la
production de chaque pays, de l’évolution des variables inobservables
supposées communes à tous les pays, comme par exemple, l’état de la
conjoncture économique au niveau mondial, ou encore de l’évolution des
technologies disponibles. Néanmoins, l’hypothèse selon laquelle l’accès à la
technologie est le même pour tous les pays est une hypothèse très forte.
■ L’un des attraits essentiels des données de pannel réside donc dans la
possibilité qu’elles offrent de mesurer l’effet des grandeurs inobservables sur
la variable que l’on cherche à modéliser, dès lors que ces grandeurs
inobservables sont stables dans le temps ou communes à tous les individus.
■ Remarque: Les modèles que l’on a présentés dans ce chapitre ne sont pas
les seuls modèles des données de panel. Il existe bien d’autres modèles,
mais ce sont des variantes du modèle vu précédemment.

Avantages et inconvénients
■ Les estimations sont basées sur un grand nombre d’observations. Ce qui
donne des estimateurs comportant une plus grande précision.
■ Il existe une grande variabilité dans les observations. Cette variabilité est due
aux caractéristiques individuelles et temporelles non observées.
■ Il y a la possibilié de modéliser les caractéristiques ou spécificités
individuélles et temporelles non observées. Ces caractéristiques sont
souvent appelées hétérogénéité non observée. Par coséquent, les données
de pannel ont une quantité d’information assez élévée.
■ Les inconvénients sont le fait d’avoir des données manquantes et la
possibilité d’avoir assez de données aberrantes.

Exercices
■ Faire les exercices C7 and C9 du chapitre 14 du manuel du cours.
■ Essayez aussi les exercices C2 and C6, page 505.

Chapitre 5: Rédaction du rapport
■ 1: Les différentes étapes de la rédaction

■ 2: Analyse économique ou statistique
■ 3: Rédaction du projet

Étapes de la rédaction
■ Lorsque l’on doit mener un travail de recherche ou que l’on doit aller en
stage, il y a d’emblée une étape obligatoire qu’on ne saurait sauter: La
définition claire et nette de la question à laquelle on souhaite répondre. En
Afrique francophone, on parle souvent de la problématique.
■ Dans quel domaine l’on souhaite faire le stage? Qu’est-ce que l’on souhaite
faire dans le stage ou qu’est-ce que l’on souhaite faire dans le travail de
recherche, et pour quel objectif?
■ On doit être à mesure de pouvoir fournir des réponses à ces questions avant
d’aborder le stage ou le travail de recherche. Si vous n’êtes pas explicite sur
l’objectif de votre stage ou de votre travail de recherche, vous ne saurez pas
où commencer.
■ Une fois que vous décidiez du domaine de recherche ou du stage, il existe
diverses façons de localiser des documents spécifiques sur le sujet.

Étapes de la rédaction, suite
■ Dans le cadre du rapport de recherche, on peut s’aider avec des thèmes
abordés dans la littérature en commençant par chercher sur internet, et en
particulier, dans les sites webs tels que Google Scholar, Social Sciences,
etc.
■ Pendant que vous formuliez votre question, il est utile de discuter de vos
idées avec d’autres personnes qui pourront vous guider davantage. Vous
devriez être en mesure de convaincre les gens que la réponse à votre
question est intéressante et pertinente.
■ Une fois cette étape réalisée, on passe à la revue de la littérature.
■ Les chercheurs diffèrent quant à la façon dont une revue de littérature devrait
être incorporée dans un document. Certains souhaitent avoir une section
distincte appelée “revue de la littérature”, tandis que d’autres aimeraient
inclure la revue de la littérature dans le cadre de l’introduction.
■ Au niveau international, c’est beaucoup plus une question de choix et de
goût.

■ Mais pour le cas du rapport de fin d’études ou du stage, une section à part
entière consacrée à la revue de la littéture est généralement recommandée.
Cette revue de la littérature va implicitement suggérer le cadre théorique
dans lequel sera bâti votre travail, même si ce n’est pas encore l’étape du
cadre théorique.
■ La troisième étape est la collecte des données. Il faut être en mesure
d’identifier le type de données le plus approprié pour répondre à votre
question.
■ Une fois les données en main, il faut les inspecter et les nettoyer, car trop
souvent, il y a des erreurs et des informations aberrantes dans les données.
■ La détection d’erreurs dans les données est nécessaire pour préserver
l’intégrité de toute analyse des données. Il est toujours utile de trouver des
minima, des maxima, des moyennes, des écarts types, etc., de toutes les
variables les plus importantes entrant dans votre analyse.

■ Comme nous l’avons déjà mentionné, après avoir décidé du sujet de
recherche ou du stage, vous devriez collecter un ensemble de données
appropriées. En supposant que cela a été fait, vous devez maintenant
décider des méthodes économiques (ou statistiques) appropriées.
■ La quatrième étape est la la présentation du cadre théorique des modèles
économiques ou statistiques. Votre modèle ou vos modèles seront définis à
cette étape.
■ Toutes les hypothèses du modèle ou des modèles doivent être clairement
établies dès le départ. Ces hypothèses devraient être vraisemblables,
connues de la littérature et devront être vérifiées dans votre étude.
■ Certaines hypothèses pourront être relâchées grâce à des résultats
théoriques donnés par la littérature. Si tel est le cas, le modèle ou les
modèles devront être réécrits avec les hypothèses qui en résultent.

■ Il est possible que l’on revienne à la revue de la littérature pour être capable
d’établir le cadre théorique du modèle ou des modèles et ensuite opter pour
le modèle ou les modèles de son choix qui permettent de répondre à la
question posée au départ.
■ Ce n’est pas n’importe quels modèles qu’il faut utiliser. En vous servant de
ce que vous avez appris au cours de votre formation, en relisant les
documents en économie ou en statistique (ou dans une autre discipline) et
en examinant les travaux antérieurs, vous devriez être capables d’identifier
les modèles appropriés.

Analyse économique ou statistique
■ En utilisant les données que vous avez déjà préparées, vous menez les
estimations qu’il faut. Le type de données utilisé indique déjà les différentes
sortes d’estimations possibles.
■ Dans cette partie d’estimations, on “gongle” un peu avec les variables.
C’est-à-dire que l’on peut inclure des variables dans le modèle et ensuite les
enlever du modèle. On inclut d’autres, on essaie, et ainsi de suite. Tout
dépend des résultats des estimations.
■ Si les estimations conduisent à des contre-vérités, il faut chercher à savoir le
pourquoi. Il faut nécessaire corriger (là où ça ne va pas). En général, on
n’accepte pas d’office les résultats d’estimations qui ne sont pas cohérents
avec la littérature, ou qui contredisent les hypothèses de départ.

Analyse économique ou statistique
■ On doit aussi s’assurer de l’utilisation adéquate des variables. Par exemple,
un variable multinomiale doit être traitée comme telle. Il ne faut pas que
l’introduction de la variable amène le logiciel d’estimation utilisé à la
considérer comme numérique.
■ Dans cette partie, il y a trop de “vas-et-viens”. On revisite le modèle ou les
modèles autant de fois que cela est nécessaire.

Rédaction du rapport
■ L’écriture du rapport reste un défi à relever. Lorsqu’on entame cette partie, il
faut faire très attention au plagiat. Ce dernier est une grande offense à la
littérature. Lorsqu’on veut prendre toute une phrase écrite quelque part dans
un document, on doit absolument prendre le soin de citer la personne et de
mettre la référence du document dans la bibliographie.
■ Il faut faire l’effort de rédiger le rapport avec ces propres mots sans copier
coller. Ailleurs, on fait passer les documents dans un logiciel pour détecter le
plagiat.
■ Il est normal de voir des expressions utilisées par des auteurs reproduites
dans le rapport. Mais cela est valable dans la revue de la littérature.
Cependant, on prend le soin de citer les auteurs. On ne s’approprie pas de
ces expressions.
■ En général, le rapport proprement dit doit commencer par l’introduction. Cela
n’exclut pas les parties que je qualifierai de “formalités” comme la dédicace,
les remerciements, le résumé, la table des matières, etc.

Rédaction du rapport, suite
■ Dans l’introduction, on prend le soin de rappeler les objectifs de base de
l’étude ou du stage. On rappelle également les travaux antérieurs qui ont été
réalisés et comment ces travaux peuvent être améliorés. Vers la fin de
l’introduction, on annonce le plan.
■ Après l’introduction, c’est la revue de la littérature. Suivra le cadre
conceptuel (ou théorique) du modèle ou des modèles qui seront uilisés.
Dans cette section, vous décrivez l’approche général pour répondre à la
question posée.
■ Le point suivant concerne les méthodes économiques ou statistiques et les
méthodes d’estimations. Cette section renferme le plus souvent les
équations avec les hypothèses qui y sont rattachées.

Rédaction du rapport, suite
■ La section suivante est la description des données utilisées dans l’analyse
empirique. Cette description est en général accompagnée d’une analyse
succinte basée sur la statistique descriptive et la définition des variables
entrant dans le modèle ou les modèles.
■ Il s’en suit la présentation des résultats obtenus des estimations. Cette
présentation devra inclure l’interprétation des résultats obtenus ainsi que des
arguments pertinents pour soutenir ces résultats. Ces arguments peuvent
provenir de la réalité vécue ou de l’origine des données (par exemple, les
données proviennent de quel pays? et quelles sont les réalités vécues dans
ce pays?).
■ Enfin, on entame la conclusion où l’on résume le travail qui a été mené. Il est
aussi coutume de voir une ouverture pour des recherches futurs donnée à la
fin de la conclusion.

LSI3 Econometrie Cours

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

LSI3 Econometrie Cours

Transféré par

Droits d'auteur :

Formats disponibles

Cours d’Économétrie

A. Zabsonré Econométrie LSI3-2023 - p. 1/135

Ce cours de 48 heures est le deuxième cours d’économétrie enseigné aux

A. Zabsonré Econométrie LSI3-2023 - p. 2/135

A. Zabsonré Econométrie LSI3-2023 - p. 3/135

et où β0 and β1 sont les paramètres de la population appelés respectivement

yi = β0 + β1 xi + ui , E(ui |xi ) = 0, V (ui |xi ) = σ 2 , i = 1, 2, . . . , n. (2)

■ Par la méthode des moments et aussi par MCO, on montre que:

A. Zabsonré Econométrie LSI3-2023 - p. 4/135

A. Zabsonré Econométrie LSI3-2023 - p. 5/135

ȳ = βˆ0 + βˆ1 x̄ =⇒ βˆ0 = ȳ − βˆ1 x̄ (9)

A. Zabsonré Econométrie LSI3-2023 - p. 6/135

yˆi = βˆ0 + βˆ1 xi . (13)

■ Le résidu pour l’observation i est la différence entre la valeur réelle yi et sa

A. Zabsonré Econométrie LSI3-2023 - p. 7/135

A. Zabsonré Econométrie LSI3-2023 - p. 8/135

■ Interprétation de R: Supposons que nous ayons des cités avec beaucoup de

A. Zabsonré Econométrie LSI3-2023 - p. 9/135

A. Zabsonré Econométrie LSI3-2023 - p. 10/135

A. Zabsonré Econométrie LSI3-2023 - p. 11/135

1. Le modèle de la population est y = β0 + β1 x + u;

2. nous utilisons un échantillon aléatoire de n observations,

A. Zabsonré Econométrie LSI3-2023 - p. 12/135

A. Zabsonré Econométrie LSI3-2023 - p. 13/135

A. Zabsonré Econométrie LSI3-2023 - p. 14/135

Table 1: Données en coupe transversale sur les salaires et caractéristiques

A. Zabsonré Econométrie LSI3-2023 - p. 15/135

A. Zabsonré Econométrie LSI3-2023 - p. 16/135

Table 2: Coupes transversales empilées pour deux ans

A. Zabsonré Econométrie LSI3-2023 - p. 17/135

A. Zabsonré Econométrie LSI3-2023 - p. 18/135

A. Zabsonré Econométrie LSI3-2023 - p. 19/135

Table 3: Salaire minimum, chômage et autres données pour un pays

A. Zabsonré Econométrie LSI3-2023 - p. 20/135

A. Zabsonré Econométrie LSI3-2023 - p. 21/135

Table 4: Exemple de données de panel sur deux ans

A. Zabsonré Econométrie LSI3-2023 - p. 22/135

A. Zabsonré Econométrie LSI3-2023 - p. 23/135

A. Zabsonré Econométrie LSI3-2023 - p. 24/135

A. Zabsonré Econométrie LSI3-2023 - p. 25/135

A. Zabsonré Econométrie LSI3-2023 - p. 26/135

A. Zabsonré Econométrie LSI3-2023 - p. 27/135

A. Zabsonré Econométrie LSI3-2023 - p. 28/135

A. Zabsonré Econométrie LSI3-2023 - p. 29/135

■ Ce qui conduit à résoudre le système

A. Zabsonré Econométrie LSI3-2023 - p. 30/135

βˆ0 = ȳ − βˆ1 x¯1 − βˆ2 x¯2 (29)

(xi1 −x¯1 )2 (xi2 −x¯2 )2

■ L’expression de βˆ2 est encore plus complexe.

A. Zabsonré Econométrie LSI3-2023 - p. 31/135

A. Zabsonré Econométrie LSI3-2023 - p. 32/135

A. Zabsonré Econométrie LSI3-2023 - p. 33/135

où ûi = yi − x′i β̂ est le résidu pour l’observation i.

A. Zabsonré Econométrie LSI3-2023 - p. 34/135

A. Zabsonré Econométrie LSI3-2023 - p. 35/135

Donc β̂ est un estimateur sans biais de β. L’estimateur des MCO est

A. Zabsonré Econométrie LSI3-2023 - p. 36/135

Or V (Ay + b) = AV (y)A′ pour toute matrice A d’ordre k × n et b un vecteur

A. Zabsonré Econométrie LSI3-2023 - p. 37/135

A. Zabsonré Econométrie LSI3-2023 - p. 38/135

A. Zabsonré Econométrie LSI3-2023 - p. 39/135

2. On fait une régression de y sur X1 et on obtient les résidus M1 y.

3. On considère alors la régression de y ∗ = M1 y sur X2∗ = M1 X2 :