Académique Documents
Professionnel Documents
Culture Documents
--------------------------------------------------
FACULTE DES SCIENCES ECONOMIQUES ET DE GESTION
-------------------------------------------------------------
Introduction à l’économétrie
Théories et recueil d’exercices résolus
i
Introduction à l’économétrie
Théories et recueil d’exercices résolus
ii
iii
« Les problèmes que nous avons à résoudre ne peuvent pas l’être aussi longtemps
qu’ils restent au même niveau de langage qui est celui dans lequel ils ont été
posés » (Albert Einstein)
« Je sais pourquoi tant de gens aiment couper du bois. C'est une activité où l'on
voit tout de suite le résultat. » (Albert Einstein)
iv
Plan sommaire
Avant-propos
v
Avant-propos
Plus simple ; plus pratique, plus agréable aux yeux ; mieux adapté- du moins ont voudrait
le croire –aux gouts avec pour objectifs phares hormis ceux précités, d’aider à préparer
les épreuves et de fournir les outils d’analyse nécessaire pour l’analyse économétrique.
Ces outils nécessaires pour mener une étude économique rigoureuse.
vi
Remerciement
Le défi n’était pas moins grand pour moi de réaliser ce recueil d’économétrie qui
certainement va combler un vide et relancer le débat sur la manière de présenter les
travaux pratiques par les collègues assistants dans notre université.
A présent, rendons à César, ce qui est à César ! Je tiens à remercier le Professeur Daniel
KASONGO pour avoir accepté de superviser cette rédaction, au doyen de la FASEG le
professeur Kalaba Bin Sankwe, pour les orientations et Jean-Paul Tsasa pour l’idéal qu’il ne
cesse de me transmettre.
Mes sincères remerciements vont aux Professeurs José Mwania Wa Kosia et Pascal Sem
Mbimbi que j’assiste respectivement au cours d’Econométrie, de Statistique inférentielle,
microéconomie, macroéconomie et de méthodologie de recherche. Leurs concours, par
effet de diffusion et à travers les multiples discussions engagées avec eux, m’ont permis
de voir au-delà de l’horizon. De même, je ne saurai passer sous silence les multiples
discussions engagées avec mes ainés scientifiques, particulièrement aux chefs de travaux :
Jeef Muyembe Sabuloni, Alexandre Nshue Mbo Mokime et Labi Bokechu Mpiana. Et aussi
vifs remerciements aux assistants et chefs de travaux : Claude Kabemba, Patient Mutunda,
Elie Etshiloni, Divine MWIRUKA, Angel Mwanaluma et Olivier Kinama.
Bien entendu, selon la formule consacrée, ce support n’engage que son auteur. Pour toutes
incompréhensions, imperfections ou erreurs éventuelles, Merci de les signaler sur le forum
de la faculté de sciences économiques de l'université de Lubumbashi, à cette adresse :
http://www.forum-fasegunilu.fr (Connexion à partir de http://gide-éco.fr/forum), à défaut
de ne pouvoir me contacter directement...Toute remarque pertinente pouvant en
améliorer le contenu sera la bienvenue.
vii
viii
Chapitre 1 : Qu’est-ce que l’économétrie
Le présent chapitre chapitre porte sur une brève introduction (les généralités) et débute
par la présentation de l’origine en 1, de la définition en 2 et de l’approche méthodologique
de l’analyse économétrique en 3. Ensuite, un accent est mis sur le rôle de l’économétrie
après avoir mis en lumière la typologie des données qui peuvent faire l’objet d’une étude
économétrique.
Le 29 décembre 1930, l’économie va prendre un nouvel essor avec Jan TINBERGEN et Ragnar
FRISCH, Charles ROOS et Irving FISHER. Ragnard FRISCH est à l’origine de la Société d’économétrie.
Le premier colloque se fait en 1931 à Lausanne. A la même époque, Alfred COWLES, conseiller
financier et spécialiste en prévision boursière, rentre en contact avec la Société d’économétrie et p
A la même époque, Alfred COWLES, conseiller financier et spécialiste en prévision boursière, rentre
en contact avec la Société d’économétrie et propose deux projets :
1
R. Frisch, I. Fisher, Hotelling, K. Menger , F. Mills, Ogburn, Ore, Roos, Rorty, J. A. Schumpeter, H. Schultz,
Shewart, Snyder , Wedervang, Wiener, Wilson. 4 Premier lauréat du prix de la Banque de Suède – communément
appelé prix Nobel en mémoire de son fondateur Alfred Nobel – d’économie en 1969 avec Jan Tinbergen.
2
Apparait à ce moment-là les premiers modèles à équations simultanées, du fait de l’apparition dans
les équations de termes « aléatoires » qui reflètent des causes multiples. Le premier modèle macro-
économétrique apparait à son tour et incorpore des principes probabilistes et celui de Lawrence
KLEIN dans les années 1950-1960. Cette époque voit le développement des modèles à retard
échelonné de KOYCK, en 1954. Parallèlement commence à se développer des méthodes de
prévisions à court terme, où l’on retrouve les modèles de BOX et JENKINS. On estime alors des
Processus univariés pour réaliser des prévisions.
Il n’existe pas de définition généralement acceptée par tous à la question qu’est-ce que
l’économétrie (Kennedy P., p.1 1998) 3 . Mais, ce mot économétrie comprend deux parties :
économie et métrie (qui signifie mesure). Littéralement parlant, le mot "économétrie" signifie
"mesure en économie". Cette définition est trop large pour être utile, car la plupart des
considérations économiques concernent la mesure. Nous mesurons notre produit intérieur brut, la
masse monétaire, les exportations, les importations, etc.
Avant de chercher à comprendre «l’objectif de l’économétrie », il faut, tout d’abord, être à même
de comprendre « qu’est-ce que l’économétrie ? » En voici une des réponses :
ECONOMETRIE
ECONOMETRIE
Simplement, l’économétrie peut être définie comme l’application des méthodes statistiques et
mathématiques à l’analyse des données économiques, dans le but de donner un contenu empirique
aux théories économiques et de les vérifier ou de les réfuter. (J Paul Tsasa K, 2011)
3
Cité par KINTAMBU MAFUKU, 2014 p 3
L’économétrie a un triple objectif ou rôle en sciences sociales. D’abord, il apparait comme un outil
de validation de la théorie économique. Ensuite, il apparait comme un outil d’investigation.
L’investigation renvoie à la mise en évidence des relations entre les variables économiques. Enfin,
c’est un outil de prévision.
S’agissant des objectifs assignés à l’économétrie ils sont de trois ordres à savoir :
La première tâche d’un économètre est celle de formuler un modèle économétrique. Qu’est-ce
qu’un modèle ? Il est délicat de fournir une définition unique de la notion de modèle (Bourbonnais,
p.1. 2015). Un modèle est une représentation simplifiée d’un processus du monde réel. Selon
Barbancho4 , un modèle est l’expression mathématique d’une certaine théorie économique. On
parlera de deux types qui sont : (1) Modèle économique et (2) modèle économétrique.
Nous formulons un modèle économique lorsque nous affirmons que la quantité demandée d’un
bien sur un marché où règne la libre concurrence, ceteris paribus, est fonction de son prix ; ce que
nous exprimons par l’équation :
qt = f(pt) (1.1)
Pour illustrer cet exemple très simple, dire que la courbe de la demande est en pente descendante
ne suffit pas. Nous devons écrire la déclaration sous forme mathématique. Cela peut être fait de
plusieurs manières. Par exemple, en définissant Qt comme quantité demandée et Pt comme prix,
on peut écrire mathématiquement, comme suit :
En général, le modèle spécifié par l’économiste est défini comme étant une maquette de la
réalité ou nous pouvons considérer qu’un modèle consiste en une présentation formalisée
4
Cité par KINTAMBU MAFUKU 2014
5
Cité par KINTAMBU MAFUKU 2014
Toujours selon Barbancho, un modèle économétrique n’est autre chose qu’un modèle
économique qui contient les spécifications nécessaires pour son application empirique.
C’est donc le modèle économique auquel on ajoute un terme d’erreur εt.
Une théorie s’exprime au travers d’un certain nombre d’affirmation qu’il convient d’appeler
hypothèses. A titre d’exemple, le modèle keynésien que d’usage classique en macroéconomie,
repose sur deux hypothèses principales :
La consommation et le revenu sont liés ; le niveau d’investissement privé et le taux d’intérêt sont
liés. Les modèles économétriques sont basés généralement sur la théorie économique.
C’est-à-dire formulation d’un modèle économique sous une forme testable empiriquement.
Généralement, il existe plusieurs façons de formuler le modèle économétrique à partir d’un modèle
économique, car nous devons choisir la forme fonctionnelle, la spécification de la structure
stochastique des variables, etc. Cette partie constitue l’aspect spécification du travail
économétrique.
On peut aussi dire qu’il s’agit ici de l’expression mathématique des relations postulées par la théorie. En
effet, à partir des propositions précédentes, nous pouvons construire les relations ci-après :
6
Il convient de noter également que le terme d’erreur ut [bruit, perturbation ou aléa] dénote de la différence entre
l’économiste et l’économètre. Il synthétise l’influence sur Ct [variable expliquée] de toutes les autres variables
oubliées et des erreurs éventuelles de spécification de la forme fonctionnelle dans le modèle spécifié par
l’économiste. De plus, sa présence dans le modèle rend les paramètres α0 et α1 inconnus, on ne sait plus les
calculer, il faut donc les estimer. Par exemple, dire que la quantité demandée d’oranges dépend du prix d’oranges
est une représentation simplifiée, car il existe une foule d’autres variables auxquelles on peut penser qui
déterminent la demande d’oranges. Par exemple, le revenu des consommateurs, une augmentation de la conscience
de l’alimentation (boire de l’alcool provoque le cancer, il est donc préférable de passer au jus d’orange, etc.),
Estimation et test de ces modèles avec les données observées. Cette partie constitue l’aspect inférence
du travail économétrique.
Il s’agit ici d’estimer les paramètres du modèle, puis d’effectuer des tests pour juger la validité sur
le plan statistique. Il convient néanmoins de préciser que l’estimation des paramètres est
conditionnée par la disponibilité des données. On distingue principalement quatre types de
données selon que le modèle est spécifié en :
Comme on peut le constater, les données de panel ont ainsi une double dimension : individuelle
et temporelle.
Cohorte
Très proche des données de Panel, les données de cohorte se distingue de la précédente par la
constance de de l’échantillon. Les individus sondés sont le même d’une période à l’autre. Une
cohorte désigne un groupe d’individu ayant vécu le même évènement au cours de la même période.
Ex1 La cohorte des pays Africains qui ont atteint l’émergence depuis 2010.
Comme les données sous études portent sur un échantillon, il est vivement obligatoire de
passer par le test d’adéquations pour vérifier si cequi est vrai pour l’échantillon et aussi vrai
Référence à une
théorie économique
Spécification : 1. Spécification
Modélisation ou mathématique
formalisation de la théorie 2. Spécification
économique
Exercice 7. Une étude portant sur le PIB des pays du COMESA observés sur les 30 dernières
années utilisera les données d’une (d’un)
a. série temporelle, ou série chronologique
b. série instantanée ou données en coupe transversale,
c. Panel,
d. Cohorte.
La représentation graphique nous donne certes une idée sur l’existence ou non de la corrélation
mais ne nous renseigne pas avec précision sur son intensité. Dans les cas linéaires, l’intensité de la
corrélation entre deux variables quantitatives X et Y est appréhendée par le coefficient de
corrélation noté rxy . Il est donné par le rapport entre la covariance et le produit non nul des écarts
– types des variables en cause x et y.
𝑪𝒐𝒗(𝑿,𝒀)
rxy = (2.1)
𝝈𝒙𝝈𝒚
∑(𝑿−𝑿̅ )(𝒀− 𝒀
̅)
rxy = ̅ )𝟐 √(𝒀− 𝒀
̅ )𝟐
(2.2)
√(𝑿−𝑿
𝑵 ∑ 𝑿𝒀 – ∑ 𝑿 ∑ 𝒀
rxy = (2.3)
√𝑵 ∑ 𝑿𝟐 − (∑ 𝑿)𝟐 √𝑵 ∑ 𝒀𝟐 − (∑ 𝒀)𝟐
(2.1) est formule initiale qui mène a (2.2) la formule du coefficient de corrélation linéaire avec les
variables centrées à leurs moyennes, après développement de (2.2) ça donne (2.3) La formule du
coefficient avec données brutes.
Nota : Par construction on peut montrer que : rxy ∈ [−𝟏 , 𝟏]7 𝒐𝒖 − 𝟏 ≤ 𝒓𝒙𝒚 ≤ +1.
Lorsque :
(i) si rxy → +1, on dira que les deux variables corrèlent positivement ;
(ii) si rxy → -1, on dira que les deux variables corrèlent négativement ;
(iii) si rxy → 0. Absence de corrélation entre les deux variables.
7
C’est le domaine de définition du Coefficient de Corrélation linéaire Simple
Le résultat obtenu, après application de la formule du coefficient de Bravais-Pearson, doit être soumis à
un test statistique avant sa validation. Pour vérifier si la corrélation calculée existe bel et bien au sein de
la population étudiée, le rxy est soumis à un test statistique appelé le test de Student [test mis à jour par
Gosset]. Ce test passe par 5 étapes comme indiquées ci-dessous.
Ho H1
Ho Pas de problème α = Pr (décider H1/H0 vraie)
H1 β=Pr(déciderHo/H1vraie) Pas de problème
5. Critères de décision : Ilya deux critères de décision (soit t-calculé est grand que t-lu , soit non)8
1. Si t-calculé > t-table R Ho : on dit qu’il y a corrélation linéaire entre deux variables X et Y
8
Il existe également une table qui permet d’évaluer, pour un niveau de risque donné, la significativité du coefficient
de corrélation simple, c’est la table de Pearson-Hartley [voir en annexe]. Ainsi, le coefficient de Bravais-Pearson
serait significatif lorsque sa valeur est supérieure à celle de la table, pour un seuil de signification quelconque.
Nota 2 : - Lorsque H2 et H3 sont violées, c’est-à-dire (x et y ne suivent plus la loi normale et la relation
entre X et Y n’étant plus linéaire) on ne peut plus calculer le coefficient de corrélation linéaire simple
de BGP dans ce cas, le coefficient le mieux adapté est le coefficient de corrélation de Rang de Spearman
En tenant compte de certaines propriétés de rang, le ρ peut être calculé bien plus simplement par les
deux formules équivalentes données par :
9
Le coefficient de corrélation de rang de Spearman est un coefficient non paramétrique et parallèlement au
coefficient de corrélation linéaire de Bravais-Galton-Pearson rxy qui est un coefficient paramétrique, l’avantage du
coefficient de rang ; ρxy quantifie également le degré de liaison linéaire entre deux variables quantitatives. En
revanche, même à défaut de normalité, ou de symétrie le ρxy reste particulièrement approprié. Une autre de ses
particularités tient à ce que son calcul nécessite que les données soient transformées en rang.
Pour Yi (2, 4, 6, 6, 8, 9, 10) : 2 occupe le premier rang, on notera par R1, 4 occupe le deuxième
rang R2, mais 6 occupe successivement R3 et R4 pour ce faire, on calcule la moyenne arithmétique
3+4
de 3 et 4, formellement on aura 2 qui donne 3.5 et on dira que les six ont pour rangs 3.5, le 8
occupe quant à lui le 5e rang, 9 (R6) et 10 (R7).
Pour Xi (2, 4, 5, 8, 8, 8, 10) : 2 occupe R1, 4 occupe le deuxième rang R2, 5 occupe le 3e rang, mais
pour déterminer le rang de 8 on fera la moyenne arithmétique de 4, 5 et 6 ce qui donne 5, alors on
dira que les huits occupent le 5e rang; et 10 le 7e rang R5
Confectionnons un tableau qui reprend différentes informations nécessaires pour le calcul du
coefficient de corrélation de rang de Spearman.
12 ∑ 𝑅𝑖𝑆𝑖 3(𝑛+1) 6 ∑ 𝐷𝑖 2
𝜌𝑥𝑦 = 𝑛(𝑛2 −1)
− 𝑛−1
= 1 − 𝑛(𝑛2 −𝑛)
Les variables peuvent être dichotomiques par nature, ou dichotomisées (découper en deux intervalles
d’une variable continue) comme les variables ne sont pas censées être dichotomiques qualitatives c’est-
à-dire les modalités ne sont pas ordonnées, on peut recourir à un test de Khi – deux (inventé par Karl
Pearson) d’indépendance des caractères ou attributs étudiés dans un tableau de contingence.
Un tableau de contingence est un tableau à double entrée qui croise les modalités en ligne d’une
variable qualitative à celles en colonne d’une autre.
Pour illustrer, considérons les variables nationalité et réussite en mathématiques, pour un groupe de N
étudiants échantillonnés. La variable nationalité est définie 1 si l’étudiant est congolais et 0 dans les
autres cas, la variable réussite en mathématique, quant à elle, est définie 1 si l’étudiant a réussi et 0
sinon. En les croisant, on obtient le tableau de contingence 2 2 suivant.
0 1 Total
0 α β α+β
1 γ δ γ+δ
Les ratios (γ+δ)/N, δ/N et (α+γ)/N, donnent respectivement la proportion des étudiants congolais dans
l’échantillon, la proportion des étudiants congolais ayant réussi en mathématique et la proportion des
étudiants ayant échoué en mathématiques.
𝛼𝛿 − 𝛽𝛾
∅=
√(𝛼 + 𝛽)(𝛾 + 𝛿)(𝛼 + 𝛾)(𝛽 + 𝛿)
Le codage 0 et 1 détermine le signe de ∅, il n’a pas d’incidence sur la valeur absolue du coefficient. Cela
permet de détecter les attractions ou les répulsions entre les modalités.
Exemple 2..le tableau suivant présente des données relatives à la relation entre le tabagisme (X) et
le cancer (Y) ; les deux variables ayant reçu les scores de 0 et 1 : un individu fumait ou ne fumait pas,
est mort du cancer ou pas. Il vous est demandé de calculer le coefficient approprié pour établir cette
relation et d’en calculer la significativité.
Tableau ???.. Tableau de
X 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
Y 0 1 0 0 1 0 0 0 1 1 0 1 1 1 1 0 1 1 1 0
Solution
Puis qu’il s’agit de deux variables qualitatives (dichotomiques), le coefficient thetrachrorique ou phi
sera utilisé. Le tableau de contingence nous donne comme situation :
𝛼𝛿− 𝛽𝛾 7×6−3×4
Le coefficient tétrachrorique phi est donné par : ∅ = = = 0.302
√𝛼+𝛽)(𝛾+𝛿)(𝛼+𝛾)(𝛽+𝛿) √10×10×11×9
ii La corrélation n’est ni impact ni causalité. L’objet de la corrélation n’est pas d’établir une
causalité mais simplement de rendre compte du sens et du degré d’association éventuelle entre
variables.
iii La corrélation peut être fortuite [artificielle ou fallacieuse ou encore artefactuelle]. Une
corrélation élevée ne peut tenir qu’à un facteur confondant ou artefact. En réalité, les deux
variables peuvent simplement être liés à un même phénomène - source : une troisième variable
dont il faut neutraliser l’effet. Les alternatives face à ces faiblesses sont notamment la
corrélation pour variables qualitatives, le coefficient de corrélation partiel, le rapport de
corrélation, la régression linéaire et non linéaire, la causalité, la co intégration, etc.
Nota 4: La signification clinique ou l’interprétation des coefficients n’est valable que si, après test, on
rejette l’hypothèse d’absence de corrélation (Ho). Le travail d’interprétation d’un coefficient de
corrélation linéaire se fait toujours en deux temps : une interprétation par rapport au signe/sens de la
liaison et une interprétation par rapport au degré de dépendance.
En résumé, l’estimation d’un coefficient de corrélation suivra toujours [sauf indication contraire], dans
l’ordre, les cinq étapes suivantes :
(i) Test de linéarité [utiliser un diagramme de dispersion]
(ii) Test de normalité [Jarque-Berra10]
(iii) Choix et estimation d’un coefficient de corrélation 1, 2 ou 3
(iv) Test de significativité statistique sur le coefficient calculé
(v) Interprétation ou signification clinique du coefficient estimé [valable seulement si on décide
H1]
10
Ceci fera l’objet du chapitre sur le relâchement des hypothèses
Y : Taux d’inflation en % 6 8 4 6 2 9 10
X : Masse monétaire en Fc 10 8 8 5 8 4 2
Travail à faire : Calculer le coefficient de corrélation linéaire correspondant, tester sa nullité au seul
de 10% et interpréter les résultats et dites sils sont conforme à la théorie économique ?
Exercice 3. Un agronome s’intéresse à la liaison pouvant exister entre le rendement de maïs x (en
quintal) d’une parcelle de terre et la quantité d’engrais y (en kilo). Il relève 10couples de données
consignés dans le tableau suivant :
X 16 18 23 24 28 29 26 31 32 34
y 20 24 28 22 32 28 32 36 41 41
Travail demandé
Exercice 4. Montrer rigoureusement que par construction le coefficient de corrélation linéaire est
toujours comprise entre - 1 et 1 [Utiliser les formules de Bravais – Pearson et la formule de rang de
Spearman]
X 1O 8 5 4 2
y 20 24 25 21 30
Travail à faire :
X Y Travail à faire :
4 1
-1 2
1 4
Exercice 7. A Washington, un journaliste a découvert qu’il existe une très forte corrélation entre le
fait d’avoir un nid de cigognes sur sa demeure et le fait d’avoir des enfants. D’où il conclut que les
cigognes apportent les bébés. Quelle remarque pouvez-vous faire à une telle conclusion ?
Solution de l’exercice 7 La remarque principale à formuler à ce type de corrélation que rien ne peut
expliquer – ou qui en réalité tient à un autre phénomène-source – est que la corrélation peut être
fortuite ou artificielle. Par ailleurs, à bien analyser les choses, tenant compte des réalités de
Washington, la présence d’un nid de cigognes sur le toit signifierait plutôt que la famille qui y habite
est aisée et donc disposée, financièrement, à avoir plus d’enfants.
Exercice 8. [Il y a au moins une réponse exacte, à cocher, à la question suivante]. Le coefficient de
corrélation linéaire entre deux variables statistiques :
(a) ne peut être calculé que si les deux variables sont quantitatives
Exercice 9. Le tableau ci-après reprend les données statistiques relatives au Produit intérieur brut
(PIB) et à la consommation privée de la RDC pour la période allant de 1980 à 1996111 .
Exercice 10.
11
Notes : 1) Consommation des ménages aux prix de 2006 (en milliards de Francs); 2) PIB aux prix de 2022 (en
milliards de Francs) 3) Taux d'inflation Source : Jemy Meta Heshemu, Estimation d'un modèle de
consommation des ménages. Cas de la RDC de 2006 à 2022, Mémoire de Licence, Faculté des Sciences
Economiques (FASE), Université Protestante de Lubumbashio, Octrobre 2023.
Le modèle linéaire simple est l’expression la moins complexe des modèles économétriques.
C’est la plus simple dans la mesure où on met en relation essentiellement deux variables
quantitatives. Dans ce chapitre, nous présenterons d’une part le modèle proprement dit et,
d’autre part, la technique d’estimation des paramètres.
3.1 Le modèle
2.1.1 Formulation
Nous cherchons à mettre en avant une relation de dépendance entre les variables Y et X. Y
est celle que l'on cherche à expliquer (à prédire), on parle de variable endogène
(dépendante) ; X est la variable explicative (prédictive), on parle de variable exogène
(indépendante). Le modèle de régression linéaire simple s'écrit :
Yt = β0 +β1Xt + εt (3.1)
Le terme aléatoire ε, que l'on appelle l'erreur du modèle, tient un rôle très important dans
la régression. Il permet de résumer toute l'information qui n'est pas prise en compte dans
la relation linéaire que l'on cherche à établir entre Y et X c.-à-d. les problèmes de
spécification, l'approximation par la linéarité, résumer le rôle des variables explicatives
absentes, etc.
Lorsque les données sont en coupe longitudinale (série temporelle), on introduit l’indice t pour
différencier les observations, le modèle devient : Yt =β0 + β1Xt + εt
Si par contre, les données sont en coupe transversale, on introduit plutôt l’indice i, et le modèle
s’écrit : Yi = β0 + β1xi + εi.
• Il est évident que le revenu à lui seul n’explique pas la consommation. En effet,
certains éléments tels que les dons et les transferts influencent la consommation.
Sous l’hypothèse restrictive du revenu, notre modèle peut souffrir d’une erreur de
spécification.
• De même, la mesure des variables x et y peut être entachée d’erreurs, ce qui
engendre des erreurs de mesure.
• La collecte des données nécessaire pour estimer le modèle peut se faire sur une
partie de la population (échantillon), et non sur la population totale ; ceci peut
induire un autre type d’erreur dit erreur d’échantillonnage.
Le souci de prise en compte de ces trois types d’erreurs justifie la présence de la variable ε dans le
modèle. Le terme d’erreur est donc très important en ce sens qu’il vient matérialiser les
imperfections du modèle.
H2 : La variable explicative Xt est observée avec certitude. La variable explicative X est non-
stochastique, c’est-à-dire fixée dans des échantillons répétés et, par conséquent, non
corrélée avec les erreurs. Tandis que Yt, observée également sans erreur, est aléatoire par
l’intermédiaire de εt .
H3 : Centralité ou nullité de l’espérance mathématique des erreurs ; E(εi) = 0 pour tout i = 1, ...,
n, c’est-à-dire, les erreurs ont une moyenne nulle. Cette hypothèse est nécessaire pour
s’assurer qu’en moyenne nous sommes sur la droite réelle
H4 : Homoscédasticité des erreurs ; E(εi2) =σ2 pour tout i = 1, ..., n, c’est-à-dire, les erreurs ont
une variance constante. Cela assure que chaque observation est également fiable.
Y (observée) 𝑌̂
Ɛi
Ɛi = Yi - 𝑌̂
𝑌̂ (Estimée)
Yi
∂S
=0 ∑ 𝟐(−𝟏)(𝒀𝒕 − 𝜷𝒐 − 𝜷𝟏𝑿𝒕) = 0
𝜕𝛽𝑜
∂S
= 0 ∑ 𝟐(−𝑿𝒕)(𝒀𝒕 − 𝜷𝒐 − 𝜷𝟏𝑿𝒕) =0
𝜕𝛽1
∑(𝒀𝒕 − 𝜷𝒐 − 𝜷𝟏𝑿𝒕) =0
∑ 𝑿𝒕(𝒀𝒕 − 𝜷𝒐 − 𝜷𝟏𝑿𝒕) =0
∑ 𝒀𝒕 − 𝑵𝜷𝒐 − 𝜷𝟏 ∑ 𝑿𝒕) =0
∑ 𝑿𝒕𝒀𝒕 − 𝜷𝒐 ∑ 𝑿𝒕 − 𝜷𝟏 ∑ 𝑿𝒕 𝑿𝒕) = 0
∑ 𝑿𝒕𝒀𝒕 − 𝜷𝒐 ∑ 𝑿𝒕 − 𝜷𝟏 ∑ 𝑿𝒕 𝟐 = 0 (2)
Les équations (1) et (2) sont dites « Equations normales ». Elles constituent un système de deux
équations à deux inconnues d’où l’utilisation de plusieurs méthodes est possible pour trouver les
deux inconnues qui sont dans ce cas : 𝛽0̂ 𝑒𝑡 𝛽1̂.
̂ −𝟏
𝜷𝟎 ∑ 𝑿𝟐 ∑𝑿 ∑ 𝑿𝒀
( )= ( ) ( )
̂
𝜷𝟏 ∑𝑿 𝑵 ∑𝒀
∑ 𝑿𝟐 ∑ 𝒀− ∑ 𝑿 ∑ 𝑿𝒀
̂ = 𝑵 ∑ 𝑿𝒀− ∑ 𝑿 ∑ 𝟐𝒀 et 𝜷𝟏
𝜷𝒐 ̂= 𝟐
𝟐𝑵 ∑ 𝑿 − (∑ 𝑿) 𝑵 ∑ 𝑿𝟐 − (∑ 𝑿)
∑ 𝒀𝒕 𝜷𝟏 ∑ 𝑿𝒕
De (1) 𝑵𝜷𝒐 = ∑ 𝒀𝒕 − 𝜷𝟏 ∑ 𝑿𝒕 , 𝜷𝒐 = - Ou simplement
𝑵 𝑵
𝜷𝒐 = 𝒀𝒕̅̅̅ - 𝜷𝟏𝑿𝒕
̅̅̅̅ (3)
(3) dans (2)
𝑵 ∑ 𝑿𝒀− ∑ 𝑿 ∑ 𝒀 𝑪𝒐𝒗(𝑿,𝒀)
̂ =
𝜷𝟏 ̂ =
Ou simplement 𝜷𝟏
𝑵 ∑ 𝑿𝟐 −(∑ 𝑿)𝟐 𝑽𝒂𝒓(𝑿)
𝜕2 𝑆
= ∑2 > 0
𝜕2 𝑆
= ∑ 2 𝑋𝑡 2 > 0 c’est bien un minimum
̅ - β1𝑿
β0 = 𝒀 ̅ (2*)
H6 : Cov (X, ∈) = 0
𝟏
̅ )(∈ - ∈
Cov (X, ∈) = 𝑵 ∑(𝑿 − 𝑿 ̅ ) = 0 or E(∈) = ∈
̅ = 0 (H3)
̅ )(∈) = 0 (3*) ∈t = Yt - β0 - β1Xt (1*) dans (3*)
Cov (X, ∈) = ∑(𝑿 − 𝑿
̅ )(𝒀𝒕 −
Cov (X, ∈) = ∑(𝑿 − 𝑿 𝜷𝟎 − 𝜷𝟏𝑿𝒕 ) = 0 (5*) (2*) dans (5*)
̅ )(𝒀𝒕 −
= ∑(𝑿 − 𝑿 ̅ + 𝜷𝟏𝑿
𝒀 ̅ − 𝜷𝟏𝑿𝒕 ) = 0
̅ )[(𝒀𝒕 −
= ∑(𝑿 − 𝑿 ̅ ) − 𝜷𝟏(𝑿𝒕 − 𝑿
𝒀 ̅ )] = 0
̅ )(𝒀𝒕 − 𝒀
= ∑(𝑿 − 𝑿 ̅ ) − 𝜷𝟏 ∑(𝑿 − 𝑿
̅ )(𝑿 − 𝑿
̅) = 0
̅ )(𝒀𝒕 − 𝒀
∑(𝑿−𝑿 ̅)
𝜷𝟏 = ̅̅̅̅̅̅̅̅̅̅̅
∑(𝑿−𝑿)(𝑿−𝑿 ̅)
(6*)
Xt 2 2 5 4 7
Yt 2 4 6 8 10
Travail à faire on vous demande par la méthode des Moindres carrés ordinaires d’
̂ et 𝜷𝟏
On montre aisément que les estimateurs 𝜷𝒐 ̂ sont sans biais, de variances minimales
et convergents. De plus, ils sont linéaires. On dit alors qu’ils sont BLUE (Best Linear
Unbiaised Estmator), ce qui signifie « Meilleurs estimateurs linéaires sans biais ».
Rappel :
i. Un estimateur 𝜷 ()
̂ de β est dit sans biais si E 𝛽̂ = β
𝑋̅ 2
̂) = σ ε2 ( 1 +
Var (𝛽𝑜 ̂ = 0 et Var (𝛽1
), lim 𝛽𝑜 ̂ )= 1
σ ε2
𝑛 ∑(𝑋− ̅𝑋)̅̅̅2 𝑛→∞ ∑(𝑋− ̅𝑋)
̅̅̅2
𝝈𝟐
̂) =
On remarque que la Var (𝜷𝒐 ̂ ) et cov (𝜷𝒐,
̅ 𝟐 var (𝜷𝟏
+ 𝑿 ̂ 𝜷𝟏̂ ) = −𝑿 ̂)
̅ var (𝜷𝟏
𝒏
Alors la matrice de variance covariance sera :
𝟏 ̅𝟐
𝑿
( 𝒏 + ∑(𝑿− ̅𝑿) ̂)
̅ 𝒗𝒂𝒓 (𝜷𝟏
2
̅̅̅𝟐 ) −𝑿
Rho = σ ε ( 𝟏
)
̂)
̅ 𝒗𝒂𝒓 (𝜷𝟏
−𝑿 ∑(𝑿− ̅𝑿)
̅̅̅𝟐
3.3 Tests sur les paramètres du modèle (ou test de significativité individuelle)
Après avoir estimé les paramètres du modèle, il est judicieux de vérifier s’ils sont significatifs sur
le plan statistique ou pas. Une approche alternative mais complémentaire à la méthode des
intervalles de confiance pour tester des hypothèses statistiques est l’approche des tests de
signification développée indépendamment par R. A. Fisher et conjointement par Neyman et
Pearson. De manière générale, un test de signification est une procédure par laquelle des
résultats d’échantillons sont utilisés pour vérifier la véracité ou la fausseté d’une hypothèse
nulle12. Pour cela, on procède par des tests.
12
L’idée clé derrière les tests de signification est celle d’une « statistique de test » (estimateur) et de la distribution
d’échantillonnage d’une telle statistique sous l’hypothèse nulle. La décision d’accepter ou de rejeter H0 est prise
sur la base de la valeur de la statistique de test obtenue à partir des données disponibles. Une notion essentielle qui
concerne les tests est la probabilité que l'on a de se tromper (cfr tableau p). Il existe deux façons de se tromper lors
d’un test statistique : La première façon de se tromper est de commettre l’erreur [ou risque] de première espèce,
noté α, qui est la probabilité de rejeter à tort HO alors qu’elle est vraie. On dit, dans ce cas, que α est la probabilité
d’avoir un faux positif. La deuxième façon de se tromper est de commettre l’erreur [ou risque] de deuxième
espèce, noté β, qui est la probabilité de ne pas rejeter HO alors qu’elle est fausse. On dit, dans ce cas, que β est la
probabilité d’avoir un faux négatif.
L’hypothèse de normalité des erreurs est indispensable à la construction des tests statistiques. Elle
̂ 𝑒𝑡 𝛽1
permet d’établir la normalité des paramètres : 𝛽0 ̂.
̂ −𝛽0)
(𝛽0
̂ → 𝑁(β0 , Var(β0)) i.e
𝛽0 → N(0,1)13
𝑣𝑎𝑟(𝛽0)1/2
̂ −𝛽1)
(𝛽1
̂ → 𝑁(β1 , Var(β1))
𝛽1 i.e → N(0,1)
𝑣𝑎𝑟(𝛽1)1/2
∑ 𝜺𝟐
Si σ 2 n’est pas connu on l’estime par 𝝈̂ 𝟐 ε =
𝒏−𝟐
Avec εt sont les résidus, ie les erreurs observées à la suite de l’estimation du modèle. Dans ce cas,
̂ −𝛽𝑖)
(𝛽𝑖
𝑣𝑎𝑟(𝛽𝑖)
suit la loi normale à n-2 degré de liberté14 avec i= 0, 1.
̂ −𝛽𝑖)
(𝛽𝑖
On peut en déduire la statistique du test : t-calculé ou simplement tcal = 𝑣𝑎𝑟(𝛽𝑖)
sous hypothèse
̂
𝛽𝑖
nulle (Ho) 𝛽𝑖 = 0 alors tcal = 𝑣𝑎𝑟(𝛽𝑖)
5. Critères de décision (Règle de décision) : Ilya deux critères de décision (soit t-calculé est
grand que t-lu , soit non)
13
On peut noter que les tests de student et de Fischer dépendent de la loi normale. Ainsi, F= tcal 2 = N(0 ; Iσ)2
14
Le degré de liberté correspond au nombre de valeurs que nous pouvons choisir arbitrairement. Il désigne aussi
le nombre de variables aléatoires qui ne peuvent être déterminées ou fixées dans une équation. Les degrés de liberté
correspondent au nombre de valeurs que nous pouvons choisir arbitrairement (par exemple, pour la variabilité
totale, connaissant (n − 1) valeurs, nous pourrons en déduire la n − ème puisque nous connaissons la moyenne de
Y ). 2 La notion de degré de liberté correspond au nombre de valeurs restant réellement à disposition après une
procédure d’estimation statistique. Si un échantillon comprend ÷ valeurs, il faut lui retirer le nombre des
paramètres estimés.
𝑋−𝐸(𝑋)
P[| 𝜎
| < t ] = 1 - α
0.95
α/2 α/2
- tα/2n-2 + tα/2n-2
Alors si,
̂
𝛽𝑖
1°) tcal = 𝑣𝑎𝑟(𝛽𝑖)
∈ ] −tluα/2, + tluα/2 [ décider Ho
̂
𝛽𝑖
2°) tcal = ∉ ] −tluα/2, + tluα/2 [ décider H1
𝑣𝑎𝑟(𝛽𝑖)
Yt = β0 + β1 Xt +εt (1*)
̂ = 𝛽̂ 𝑜 + 𝛽̂ 1Xt
𝑌𝑡 (2*)
Yt = 𝛽̂ 𝑜 + ̂𝛽 1Xt + εt (3*)
Théorème
La somme des carrés totale (SCT) est égale à la somme des carrés expliquée (SCE) plus la somme
des carrés résiduelle (SCR) :
L’équation (4*) va nous permettre de juger la qualité de l’ajustement d’un modèle. En effet, plus la
variance expliquée est proche de la variance totale, meilleur est l’ajustement du nuage de points
sur la droite de régression.
Le modèle est donc jugé à partir du ratio suivant (Le coefficient de détermination R2 est la fraction
de la variabilité totale expliquée par la régression. Plus précisément),
𝑆𝐶𝐸 1−𝑆𝐶𝑅
𝑅2 = ou simplement 𝑅 2 =
𝑆𝐶𝑇 𝑆𝐶𝑇
Nota :
i. 0 ≤ R2 ≤ 1
ii. R2 → 1, l’ajustement est meilleur (le modèle est bon)
iii. R2 → 0, l’ajustement est mauvais (le modèle est mauvais)
𝑆𝐶𝐸 𝑆𝐶𝐸
𝑆𝐶𝑀𝐸 𝑆𝐶𝑀𝐸
F = 𝑆𝐶𝑀𝑅 = 𝑘−1
𝑆𝐶𝑅 et → F (k-1 , n− 2) pour k = 2 F = 𝑆𝐶𝑀𝑅 = 1
𝑆𝐶𝑅 et → F (1, n− 2)
𝑛−2 𝑛−2
i.e qu’elle suit une loi de Fisher à (1, n-2) degré de liberté.
15
ANOVA de l’Anglais Analysis of variance (analyse de la variance)
Ce test permet de tester la nullité de tous les paramètres du modèle hors mis celui relatif à la
constante. Dans le cadre du modèle linéaire simple, il se résume au test de nullité du paramètre β1.
Hypothèse du test
H0 : β1 = 0
H1 : β1 ≠ 0
Règle de décision
𝑆𝐶𝐸
𝑅 2 = 𝑆𝐶𝑇 → SCE = SCT *𝑅2
𝑆𝐶𝑅
𝑅2 = 1 − 𝑆𝐶𝑇
→ 𝑆𝐶𝑅 = (1 − 𝑅2 ) ∗
𝑆𝐶𝑇
𝑅2⁄
1
D’où F-cal = (1−𝑅2)/(𝑛−2)
Avec la prise en compte des degrés de liberté, on définit le R2 ajusté comme suit :
𝑆𝐶𝑀𝑅
𝑅̅ 2 = 1 - 𝑆𝐶𝑀𝑇
𝑆𝐶𝑅
(𝑛−1) 𝑆𝐶𝑅
̅2
𝑅 = 1- 𝑛−2
𝑆𝐶𝑇 =1-
(𝑛−𝑘) 𝑆𝐶𝑇
𝑛−1
(𝑛−1) (𝑆𝐶𝑇−𝑆𝐶𝐸)
𝑅̅2 = 1 -
(𝑛−𝑘) 𝑆𝐶𝑇
𝑛−1 (1− 𝑅 2 )
𝑅̅ 2 = 1 - C’est la formule de R-carré corrigé16
𝑛−𝑘
16
Le R-carré à un défaut celui de croitre avec l’augmentation des variables explicatives dans le modèle, même si
elle ne contribue pas à l’explication du modèle alors pour pallier à ce problème on fait recours à ce pseudo R-carré
appelé R-carré corrigé. Toutefois, ce pseudo R-carré ne concerne pas dans la pratique un modèle de régression
simple. , il convient de dire que ce coefficient est souvent critiqué par certains auteurs, en raison du fait qu’il croit
de manière systématique avec l’augmentation des variables explicatives. Pour pallier à cette insuffisance, on peut
utiliser le R-carrée ajusté, connu encore sous le nom de R-carrée corrigé.
Exercice 1. La méthode des Moindres carrés ordinaires est basée sur un certain nombre
d’hypothèses. On vous demande de discuter la signification des hypothèses suivantes :
Exercice 2. La consommation totale des ménages Lushois (Yt) et le revenu disponible réel
(Xt) d’un pays entre 2019 et 2023 (en millions d’unités monétaire) sont reproduits dans le
tableau ci-dessous :
Exercice 3. Nous disposons des données du tableau ci-dessous : Une relation économique
suggère que le taux d’intérêt nominal R est une fonction croissante du taux d’inflation INF
: R = f(INF), avec ∂R /∂INF > 0
t 1 2 3 4 5
Xt 2 3 1 5 9
Yt 4 7 3 9 17
Xi 2 4 6 9 14 24 30 36 45
Yi 4 8 10 15 19 30 39 45 50
Travail à faire
(1) Estimer les deux paramètres de la droite de régression simple β0 et β1 et écrire la fonction
de la droite Yt = β0 +β1Xt.
(3) Construire l’intervalle de confiance au niveau de confiance de 95% pour le paramètre β1.
Travail à faire
1. De quel type des données s’agit-il ?
2. Formalisez le modèle de régression et déterminez la période
3. Donnez une interprétation des résultats obtenus
4. De la relation qui existe entre la variable dépendante et la variable indépendante incluse
dans le modèle, donnez une interprétation économique
5. Quelle(s) recommandation(s) formulez-vous à la lumière des résultats obtenus ? et que
peut-on conclure de ce modèle ?
6. Donnez la commande stata utilisée pour la réalisation de cette estimation
7. Appréciez la significativité globale du modèle et la qualité d’ajustement
8. Donnez à partir des informations du tableau la somme des carrés expliquée SCE, la
somme des carrés résiduelle et la somme des carrés total. Calculez le R2
9. La constante et la variable capitale sont-elles significatives ? Si oui pourquoi ?
10. Que représente le tableau ci- dessus ?
Xt 7 10 13 15 19 21 23 25
Yt 38 35 30 25 20 17 15 13
Exercice 9. La fête de la Saint Valentin appelée encore « fêtes des amoureux » est caractérisée par
entre autres l’échange de cadeaux entre les deux partenaires d’un couple. La recherche des
explications liées aux déterminants du volume de cadeaux a provoqué une violente dispute entre
Roméo et Juliette, deux de vos voisins du quartier. En effet, Roméo pense que le volume de cadeaux
(G) offerts par un individu à son partenaire est expliqué par la durée (D) de leur relation, alors que
Juliette est d’avis contraire, estimant que cette durée n’exerce aucune influence sur le volume de
cadeaux.
Ces deux amoureux sont convaincus que vous pouvez trancher les débats, vous que tout le quartier
reconnait en tant que le MAJOR en économétrie de l’Université de Lubumbashi.
En supposant que 𝜶𝟎 est le terme constant et que 𝜶𝟏 est le coefficient associé à la variable
explicative :
a) D𝒊 = 𝜶𝟎 + 𝜶𝟏G𝒊 + 𝜺𝒊
b) 𝑮𝒊 = 𝜶𝟎 + 𝜶𝟏𝑫𝒊 + 𝜺𝒊
c) 𝑮𝒊 = 𝜶𝟎 + 𝜶𝟏𝑫𝒊
G 8 10 12 14 16 18 20 9 24 12 7 7 10 22 21
D 7 6 9 10 11 12 12 7 15 9 7 8 10 13 14
Table2 : Données sur le volume de cadeaux et la durée de la relation (en mois)
Exercice 10. On dispose des séries suivantes Un jeune économiste souhaite modéliser la relation
entre les ventes d’un produit de grande consommation V et les dépenses de publicité PUB de
l’entreprise productrice. Si l’on pense que la « productivité », en termes de ventes, des dépenses de
publicité croît avec leur montant, on peut écrire : V = α + β PUB , avec 0 < β < 1 Cette spécification
implique en effet une dérivée première de V par rapport à PUB, qui croît avec le montant de PUB.
Autrement dit, au fur et à mesure que les dépenses publicitaires augmentent, l’augmentation des
ventes devient de plus grande.
xt 1 2 3 4 5
yt 2 4 5 7 10
Exercice 11. Soit un modèle linéaire simple : Yi = β0 + β1Xi + εi i = 1, ..., n on donne les informations
suivantes : ∑𝑛𝑖=1 𝑋𝑖𝑌𝑖 = 184500, ∑𝑛𝑖=1 𝑌𝑖 2 = 26350, ∑𝑛𝑖=1 𝑋𝑖 2 = 1400000, 𝑌̅= 60 et 𝑋̅= 400 et n = 7
∑𝑛𝑖=1 𝑌𝑖 = 21.9, ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 = 186.2, ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)2 = 86,9 , ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅) = 106,4
Exercice 13 Les ventes V d’une entreprise sont une fonction croissante de ses dépenses de
publicité PUB, mais au fur et à mesure que les dépenses de publicité augmentent, l’accroissement
des ventes devient de plus en plus faible, d’autant plus que le niveau de départ des dépenses
publicitaires est élevé.
La relation entre les ventes V et les dépenses de publicité PUB est-elle bien représentée par une des
spécifications suivantes, et laquelle ?
Solution La deuxième spécification représente bien la relation entre ventes et dépenses publicitaires.
La dérivée de Vt par rapport à PUBt vaut en effet β1β2PUBβ2−1 t et cette dérivée diminue quand PUBt
augmente, parce que β1 > 0 et 0 < β2 < 1.
Exercice 14 Un producteur s’intéresse à la liaison pouvant exister entre la quantité produite d’un
bien et quantité d’une matière première utilisée. Il relève des données consignées dans le tableau
ci-dessous qu’il soumet à votre analyse :
i 1 2 3 4 5 6 7 8 9
Xt 2 4 6 9 14 24 30 36 45
Yt 4 8 10 15 19 30 39 45 50
a. la variable dépendante Y ?
b. la variable indépendante X ? Justifier votre choix.
2. Faire une représentation graphique de la relation entre X et Y. Commenter.
3. De ce graphique,
a. formuler une spécification mathématique du modèle.
b. en déduire la spécification économétrique du modèle.
a. de variables?
b. de paramètres?
c. de variable aléatoires?
5. Dans le modèle économique, combien y-a-t’il:
a. de variables?
b. de paramètres?
c. de variables aléatoires?
Exercice 15. Le producteur fait de nouveau appel à vous en utilisant les mêmes données que
précédemment. Il vous demande cette fois ci:
Exercice 16. Le producteur revient vous voir, en vous disant qu’il prévoit respectivement utiliser des
quantités de 57 et 69 pour la variable indépendante. Pour cela, il vous demande:
1. De déterminer les valeurs prévues de la quantité de matière première pour ces deux prévisions
2. De déterminer pour ces deux prévisions les différents intervalles de prévision au niveau de
confiance de 95%. Que constatez-vous?
Exercice 17. Une ONG s’intéresse à la liaison pouvant exister entre la croissance économique des
pays de la zone d’Afrique Centrale et leur niveau d’inflation. Pour cela elle relève des données sur
certains pays qu’elle consigne dans le tableau ci-dessous.
Xt 7 10 13 15 19 21 23 25
Yt 38 35 30 25 20 17 15 13
a. la variable dépendante Y ?
b. la variable indépendante X ? Justifier votre choix.
3. Quel est le signe attendu du paramètre associé à la variable explicative? Justifier votre choix.
a. la moyenne
b. la variance
c. l’écart-type
d. Commentez
Exercice 18. En utilisant les données tu tableau précédent, l’ONG vous demande
1. Faire :
1. Faite une représentation graphique de la relation entre l’age et le note finale en éonométrie.
Commenter
a. estimer les paramètres du modèle de le relation entre la note et l’âge, le nombre d’heures
d’études et la variable traitée du “lieu de résidence”.
b. écrire le modèle économique estimé
c. Tester la significativité de chaque paramètre du modèle. Commenter
d. Tester la significativité globale du modèle et évaluer la qualité d’ajustement du modèle aux
données.
e. Interpréter les résultats du modèle obtenu
Exercice 20. On désire étudier la relation entre la consommation (C) et le revenu (Y) de quelques
étudiants de l’Université de Lubumbashi/UNILU. Pour cela on utilise un modèle économétrique de
la forme :
𝑴𝟏 : 𝑪𝒊 = 𝜷𝟎 + 𝜷𝟏𝒀𝒊 + 𝜷𝑌𝑖 2 + 𝜺𝒊 .
(1) Le modèle mathématique qui a permis d’obtenir le modèle (M1) est alors :
a. 𝐶 = 𝛽0 + 𝛽1𝑌 + 𝛽2𝑌
b. 𝐶 = 𝛽0 + ln (𝛽1𝑌𝛽2𝑌2)
c. 𝐶 = 𝛽0 + 𝛽2𝑌 2
d. 𝐶 = 𝐴𝑌 𝛽1(𝑌 2) 𝛽2
e. Pas de bonne réponse
a. Constante
b. Variable en fonction du revenu
c. Variable en fonction de la consommation
d. Constante mais différente de 𝛽1
a. 𝛽̂0 = 10.0
b. 𝛽̂0 = 15.95
c. 𝛽̂0 = 08.3
d. 𝛽̂0 = 0.11 4.
a. 𝑆𝐶𝑇 = 63.00
b. 𝑆𝐶𝑇 = 64.00
c. 𝑆𝐶𝑇 = 63.058
d. 𝑆𝐶𝑇 = 63.58 5.
a. 𝑅2 = 0.19
b. 𝑅2 = 0.70
c. 𝑅2 = 0.32
d. 𝑅2 = 0.33
(7) En supposant que la valeur de 𝛽̂ 1 dans le modèle 𝑀1 est significative, cette valeur est-elle en lien
avec la théorie économique ?
On donne le tableau suivant : (vous servir de ce tableau pour répondre aux questions ci-dessus)
Le modèle de régression multiple est une extension du modèle de régression simple. En effet, dans
le chapitre 3, nous avons considéré un modèle économétrique comportant une variable explicative.
Dans la pratique, les phénomènes sont bien plus complexes pour être expliquer par une seule
variable. Afin de se rapprocher de la réalité, nous envisageons dans ce chapitre le cas de k variables
explicative (k >1).
4.1 Présentation
Ce modèle s’écrit :
εt ; terme d’erreur et
Pour la résolution du modèle (4.1) une formulation matricielle s’impose. En effet, l’observation du
modèle dans sur les n individus permet d’écrire le système de la forme matricielle étendue suivant:
…………………………………
Et on a : Y = Xβ+ε ( 4.3*)
Pour la résolution du modèle (4.3*), il est également indispensable que deux hypothèses
supplémentaires soient formulées en marge de celles formulées au chapitre précédent.
Or β'X 'Y est un scalaire, et Y 'Xβ la transposé de β'X 'Y d’où les deux quantités sont identiques. On
écrit alors :
̂ = 0 ⇒ X 'X 𝛽𝑖
=−2X 'Y+ 2X ' X𝛽𝑖 ̂ = X 'Y , Pour isoler 𝛽𝑖
̂ , on pré multiplie les deux membres
17
Si n = k , SCE = SCT c’est-à-dire que SCR = 0 ou R2 = 1 On ne peut plus utiliser une méthode d’estimation (on
calcul juste /méthode de substitution par ex )
𝜕 𝜕𝜀′𝜀
( )= 2X’X Matrice définie positive18, donc c’est bien un minimum
𝜕𝛽 𝜕𝛽
Exemple 1
Un agent économique désire établir la relation entre la quantité de biens produite (Y) et la valeur
des inputs ( X1 ) et ( X 2 ) nécessaire pour cette production. A cet effet, il réalise des relevés de la
production et des inputs pendant une dizaine (10) de jours et postule la forme fonctionnelle
suivante : Yi =β0 +β1X1i +β2X2i +εi
10 2 2 11.8
Sachant que X’X = ( 2 7 1) et X’Y = ( 7.1 )
2 1 7 4.1
Travail à faire
(a) Estimer β0, β1 et β2 sachant que X1 est le facteur capital et X2 facteur travail
(b) Déterminer à partir des informations suivantes les données des X1 , X2 et Y pour les 10 jours
(c) Interpréter le modèle.
18
La notion de matrice définie positive en dimension n>2, est identique à celle de réel positif en dimension 1. En
effet, une propriété mathématique stipule que pour toute matrice X inversible, la matrice X’X est définie positive
La variance de β
=(X ' X)−1 X ' E(εε')X (X ' X)−1 or par hypothèse (voir H 4 ), E(εε')=σε2I
Avec : Var(𝛽̂) variance de Beta ; σε2 variance de l’erreur, on peut montrer aisément que lorsque la
variance des erreurs n’est pas connue (σε2 inconnu), on peut l’estimer à travers les résidus du modèle
̂ 𝜀̂
𝜀′
par : ̂
𝜎𝜀2 = et (X 'X)−1 L’inverse de la matrice des variables explicatives.
𝑛−𝑘−1
• Analyse de la variance
Comme dans le cas de la régression simple, l’équation fondamentale de la variance est établie par
le théorème suivant :
La somme des carrés totale (SCT) est égale à la somme des carrés expliquée (SCE) plus la somme des
carrés résiduelle (SCR) :
∑(𝑌 − 𝑦̅)2 = ∑(𝑦̂ − ̅𝑌)
̂̅̅2 + ∑ 𝜀𝑡 2
̂ X 'Y + 𝜀̂′𝜀̂ ⇒
Y 'Y =𝛽′ 𝜀̂′𝜀̂= ∑ 𝜀 2 =Y 'Y − 𝛽′
̂ X 'Y
Coefficient de détermination
Le modèle est donc jugé à partir du ratio suivant (Le coefficient de détermination R2 est la fraction
de la variabilité totale expliquée par la régression. Plus précisément),
𝑆𝐶𝐸 1−𝑆𝐶𝑅
𝑅 2 = 𝑆𝐶𝑇 ou 𝑅 2 = 𝑆𝐶𝑇
Toutefois, il convient de dire que ce coefficient est souvent critiqué par certains auteurs, en raison
du fait qu’il croit de manière systématique avec l’augmentation des variables explicatives. Pour
pallier à cette insuffisance, on peut utiliser le R-carrée ajusté, connu encore sous le nom de R-
carrée corrigé.
𝑆𝐶𝑅
𝑅̅ 2 = 1 - 𝑑𝑑𝑙
𝑆𝐶𝑇
𝑑𝑑𝑙
𝑆𝐶𝑀𝑅
̅𝑅 2 = 1 -
𝑆𝐶𝑀𝑇
𝑆𝐶𝑅
(𝑛−𝑘− 1) 𝑆𝐶𝑅
𝑅̅ 2 = 1- 𝑛−2
𝑆𝐶𝑇 =1-
(𝑛−1) 𝑆𝐶𝑇
𝑛−1
(𝑛−𝑘− 1) (𝑆𝐶𝑇−𝑆𝐶𝐸)
𝑅̅ 2 = 1 - (𝑛−1) 𝑆𝐶𝑇
𝑛−1 (1− 𝑅2 )
𝑅̅ 2 = 1 - C’est la formule de R-carré corrigé
𝑛− 𝑘−1 .
Reprenant les données de l’exercice précédent, déterminer la matrice de variance covariance des
Coefficients estimés, puis calculer le coefficient de détermination sachant que : Y 'Y =19.34 et
SCT = 5.42
A la suite des estimations, plusieurs types de tests peuvent être nécessaires pour juger la qualité du
modèle.
Le test de significativité globale s’intéresse à tous les paramètres du modèle de manière générale
et essaye de donner une réponse à la question suivante : existe-t-il au moins un paramètres
statistiquement non nul, hormis le terme constant ? Pour mener à bien ce test, nous verrons
successivement ses hypothèses, la statistique de test et la règle de décision.
Hypothèse du test
H0 : β1 =β2 =β3 = ... =βk = 0 Aucune variable Xi n’explique Yi contre
H1 : ∃ βi ≠ 0 / i∈{1,2,3,...,k} il existe au moins une variable Xi qui explique Yi
Statistique du test
Ce test est conduit par la statistique de Fisher, c’est d’ailleurs pour cette raison qu’on l’appelle
habituellement « Test de Fisher ».
Règle de décision
Quand on conclut qu’il existe au moins une variable indépendante Xi qui explique la variable
dépendante Yi, on ne sait pas avec précision (les)laquelle(s) des Xi ? Le test de significativité
individuelle s’intéresse aux différents paramètres pris individuellement. Pour un paramètre βi,
i∈{0,1,2,3,...,k} donné, il essaye de donner une réponse à la question suivante : βi est-il statiquement
non nul ?
H0 : βi = 0
H1 : βi ≠ 0
Statistique de test
Pour mener à bien ce test, on utilise la statistique de Student, c’est d’ailleurs pour cette raison qu’on
l’appelle habituellement « test de Student ». En effet, la statistique de test est :
̂
𝛽
t-cal = → T (n−k −1)
𝜎𝛽ˆ
Règle de décision
Exemple
Les tests de restriction linéaire porte sur des combinaisons de paramètres que nous pouvons
résumer par l’écriture : Rβ= r.
Hypothèses du test
H0 : Rβ= r
H1 : Rβ≠ r
𝑆𝐶𝑀𝐸
Statistique de test F =
𝑆𝐶𝑀𝑅
Règle de décision
En reprenant les données des exemples précédents, peut-on dire que β1 +β2 = 1 ?
Remarque : Par test de restriction linéaire, il faut noter deux éléments principaux : restriction et
linéaire. Restriction, parce que nous imposons des contraintes sur les coefficients estimés. Linéaire,
parce que la contrainte imposée doit avoir une forme linéaire.
A la suite de l’estimation d’un modèle, on peut être également amené à s’interroger sur la stabilité
de la relation estimée sur l’ensemble de la période considérée. Autrement dit, on pourrait se
demander si la structure des coefficients estimés est la même sur deux sous périodes prédéfinies.
Le test statistique qui permet de se prononcer sur cette problématique est le test de CHOW.
Etape 1 : Estimation du modèle sur l’ensemble de la période, puis récupération de la somme des
carrés résiduels que nous pouvons noter SCR
Etape 2 : Estimation du modèle sur chacune les deux sous périodes, puis récupération de la somme
des carrés résiduelle que nous pouvons noter SCR1 et SCR2.
Hypothèse du modèle
H0 :β=β1 =β2
H1 :∃i tq β=βi i =1 , 2
Statistique du test
Fcal =
ddl1 = n− (k +1) −[n1 − (k +1)]−[n2 − (k +1)]= k +1 ; ( car n = n1 +n2)
Règle de décision
Jusqu’ici les variables utilisées dans les régressions ont été toutes quantitatives ; mais un modèle
de régression peut également comprendre des variables qualitatives comme la nationalité, le sexe,
la race, la religion ou même un évènement tel qu’une grève, une éruption volcanique etc.
Les modèles de régression avec des variables binaires peuvent être regroupés en deux catégories :
Les modèles de régression d’une variable quantitative sur des variables binaires, appelés modèles
d’analyse de la variance est régression d’une variable quantitative Yi sur une ou plusieurs variables
qualitatives (Modèle ANOVA).
Yi = a0 +a1D1t
Nous allons exposer ce modèle à travers un exemple comprenant une variable dépendante
quantitative Yi et une seule variable binaire Di. Le modèle pouvant s’étendre à plusieurs variables
qualitatives. Prenons l’exemple d’une entreprise minière qui utilise pendant l’exploitation d’un
produit cobaltifere saisonnier des ouvriers nationaux et étrangers.
Soient Yi les salaires payés et Di=1 si le salaire est perçu par un ouvrier national et Di=0 si le salaire
est perçu par un ouvrier étranger.
Disposant des informations reprises au tableau 4.1., nous allons faire la régression :
Yi = β1+β2Di+ ui (4.1)
Di 1 1 1 0 0 1 0 1 0 1
Yi 50 55 57 60 62 59 64 63 68 66
D1i 1 1 1 0 0 1 0 1 0 1
D2i 1 0 0 1 1 0 0 1 0 1
Yi 50 55 57 60 62 59 64 63 68 66
Le modèle à estimer est alors : Yi = β0+ β1D1i+ β2 D2i +ui (4.3) où D1i =1 si ouvrier national D1i =0 si
ouvrier étranger D2i =1 si ouvrier masculin D2i =0 si ouvrier féminin La régression faite sur Eviews
donne les résultats ci-après : Y = 63.7 - 5.166666667 D1i - 0.4 D2i t-stat [20.24860] [-1.505240] [-
0.118938] Les résultats ci-dessus montrent qu’il n’y a pas de discrimination d’après le sexe, ni d’après
la nationalité ; car les coefficients associés aux variables sexe et nationalité sont non significatifs.
C’est un modèle de régression d’une variable quantitative sur un mélange des variables
quantitatives et variables qualitatives appelés des modèles de covariance (modèles ANCOVA) ;
Supposons maintenant que nous voulons connaître si dans cette même entreprise qui emploie des
ouvriers nationaux et étrangers, il existe une discrimination
Dans les chapitres précédents, l’estimation des paramètres du modèle linéaire simple et multiple,
par les MCO, nécessitait qu’un certain nombre d’hypothèses de base sur l’aléa soit vérifié : H1 à H8.
Nous étudierons dans ce chapitre les problèmes relatifs à la non vérification des hypothèses
formulées dans le cadre des moindres carrés ordinaires (MCO). Il s’agit des problèmes de normalité,
de multi-colinéarité, d’autocorrélation des erreurs, d’hétéroscedasticité et de l’endognéité.
5.1. Normalité
Une variable est dite normale ou gaussienne (ou une variable suit une loi normale) lorsqu’elle est
continue et elle est caractérisée par deux paramètres la moyenne et l’écart-type
Le test de Jarque-Bera, proposé en 1980 par Carlos Jarque et Anil Bera, est parmi les tests de
normalité les plus populaires dans les milieux académiques. Mais la remarque à faire, d’ores et déjà,
est qu’il est particulièrement approprié pour grand échantillon, soit n > 88. Le test JB est fondé sur
les coefficients d’asymétrie et d’aplatissement. Sa richesse consiste à ce qu’il permet de conclure à
la fois sur l’asymétrie et l’importance des queues [aplatissement] d’une distribution.
La statistique du test
La statistique du test est calculée comme suit :
𝑆2 (𝐾−3)2
JB = n [ 6 + 24
] où n est la taille de l’échantillon, Avec S : le Skewness et K : la Kurtosis.
Critère de décision :
1. Si JB ≥ à la valeur du χ2 (2) de la table au seuil α, alors RH0 de normalité.
2. Si non
Si pour des raisons théoriques, nous admettons habituellement que les séries étudiées sont
orthogonales, il convient de reconnaitre que, dans la pratique, cette hypothèse n’est pas toujours
vérifiée : les séries sont dans la majeure partie du temps plus ou moins liées entre elles, ce qui
engendre des conséquences non négligeables sur les estimateurs.
∑(𝑿−𝑿̅ )(𝒀− 𝒀
̅)
rxy = ̅ ) √(𝒀− 𝒀
𝟐 ̅ )𝟐
√(𝑿−𝑿
𝑵 ∑ 𝑿𝒀 – ∑ 𝑿 ∑ 𝒀
rxy = : coefficient de corrélation linéaire entre xi et xj.
√𝑵 ∑ 𝑿𝟐 − (∑ 𝑿)𝟐 √𝑵 ∑ 𝒀𝟐 − (∑ 𝒀)𝟐
Ce test s’appuie également sur les différents coefficients de corrélation entre les variables
explicatives prises 2 à 2 et se conduit en trois étapes :
Remarque :
Pour un modèle à deux variables explicatives parfaitement corrélées, on a : rx1,x2 = rx2,x1 = 1
1 1 ⋯
1
D = (1 1 ⋱
1)
⋮ ⋮
…⋱ 1
1 1
Alors D = 0. Par contre, lorsqu’il n’y a pas de corrélation (cas des variables orthogonales), on a
rx1,x2 = rx2,x1 = 0 et D = 1
1 0 ⋯
0
D = (0 1 ⋱
0)
⋮ ⋮
…⋱ 1
0 0
1 1
La statistique de test est χ2 cal = [1 – n + 6 (2𝑘 + 5)] log D χ2 = [2 𝐾 (𝑘 − 1)]
Remarque : Dans le cadre particulier de ce test k désigne nombre de variables explicatives y compris
le terme constant.
Résolution
1) Test de Klein
A la lecture des données, on a rxi,xj < R2 ce qui conduit à r2xi,xj < R2 , ∀i ≠ j . On en déduit une non
présomption de multi-colinéarité d’après le critère de Klein. Toutefois, les valeurs des
coefficients de corrélation sont assez élevées et proches du R2 , Ce résultat relatif à Klein
mérite donc d’être relativisé.
2) Test de Farar-Glauber
H0 : D = 1
H1 : D < 1
Il s’agit en réalité d’un ajout de l’ordre de « c » sur les éléments de la diagonale de la matrice X ' X
avec pour objectif la réduction des effets de la multi colinéarité.
Si nous pouvons identifier les variables à l’origine de la multi-colinéarité, la stratégie la plus efficace
consiste à éliminer les séries susceptibles de représenter les mêmes phénomènes que celle déjà
présentent dans le modèle, lors de la spécification du modèle. On est dans ce cas confronté à un
problème de choix du modèle optimal.
• Critère de maximisation du R2 ;
Toutefois, il convient de remarquer que dans la pratique les deux critères sont parfois difficiles à
mettre en œuvre de manière simultanée, il revient donc à l’économètre de choisir le critère
prépondérant.
Exercices résolus
L’analyse du graphique des résidus de la régression peut nous donner une idée sur la présence ou
non de l’auto corrélation. En effet, si les résidus semblent alignés sur une courbe, dans le repère (t,
et ) on parle d’auto corrélation positive, si par contre, ils alternent on parle d’auto corrélation
négative.
Hypothèse du test
H0 : ρ= 0 (absence d’autocorrélation)
H1 : ρ≠ 0 (présence d’autocorrélation)
Statistique du test
Règle de décision
Afin de mener à bien ce test, Durbin et Watson ont tabulé les valeurs critiques en fonction de la
taille de l’échantillon (n) et du nombre de variables explicatives (k) que compte le modèle. En outre,
la lecture de la table se fait au moyen de 02 valeurs d’aide à la décision notée d1 et d2. Par
construction, 0<DW<4, on a alors la règle de décision suivante :
ρ> 0 ? ρ= 0 ρ= 0 ? ρ< 0
0 d1 d2 2 4-d2 4-d1 4
Remarque :
La limite du test de Durbin-watson réside dans son incapacité à traiter les problèmes d’auto
corrélation d’un ordre supérieur à 1. C’est pour cela que ses travaux ont été généralisés par
Breusch-Godfrey.
Ce test traite des auto-corrélations de la forme : εt =ρε1 t−1 +ρε2 t−2 +...+ρεp t−p +νt avec νt →N(0,σv2 ) . Il
s’agit de l’autocorrélation d’ordre p. La procédure du test est la suivante :
Hypothèse du test
H0 :ρ1 =ρ2 = .... =ρp = 0 (Absence d 'autocorrélation)
Exemple
5.3 Hétéroscédasticité
i. Présentation des données sous forme de moyenne ; autrement dit, il s’agit des cas où les
variables explicatives sont les moyennes observées sur des groupes d’individus.
ii. Répétition des valeurs des variables explicatives.
iii. Typologie des données ; en effet, ce problème est assez fréquent sur les données en coupe
instantanée.
En effet, considérons un modèle linéaire général dans lequel la variance des erreurs
Pour déterminer un estimateur β possédant les mêmes propriétés que l’estimateur des MCO, on
montre qu’il suffit de poser : β = (X 'Vε−1X )−1 (X 'Vε−1Y) et Var (β) = (X 'Vε−1X )−1 . Cet estimateur est
appelé estimateur des moindres carrées généralisées (MCG) ou estimateur de AIKEN.
Remarque : l’estimateur des MCO (βˆ =(X ' X)−1 (X 'Y)) est un cas particulier des MCG. En effet, dans
le cadre des MCO, on a Var(εi2 ) = E(εε') ≠ σ2 I .
On vérifie aussi que : Var (β) = σε2(X ' X )−1 =Var (βˆ) .
Ce test est appliqué le plus souvent dans le cadre des modèles de régression simple, lorsque la
variable explicative est répétée. Dans ce cadre les données sont regroupées suivant la variable
explicative et le test conduit sous l’hypothèse :
Ce test est valable lorsque l’une des variables explicatives est à l’origine de l’heteroscadasticité.
Hypothèses du test :
Etape 3 : Estimation du modèle, respectivement dans les deux sous échantillons crées de part et
d’autre des valeurs omises. Notons SCR1 et SCR2 les sommes des carrés des résidus des deux
estimations précédentes. On montre que :
. Si Fcal > Flu (ddl2 , ddl1) alors rejeter l’hypothèse nulle d’homoscedasticité.
Détection de l’autocorrélation On se place ici dans un modèle de série temporelle. Les erreurs sont
inconnues. Seuls les résidus apportent une information sur les erreurs. L’autocorrélation
concernent donc les résidus. L’autocorrélation représente des corrélations à l’intérieur de la série
des résidus. Il y a autocorrélation toutes les fois où l’on peut trouver un coefficient de corrélation
linéaire significativement différent de 0, entre la chronique des résidus et elle-même, retardée d’un
ou plusieurs pas de temps. Ces coefficients d’autocorrélation peuvent se représenter
graphiquement dont la représentation graphique s’appelle le corrélogramme. L’ensemble des
coefficients de corrélation s’appelle la fonction d’autocorrélation.
Exemple : Si les résidus sont une bonne représentation de l’aléa, ils doivent vérifier l’hypothèse de
non autocorrélation. Cela signifie que toutes les autocorrélations successives doivent être
significativement proches de 0 (barres courtes). Il existe deux types d’autocorrélation des résidus
: Autocorrélation positive Autocorrélation négative
Principales causes de l’autocorrélation - Le modèle ignore une variable explicative - Les variables de
départ étaient saisonnières - Les variables contiennent des phénomènes exceptionnels, mal
expliqué par le modèle oubli d’une variable dichotomique ?) - Les variables de départ des non-
Dans les modèles ne comportant qu’une seule équation, une hypothèse implicite supposait
que la relation de cause à effet entre la variable dépendante Yt et la (les) variable(s)
explicative(s) était unidirectionnelle : les variables explicatives étaient la cause et la variable
dépendante l’effet. Or, nombre des théories économiques sont basées sur des modèles à
plusieurs équations, c'est-à-dire des systèmes d’équations. Ces équations n’étant pas
indépendantes les unes des autres, l’interaction des différentes variables peut avoir des
conséquences importantes au niveau de l’estimation de chacune des équations et du
système d’équations dans son ensemble.
Donc, on ne peut pas, sauf cas particulier, utiliser efficacement la méthode des moindres
carrés ordinaires (MCO) équation par équation lorsqu’on cherche à tester des théories
économiques décrivant un système complet d’équations pour faire des prévisions
simultanées sur un ensemble des variables liées.
Un modèle est dit à équations simultanées (ou équations structurelles) s’il contient des
variables qui sont à la fois dépendante et indépendantes
– le modèle est juste identifié si toutes les équations sont justes identifiables ;
– le modèle est sur-identifié si les équations du modèle sont soit justes identifiables, soit
sur-identifiables.
Nota : Il y a r restrictions, autres que celles d’exclusion, concernant les paramètres d’une
équation (en cas d’égalité de deux coefficients, par exemple ; deux variables différentes
ont une même pondération ou coefficient), Il y a aussi une restriction sur un coefficient de
la forme structurelle, chaque fois qu’un paramètre est contraint – par l’écriture du modèle
– à être égal à une valeur déterminée.
Lorsque les restrictions ne sont que des restrictions d’exclusion, les conditions –
nécessaires – d’identifiabilité19 s’énoncent ainsi :
Ce qui peut se résumer ainsi : pour qu’une équation ne soit pas sous-identifiée, le nombre
de variables exclues de l’équation doit être au moins égal au nombre d’équations du
modèle moins un.
Lorsque nous sommes en présence d’un modèle linéaire à équations multiples, il arrive
fréquemment qu’une variable endogène d’une équation apparaisse en tant que variable
explicative d’une autre équation. Ce double statut de certaines variables entraîne un biais
dans les estimations des coefficients lorsque nous employons les MCO, équation par
équation. Nous allons donc chercher à transformer le modèle initial en un modèle où les
variables endogènes ne sont exprimées qu’en fonction des variables exogènes.
A. Exemple introductif
19
Ces conditions – nécessaires – sont appelées conditions d’ordre d’identifiabilité. Il convient de vérifier des
conditions suffisantes, qualifiées de conditions de rang qui, dans la pratique, se révèlent difficiles, voire parfois
impossibles à mettre en œuvre. En annexe, ces conditions sont exposées.
Yt = Ct + It (3)
Avec :
Ct = consommation totale pour l’année t ;
It = investissement total pour l’année t ;
Yt = revenu total pour l’année t.
Ce système d’équations multiples, spécifié par l’économiste, qui traduit directement les relations
entre les variables, s’appelle : le système d’équations structurelles. Ce modèle comporte trois
équations dont une identité (3). En effet, dans la relation (3), il n’y a aucun coefficient à estimer et
par conséquent pas de terme aléatoire. L’équation (1) est une fonction de consommation et
l’équation (2) est relative à l’investissement.
Ce système contient trois variables endogènes : Ct, It , Yt et deux variables exogènes Yt−1 et u (avec
u : une matrice unité). Nous remarquons, par exemple, que la variable Yt apparaît comme variable
explicative en [1], ce qui est contraire à son statut de variable endogène.
Pour lever ce problème, nous allons exprimer les trois variables endogènes (Ct, It, Yt) en fonction
de la seule variable exogène (Yt−1). En substituant [3] dans [1], nous obtenons :
Ct = a0 + a1Ct + a1 It + ε1t *
Ct - a1Ct = a0 + a1 It + ε1t
𝑎0 𝑎1 𝜀1𝑡
Ct = (1 − 𝑎1)
+ (1 − 𝑎1)
It + (1 − 𝑎1)
(4) 2 dans 4
Forme réduite de 1 et 2
Ct = 𝝅𝟎 + 𝝅𝟏𝒀𝒕 − 𝟏 + 𝑽𝟏𝒕
Yt = 𝝅𝟐 + 𝝅 3Yt-1 + V2t
It = 𝝅𝟒 + 𝝅𝟓𝒀𝒕 − 𝟏 + V3t
Nota :
L’équation [E5] indique que la variable Yt est fonction de ε1t et par conséquent E(Yt ε1t) ≠ 0 . Il en
résulte que, dans l’équation [E1], l’hypothèse d’indépendance entre la « variable explicative » Yt et
l’erreur ε1t n’est pas respectée et l’application des MCO sur le modèle [E1] conduit à des estimateurs
biaisés et non convergents.
En revanche, l’utilisation des MCO sur les équations réduites est licite puisque la variable Yt−1 est
indépendante de ε1t et ε2t .
Il est à noter que la forme réduite permet de mesurer l’effet total, direct et indirect, d’une
modification de la variable exogène Yt−1 sur les variables endogènes.
Travail demandé
2. En estimant les paramètres de ce système d’équations par la méthode des MCO, les
estimateurs sont- ils BLUE ? pourquoi ?
5. Si l’équation de Yt inclut Y2t-1 en tant que variable explicative additionnelle, quelle sera
alors l’identification des équations du modèle ? Préciser la technique d’estimation
appropriée.
Exercice 2
Années t Ct Zt Yt
2014 1 90 20 110
2015 2 95 23 118
Et le modèle suivant :
Ct = α + β Yt + Ɛt
Yt = Ct + Zt
Travail à faire
Rt = β1 Ct + α1Dt + Ɛ1t
Ct = β2 Rt + α2Rt-1 + Ɛ2t
Année Rt Ct Dt Rt-1
2017 -4 10 5 -30
2020 -9 6 -13 -6
2021 11 -12 25 -9
9 10 5 11
2022 19 11 32 9
2023 29 19 14 19
Travail à faire
Avec :
2 -4 10 5 -30
4 -6 -11 -6 -19
5 -9 6 -13 -6
6 11 -12 25 -9
7 9 10 5 11
8 19 11 32 9
9 29 19 14 19
2) Estimer les équations de la forme structurelle par les MCO et démontrer que les
estimateurs ne sont pas BLUE.
INTRODUCTION A L’ECONOMETRIE / L3 ECONOMIE UNILU 2024 HESHEMU KATEBULA Héritier p 78
3) Estimer les coefficients par les MCI et les DMC.
1. Définitions
Une série temporelle (ou série chronologique ou chronique) est une suite ordonnée d’une
observation, d’une grandeur au cours du temps.
L’étude des séries temporelles intéresse tous ceux qui désirent décrire, expliquer,
contrôler, prévoir des phénomènes évoluant au cours du temps.
Temps
8.2 Stationnarité
L’objectif des séries temporelles étant de faire des prévisions d’une variable dans le temps,
il est très commode et normale de commencer par tester si la série est stationnaire dans le
temps
Cette liaison peut être naturelle, comme l’influence de saison sur la consommation
mensuelle d’électricité.
Celle-ci regroupe tout ce qui n’est pas pris en compte par les composantes précédentes, et
notamment les multiples influences extérieures qui ont pour caractéristique de ne pas avoir
d’impact important sur l’allure générale de la série.
Correspond à des fluctuations irrégulières en général, des faibles intensités mais de nature
aléatoire, on parle aussi d’aléa (Ɛt). Composante accidentelles grèves, conditions
météorologiques désastreuses crash boursier
Une autre composante faisant objet d’une étude particulière traduit un phénomène
cyclique se répétant sur des durées plus longues en économie principalement (ex
expansion/récession) un autre exemple du cycle de JUGLAR
3. Méthodes de décomposition
Modèle additif Yt = Tt + Ct + St + Rt
Méthode graphique pour déterminer le type de modèle, on peut aisément se servir d’une
représentation graphique
Si on relie le maxima distant d’une période et on fait de même avec le minima et si les deux
courbes sont à peu près parallèles, il s’agit d’un mouvement additif, si non d’un mouvement
multiplicatif
La méthode de Buys et Ballot consiste à calculer pour chacune des années la moyenne et
l’écart-type puis à vérifier la liaison entre l’écart type et la moyenne par la méthode des
moindres carrés. Nous devons rechercher le modèle :
𝜎𝑋 = 𝑎𝑋̅ + b
1. a=0 𝜎𝑋 = b, le modèle est additif (les écart-types sont constants pendant la période)
2. a ‡ 0 l’ecart-type est fonction de la moyenne, le modèle est multiplicatif. Les écart-types
ne sont pas constants pendant la période.
5. Détermination de la tendance
Nous donnons ici trois méthodes de calcul permettant de connaitre avec le maximum de
précision la tendance de la chronique.
Cette approche repose sur l’hypothèse que la tendance peut être représentée par une
courbe, supposée définie a priori, d’équation Y = f(t) ou t est le temps.
Les coefficients sont estimés à l’aide de la méthode des moindres carrés ordinaires. On
obtient les résultats suivants :
Le filtre moyenne mobile permet d’écrêter les pics et les creux d’une chronique afin de
mieux déceler sa tendance de fond.
Il s’agit de calculer une moyenne sur un certain nombre de valeurs de la série et de l’affecter
à une période donnée.
𝑋𝑡 +𝑋𝑡−1+𝑋𝑡−2+⋯𝑋𝑡−𝑚+1
Mt = 𝑚
Pour le choix de l’ordre de la moyenne mobile, on a coutume de retenir les valeurs suivantes
:
Exercices
2022 2 41
3 60
4 65
5 58
6 52
2023 7 68
8 74
9 60
2024 10 56
11 75
12 78
Travail à faire
Exercices
Exemple du CAC 40
Exercices
Saporta G. (2006), Probabilités, analyses des données et statistique, paris, éditions Technip
Bocquier Philippe (1996), « L’analyse des enquêtes biographiques à l’aide du logiciel STATA
», Documents et Manuels du CEPED n°4, Paris, 224 p.
Christopher Baum F. (2001), « Stata : the language of choice for time series analysis », in The
Stata Journal 1, number 1, pp. 1-16. Couderc Nicolas, « Econométrie appliquée avec Stata »,
Université Paris 1 Panthéon-Sorbonne, 22 p.
00000000000000000000000000000000000000