Vous êtes sur la page 1sur 16

Econométrie

Définition : il s’agit de l’étude des relations entre des grandeurs statistiques, l’objectif étant
d’expliquer une grandeur par une autre.

L’économétrie peut être formalisée et expliquée par 6 étapes :

 Représentation théorique des grandeurs : il faut construire un lien logique


hypothétique entre les deux variables.
 Régression : Détermination du comportement moyen par une « droite des moindres
carrés ordinaires »
 Mesure de l’imprécision : Mesurer la fiabilité des résultats.
 Définition d’un cadre d’hypothèses
 Prévisions et anticipations
 Autres facteurs explicatifs : il faut déterminer d’autres variables qui peuvent expliquer
le comportement ainsi que leurs poids respectifs.

Chapitre 1 : Les modèles à une équation et à une variable explicative.


Dans ce cas, il s’agit d’expliquer une variable (y) par une « variable explicative » (x), où :

Y = f (x) + ε
Avec ε, le degré d’erreur. Il permet de préciser que la valeur de y n’est pas complètement
déterminée par la valeur de x. Il suppose que tous les points ne sont pas parfaitement alignés à
la courbe. N’oublions pas le caractère approximatif de l’économétrie.

Chercher la fonction f(x) revient à spécifier la relation entre y et x. Cela revient à sélectionner
le type de modèle. Puis, une fois le modèle choisi, il faudra estimer les valeurs des paramètres
de l’équation. Enfin, il sera nécessaire d’évaluer leur degré de précision.

1) Quels types de modèles ?

Le problème, lorsque nous disposons des grandeurs statistiques sur x et y, est d’établir une
relation sous forme de modèle théorique entre les deux variables. Cependant, la simple
observation ne permet pas toujours de connaître, avec précision, le modèle auquel on aura
affaire. On devra donc, au départ, supposer que ce modèle est purement hypothétique. La
théorie nous permet d’établir une relation supposée entre des grandeurs (demande et le prix)
mais le choix de la forme est une hypothèse. Elle sera confirmée ou infirmée par la suite en
appliquant des méthodes d’évaluation dont l’observation de la réalité.

 Modèle linéaire : il signifie que la relation entre x et y est linéaire avec la forme d’une
droite. Cela veut dire que si x augmente de a unités, y augmente aussi de a unités. Les
variations absolues sont identiques. Il prend la forme : y = ax+b
 Modèle exponentielle : ce modèle suppose un taux de croissance constant. Autrement
dit, chaque variation absolue de x aura toujours le même effet sur la variation relative
de y. Il prend la forme : y =

La relation est croissante si a est positif.

 Modèle logarithmique : Il a une logique inverse au modèle exponentielle puisqu’il


présuppose qu’une variation relative de x aura toujours le même effet sur la variation
absolue de y. Dit autrement, la variation de y est proportionnelle au taux de variation
de x. Il a la forme : y = aln(x)+b

La relation est croissante si a est positif.

 Modèle log-linéaire : il est utilisé lorsque la variation relative de x a toujours le même


effet sur la variation relative de y. Le taux de variation de y est proportionnelle au taux
de variation de x. Il prend la forme y =
La fonction est croissante et convexe si a est supérieur à 1. Si a est compris entre 0 et 1, la
croissance est concave. Si a est négatif, la relation est décroissante

Remarque : Le modèle logarithmique est le moins utilisé alors que le log-linéaire est le
privilégié des économistes.

La caractéristique fondamentale de ces 4 modèles est qu’ils supposent une relation monotone
entre les phénomènes (soit croissant, soit décroissant). De plus, les asymptotes qui les
définissent sont toujours les axes du repère.

Nous allons voir maintenant qu’il existe d’autres relations non monotones ou admettant des
asymptotes à divers endroits.

 Modèle parabolique : Il suppose qu’on change de monotonie à un point appelé


« extremum ». Il a la forme d’un « U » à l’endroit ou à l’envers. Il s’écrit :
Y = ax²+bx+c.

Si a est positif, il a la forme d’un « U » à l’endroit. Sinon, il a la forme d’un « U » à l’envers.

 Modèle hyperbolique : Il est utilisé dès lors qu’on pense qu’une asymptote non nulle
existe, soit horizontale, soit verticale, soit les deux à la fois.

 Modèle logistique : Il est utilisé pour un changement de concavité. La relation est


d’abord convexe puis devient concave ou inversement. En réalité, cela signifie que la
monotonie change de rythme de variation. La hausse s’accélère puis se ralentit ou la
baisse s’accélère puis ralentit.

La courbe admet deux asymptotes horizontales.


2) L’application de la méthode des moindres carrées ordinaires au cas linéaire.

Une fois le modèle choisi et croyant qu’il est correct, il faut passer à l’étape de l’estimation
qui consiste à déterminer les valeurs des paramètres a et b, ceux qui définissent même la
relation statistique.

Prenons comme exemple le cas linéaire. Il suppose que f(x) = ax + b

L’objectif, lorsque l’on désire trouver la relation qui unie x et y, est de faire en sorte que les
erreurs soient les plus petites possibles. Ces erreurs constituent la distance entre le point et la
droite. Nous supposons que cette distance est parallèle à l’axe des ordonnées.

Yi

L’erreur constitue donc l’écart existant entre la valeur effective de y et sa valeur estimée :

ei = yi – ŷi = yi – axi - b

Ainsi, pour que l’estimation soit la plus fiable possible, il faut que : ∑ ei = 0

En résolvant l’équation, on aboutit à : . On appelle cette expression la


« minimisation des écarts simples » : il suffit que la droite passe par le point moyen de x et de
y. Le problème majeur de cette résolution est qu’il existe une infinité de droite qui passe par
le point moyen. En plus, elle implique que les écarts positifs soient compensés par les écarts
négatifs, d’où l’obtention de la moyenne. Mais, ce que l’on souhaite est que quelque soit les
écarts (positifs ou négatifs), ils soient les plus faibles possibles.

C’est pour cette raison que l’on recourt à la MMCO : « minimisation du carré des écarts ».

On met tous les écarts au carré pour les rendre positifs et ainsi éviter le problème soulevé par
le premier cas.

Après résolution, on aboutit à la conclusion :

 La droite passe par le point moyen




3) L’application de la méthode des moindres carrées ordinaires au cas non linéaire.

Elle nécessite de respecter une règle : il faut que la fonction non linéaire soit linéarisée avant
d’appliquer la MMCO. Cette règle découle des conditions de difficulté de résolution d’un
programme d’une fonction non linéaire.

Exemple : f(x) =

On applique le log  ln (y) = ax + b. Ensuite, on applique la MMCO : Min ∑ ei² = Min ∑


(ln y – ax – b)²

On obtient alors :

 La droite passe par le point moyen



4) Mesure de la qualité de l’estimation.

Comme nous savons que la relation entre x et y est « approximative » voir « hypothétique »,
nous devons être capable d’étudier la qualité du modèle.

 Propriétés du résidu « e »

Nous savons déjà que le résidu correspond à l’écart entre la valeur effective de y et sa valeur
estimée, soit :

Compte tenu de la MMCO, l’erreur (ou résidu) possède un ensemble de propriétés :

 En moyenne, l’erreur est nulle.

 La covariance de x et de e est nulle  Cov (X,e) = 0


Il n’existe donc aucune relation entre x et e. Les erreurs sont indépendantes de la
variable x.
 La covariance de e et de l’estimation y est aussi nulle 
 1ère méthode : Equation ANOVA

+
V(e)
V(y)
V(

Pour mesurer la qualité de l’estimation, il suffit de comparer V(y) et V(ŷ) : plus les deux
valeurs seront proches, et plus l’estimation sera de bonne qualité, étant donné que plus V(e)
sera faible. Le point sera alors d’autant plus proche de la droite que V(e) sera faible.

On peut également noter l’équation différemment :

 V(e) : Numérateur de variance résiduelle (il s’agit d’un résidu non expliqué par le
modèle)
 V(y) : Numérateur de variance totale
 : Numérateur de variance expliquée

L’équation devient alors : NVT = NVE + NVR

 2ème méthode : Coefficient de détermination

Le coefficient de détermination nous permet de connaître la proportion de la variance de Y


qui peut être expliquée par le modèle.

Plus r² est proche de 1, plus l’estimation est parfaite car plus les erreurs sont faibles. Plus il est
proche de 0, moins l’estimation est bonne. A r² = 1, l’estimation est parfaite, les erreurs sont
nulles (les points sont sur la droite). Le modèle explique la totalité des variations de Y.
Remarque : le coefficient est nécessairement inférieur à 1 puisque < V(y) (voir équation
ANOVA)

On peut aussi l’écrire :


Dans ce cas, nous remarquons que plus la covariance entre X et Y est élevée, plus le r² le sera
aussi. Plus on observera une corrélation forte entre les deux variables et plus le modèle sera de
bonne qualité. De même, plus les variances des variables seront élevées et plus le r² sera
faible. Cela paraît évident puisqu’une variance élevée implique que les valeurs sont éloignées
de leur moyenne et donc tout porte à croire qu’il est difficile dan ce cas d’estimer, à partir
d’un modèle, les valeurs de Y.

Malheureusement, le r² dispose de nombreux défauts ou en tout cas de plusieurs limites :

- Il n’existe pas de borne à partir de laquelle on peut juger de l’efficacité du r².


- Le r² est toujours positif. On ne peut donc pas savoir si X agit positivement ou
négativement sur Y. Il suffit alors de calculer un « coefficient de corrélation
linéaire »

3 cas possibles :

 r = 0 : Faible qualité
 r = -1 : Qualité parfaite mais x agit négativement sur y.
 r = 1 : Qualité parfaite mais x agit positivement sur y.

- Le r² nous donne l’existence d’une corrélation entre X et Y mais non d’un lien de
causalité. Nous ne savons donc pas si X agit sur Y ou si c’est l’inverse.
 3ème méthode : Test de Student (test de significativité partielle : 1 variable)

Test bilatéral :

On décide H0 si :  a est significativement égal à 0

Avec : sâ = erreur d’estimation ; tα (α ; nddl) = risque accepté sous α, le risque d’erreur.

Test unilatéral à droite :

On décide H0 si :

Test unilatéral à gauche :

On décide H0 si :

 Le test est partiellement ou non significatif

 4ème méthode : Test de Fisher (test de significativité globale : plusieurs variables)

Test bilatéral :

On décide H0 si :

Avec Fα (k = nombre de variables ; nombre de degré de liberté = n-k-1 ; α)

5) Intervalle de confiance des coefficients.


Il nous donne la gamme des valeurs que peut prendre le coefficient a.

Avec = erreur d’estimation.

6) La prévision.

Il existe deux types de prévisions :

 Prévision ponctuelle : on suppose que le modèle reste le même dans le futur.


On applique donc l’équation à la situation future.

 Prévision par intervalle : On construit un intervalle de confiance pour les valeurs


futures.

Avec = erreur de prévision

Chapitre 2 : Les modèles à plusieurs variables explicatives.


Cette fois-ci, il s’agit d’expliquer une variable y par plusieurs variables explicatives.

y = f (x1, x2, x3, …, xk) + ε


1) La détermination des coefficients pour un modèle à deux variables.

y = a0 + a1 x1 + a2 x2

2) La mesure de la qualité de l’estimation

 1ère méthode : Coefficient de détermination

 Coefficient global : cf r²
 Coefficient partiel : Il mesure la contribution marginale de
chaque variable explicative.

La valeur du coefficient partiel nous donne la contribution marginale de la variable à


l’explication du reste à expliquer sans celle-ci.

 2ème méthode : Test de Fisher.

On décide H0 si :

 Le test est globalement ou non significatif :

 3ème méthode : Test de Student.


Le test de Student ne concerne qu’une seule variable à la fois.

On décide H0 si :  a est significativement égal à 0

Si le modèle est globalement significatif et significatif en toutes ses parties, on dit qu’il
est STATISTIQUEMENT SATISFAISANT.

 4ème méthode : les procédures de Stepwise.

L’objectif de ces procédures est de pouvoir disposer de modèles statistiquement satisfaisant.

 Stepwise descendant : Il s’agit de supprimer toutes


les variables non significatives. Pour cela, on va
commencer par supprimer les variables les moins
significatives, puis étudier, à chaque suppression, si
la significativité des autres variables restantes n’a
pas changé. On continue jusqu’à temps que l’on ait
plus de variables non significatives
 Stepwise ascendant : Même chose mais cette fois-ci,
on introduit une à une des variables significatives

3) L’introduction de variables qualitatives.

L’objectif est d’intégrer, dans le modèle, une variable explicative qualitative. Pour
cela, il faut transformer cette variable en variable quantitative, et plus précisément, en variable
BINAIRE, DICHOTOMIQUE (exemple : genre  Fille ou garçon).

Lorsqu’on dispose d’une variable qualitative, qui se subdivise en modalités, il nous suffit
d’avoir n-1 modalités, pour intégrer la variable qualitative. Autrement dit, on ne prend pas en
compte l’une des modalités de la variable, car elle est supposée intégrer aux autres.

On va s’intéresser, dans notre cas, aux modalités ordonnées : l’accès à une modalité dépend
du respect des modalités précédentes. Pour cela, on utilise des variables « DUMMIES »
c’est-à-dire des variables qui rendent compte séparément de l’impact de chacune d’entre elles

Chapitre 3 : Le non-respect des hypothèses de la MMCO


1) Les hypothèses de la MMCO.
Lorsqu’on applique la MMCO, on suppose implicitement que cette méthode répond à
plusieurs hypothèses :

 La relation entre x et y est la même pour toutes les observations


 La relation est linéaire ou linéarisable.
 Les erreurs sont des variables aléatoires normales : aucune capacité sur les erreurs.
 Les variables explicatives ne sont pas des variables aléatoires.
 Les erreurs sont d’espérance mathématique nulle : en moyenne, il n’y a pas d’erreurs.
 Les erreurs ne sont pas covariantes entre elles : pas de lien entre elles.
 Homoscédasticité : la variance des erreurs est constante.
 La variance des variables explicatives ne doit pas tendre vers zéro.
 Lorsque le nombre de données augmente et tend vers l’infini, la moyenne des x ne
tend pas vers l’infini.
 Les variables explicatives doivent être indépendantes.

Cependant, il se peut que l’on commette des infractions au respect des hypothèses. Que se
passe-t-il dans ce cas ?

2) La dépendance ou colinéarité des variables explicatives.

En effet, il se peut que les variables explicatives soient dépendantes les unes des
autres, pour certaines d’entre elles, ce qui signifie que Cov (x1, x2) est élevée. Or, plus celle-ci
est élevée, et plus la variance des estimateurs sera, elle aussi, élevée. Par conséquent, le
modèle sera de moins bonne qualité.

Solution : L’augmentation du nombre d’observations va augmenter la variance des variables


explicatives (les observations seront différente plus amplement) et moins la covariance aura
d’impact.

3) L’auto-corrélation des erreurs.

Cela pose un double problème :

 On n’est plus capable d’estimer la variance des erreurs V(e)


 On n’est plus capable de mesurer la variance des estimateurs.

Ainsi, on ne peut plus mesurer la fiabilité des résultats.

Diagnostic du problème : une situation de parfaite indépendance entre les erreurs correspond
à une situation où l’erreur suivante ne dépend pas de l’erreur précédente. Ainsi, le parcours
graphique des erreurs est parfaitement aléatoire.

Dans le cas où il existe une corrélation entre les erreurs, le parcours n’est plus aléatoire et les
erreurs dépendant des erreurs précédentes

 Tendance à l‘inertie : Les erreurs prennent des valeurs proches des précédentes.
Ei

temps

 Tendance à la compensation : L’erreur positive compense l’erreur négative suivante.

ei

Numériquement, on peut calculer un coefficient de DURBIN-WATSON :

Pour savoir s’il y a corrélation ou non, il suffit de réaliser un Test de Durbin-Watson :

Avec p : coefficient de corrélation théorique.


Avec d2 = f(k, n), à déterminer avec une table du Durbin-Watson.

4) L’erreur de spécification

Il s’agit de mettre en évidence une mauvaise relation entre y et xi : on pense que la


relation est linéaire alors qu’elle est exponentielle ou log-linéaire par exemple.

Diagnostic du problème :

 Faiblesse du coefficient de détermination r².


 Faiblesse du Durbin-Watson : DW < 2.
 Hétéroscédasticité : Les erreurs deviennent de plus en plus variantes, ce qui
signifie que la variance des erreurs est croissante.

5) L’oubli d’une variable explicative importante.

Au sein du modèle, on oublie une variable importante : au lieu de deux variables, on


en estime qu’une seule. Ce qui est dangereux, dans ce cas-là, est que peut s’opérer un
transfert sur les variables explicatives existantes. Autrement dit, la variable explicative va
capter, à elle seule, l’effet de son existence ainsi que l’effet de la variable oubliée. Ainsi, soit
on surestime un coefficient, soit on le sous-estime. Dans le premier cas, on augmente la
significativité de la variable à un niveau qu’elle n’a pas réellement, dans le second, on réduit
sa significativité et elle peut disparaître.

Diagnostic du problème :

 Faiblesse du Durbin-Watson.
 Hétéroscédasticité

6) Changement et différence de régime.

Le changement de régime correspond à une inflexion ou accélération du modèle, au


cours du temps. Autrement dit, le modèle change d’orientation linéaire.
La différence de régime correspond à la cohabitation au sein d’une population, d’un
même phénomène, mais avec des paramètres différents pour des sous-groupes de cette
population.

Diagnostic du problème :

 Faiblesse du r²
 Durbin-Watson faible
 Hétéroscédasticité.

Solution au changement de régime : Pour résoudre ce problème, on intègre une variable


« Dummy » : avant le changement, on applique le modèle, mais après celui-là, on applique
une Dummy D=0 sur la première partie et D=1, pour la seconde partie du modèle.

7) L’Hétéroscédasticité.

Définition : il signifie la non-constance des erreurs. Les erreurs ont des valeurs qui se situent
dans une gamme de plus en plus grande ou de plus en plus petite. Plus les observations
augmentent, et plus les erreurs s’éloignent de 0  Entonnoir.

Ei

Entonnoir
Diagnostic du problème :

 Test de Goldfeld – Quandt : l’idée est de diviser les observations en trois


parties et de comparer la variance des erreurs de la première et de la
dernière.

 Test de Gleisjer : On va cette fois, s’intéresser aux droites rouges, qui sont
symétriques par rapport à x.

est significatif.

Remarque fondamentale : LE DURBIN-WATSON MET EN EVIDENCE UNE


MULTITUDE DE PHENOMENES DONT :

 Auto-corrélation des erreurs


 Erreur de spécification
 Oubli d’une variable explicative
 Changement de régime.

Vous aimerez peut-être aussi