Académique Documents
Professionnel Documents
Culture Documents
Définition : il s’agit de l’étude des relations entre des grandeurs statistiques, l’objectif étant
d’expliquer une grandeur par une autre.
Y = f (x) + ε
Avec ε, le degré d’erreur. Il permet de préciser que la valeur de y n’est pas complètement
déterminée par la valeur de x. Il suppose que tous les points ne sont pas parfaitement alignés à
la courbe. N’oublions pas le caractère approximatif de l’économétrie.
Chercher la fonction f(x) revient à spécifier la relation entre y et x. Cela revient à sélectionner
le type de modèle. Puis, une fois le modèle choisi, il faudra estimer les valeurs des paramètres
de l’équation. Enfin, il sera nécessaire d’évaluer leur degré de précision.
Le problème, lorsque nous disposons des grandeurs statistiques sur x et y, est d’établir une
relation sous forme de modèle théorique entre les deux variables. Cependant, la simple
observation ne permet pas toujours de connaître, avec précision, le modèle auquel on aura
affaire. On devra donc, au départ, supposer que ce modèle est purement hypothétique. La
théorie nous permet d’établir une relation supposée entre des grandeurs (demande et le prix)
mais le choix de la forme est une hypothèse. Elle sera confirmée ou infirmée par la suite en
appliquant des méthodes d’évaluation dont l’observation de la réalité.
Modèle linéaire : il signifie que la relation entre x et y est linéaire avec la forme d’une
droite. Cela veut dire que si x augmente de a unités, y augmente aussi de a unités. Les
variations absolues sont identiques. Il prend la forme : y = ax+b
Modèle exponentielle : ce modèle suppose un taux de croissance constant. Autrement
dit, chaque variation absolue de x aura toujours le même effet sur la variation relative
de y. Il prend la forme : y =
Remarque : Le modèle logarithmique est le moins utilisé alors que le log-linéaire est le
privilégié des économistes.
La caractéristique fondamentale de ces 4 modèles est qu’ils supposent une relation monotone
entre les phénomènes (soit croissant, soit décroissant). De plus, les asymptotes qui les
définissent sont toujours les axes du repère.
Nous allons voir maintenant qu’il existe d’autres relations non monotones ou admettant des
asymptotes à divers endroits.
Modèle hyperbolique : Il est utilisé dès lors qu’on pense qu’une asymptote non nulle
existe, soit horizontale, soit verticale, soit les deux à la fois.
Une fois le modèle choisi et croyant qu’il est correct, il faut passer à l’étape de l’estimation
qui consiste à déterminer les valeurs des paramètres a et b, ceux qui définissent même la
relation statistique.
L’objectif, lorsque l’on désire trouver la relation qui unie x et y, est de faire en sorte que les
erreurs soient les plus petites possibles. Ces erreurs constituent la distance entre le point et la
droite. Nous supposons que cette distance est parallèle à l’axe des ordonnées.
Yi
L’erreur constitue donc l’écart existant entre la valeur effective de y et sa valeur estimée :
ei = yi – ŷi = yi – axi - b
Ainsi, pour que l’estimation soit la plus fiable possible, il faut que : ∑ ei = 0
C’est pour cette raison que l’on recourt à la MMCO : « minimisation du carré des écarts ».
On met tous les écarts au carré pour les rendre positifs et ainsi éviter le problème soulevé par
le premier cas.
Elle nécessite de respecter une règle : il faut que la fonction non linéaire soit linéarisée avant
d’appliquer la MMCO. Cette règle découle des conditions de difficulté de résolution d’un
programme d’une fonction non linéaire.
Exemple : f(x) =
On obtient alors :
Comme nous savons que la relation entre x et y est « approximative » voir « hypothétique »,
nous devons être capable d’étudier la qualité du modèle.
Propriétés du résidu « e »
Nous savons déjà que le résidu correspond à l’écart entre la valeur effective de y et sa valeur
estimée, soit :
+
V(e)
V(y)
V(
Pour mesurer la qualité de l’estimation, il suffit de comparer V(y) et V(ŷ) : plus les deux
valeurs seront proches, et plus l’estimation sera de bonne qualité, étant donné que plus V(e)
sera faible. Le point sera alors d’autant plus proche de la droite que V(e) sera faible.
V(e) : Numérateur de variance résiduelle (il s’agit d’un résidu non expliqué par le
modèle)
V(y) : Numérateur de variance totale
: Numérateur de variance expliquée
Plus r² est proche de 1, plus l’estimation est parfaite car plus les erreurs sont faibles. Plus il est
proche de 0, moins l’estimation est bonne. A r² = 1, l’estimation est parfaite, les erreurs sont
nulles (les points sont sur la droite). Le modèle explique la totalité des variations de Y.
Remarque : le coefficient est nécessairement inférieur à 1 puisque < V(y) (voir équation
ANOVA)
3 cas possibles :
r = 0 : Faible qualité
r = -1 : Qualité parfaite mais x agit négativement sur y.
r = 1 : Qualité parfaite mais x agit positivement sur y.
- Le r² nous donne l’existence d’une corrélation entre X et Y mais non d’un lien de
causalité. Nous ne savons donc pas si X agit sur Y ou si c’est l’inverse.
3ème méthode : Test de Student (test de significativité partielle : 1 variable)
Test bilatéral :
On décide H0 si :
On décide H0 si :
Test bilatéral :
On décide H0 si :
6) La prévision.
y = a0 + a1 x1 + a2 x2
Coefficient global : cf r²
Coefficient partiel : Il mesure la contribution marginale de
chaque variable explicative.
On décide H0 si :
Si le modèle est globalement significatif et significatif en toutes ses parties, on dit qu’il
est STATISTIQUEMENT SATISFAISANT.
L’objectif est d’intégrer, dans le modèle, une variable explicative qualitative. Pour
cela, il faut transformer cette variable en variable quantitative, et plus précisément, en variable
BINAIRE, DICHOTOMIQUE (exemple : genre Fille ou garçon).
Lorsqu’on dispose d’une variable qualitative, qui se subdivise en modalités, il nous suffit
d’avoir n-1 modalités, pour intégrer la variable qualitative. Autrement dit, on ne prend pas en
compte l’une des modalités de la variable, car elle est supposée intégrer aux autres.
On va s’intéresser, dans notre cas, aux modalités ordonnées : l’accès à une modalité dépend
du respect des modalités précédentes. Pour cela, on utilise des variables « DUMMIES »
c’est-à-dire des variables qui rendent compte séparément de l’impact de chacune d’entre elles
Cependant, il se peut que l’on commette des infractions au respect des hypothèses. Que se
passe-t-il dans ce cas ?
En effet, il se peut que les variables explicatives soient dépendantes les unes des
autres, pour certaines d’entre elles, ce qui signifie que Cov (x1, x2) est élevée. Or, plus celle-ci
est élevée, et plus la variance des estimateurs sera, elle aussi, élevée. Par conséquent, le
modèle sera de moins bonne qualité.
Diagnostic du problème : une situation de parfaite indépendance entre les erreurs correspond
à une situation où l’erreur suivante ne dépend pas de l’erreur précédente. Ainsi, le parcours
graphique des erreurs est parfaitement aléatoire.
Dans le cas où il existe une corrélation entre les erreurs, le parcours n’est plus aléatoire et les
erreurs dépendant des erreurs précédentes
Tendance à l‘inertie : Les erreurs prennent des valeurs proches des précédentes.
Ei
temps
ei
4) L’erreur de spécification
Diagnostic du problème :
Diagnostic du problème :
Faiblesse du Durbin-Watson.
Hétéroscédasticité
Diagnostic du problème :
Faiblesse du r²
Durbin-Watson faible
Hétéroscédasticité.
7) L’Hétéroscédasticité.
Définition : il signifie la non-constance des erreurs. Les erreurs ont des valeurs qui se situent
dans une gamme de plus en plus grande ou de plus en plus petite. Plus les observations
augmentent, et plus les erreurs s’éloignent de 0 Entonnoir.
Ei
Entonnoir
Diagnostic du problème :
Test de Gleisjer : On va cette fois, s’intéresser aux droites rouges, qui sont
symétriques par rapport à x.
est significatif.