Académique Documents
Professionnel Documents
Culture Documents
Exercices + Cours en Econometrie PDF
Exercices + Cours en Econometrie PDF
Linéaire
appliquée
Avec exemples pratiques
Plan du cours :
Travaux dirigés
Bibliographie :
1
Econométrie linéaire appliquée
L’économétrie est le principal outil d’analyse quantitative utilisé par les économistes et gestionnaires
dans divers domaines d’application. Comme la macroéconomie, la finance ou le marketing. Les
méthodes d’économétrie permettent de vérifier l’existence de certaines relations entre des
phénomènes économiques, et de mesurer correctement ces relations, sur la base d’observations et
de fais réels.
Quelques définitions
Définition 1. Etudes des relations quantitatives de la vie économique faisant appel à l’analyse
statistique et à la formulation mathématique.
Définition 2. L'économétrie exprime quantitativement les corrélations pouvant exister entre des
phénomènes économiques dont la théorie affirme l'existence. La théorie économique fournit des
idées sur les processus qui déterminent les grandeurs économiques, l'économétrie apporte une
vérification empirique et établit quantitativement les corrélations qui apparaissent valides.
Définition 4. L’économétrie est une branche de l’économie qui traite de l’estimation pratique des
relations économiques.
2
Econométrie linéaire appliquée
Un modèle consiste en une présentation formalisée d’un phénomène des idées sous forme
d’équations mathématiques.
Le raisonnement sur le modèle nous permet d’explorer les conséquences logiques des hypothèses
retenues, de les confronter avec les résultats de l’expérience, d’arriver ainsi à mieux connaitre la
réalité, et agir plus efficacement sur elle.
Comme toutes les variables économiques sont interdépendantes (notion de système), il n'est pas
suffisant de construire des équations isolées : il faut établir un système complet d'équations.
Exemple :
Depuis les premiers économistes classiques, ont sait que, sur un marché concurrentiel, l’équilibre des
échanges s’établie grâce à un arbitrage entre l’ensemble des offres et des demandes. Toutes les
ventes d’un même produit se concluent au même prix. Soient D et O les quantités demandées et
offertes d’n certain produit, un certain jour, sur un certain marché. Soit p le prix auquel s’effectuent
les échanges. Les quantités O et D dépendent des 𝑝, car les échangistes peuvent décider de ne pas
acheter ou de ne pas vendre si le prix ne leur donne pas satisfaction. Pour exprimer ce faite, on dit
qu’il existe deux fonctions, 𝐷 = 𝑓(𝑝) fonction de demande, et 𝑂 = 𝑔(𝑝) fonction de l’offre, qui
déterminent respectivement les quantités 𝐷 et 𝑂 à partir des 𝑝. Ceci convient à dire qu’une fois les
prix du produit sont connus, les quantités 𝐷 et 𝑂 le sont. Pour qu’il y ait équilibre sur le marché il faut
que 𝐷 = 𝑂. Formellement on a :
Modélisation
𝑂 =𝑎×𝑝+𝑏 (Introduction d’hypothèses
𝐷 = 𝛼×𝑝+𝛽 simplificatrices sur la forme de la relation)
Limites de cette relation : existence d’autres variables exogènes au modèle tels que le revenu, le prix
du bien de substitution, etc.
𝐷𝑡 = 𝑓(𝑝𝑡 )
𝑂𝑡 = 𝑔(𝑝𝑡−1 )
𝑂𝑡 = 𝐷𝑡 + ∆𝑡
3
Econométrie linéaire appliquée
La spécification retenue est une simplification, il est évident qu’il ne résume pas
toute la teneur de la relation (ex. dans les équations, la relation est vraiment
linéaire ?)
Il y a d’autres facteurs dont on ne tient pas compte (ex. le prix des autres de biens
qui peuvent se substituer au bien étudié).
Les erreurs de mesure sur les grandeurs étudiées, soit lors du processus de
récolte des informations, soit tout simplement parce que la donnée récoltée
représente peu ou prou le concept que l’on veut étudier.
Les variables représentent des grandeurs économiques observées ou mesurées. Ex. les
quantités vendues d’un bien, le prix d’un bien, des taux d’intérêt, le solde d’une balance
commerciale, le taux de change, etc.
La variable doit être représentative du phénomène que l’on étudie, de sa qualité dépend la
validité des résultats obtenus
La dispersion d’une variable aléatoire est régie par une loi de probabilité.
Ex. le résultat du jet d’une pièce de monnaie est une variable aléatoire, il prend deux valeurs
possibles «pile» ou «face», il suit une loi de Bernouilli de paramètre 𝑝 = 0.5.
Ex. Durée entre deux phénomènes, nombre d’occurrence d’un phénomène dans un laps de
temps, nombre d’essais avant d’obtenir un résultat, etc.
4
Econométrie linéaire appliquée
1. Quantitative
2. Qualitative nominale
3. Qualitative ordinale
Le critère le plus important pour distinguer les variables est de déterminer si l’écart entre deux
valeurs a un sens, et qu’elles sont comparables deux a deux.
Ex. Age, Salaires, Satisfaction, Type d’études suivies,…
La population définit l’ensemble d’individus sur lesquels nous voulons travailler : on parle
alors de population de référence ou de population parente ou population mère (ex. les
véhicules vendus au Maroc en 2005, etc.). Tous les résultats obtenus sont toujours relatifs à
(circonscrites à) une population.
Les enquêtes exhaustives consistent à observer tous les individus qui composent la
population. Opération très coûteuse.
On procède alors à un échantillonnage, on prélève une fraction de la population en veillant
à ce qu’il soit représentatif de la population c’est-à-dire refléter la composition et la
complexité de la population.
Le taux de sondage correspond au rapport entre la taille de l’échantillon et la taille de la
population.
Inférence statistique. Elle consiste alors à effectuer des études sur l’échantillon et transposer
les résultats sur la population.
Cette transposition n’est pas stricte, elle attache toujours une probabilité aux résultats et aux
conclusions émises.
5
Econométrie linéaire appliquée
Démarche économétrique
THEORIE
ESTIMATION ECONOMETRIQUE
RE SPECIFICATION DU MODELE
Attention : Distinguer ce qui relève de la simple régularité statistique (artefact) de ce qui représente
une causalité économique.
6
Econométrie linéaire appliquée
S’il existait une relation certaine entre consommation 𝐶 et revenu des ménages 𝑅, et que cette
relation était précisément la même pour tout le monde, on aurait pour chaque individu :
𝐶𝑖 = 𝐶0 + 𝑎𝑅𝑖
Dans ce cas, toutes les observations appartiendraient à la même droite, Il suffirait alors de connaitre
les observations pour 2 ménages seulement pour trouver les valeurs des paramètres 𝐶0 et 𝑎. Ce
cadre de figure ne se rencontre jamais car la réalité est plus complexe. En effet, aucun ménage ou
presque ne vérifie exactement la fonction de consommation keynésienne : Certains ménages sont
plus dépensiers, D’autres ménages sont très exposés au risque de chômage par exemple ils
cherchent à consommer moins pour économiser pour se constituer une épargne de précaution. Pour
gérer cette incertitude, on utilise une approche probabiliste en introduisant une variable aléatoire :
Le modèle économétrique que l’on considérera est alors le suivant :
𝐶𝑖 = 𝐶0 + 𝑎𝑅𝑖 + 𝑢𝑖
Bien entendu, on peut s’intéresser à d’autres modèles, par exemple, l’estimation d’une fonction de
production Cobb-Douglass, où la production 𝑌 (variable endogène) dépend des facteurs de
production, le capital 𝐾 et le travail 𝐿, ainsi que le temps 𝑡 :
𝑌 = 𝐴𝐿𝛼 𝐾 1−𝛼 𝐵𝑡
On remarque que ce modèle n’est pas linéaire tel que, mais on peut le rendre linéaire (dans les
variables) si on prend le logarithme de cette équation. En effet, on obtient :
𝑦 = 𝑎 + 𝛼𝑙 + (1 − 𝛼)𝑘 + 𝑡𝑏
1
𝑢𝑡 est un terme aléatoire non observable appelé : terme d’erreur, terme aléatoire ou perturbation aléatoire
7
Econométrie linéaire appliquée
Exemple :
Pendant dix ans, de 2001 à 2010, une ferme a expérimenté le rendement du Maïs (𝑦 en Tonnes par
hectare) associé à l’administration d’une quantité croissante d’un fertilisant (𝑥 en litres par hectare).
Le tableau (1.1) rassemble ces données qui sont également rapportées sur le diagramme de
dispersion de la figure (1.1). La relation existante entre 𝑥 et 𝑦 apparait approximativement linéaire,
les points (𝑥, 𝑦) se trouvent placés sur une ligne droit ou à son voisinage immédiat.
2003 3 46 12
80
2004 4 48 14
2005 5 52 16 60
2006 6 58 18
40
2007 7 60 22
2008 8 68 24 20
2009 9 74 26
0
2010 10 80 32
0 10 20 30 40
10 570 180
Fertilisant (Litres par hectare)
2
Ces hypothèses s’inscrivent respectivement : (2) 𝐸(𝑢𝑖 ) = 0 ; (4) 𝐸(𝑢𝑖 2 ) = 𝜎 2 , (pour tout i) ; (5) 𝐸(𝑢𝑖 , 𝑢𝑗 ) = 0
pour 𝑖 = 𝑗.
8
Econométrie linéaire appliquée
L’équation (1.3) implique que l’on minimise la somme des écarts (des résidus) quadratiques. On
déduit des équations normales les valeurs des paramètres 𝑎̂ et 𝑏̂.
∑ 𝑥𝑡 𝑦𝑡 − 𝑇𝑥̅ 𝑦̅
𝑎̂ = (1.4)
∑ 𝑥𝑡 ² − 𝑇𝑥̅ ²
𝑏̂ = 𝑦̅ − 𝑎̂𝑥̅ (1.5)
L’équation de régression par la méthode des MCO est alors : 𝑦̂𝑡 = 𝑎̂𝑥𝑡 + 𝑏̂
𝜕𝑆 Les équations
= −2 ∑ 𝑥𝑡 (𝑦𝑡 − 𝑎𝑥𝑡 − 𝑏) = 0
𝜕𝑎 normales
𝜕𝑆
= −2 ∑(𝑦𝑡 − 𝑎𝑥𝑡 − 𝑏) = 0
𝜕𝑏
Nous avons à partir des équations normales 1 et 2 :
A partir de l’équation 1 on a :
∑ 𝑥𝑡 (𝑦𝑡 − 𝑎𝑥𝑡 − 𝑏) = 0
∑ 𝑥𝑡 𝑦𝑡 = 𝑎 ∑ 𝑥𝑡 ² + 𝑏 ∑ 𝑥𝑡
Et à partir de l’équation 2, on a :
∑(𝑦𝑡 − 𝑎𝑥𝑡 − 𝑏) = 0
∑ 𝑦𝑡 = 𝑎 ∑ 𝑥𝑡 + 𝑏𝑇
D’où on peut écrire 𝑏̂ = 𝑦̅ − 𝑎̂𝑥̅
En remplaçant la valeur de 𝑏̂ dans :
∑ 𝑥𝑡 𝑦𝑡 = 𝑎 ∑ 𝑥𝑡 ² + 𝑏 ∑ 𝑥𝑡
∑ 𝑥𝑡 𝑦𝑡 = 𝑎̂ ∑ 𝑥𝑡 ² + 𝑏̂ ∑ 𝑥𝑡
∑ 𝑥𝑡 𝑦𝑡 − 𝑇𝑥̅ 𝑦̅ = 𝑎̂ (∑ 𝑥𝑡 ² − 𝑇𝑥̅ ²)
∑ 𝑥𝑡 𝑦𝑡 − 𝑇𝑥̅ 𝑦̅
𝑎̂ =
∑ 𝑥𝑡 ² − 𝑇𝑥̅ ²
On vérifie également les conditions de deuxième ordre :
𝜕²𝑆 𝜕²𝑆
𝜕²𝑆
> 0 ⇔ |𝜕²𝑎 𝜕𝑎𝜕𝑏| > 0
𝜕²𝑎 𝜕²𝑆 𝜕²𝑆
𝜕𝑏𝜕𝑎 𝜕²𝑏
3
Strictement parler, dans les modèle économiques, les résidus peuvent être calculés (𝜀𝑡 est la différence entre
le terme calculé et le terme observé), tandis que les erreurs (𝑢𝑡 ) ne sont pas observables, donc inconnues
appelées simplement aléas.
9
Econométrie linéaire appliquée
Exemple : Le tableau (1.2) réunit les résultats des calculs en vue d’estimer l’équation de régression
correspondante :
Années 𝒕 𝒚𝒕 𝒙𝒕 𝒙𝒕 𝒚𝒕 𝒙𝒕 ²
2001 1 40 6 240 36
2002 2 44 10 440 100
2003 3 46 12 552 144
2004 4 48 14 672 196
2005 5 52 16 832 256
2006 6 58 18 1044 324
2007 7 60 22 1320 484
2008 8 68 24 1632 576
2009 9 74 26 1924 676
2010 10 80 32 2560 1024
Sommes 10 570 180 11216 3816
Moyennes 57 18
Nous pouvons donc déduire les valeurs des paramètres du modèle à partir des relations (1.4) et (1.5).
90 Equation estimée de la
80 droite de régression
Maïs (tonnes par hectare)
70
60 y = 1,6597x + 27,125
Par conséquent si :
50 (𝑥̅ , 𝑦̅)
𝑥𝑡 = 0, alors 𝑦̂ = 27.125 = 𝑏̂
40
30
Et lorsque 𝑥𝑡 = 18 = 𝑥̅ , alors
20
𝑦̂ = (1,6597 × 18) + 27,125 = 57 = 𝑦̅
10
0
Il en résulte que la droite de régression
0 10 20 30 40
passe par le point (𝑥̅ , 𝑦̅).
Fertilisant (Litres par hectare)
10
Econométrie linéaire appliquée
À défaut de connaître la vraie droite, on retient la droite des moindres carrés, les valeurs : 𝑎̂ et 𝑏̂,
calculées comme précédemment par la méthode MCO, ne sont plus simplement les coefficients
d'une droite géométriquement satisfaisante, mais des estimations statistiques des coefficients : 𝑎 et
𝑏, du modèle théorique de base.
Attention : La relation 𝑦̂𝑡 = 𝑎̂𝑥𝑡 + 𝑏̂ est l'équation estimée. Tandis que chaque relation 𝑌𝑡 =
𝑎𝑋𝑡 + 𝑏 + 𝑢𝑡 (à ne pas confondre avec la relation «vraie» du paragraphe précédent)
fournit le résidu 𝑢𝑡 correspondant.
∑ 𝑢𝑡
1. Les résidus calculés: 𝑢𝑡 , approchent les erreurs inconnus: 𝜀𝑡 , et la quantité ⁄
√𝑇 − 2
liée à la somme des carrés des résidus, est une bonne estimation de l'écart-type: 𝜎, de l'aléa.
Elle est appelée: écart-type résiduel ;
2. Les estimateurs : 𝑎̂ et 𝑏̂, sont les «meilleurs possibles» (en un sens mathématique qu'on ne
précisera pas davantage pour l'instant);
3. Les estimateurs : 𝑎̂ et 𝑏̂, suivent des lois normales : 𝑁(𝐸(𝑎̂), 𝜎𝑎̂ ) et 𝑁(𝐸(𝑏̂), 𝜎𝑏̂ ), dont les
espérances de 𝑎̂ et 𝑏̂, sont les quantités estimées ; ces estimateurs sont sans biais ;
4. Les écarts-types : 𝜎𝑎̂ et 𝜎𝑏̂ , des estimateurs : 𝑎̂ et 𝑏̂, peuvent également être estimés.
Pour une précision minimale des estimations, on demande généralement que le nombre : 𝑇,
d'observations utilisées approche au moins la quinzaine.
Théorème : Sous les hypothèses précédentes de H1 à H5, les estimateurs 𝑎̂ et 𝑏̂ de la méthode des
MCO, sont linéaires, sans biais, convergents et efficaces. (En anglais : BLUE: Best Linear Unbiased
Estimator.)
𝑥 −𝑥̅
Avec : 𝜔𝑡 = ∑(𝑥𝑡 −𝑥̅ )²
𝑡
Donc :
𝑎̂ = ∑ 𝜔𝑡 𝑦𝑡 = ∑ 𝜔𝑡 (𝑎𝑥𝑡 + 𝑏 + 𝑢𝑡 ) = 𝑎 ∑ 𝜔𝑡 𝑥𝑡 + 𝑏 ∑ 𝜔𝑡 + ∑ 𝜔𝑡 𝑢𝑡
11
Econométrie linéaire appliquée
Et puisque : ∑ 𝜔𝑡 𝑥𝑡 = 1 ∑ 𝜔𝑡 = 0 alors 𝑎̂ = 𝑎 + ∑ 𝜔𝑡 𝑢𝑡
𝑏̂ = 𝑦̅ − 𝑎̂𝑥̅ ⇔ 𝑦̅ = 𝑏̂ + 𝑎̂𝑥̅
Or : 𝑦𝑡 = 𝑎𝑥𝑡 + 𝑏 + 𝑢𝑡 ⇔ 𝑦̅ = 𝑎𝑥̅ + 𝑏 + 𝑢̅
Les tests de signification des estimateurs se font à travers un test d’hypothèse sur 𝑎̂ et 𝑏̂ en
utilisant la distribution 𝑡 de Student, avec 𝑛 − 𝑘 degrés de liberté, afin de construire les
intervalles de confiances correspondants.
Pour réaliser ces tests, nous devons étudier les paramètres des estimateurs à savoir leurs
variances : 𝑣𝑎𝑟(𝑎̂)𝑒𝑡 𝑣𝑎𝑟(𝑏̂) et leurs espérances mathématiques : 𝐸(𝑎̂) 𝑒𝑡 𝐸(𝑏̂).
Il s'agit de tester si, pour un niveau de confiance donné (en général 95%), l'intervalle de confiance
peut ou non contenir la valeur 0. En effet si la valeur véritable du coefficient peut être 0, il n'est
même pas certain que la variable explicative (ou le terme constant) intervienne réellement dans le
modèle.
Sachant que pour un risque , l'intervalle de confiance pour 𝑎̂ est : [𝑎̂ − 𝑡𝛼 𝛿𝑎̂ ; 𝑎̂ + 𝑡𝛼 𝛿𝑎̂]
Le test revient à examiner si le rapport suivant dépasse ou non 𝑡𝛼 :
|𝑎̂| |Coefficient estimé|
𝑡𝛼 = =
𝛿𝑎̂ écart − type estimé
On fait en général ce test au risque 𝛼 = 5%, ce qui donne, en utilisant la valeur approchée 𝑡0,05 1,96
|coefficient estimé|
< 1.96 ⇝ coefficient non significatif au risque 5% ;
écart−type estimé
Pour n = 30
|coefficient estimé|
> 1.96 ⇝ coefficient significatif au risque 5% ;
écart−type estimé
Ce test est généralement appelé test de Student, car, strictement, lorsque l'échantillon utilisé est de
petite taille (𝑇 < 30), il conviendrait d'employer une loi de Student, voisine de la loi normale mais plus
dispersée, pour tenir compte du fait que l'écart-type est lui-même estimé.
Lors d'une étude économétrique, le test de Student sur chacun des coefficients est beaucoup plus
important que l'examen du coefficient de corrélation.
12
Econométrie linéaire appliquée
Un «bon» test de Student doit toutefois être regardé avec une certaine modestie, ce test suppose en
effet la pertinence du modèle, mais il n'a pas vocation à la confirmer; en fait, il sert essentiellement à
mettre en doute ou à écarter les variables d'influence incertaine.
Donc nous avons (voir le cours) : outils nécessaires pour faire le calcul (𝑇 étant l’effectif total)
∑ 𝑥𝑡 𝑣𝑎𝑟(𝑥) =
∑ 𝑥𝑡 ²
− 𝑥̅ ² 𝜎𝑥 = √𝑣𝑎𝑟(𝑥) ∑ 𝑥𝑡 𝑦𝑡
𝑥̅ = 𝑇 𝑐𝑜𝑣𝑥𝑦 = − 𝑥̅ 𝑦̅
𝑇 𝑇
∑ 𝑦𝑡 ∑ 𝑦𝑡 ² 𝑐𝑜𝑣𝑥𝑦
𝑦̅ = 𝜎𝑦 = √𝑣𝑎𝑟(𝑦) 𝑟=
𝑣𝑎𝑟(𝑦) = − 𝑦̅² 𝑣𝑎𝑟(𝑥)𝑣𝑎𝑟(𝑦)
𝑇 𝑇
𝜎 ²
𝑣𝑎𝑟(𝑎̂) = ∑(𝑥 𝑢 Variance de 𝑢𝑡 étant Inconnue, nous
𝑡 −𝑥̅ )²
utilisant la variance résiduelle 𝜎̂𝑢 appelée
encore variance des erreurs, notée
∑ 𝑥𝑡 ² simplement 𝜎̂ ou 𝑠²
𝑣𝑎𝑟(𝑏̂) = 𝜎𝑢 ²
𝑇 ∑(𝑥𝑡 − 𝑥̅ )²
Alors
Nombre de paramètres estimé ici
pour la régression simple (nous
∑ 𝑒𝑡 ²
𝑠² = 𝜎̂ = 𝜎̂𝑢 = disposant de deux paramètres)
𝑇−𝑘
Donc une estimation non biaisée des variances de 𝑎 et 𝑏 est alors de la forme :
∑ 𝑒𝑡 ² 1 ∑ 𝑒𝑡 ² ∑ 𝑥𝑡 ²
𝑠𝑎̂ ² = × (1.6) 𝑠𝑏̂ ² = ×
𝑇 − 𝑘 ∑(𝑥𝑡 − 𝑥̅ )² 𝑇 − 𝑘 𝑇 ∑(𝑥𝑡 − 𝑥̅ )²
Exemple : Le tableau (1.3) qui est une extension du tableau (1.2) rassemble des calculs nécessaires
pour tester la signification statistique de 𝑎̂ et 𝑏̂.
Années 𝐭 𝐲𝐭 𝐱𝐭 𝐱𝐭 𝐲𝐭 𝐱𝐭 ² ̂
𝒚 𝒆𝒕 𝒆𝒊 ² (𝒙𝒕 − 𝒙̅)²
2001 1 40 6 240 36 37,08 2,92 8,51 144
2002 2 44 10 440 100 43,72 0,28 0,08 64
2003 3 46 12 552 144 47,04 -1,04 1,09 36
2004 4 48 14 672 196 50,36 -2,36 5,57 16
2005 5 52 16 832 256 53,68 -1,68 2,82 4
2006 6 58 18 1044 324 57,00 1,00 1,00 0
2007 7 60 22 1320 484 63,64 -3,64 13,24 16
2008 8 68 24 1632 576 66,96 1,04 1,09 36
2009 9 74 26 1924 676 70,28 3,72 13,85 64
2010 10 80 32 2560 1024 80,24 -0,24 0,06 196
Sommes 10 570 180 11216 3816 o 47,31 576
Moyennes 57 18
13
Econométrie linéaire appliquée
Il en résulte que pour tester la signification des paramètres 𝑎̂ et 𝑏̂ à partir de l’équation estimée :
𝒚̂𝒕 = 𝟏, 𝟔𝟓𝟗𝒙𝒕 + 𝟐𝟕, 𝟏𝟐𝟓 Le calcul du test d’hypothèse suivant se
|𝑎̂|
(𝑡𝑎̂ ) ? (𝑡𝑏̂ ) ? réalise en calculant 𝑡𝑎̂ = 𝑠𝑎̂
=
De déterminer 𝑦̂ (colonne 7), et par conséquent le calcul des erreurs |𝑝𝑎𝑟𝑎𝑚é𝑡𝑟𝑒| (voir le cours du test
𝑠𝑜𝑛 é𝑐𝑎𝑟𝑡−𝑡𝑦𝑝𝑒
S’effectue 𝑒𝑡 = (𝑦𝑡 − 𝑦̂𝑡 ) (colonne 8). d’hypothèse)
Et à partir des relations (1.6) :
∑ 𝑒𝑡 ² 1 47,31 1
𝑠𝑎̂ ² = × = × = 0,01
𝑇 − 𝑘 ∑(𝑥𝑡 − 𝑥̅ )² 10 − 2 567
De la même manière,
∑ 𝑒𝑡 ² ∑ 𝑥𝑡 ² 47,31 3816
𝑠𝑏̂ ² = × = × = 3,92 Donc 𝑠𝑎̂ = √3,92 ≈ 1, 98
𝑇 − 𝑘 𝑇 ∑(𝑥𝑡 − 𝑥̅ )² 10 − 2 10 × 567
Par conséquent,
|𝑎̂| |1,659 |
𝑡𝑎̂ = = ≈ 16,6
𝑠𝑎̂ 0,1
|𝑏̂| |27,125|
𝑡𝑏̂ = = ≈ 13,7
𝑠𝑏̂ 1,98
Comme 𝑡𝑎̂ et 𝑡𝑏̂ dépassent tous deux 𝑡𝑡𝑎𝑏𝑢𝑙é𝑒 = 2,306 avec 𝑇 − 𝑘 = 8 degrés de liberté au seuil de
signification de 5% (d’après la table de Student), nous concluons que 𝑎̂ et 𝑏̂ ensemble sont
statistiquement signifiants au seuil de 0,05.
Plus les points représentatifs des observations sont proches de la droite de régression (c'est-à-dire
plus les résidus sont faible), plus importante est la variabilité de 𝑌 expliquée par l’équation de
régression estimée. La variabilité totale de 𝑌 est donc égale à la somme de variabilité expliquée et la
variabilité résiduelle.
14
Econométrie linéaire appliquée
𝑆𝐶𝐸 𝑆𝐶𝑅
𝑅² = =1−
𝑆𝐶𝑇 𝑆𝐶𝑇
∑(𝑦̂𝑡 − 𝑦̅)² ∑ 𝑒𝑡 ²
𝑅² = =1−
∑(𝑦𝑡 − 𝑦̅)² ∑(𝑦𝑡 − 𝑦̅)²
Exemple : le tableau (1.4) permet de calculer le coefficient de détermination dans le cas du fertilisant
du maïs en ajoutant les deux dernières colonnes:
Années 𝐭 𝐲𝐭 𝐱𝐭 𝐱𝐭 𝐲𝐭 𝐱𝐭 ² ̂
𝒚 𝒆𝒕 𝒆𝒊 ² (𝒙𝒕 − 𝒙̅)² (𝒚𝒕 − 𝒚̅)² ̂𝒕 − 𝒚
(𝒚 ̅)²
2001 1 40 6 240 36 37,08 2,92 8,51 144 289 397
2002 2 44 10 440 100 43,72 0,28 0,08 64 169 176
2003 3 46 12 552 144 47,04 -1,04 1,09 36 121 99
2004 4 48 14 672 196 50,36 -2,36 5,57 16 81 44
2005 5 52 16 832 256 53,68 -1,68 2,82 4 25 11
2006 6 58 18 1044 324 57,00 1,00 1,00 0 1 0
2007 7 60 22 1320 484 63,64 -3,64 13,24 16 9 44
2008 8 68 24 1632 576 66,96 1,04 1,09 36 121 99
2009 9 74 26 1924 676 70,28 3,72 13,85 64 289 176
2010 10 80 32 2560 1024 80,24 -0,24 0,06 196 529 540
Sommes 10 570 180 11216 3816 0 47,31 576 1634 1587
Moyennes 57 18
t ∑e ² 47,31
Nous avons : R² = 1 − ∑(y −y̅)²
= 1 − 1634 = 1 − 0,029 ≈ 0,971, 97,10%
t
∑(y
̂ −y
̅)² 1587 ≈ 3% représente la part
Et encore : R² = ∑(yt−y̅)² = 1634 ≈ 0,971, 97,10%
t de la variabilité résiduelle
L’équation de régression explique donc environ 97% de la variabilité totale de la production du maïs.
Les 3% restant peuvent être attribués à des facteurs inclus dans le terme d’erreur.
Dés lors : 𝑟 = √𝑅² = √0,971 ≈ 0,9854 = 98,54% ; 𝑟 est positif parce que 𝑎̂ l’est.
15
Econométrie linéaire appliquée
que l’estimateur 𝑎̂ présente une espérance mathématique égale à la valeur vrai 𝑎 (on dit aussi que 𝑎
est centré) :
𝐸(𝑎̂) = 𝑎 De sorte que : 𝐵𝑖𝑎𝑖𝑠 = 𝐸(𝑎̂) − 𝑎 = 0
Un estimateur sans biais est efficace (ou optimal) si la variance est minimale. Les estimateurs MCO
sont donc les meilleurs de tous les estimateurs linéaires sans biais. Ce résultat est connu sous le non
de théorème de Gauss-Markov : il représente la justification la plus importante dont on dispose pour
l’emploi du MCO.
Il peut arriver qu’un chercheur choisisse d’accepter un léger biais afin d’obtenir éventuellement une
variance plus faible : il cherchera alors à minimiser l’erreur quadratique moyenne :
Supposons une population infinie et un échantillon de plus en plus grand extrait de cette population :
à la limite, l’échantillon sera de taille infinie. Dans ce cas, l’échantillon est dit convergent en
probabilité si sa valeur est égale à la limite à celle du paramètre «vrai» (l’estimateur est
asymptotiquement centré) et si sa distribution se comprime sur le paramètre «vrai».
16
Econométrie linéaire appliquée
Résumé :
𝑀𝑖𝑛 ∑ 𝑒𝑡 ²
Hypothèses Méthode des MCO 𝑦̂𝑡 = â𝑥𝑡 + 𝑏̂ Questions importantes :
1) Est-ce que l’ajustement est
«bon» dans sa globalité ?
∑ 𝑥𝑡 𝑦𝑡 − 𝑇𝑥̅ 𝑦̅
𝑎̂ = 2) Est-ce que les paramètres
Recherche des paramètres ∑ 𝑥𝑡 ² − 𝑇𝑥̅ ²
sont significatifs ?
Propriétés 𝑏̂ = 𝑦̅ − 𝑎𝑥̅
Accepter si
Réponse pour question 2 : Voir si ces paramètres sont « robustes» leurs valeurs si
Voir leurs significations (tests |𝑎̂| |𝑝𝑎𝑟𝑎𝑚é𝑡𝑟𝑒| sont supérieurs
𝑡𝑎̂ = =
d’hypothèses) 𝑠𝑎̂ 𝑠𝑜𝑛 é𝑐𝑎𝑟𝑡 − 𝑡𝑦𝑝𝑒 à 1.96.
𝑠𝑎̂ inconnue
Problème qui se pose : (car 𝜎𝑢 est inconnue)
Maintenant on
Solution : calcul de la variance ∑ 𝑒𝑡 ²
𝑠² = 𝜎̂ = 𝜎̂𝑢 = peut calculer :
résiduelle 𝑇−𝑘 𝑡𝑎̂ et 𝑡𝑏̂ à partir
des calculs de
̂𝑢
𝜎
𝑠𝑎̂ ² = ∑(𝑥
Réponse pour question 1 : Tester la qualité de la régression 𝑡 −𝑥̅ )²
17
Econométrie linéaire appliquée
Exercice :
Définir les concepts suivant ainsi que leurs fonctions : (a) modèle de la régression simple, (b)
modèle linaire de la régression, (c) diagramme de dispersion, (d) terme d’erreur.
a) Le modèle de la régression simple est utilisé pour tester des hypothèses portant sur la
relation entre la variable indépendante, 𝑌, et une variable indépendante ou explicative, 𝑋, il
sert également à la prévision, dans les même conditions. Il faut le distingué du modèle de la
régression multiple qui au lieu d’une variable indépendante, en comporte deux ou
davantage, le chapitre suivant traitera ce problème.
b) Le modèle linaire de la régression suppose qu’il existe une relation linéaire approchée entre
𝑋 et 𝑌 : autrement dit, l’ensemble des couple de valeurs 𝑋𝑡 et 𝑌𝑡 appartenant à l’échantillon
aléatoire observé par les points (𝑋𝑡 , 𝑌𝑡 ) répartis sur une droite ou au voisinage immédiat de
celle-ci. Il faut distinguer un tel modèle des modèles de régression non linéaire.
c) Un diagramme de dispersion est un graphe qui associe à chaque couple d’observations
indépendantes et indépendantes un point dans un plan euclidien orthonormé 𝑋𝑌. Il permet
d’établir au jugé, par observation direct, s’il existe une relation linéaire approchée entre la
variable indépendante 𝑌 et la variable indépendante ou explicative 𝑋.
d) Le terme d’erreur (encore appelé terme stochastique ou perturbation aléatoire) mesure
l’écart (d’ordinaire en projection verticale) entre chaque valeur observée Y et la valeur vraie
mais inobservable, donnée par la courbe de régression. Ces termes d’erreurs désignée par
𝑢𝑡 , interviennent parce que (1) de nombreuses variables explicatives dont les effets sont
faibles et irréguliers ne figurent pas dans l’équation linéaire exacte (1.1), (2) la mesure de 𝑌
peut être entachée d’erreur, (3) le comportement humain introduit un élément de variabilité
intrinsèque.
Exercice :
Formuler la relation générale entre la consommation, 𝒀, et le revenu disponible, 𝑿, (a) sous une
forme linéaire exacte, (b) sous une forme aléatoire, (c) pourquoi peut on s’attendre à ce que la plus
part des valeurs observées de 𝒀 ne donnent des points situés exactement en ligne droite.
18
Econométrie linéaire appliquée
dépende avant tout du revenu disponible 𝑋, de nombreuses autres variables -omises ici-
peuvent intervenir, qui n’ont sur 𝑌 qu’un effet faible ou irrégulier (par contre, si l’effet de
certaines d’entre elles était significatif et régulier, il faudrait les introduire dans la relation
entre 𝑌 et 𝑋 à titre de variable explicatives supplémentaires, ce qui exigerait de recourir à un
modèle de régression multiple. (2) des erreurs sont susceptibles de modifier la mesure de 𝑌.
(3) le comportement humain a en lui-même un aspect aléatoire, de sorte qu’on observera
d’ordinaire, des circonstances identiques, différentes valeurs de 𝑌 pour une même valeur de
𝑋.
Exercice :
Formuler les cinq hypothèses sur lesquelles repose le modèle classique de régression linaire
simple et donner une explication intuitive de la signification et de la nécessité de chacune ?
19
Econométrie linéaire appliquée
Exercice :
(a) En quel sens la méthode dite des moindres carrées ordinaire (MCO), permet-elle d’estimer la
meilleure droite d’ajustement par un échantillon d’observation 𝑿𝒀 ? (b) Pourquoi choisir les écarts
verticaux ? (c) Pourquoi ne pas prendre simplement la somme des carrées sans les porter au
carré ? (d) Pourquoi ne pas prendre la somme des valeurs absolues des écarts ?
a) Une droite ajuste les données (les observations de l’échantillon 𝑋𝑌) au sens des moindres
carrées lorsque, sur un graphe de dispersion, la somme des distances verticales entre les
points observés et la droite est minimale.
b) On utilise les écarts verticaux parce qu’on s’efforce d’expliquer ou de prédire les
changements de 𝑌, lequel est mesuré sur l’axe vertical.
c) Si l’on somme simplement les écarts, deux écarts de même valeur absolue mais de signes
opposés s’éliminent, de sorte que la somme totale est nulle (voir ∑ 𝑒𝑡 dans le tableau (1.3)) :
la méthode serait inapplicable.
d) On pourrait éviter la difficulté précédente en prenant la somme des valeurs absolues des
écarts. On préfère toutefois d’utiliser la somme des écarts quadratique de manière à
défavoriser relativement les grands écarts par rapport au petits (voir le théorème dit de
Gauss-Markov).
Exercice
(a) Quelle est la différence entre les deux couples de termes (𝒂, 𝒃) et (𝒂 ̂) ? (b) quelle est la
̂, 𝒃
différence entre 𝒖𝒕 et 𝒆𝒕 ? (c) Ecrire les équations exprimant les deux relations, vraie et estimée,
entre 𝑿 et 𝒀 ? (d) Ecrire les deux équations des droites correspondantes aux deux régressions,
vraie et estimée, de 𝒀 par rapport à 𝑿 ?
a) (𝑎, 𝑏) sont les paramètres de la régression linéaire vraie mais inconnue de 𝑌 par rapport
à 𝑋 ; (𝑎̂, 𝑏̂) sont les paramètres de la régression linéaire estimée.
b) 𝑢𝑡 est le terme d’erreur ou terme aléatoire dans la relations vraie mais inconnue de 𝑌 par
rapport à 𝑋 ; le terme 𝑒𝑡 est le résidu calculable, défini par la différence entre chaque valeur
observée 𝑦̂𝑡 et la valeur ajustée 𝑦𝑡 qui lui correspond dans la relation estimée entre 𝑋 et 𝑌.
c) Les deux relations, vraie et estimée, entre 𝑋 et 𝑌, ont respectivement pour équation :
𝑦𝑡 = 𝑎𝑥𝑡 + 𝑏 + 𝑢𝑡
𝑦𝑡 = 𝑎𝑥𝑡 + 𝑏 + 𝑒𝑡
d) Les deux régressions, vraie et estimée, de Y par rapport à X ont, quant à elles,
respectivement pour équation :
𝐸(𝑦𝑡 ) = 𝑎𝑥𝑡 + 𝑏
𝑦̂𝑡 = 𝑎̂𝑥𝑡 + 𝑏̂
Exercice
Le tableau suivant trace la relation entre la consommation globale et le revenu disponible dans un
pays pendant douze années. (a) déterminer la valeur de 𝒂 ̂ ? (b) tracer la droite de régression?
̂ et 𝒃
(c) calculer les valeurs des paramètres 𝒂 ̂ en utilisant les valeurs centrée de 𝒙 et 𝒚 (𝒀 = 𝒚 − 𝒚
̂ et 𝒃 ̅,
et 𝑿 = 𝒙 − 𝒙 ̅) ?
20
Econométrie linéaire appliquée
a) Le tableau suivant fournit les résultats des calculs nécessaires pour déterminer 𝑎̂ et 𝑏̂ .
𝒏 𝒚𝒊 𝒙𝒊 𝒙𝒊 𝒚𝒊 𝒙𝒊 ² ̅
𝒀 𝒊 = 𝒚𝒊 − 𝒚 ̅
𝑿𝒊 = 𝒙𝒊 − 𝒙 𝑿𝒊 𝒀 𝒊 𝑿𝒊 ²
1 102 114 11628 12996 -25 -31 775 961
2 106 118 12508 13924 -21 -27 567 729
3 108 126 13608 15876 -19 -19 361 361
4 110 130 14300 16900 -17 -15 255 225
5 122 136 16592 18496 -5 -9 45 81
6 124 140 17360 19600 -3 -5 15 25
7 128 148 18944 21904 1 3 3 9
8 130 156 20280 24336 3 11 33 121
9 142 160 22720 25600 15 15 225 225
10 148 164 24272 26896 21 19 399 361
11 150 170 25500 28900 23 25 575 625
12 154 178 27412 31684 27 33 891 1089
1524 1740 225124 257112 4144 4812
127 145
Minimiser ∑ 𝑒𝑡 ² revient à calculer : (voir les colonnes 4 et 5)
150
100
50
0
0 50 100 150 200
Consommation globale
c) Calcul des valeurs des paramètres 𝑎̂ et 𝑏̂ à partir des valeurs centrée de 𝑥 et 𝑦 : les colonnes
6, 7, 8 et 9, fournissent les calculs nécessaires pour calculer les paramètres du modèle.
Une autre relation (1.8) de 𝑎 sur la base des ∑ 𝑋𝑖 𝑌𝑖 4144
𝑎̂ = = ≈ 0,86
valeurs centrée de 𝑥 et de 𝑦 (sera utilisée ∑ 𝑋𝑖 ² 4812
dans la régression multiple
𝑏̂ = 𝑦̅ − 𝑎𝑥̅ = 127 − 0.86 × 145 = 2,13
𝑦̂𝑖 = 𝑎̂𝑥𝑖 + 𝑏̂ = 0,87𝑥𝑖 + 2,13 = 2,13 + 0,87𝑥𝑖
Exercice
̂𝟎 ?
On considère les résultats le l’exercice précédent, (a) indiquer la signification de l’estimateur 𝒂
̂ ? (c) déterminer l’élasticité-revenu de la consommation ?
(b) celle de 𝒃
21
Econométrie linéaire appliquée
22
Econométrie linéaire appliquée
Exercice :
̂) ? (c) 𝒔𝒂̂ ² et 𝒔̂ ² ?
̂ ) et 𝒗𝒂𝒓(𝒃
Définir (a) 𝝈𝒖 ² et 𝒔² ? (b) 𝒗𝒂𝒓(𝒂 𝒃
a) 𝜎𝑢 ² est la variance du terme d’erreur dans la relation vraie entre 𝑋 et 𝑌. par contre 𝑠² =
∑ 𝑒𝑡 ²
𝜎̂𝑢 ² = est la variance résiduelle et fournit une estimation sans biais de 𝜎𝑢 ², lequel est
𝑇−𝑘
inconnu. 𝑘 étant le nombre de paramètres estimés : 𝑘 = 2 dans le cas de la régression
simple. Par conséquent, 𝑇 − 𝑘 = 𝑇 − 2 appelé nombre de degrés de liberté.
𝜎 ² ∑𝑥 ²
b) 𝑣𝑎𝑟(𝑎̂) = ∑(𝑥 𝑢−𝑥̅ )² tandis que 𝑣𝑎𝑟(𝑏̂) = 𝜎𝑢 ² 𝑇 ∑(𝑥 𝑡−𝑥̅ )² . il est nécessaire de connaitre les
𝑡 𝑡
variances de 𝑎̂ et 𝑏̂ (ou leurs estimations) pour tester les hypothèses sur ces deux
paramètres et pour construire les intervalles de confiances correspondants.
∑ 𝑒𝑡 ² 1 ∑ 𝑒𝑡 ² ∑𝑥 ²
c) 𝑠𝑎̂ ² = 𝑇−𝑘
× ∑(𝑥 et 𝑠𝑏̂ ² = × 𝑇 ∑(𝑥 𝑡−𝑥̅ )² sont les écarts types respectifs de 𝑎̂ e
𝑡 −𝑥̅ )² 𝑇−𝑘 𝑡
Exercice
En reprend les observations consignées dans le tableau précédent qui trace la relation entre la
consommation globale et le revenu disponible. Déterminer (a) 𝒔² , (b) 𝒔𝒂̂ ² et 𝒔𝒂̂ , (c) 𝒔𝒃̂ ² et 𝒔𝒃̂ ?
Le tableau suivant, extension du tableau précédent, rassemble les résultats des calculs nécessaires
pour déterminer 𝑠². Les valeurs de y, viennent de l’équation de régression établie précédemment.
𝒏 𝒚𝒊 𝒙𝒊 𝒙𝒊 𝒚𝒊 𝒙𝒊 ² ̂
𝒚 𝒆𝒊 𝒆𝒊 ² (𝒙𝒊 − 𝒙̅)²
1 102 114 11628 12996 100,30 1,70 2,88 961
2 106 118 12508 13924 103,75 2,25 5,07 729
3 108 126 13608 15876 110,64 -2,64 6,96 361
4 110 130 14300 16900 114,08 -4,08 16,67 225
5 122 136 16592 18496 119,25 2,75 7,57 81
6 124 140 17360 19600 122,69 1,31 1,71 25
7 128 148 18944 21904 129,58 -1,58 2,51 9
8 130 156 20280 24336 136,47 -6,47 41,90 121
9 142 160 22720 25600 139,92 2,08 4,34 225
10 148 164 24272 26896 143,36 4,64 21,51 361
11 150 170 25500 28900 148,53 1,47 2,16 625
12 154 178 27412 31684 155,42 -1,42 2,01 1089
1524 1740 225124 257112 0,00 115,27 4812
127 145
∑ 𝑒𝑖 ² 115,27
a) 𝑠² = 𝜎̂ = 𝜎̂𝑢 = 𝑛−𝑘
= 12−2
= 11,52752 ≈ 11,53
∑𝑥 ² ∑ 𝑒𝑖 ² ∑𝑥 ² 257112
b) 𝑠𝑏̂ ² = 𝜎̂𝑢 × 𝑛 ∑(𝑥 𝑖−𝑥̅ )² = 𝑛−𝑘
× 𝑛 ∑(𝑥 𝑖−𝑥̅ )² = 11,53 × 12×4812 ≈ 51,32
𝑖 𝑖
23
Econométrie linéaire appliquée
̂u
σ 11,53
c) sa2̂ = ∑(x ̅ )2
= ≈ 0,0024
i −x 4812
Exercice
Dans le cas du problème précédent, tester au seuil de signification de 5% pour (a) 𝐚 et (b) 𝐛 ?
|𝑝𝑎𝑟𝑎𝑚é𝑡𝑟𝑒| |𝑏̂| |2,13|
a) 𝑡𝑏̂ = = = ≈ 0,29
𝑠𝑜𝑛 é𝑐𝑎𝑟𝑡−𝑡𝑦𝑝𝑒 𝑠𝑏̂ 7,23
Cette valeur de 𝑡𝑏̂ est d’après la table de Student, inférieur à la valeur tabulée 𝑡 = 2,228 au
seuil de 5% (test bilatéral) et pour 𝑣 = 10 : il faut conclure que 𝑡𝑏̂ n’est pas statistiquement
signifiant au seuil de 5% ; autrement dit, on ne peut rejeter l’hypothèse 𝐻0 suivant laquelle
𝑏=0
|𝑝𝑎𝑟𝑎𝑚é𝑡𝑟𝑒| |𝑎̂| |0,86|
b) 𝑡𝑎̂ = 𝑠𝑜𝑛 é𝑐𝑎𝑟𝑡−𝑡𝑦𝑝𝑒 = 𝑠𝑎̂
= 0,05
≈ 17,2
Par conséquent, a est statistiquement signifiant au seuil de 5% (et aussi au seuil de 1%) : on
ne peut rejeter l’hypothèse H1 , suivant laquelle a ≠ 0.
Exercice
Dans le cas du même problème, établir les intervalles de confiances à 95% pour (a) 𝐚 et (b) 𝐛 ?
a) L’intervalle de confiance à 95%, dans le cas de b est donné par :
Par conséquent 𝑏 est compris entre -13,97 et 18,23 au seuil de confiance de 95%. La largeur
de cette intervalle, qui lui ôte tout intérêt, reflète que 𝑏̂ n’a pas de signification statistique.
𝑎 est donc compris entre 0,75 et 9,97 (0,75 < 𝑎 < 9,97) au seuil de confiance de 95%.
24
Econométrie linéaire appliquée
Exercice :
(a) Définir le 𝑹² (b) que mesure le coefficient de corrélation ? (c) quel est son intervalle de
variation ? (d) quel rapport existe-t-il entre corrélation et régression ?
Exercice :
On considère l’équation de la régression estimée dans l’exercice précédent à propos de la
∑(𝐲̂ −𝐲̅)²
consommation, déterminer R² en utilisant (a) l’équation de 𝑹² = ∑(𝐲𝐭 −𝐲̅)² (b) l’équation 𝑹² = 𝟏 −
𝐭
∑ 𝒆𝒊 ²
∑(𝐲𝐢 −𝐲̅)²
?
25
Econométrie linéaire appliquée
𝒏 𝒚𝒊 𝒙𝒊 𝒙𝒊 𝒚𝒊 𝒙𝒊 ² ̂
𝒚 𝒆𝒊 𝒆𝒊 ² (𝒙𝒊 − ̅𝒙)² ̂𝒊 − 𝒚
(𝒚 ̅)² (𝒚𝒊 − 𝒚 ̅)(𝒚𝒊 − 𝒚
̅)² (𝒙𝒊 − 𝒙 ̅)
1 102 114 11628 12996 100,30 1,70 2,88 961 712,71 625 775
2 106 118 12508 13924 103,75 2,25 5,07 729 540,65 441 567
3 108 126 13608 15876 110,64 -2,64 6,96 361 267,73 361 361
4 110 130 14300 16900 114,08 -4,08 16,67 225 166,87 289 255
5 122 136 16592 18496 119,25 2,75 7,57 81 60,07 25 45
6 124 140 17360 19600 122,69 1,31 1,71 25 18,54 9 15
7 128 148 18944 21904 129,58 -1,58 2,51 9 6,67 1 3
8 130 156 20280 24336 136,47 -6,47 41,90 121 89,74 9 33
9 142 160 22720 25600 139,92 2,08 4,34 225 166,87 225 225
10 148 164 24272 26896 143,36 4,64 21,51 361 267,73 441 399
11 150 170 25500 28900 148,53 1,47 2,16 625 463,52 529 575
12 154 178 27412 31684 155,42 -1,42 2,01 1089 807,64 729 891
1524 1740 225124 257112 0,00 115,27 4812 3569 3684 4144
127 145
Exercice :
Toujours dans le même problème, déterminer 𝒓 en utilisant les expressions suivantes :
26
Econométrie linéaire appliquée
Exercices résolus : Propriétés des estimations par les moindres carrées ordinaires
Exercice :
Que faut-il entendre par « estimateur sans biais » ? Comment définir le biais ?
Un estimateur est dit : centré ou sans biais, si la moyenne de sa distribution d’échantillonnage est
égale au paramètre vrai. La moyenne de la distribution est égale à l’espérance mathématique de
l’estimateur. Si 𝑎̂ est estimateur du paramètre vrai de 𝑎. L’absence de biais signifie donc que 𝐸(𝑎̂) =
𝑎. Le biais est alors défini comme la différence entre l’espérance mathématique de l’estimateur et la
valeur vraie du paramètre : 𝑏𝑖𝑎𝑖𝑠 = 𝐸(𝑎̂) − 𝑎. On notera que l’absence du biais ne signifie pas que
𝑎̂ = 𝑎 , mais que, si l’on répète l’échantillonnage aléatoire, on obtiendra, en moyenne, l’estimation
correcte. On espère dons que l’échantillon effectivement sélectionné fournisse une valeur de 𝑎̂
proche de la moyenne de la distribution d’échantillonnage de l’estimateur.
Exercice :
Que faut-il entendre par « le meilleur estimateur sans biais » (estimateur efficace) ? Quelle est
l’importance de cet estimateur ?
Parmi tous les estimateurs sans biais, le meilleur qui est dit aussi efficace est celui dont la variance
est minimale. C’est l’estimateur centré qui présente la distribution la plus compacte, la moins
dispersée. Cette caractéristique est fort importante car le chercheur qui examine une population sera
ainsi mieux assurer que la valeur prise par l’estimateur est voisine à la valeur vraie du paramètre qu’il
doit estimer. Il revient au même de dire qu’un estimateur efficace présente le plus petit intervalle de
confiance et qu’il a donc plus de chance d’être statistiquement signifiant qu’aucun autre estimateur.
On notera toutefois que la variance minimale n’a pas grand intérêt en elle-même, à moins d’être
couplé avec absence de biais.
Exercice :
Pourquoi des estimateurs MCO sont-ils fréquemment utilisés ? Sont-ils supérieur à tout autre
estimateur ?
L’intérêt des estimateurs MCO, et qui rend compte de leur large usage, est qu’ils sont BLUE (best
linear unbiaised estimators) : ce sont des estimateurs efficaces dans la classe des estimateurs
linéaires ; autrement dit, parmi tous les estimateurs linéaires sans biais, ils présentent la plus faible
variance. Les propriétés BLUE des estimateurs MCO déroule du théorème de Gauss-Markov.
Exercice :
Que faut-il entendre par « convergence » ?
Pour être convergent en probabilité, un estimateur doit satisfaire à deux conditions (1) lorsque la
taille de l’échantillon augmente indéfiniment, la valeur de l’estimateur tend vers la valeur vrai du
paramètre (il s’agit d’une probabilité asymptotique que l’on peut appeler le centrage asymptotique
de l’estimateur). (2) lorsque la taille de l’échantillon devient infinie, la distribution de
l’échantillonnage de l’estimateur se comprime pour devenir, à la limite un segment de droite
verticale de hauteur 1 et d’abscisse a (valeur vraie du paramètre). On emploi cette propriété
asymptotique de convergences des grands échantillons seulement si l’on ne peut obtenir de petits
échantillons BLUE ou des estimateurs EQM minimaux.
27
Econométrie linéaire appliquée
Exercice :
On cherche s’il existe une relation linéaire entre le revenu réel par tête dans les pays développés et
leur population agricole active. Le tableau suivant rassemble les données correspondantes pou un
échantillon de 15 pays développés, pendant une année donnée. (a) Estimer l’équation de
régression de 𝒀𝒊 par rapport à 𝑿𝒊 . (b) Tester la signification statistique des paramètres, au seuil de
signification de 5%. (c) Trouver le coefficient de détermination (d) présenter sous forme habituelle
les résultats obtenus.
Pays n° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
𝑌𝑖 6 8 8 7 7 12 9 8 9 10 10 11 9 10 11
𝑋𝑖 9 10 8 7 10 4 5 5 6 8 7 4 9 5 8
Données du revenu réel 𝑌𝑖 sont arrondis au millier de dollars American
𝑋𝑖 Est en pourcentage de la population active totale
Le tableau suivant présente les résultats des différents calculs nécessaires pour répondre aux
questions posées :
Pays n° 𝒚𝒊 𝒙𝒊 𝒙𝒊 𝒚𝒊 𝒙𝒊 ² ̂
𝒚 𝒆𝒊 ² (𝒙𝒊 − 𝒙̅)² (𝒚𝒊 − 𝒚̅)²
1 6 9 54 81 8,07 4,27 4 9
2 8 10 80 100 7,60 0,16 9 1
3 8 8 64 64 8,53 0,28 1 1
4 7 7 49 49 9,00 4,00 0 4
5 7 10 70 100 7,60 0,36 9 4
6 12 4 48 16 10,40 2,56 9 9
7 9 5 45 25 9,93 0,87 4 0
8 8 5 40 25 9,93 3,74 4 1
9 9 6 54 36 9,47 0,22 1 0
10 10 8 80 64 8,53 2,15 1 1
11 10 7 70 49 9,00 1,00 0 1
12 11 4 44 16 10,40 0,36 9 4
13 9 9 81 81 8,07 0,87 4 0
14 10 5 50 25 9,93 0,00 4 1
15 11 8 88 64 8,53 6,08 1 4
135 105 917 795 26,93 60 40
9 7
Relations de base Résultats
∑ 𝑥𝑖 𝑦𝑖 −𝑛𝑥̅ 𝑦̅
(a) 𝑎̂ = et 𝑏̂ = 𝑦̅ − 𝑎𝑥̅
∑ 𝑥𝑖 ²−𝑛𝑥̅ ²
𝑎̂ = −0,47 ; 𝑏̂ = 12,27
∑ 𝑒𝑖 ² 𝑠² |−0,47|
(b) 𝑠² = ; sa2̂ = ∑(x −x̅)2 ; 𝑠𝑏̂ ² = 𝑠² = 2,07 ; sa2̂ = 0,03 ; 𝑠𝑏̂ ² = 1,83 ; 𝑡𝑎̂ = 0,18
=
𝑛−𝑘 i
∑𝑥 ² |𝑎̂| |𝑏̂| |12,27|
𝑠² × 𝑛 ∑(𝑥 𝑖−𝑥̅ )² ; 𝑡𝑎̂ = ; 𝑡𝑏̂ = 2,51 ; 𝑡𝑏̂ = 1,35
= 9,07 > 2,16
𝑖 𝑠𝑎̂ 𝑠𝑏̂
28
Econométrie linéaire appliquée
C’est en fonction des prévisions de ventes que l’entreprise détermine la production, les achats et les
investissements nécessaires. La prévision des ventes conditionne l’ensemble de la construction
budgétaire. Elle est généralement mise à œuvre à partir de modèles de prévisions reposant sur des
méthodes statistiques. Ces méthodes ont pour objet : De mesurer les phénomènes d’évolution des
ventes à moyen terme (tendance ou «trend») et l’estimation de la tendance à l’aide d’un ajustement
linéaire.
Vous êtes analyste chez une entreprise de télécom, et on vous pose les questions suivantes et vous
disposer d’une plage de données, votre savoir faire pour construire votre modèle et un logiciel de
bureautique pour faire des calculs, donc :
1. Les affiches publicitaires dans la presse ont-elles un impact sur les ventes du produit
«Jawal»?
2. Les quantités vendues dépendent-elles du nombre d’affiches publicitaires ?
Au cours des années écoulées l’entreprise a relevé les données suivantes (en millions de dirhams):
560
« Jawal », la tendance est haussière
540 donne un premier aperçu de la relation,
520
il parait que l’évolution des dépenses
publicitaires suivent l’évolution du
500
chiffre d’affaire de l’entreprise (on
480 prévoie une évolution des deux variables
0 2 4 6 8 à un sens unique.
Dépenses publicitaires
29
Econométrie linéaire appliquée
Nous pouvons maintenant construire notre modèle théorique : on veut rechercher la relation entre
les dépenses publicitaire et le chiffre d’affaire de l’entreprise, 𝑌𝑡 = 𝑓(𝑋) , avec 𝑋𝑡 sont les dépenses
publicitaires et 𝑌𝑡 représente le chiffre d’affaire de l’entreprise.
𝑌𝑖 = 𝑎𝑋𝑖 + 𝑏
Puis notre spécification économétrique est sous la forme :
𝑌𝑖 = 𝑎𝑋𝑖 + 𝑏 + 𝑢𝑖
On dispose du modèle de régression linéaire, nous utilisons la méthode des moindres carrées
ordinaires pour avoir un meilleur ajustement linéaire des données par une droite de régression qui
prendra la forme de :
𝑦̂𝑖 = â𝑥𝑖 + 𝑏̂
Notre travail sera consacré en premier lieu à la recherche des paramètres â et b̂ , et en deuxième
lieu, valider notre modèle à partir des tests d’hypothèses sur les paramètres estimés et à calculer le
coefficient de détermination qui permettra de juger la qualité de la régression. Mais avant, on calcul
le coefficient de corrélation.
Années n 𝒚𝒊 𝒙𝒊 𝒙𝒊 𝒚𝒊 𝒙𝒊 ² ̂
𝒚 𝒆𝒊 ² ̅)²
(𝒙𝒊 − 𝒙 ̅)²
(𝒚𝒊 − 𝒚
2003 1 560 5 2800 25,00 556,30 13,67 0,137 225
2004 2 500 3,4 1700 11,56 507,43 55,14 1,513 2025
2005 3 510 3,6 1836 12,96 513,54 12,50 1,061 1225
2006 4 584 5,6 3270 31,36 574,63 87,76 0,941 1521
2007 5 530 4,4 2332 19,36 537,97 63,58 0,053 225
2008 6 520 4 2080 16,00 525,75 33,11 0,397 625
2009 7 524 3,8 1991 14,44 519,64 18,97 0,689 441
2010 8 560 4,4 2464 19,36 537,97 485,15 0,053 225
2011 9 570 6 3420 36,00 586,85 283,96 1,877 625
2012 10 592 6,1 3611 37,21 589,91 4,38 2,161 2209
N = 10 5450 46,300 25505 223,25 1058,229 8,881 9346
545 4,630
La corrélation linéaire exprime l’intensité de la liaison entre deux variables : le chiffre d’affaires en
fonction des dépenses publicitaires.
Le coefficient de corrélation (𝑟) est un indicateur de cette relation. Il est déterminé de la façon
suivante :
𝑐𝑜𝑣(𝑥, 𝑦) ∑ 𝑥𝑖 𝑦𝑖 − 𝑛𝑥̅ 𝑦̅ ∑(𝑥𝑖 − 𝑥̅ ) × (𝑦𝑖 − 𝑦̅)
𝑟= = = = 0,942
𝜎𝑥 𝜎𝑦 ∑ 𝑥𝑖 ² − 𝑛𝑥̅ ² × ∑ 𝑦𝑖 ² − 𝑛𝑦̅ ² √∑(𝑥𝑖 − 𝑥̅ )² × √∑(𝑦𝑖 − 𝑦̅)²
Ce qui confirme une forte corrélation entre les dépenses publicitaires et le chiffre d’affaires.
Lorsque la corrélation linéaire est significative, on peut estimer notre relation économétrique.
540
La droite obtenue permet d’effectuer des
prévisions. 520
Par exemple, le chiffre d’affaires prévisibles 𝑛 +
1 pour des dépenses publicitaires de 6.3 millions 500
30
Econométrie linéaire appliquée
Supposant que vous être recruté en tant qu’analyste au sein d’une compagnie de distribution du
carburant opérant dans la région de Rabat, et elle prévoit investir en termes d’augmentation des
points de vente dans d’autre région que Rabat. Le tableau suivant trace l’évolution pendant un mois
des ventes (en milliers de Dirhams) en fonction de l’évolution du nombre des points de vente du
carburant (nombre de station d’essence).
𝑦 𝑥 2000
12 2
48 4 1500
192 6
24 3 1000
768 8
500
96 5
96 5 0
384 7 0 2 4 6 8 10
1536 9
On vous demande d’analyser d’abord la courbe tirée du croisement de variables à partir du tableau,
et ensuite proposer une modélisation linéaire et une estimation des ventes si le nombre des stations
égale à 12.
La représentation graphique de l’évolution des ventes nous renseigne que la relation entre les deux
variables peut avoir la forme d’une courbe exponentielle, de la forme :
𝑌𝑖 = 𝐵𝐴 𝑥𝑖
31
Econométrie linéaire appliquée
Supposant que vous être charger d’analyser l’utilisation de cartes de crédit comme un mode de
paiement chez une banque. Vous avez effectué une régression du type :
𝑌𝑡 = 𝑎𝑋𝑡 + 𝑏 + 𝑢𝑡
𝐶𝐴𝑅𝑇𝐸𝑖 = 𝐶 + 𝑎 × 𝑅𝐸𝑉𝐸𝑁𝑈𝑖 + 𝑒𝑖
Où 𝑌𝑖 représente les dépenses moyennes mensuelles sur carte de crédit (Soit les dépenses annuelles
divisées par 12) notée « CARTE » et 𝑋𝑡 , le revenu des détenteurs de carte, notée « REVENU » . Sur le
fichier original, celui-ci est exprimé sur une base annuelle et est divisé par 10000. On régresse cette
équation selon les MCO, qui comprennent 72 individus. Pour les données il faut voir le fichier Excel :
exercice_Carte_de_Crédit_Reg_Simple. Le résultat est présenté au tableau suivant :
La régression a été faite par le logiciel Eviews. On vous demande de commenter le tableau ?
À la lecture du tableau ci-dessus, on constate que le 𝑅² (R-squared) est de 0,20. Pour sa part, le 𝑅²
ajusté se situe à 0,18. Comme il s’agit ici de données microéconomiques, on s’attend à des 𝑅² plutôt
modérés, de l’ordre de 0,25. En dépit du caractère très modéré du R², on observe que le coefficient
associé au revenu, à hauteur de 82,9, a une statistique t significative égale à :
82,93 − 0
𝑡𝑎̂ = = 4,13
20,05
On veut maintenant prévoir les dépenses sur carte de crédit associées à un niveau de revenu de
40000 DH. Les dépenses prévues pour ce niveau de revenu seront de :
̂ 40000 = 𝐶̂ + 𝑎̂ × 𝑅𝐸𝑉𝐸𝑁𝑈40000
𝐶𝐴𝑅𝑇𝐸
40000
̂ 40000 = −22,51 + 82,93 ×
𝐶𝐴𝑅𝑇𝐸 = 309,21 DH
10000
Au regard de cet exemple, il parait claire les limites du modèle de régression simple, il est
indispensable de rajouter d’autres variables explicatives pour expliquer les dépenses moyennes sur
carte de crédit, à ce titre nous parlons du modèle de régression multiple.
32
Econométrie linéaire appliquée
Variable Endogène
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + …
⏞ + 𝛽𝑘 𝑋𝑘𝑖 + 𝑢𝑖 Terme d’Erreur
(2.1)
composante
Paramètres
aléatoire
𝑘 étant le nombre de variables exogènes, et 𝑖 varie selon les 𝑛 individus.
𝑌𝑖 = 𝛽𝑋𝑖 + 𝑢𝑖 (2.2)
La multiplicité des variables exogènes conduit à ajouter une hypothèse nouvelle à celles qui
spécifient le modèle de régression simple : il n’existe pas de relation linéaire exacte entre les 𝑋𝑘 ,
(absence de colinéarité).
On peut estimer les paramètres de l’équation (2.1) par les moindres carrées ordinaires (MCO) en
recherchant le minimum de la somme des résidus quadratiques :
min ∑ 𝑒𝑖 ² (2.3)
𝛽0 ,𝛽1 ,..𝛽𝑘
Il en résulte des équations normales :
𝛽̂ = (𝑋 ′ 𝑋)−1 𝑋′𝑌
Avec :
𝛽̂0
̂
𝛽̂ = 𝛽1
⋮
(𝛽̂𝑘 )
Exemple :
Le tableau (2.1) une extension du tableau (1.1) : il rapporte les effets d’un insecticide ajoutés à ceux
du fertilisant sur la production du Maïs. Les observations concernent également les mêmes années.
Dans le cas de la régression multiple il est difficile de mener les calculs avec plusieurs variables
explicatives. L’usage des logiciels spécialisés reste une solution très pratique.
Nous utilisons :
33
Econométrie linéaire appliquée
Pour le calcul manuelle nous utilisons les valeurs centrée de 𝑦𝑖 = 𝑌𝑖 − 𝑌̅ , 𝑥1𝑖 = 𝑋1𝑖 − 𝑋̅ et de
𝑥2𝑖 = 𝑋2𝑖 − 𝑋̅, voir la relation (1.8), le tableau suivant résume les calculs nécessaires :
Années 𝒏 𝒀𝒊 𝑿𝟏𝒊 𝑿𝟐𝒊 𝒚𝒊 𝒙𝟏𝒊 𝒙𝟐𝒊 𝒙𝟏𝒊 𝒚 𝒙𝟐𝒊 𝒚 𝒙𝟏𝒊 𝒙𝟐𝒊 𝒙𝟏𝒊 ² 𝒙𝟐𝒊 ²
2001 1 40 6 4 -17 -12 -8 204 136 96 144 64
2002 2 44 10 4 -13 -8 -8 104 104 64 64 64
2003 3 46 12 5 -11 -6 -7 66 77 42 36 49
2004 4 48 14 7 -9 -4 -5 36 45 20 16 25
2005 5 52 16 9 -5 -2 -3 10 15 6 4 9
2006 6 58 18 12 1 0 0 0 0 0 0 0
2007 7 60 22 14 3 4 2 12 6 8 16 4
2008 8 68 24 20 11 6 8 66 88 48 36 64
2009 9 74 26 21 17 8 9 136 153 72 64 81
2010 10 80 32 24 23 14 12 322 276 168 196 144
10 570 180 120 956 900 524 576 504
57 18 12
34
Econométrie linéaire appliquée
40 16 4 𝑢1
44 110 4 ̂
𝛽1 𝑢 2
46 112 5 ̂ 𝑢3
= (𝛽2 ) +
⋮ ⋮ ⋮ ⋮ ⋮
74 12621 𝛽̂3 𝑢9
(80) (13224) (𝑢10 )
Il s’agit de calculer le vecteur des estimateurs 𝛽̂ défini par l’égalité suivante : Voir le tableau (1.3) pour le calcul
des 𝑌𝑖 et 𝑋1 , on vous laisse la peine
𝛽̂𝑘 = (𝑋 ′ 𝑋)−1 𝑋′𝑌
du calcul des valeurs de 𝑋2
𝑛 ∑ 𝑋1 ∑ 𝑋2
Important à retenir 10 180 120
𝑋′𝑋 = ∑ 𝑋1 ∑ 𝑋1 ² ∑ 𝑋1 𝑋2 = (180 3816 2684)
120 2684 1944
(∑ 𝑋2 ∑ 𝑋1 𝑋2 ∑ 𝑋2 ² )
La transposée de 𝑋 ′ 𝑋 est :
10 180 120
𝑋 ′ 𝑋 𝑇 = (180 3816 2684)
120 2684 1944
1
La matrice inverse est alors : (𝑋 ′ 𝑋)−1 = det(𝑋 ′ 𝑋) (𝐴𝑑𝑗 (𝑋 ′ 𝑋))
35
Econométrie linéaire appliquée
Aussi : ∑𝑌
570
Important à 𝑋′𝑌 = ∑ 𝑌𝑋1 = (11216)
retenir 7740
(∑ 𝑌𝑋2 )
Donc :
L’estimation des paramètres à plusieurs variables explicatives nécessite bien l’assistance d’un
ordinateur.
Comme 𝜎𝑢 ² est inconnue, on utilise la variance résiduelle, 𝑠², à titre d’estimation sans biais de cette
grandeur :
𝑢̂′𝑢̂ ∑ 𝑒𝑖²
𝑠² = 𝜎̂ = 𝜎̂𝑢 = =
𝑛−𝑘 𝑛−𝑘
Exemple :
On teste la signification statistique des paramètres du modèle de l’exemple précédent. Il en résulte
des valeurs rassemblées dans le tableau (2.1) que,
Nous pouvons également calculer :
𝑢̂′𝑢̂ ∑ 𝑒𝑖² ∑(𝑌𝑖 − 𝑌̂𝑖 )² 13,67
𝑠² = 𝜎̂ = 𝜎̂𝑢 ² = = = = = 1,95
𝑛−𝑘 𝑛−𝑘 𝑛−𝑘 10 − 3
D’où :
1,363 −0,177 0,160 2,663 −0,346 0,313
𝑠𝛽̂𝑘 ² = 𝜎̂𝑢 ²(𝑋 ′ 𝑋)−1 = 1,95 (−0,177 0,032 −0,033) = (−0,346 0,063 −0,065)
0,16 −0,033 0,037 0,313 −0,065 0,072
Les écarts types 𝑠𝛽̂𝑘 des estimateurs 𝛽̂𝑘 sont alors donnés par les racines carrées des éléments
diagonaux de cette matrice. Nous avons ainsi :
36
Econométrie linéaire appliquée
̂𝑘 |
|𝛽
Par conséquent 𝑡𝛽̂𝑘 = 𝑠𝛽
, alors on déduit :
̂
𝑘
Comme il est vraisemblable que l’inclusion de nouvelles variables explicatives accroisse la part
«expliquée» = 𝑌̂′𝑌 , pour une même variabilité totale, 𝑆𝐶𝑇 = 𝑌′𝑌, 𝑅² doit augmenter dans une
régression multiple. Cette augmentation ne tenant qu’au nombre et non au pouvoir explicatif (à
l’influence linéaire) des variables additionnelles, on défini un 𝑅² corrigé, écrit 𝑅̅ ², qui tienne compte
de la diminution du nombre du degrés de liberté consécutive à l’introduction de nouvelles variables
indépendantes :
𝑛−1 𝑆𝐶𝑅⁄
𝑅̅ ² = 1 − (1 − 𝑅 2 ) =1− 𝑛−𝑘
𝑛−𝑘 𝑆𝐶𝑇⁄
𝑛−1
Exemple :
Calculons sur la base du tableau (2.1) le 𝑅² et le 𝑅̅ ².
Méthode : calculons le tableau d’ANOVA pour notre exemple, il s’agit de calculer les quantités
suivantes : 𝑆𝐶𝑇 = 𝑆𝐶𝐸 + 𝑆𝐶𝑅
570
Avec : 𝑆𝐶𝐸 = 𝛽̂ ′ 𝑋 ′ 𝑌 − 𝑛𝑌̅ ² = (30,98 0,65 1,11) × (11216) − (10) × (57)2 = 1620
7740
37
Econométrie linéaire appliquée
𝑆𝐶𝐸 1620
𝑅² = = = 0,992
𝑆𝐶𝑇 1634
𝑛−1 10−1
Par conséquent : 𝑅̅ 2 = 1 − (1 − 𝑅 2 ) = 1 − (1 − 0,992) = 0,989 ≈ 98,9%
𝑛−𝑘 10−3
Et 𝑠² = 1,95 donc :
𝑢̂’𝑢̂ 13,67
𝑅2 = 1 − =1− = 0,992
𝑌′𝑌− 𝑛𝑌 ̅ 2 34124 − 10 × (57)2
𝑛−1 𝑘 − 1 10 − 1 3−1
𝑅̅ 2 = × 𝑅2 − = × 0,992 − = 0,989 ≈ 98,9%
𝑛−𝑘 𝑛 − 𝑘 10 − 3 10 − 3
Si le rapport 𝐹 calculé dépasse la valeur tabulaire de 𝐹 pour le risque admis (c’est à dire pour le seuil
de signification donnée) en fonction des degrés de libertés 𝑘 − 1 et 𝑛 − 𝑘, on accepte l’hypothèse
que les paramètres de la régression ne sont pas tous nuls et 𝑅² diffère significativement de zéro.
Exemple :
Pour tester au seuil de 5% la signification d’ensemble de la régression estimée dans l’exemple
précédent, nous pouvons utiliser 𝑅² , de sorte que :
𝑅²⁄ 0,992⁄
𝐹𝑘−1;𝑛−𝑘 = 𝐹2;7 = 𝑘−1 = 3 − 1 = 413,17
1 − 𝑅²⁄ 1 − 0,992⁄
𝑛−𝑘 10 − 3
Comme la valeur calculée de 𝐹 dépasse la valeur tabulaire 𝐹 = 4,74 pour le seuil de signification de
5% avec le couple de degrés de liberté (2 ; 7), nous admettons l’hypothèse que ne sont pas tous nuls
et que 𝑅² est significativement différent de zéro.
38
Econométrie linéaire appliquée
Où 𝑟𝑌𝑋1 , 𝑟𝑌𝑋2 et 𝑟𝑋1 𝑋2 représentent respectivement les coefficient de corrélation simple (ou d’ordre
zéro) entre 𝑌 et 𝑋1 , 𝑌 et 𝑋2 , 𝑋1 et 𝑋2 . les coefficients de corrélation partielle ont une valeur
appartenant à l’intervalle (−1, +1), borne comprises, comme les coefficients de corrélation simple.
Ils ont le signe du paramètre estimé correspondant et servent à déterminer l’importance relative des
différentes variables explicatives dans une régression multiple.
39
Econométrie linéaire appliquée
Résumé :
Accepter si
Réponse pour question 2 : Voir si ces paramètres sont « robustes» leurs valeurs si
Voir leurs significations (tests |𝛽̂𝑘 | |𝑝𝑎𝑟𝑎𝑚é𝑡𝑟𝑒| sont supérieurs
𝑡𝛽̂𝑘 = =
d’hypothèses) 𝑠𝛽̂𝑘 𝑠𝑜𝑛 é𝑐𝑎𝑟𝑡 − 𝑡𝑦𝑝𝑒 à 1.96 pour n>30
𝑠𝑎̂ inconnue
Problème qui se pose : (car 𝜎𝑢 est inconnue)
Maintenant on
Solution : calcul de la variance 𝑢̂′𝑢̂
𝑠² = 𝜎̂ = 𝜎̂𝑢 = peut calculer : 𝑡𝑎̂
résiduelle 𝑛−𝑘 et 𝑡𝑏̂ à partir des
Réponse pour question 1 : Tester la qualité de la régression multiple calculs de 𝑠𝛽̂ ² =
Relations : 𝜎̂𝑢 ²(𝑋 ′ 𝑋)−1
𝑆𝐶𝐸 𝑌̂′𝑌 𝑢̂′𝑢̂ 𝑆𝐶𝑅
𝑅² = = =1− =1−
Solution : 𝑆𝐶𝑇 𝑌′𝑌 𝑌′𝑌 𝑆𝐶𝑇
̅
0 ≤ 𝑅² ≤ 1
𝑛−1 𝑘−1 SCR⁄
𝑅̅ ² = 𝑅² × − =1− n−k
𝑛−𝑘 𝑛−𝑘 SCT⁄
n−1
̅ ² est proche de 1 : l’ajustement est «bon»
Si 𝑹
40
Econométrie linéaire appliquée
Exercice :
D’après le modèle linéaire fourni par l’analyse de régression multiple, lorsque deux variables
exogènes sont en jeu, indiquer la signification de (a) 𝜷𝟎 , (b) 𝜷𝟏 , (c) 𝜷𝟐 . (d) ces trois paramètres
sont –ils BLUE ?
a) Le paramètre 𝛽̂0 est le terme constant de l’équation de la régression, 𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋1𝑖 +
𝛽̂2 𝑋2𝑖 ; Dans un espace euclidien à trois dimensions, c’est la coordonnée , 𝑌̂ de l’intersection
de l’axe des Y avec le plan de régression défini par cette équation ; autrement dit, 𝛽̂0 donne
la valeur estimée de 𝑌𝑖 lorsque 𝑋1𝑖 = 𝑋2𝑖 = 0.
b) Le paramètre 𝛽̂1 mesure la variation de 𝑌̂ pour toute variation unitaire de 𝑋1 , lorsque 𝑋2
reste constant ; il représente la pente des droites du plan de régression parallèle au plan
𝑋1 𝑂𝑌, O étant l’origine des coordonnées. Ce paramètre est un coefficient de régression
𝜕𝑌
partielle parce qu’il est égal à la dérivée partielle de 𝑌̂ par rapport à 𝑋1 soit .
𝜕𝑋1
c) Le paramètre 𝛽̂2 mesure la variation de 𝑌̂ pour toute variation unitaire de 𝑋2 , lorsque 𝑋1
reste constant ; il représente la pente des droites du plan de régression parallèle au plan
𝑋2 𝑂𝑌. C’est le second coefficient de régression partielle, étant égal la dérivée partielle de 𝑌̂
𝜕𝑌
par rapport à 𝑋2 soit .
𝜕𝑋2
d) Comme 𝛽̂0 , 𝛽̂1 et 𝛽̂2 sont obtenus par la méthode MCO, ils sont aussi les meilleurs
estimateurs linéaires sans biais (BLUE). Autrement dit : 𝐸(𝛽̂0 ) = 𝛽0 , 𝐸(𝛽̂1 ) = 𝛽1 et 𝐸(𝛽̂2 ) =
𝛽2 , et 𝑠𝛽̂0 , 𝑠𝛽̂1 et 𝑠𝛽̂2 ont des valeurs minimales par rapport à tout autre estimateur linéaire
sans biais. Prouver ces propriétés manque particulièrement d’élégance hors l’emploi du
calcul matriciel.
Exercice :
Le tableau suivant (2.2) concerne 15 pays développés et donne pour chacun le niveau de revenu
réel par tête 𝒀 en milliers de US$. Avec le pourcentage de de la force de travail employé dans
l’agriculture et la durée moyenne de la scolarité 𝑿𝟐 (en années) pour une population au-dessus de
25 ans (a) établir l’équation de régression MCO de 𝒀 par rapport à 𝑿𝟏 et 𝑿 𝟐 ? (b) interpréter les
résultats ainsi obtenus ?
pays n° 𝑌𝑖 𝑋1𝑖 𝑋2𝑖 𝑌𝑖 ² 𝑋1𝑖 ² 𝑋2𝑖 ² 𝑋1𝑖 𝑋2𝑖 𝑌𝑖 𝑋1𝑖 𝑌𝑖 𝑋2𝑖
1 6 9 8 36 81 64 72 54 48
2 8 10 13 64 100 169 130 80 104
3 8 8 11 64 64 121 88 64 88
4 7 7 10 49 49 100 70 49 70
5 7 10 12 49 100 144 120 70 84
6 12 4 16 144 16 256 64 48 192
7 9 5 10 81 25 100 50 45 90
8 8 5 10 64 25 100 50 40 80
9 9 6 12 81 36 144 72 54 108
10 10 8 14 100 64 196 112 80 140
11 10 7 12 100 49 144 84 70 120
12 11 4 16 121 16 256 64 44 176
13 9 9 14 81 81 196 126 81 126
14 10 5 10 100 25 100 50 50 100
15 11 8 12 121 64 144 96 88 132
135 105 180 1255 795 2234 1248 917 1658
9 7 12 Quantités utilisées pour calculer 𝛽̂𝑘
41
Econométrie linéaire appliquée
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝑢𝑖
Nous utilisons le calcul matriciel, d’après les calculs tirés du tableau (2.2), nous avons :
Et
∑𝑌
135
𝑋 ′𝑌 = ∑ 𝑌𝑋1 = ( 917 )
1658
(∑ 𝑌𝑋2 )
6,20
𝛽̂𝑘 = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑌 = (−0,38)
0,45
Donc :
𝑌̂𝑖 = 6,20 − 0,38𝑋1𝑖 + 0,45𝑋2𝑖
b) Cette dernière équation indique que le niveau du revenu réel par tête 𝑌, est inversement lié
au pourcentage 𝑋1 de la force de travail dans l’agriculture, mais qu’il est en relation directe
avec la durée 𝑋2 de la scolarité de la population au dessus de 25 ans : ce qui d’ailleurs aurait
pu être anticipé. De façon précise 𝛽̂1 fait apparaitre qu’une réduction de 1% de l’effectif
employé e agriculture est associée à une augmentation de revenu réel par tête égale à 380
dollars. 𝑋2 restant constant. Lorsque 𝑋2 = 𝑋2 = 0 , 𝑌̂𝑖 = 𝛽̂0 = 6,20. Dans la mesure où il est
prouvé que 𝑋2 est statistiquement signifiant et doit par conséquent être inclus dans
l’équation de régression, la valeur 𝛽̂1 = −0.47 déterminée dans l’exercice du modèle de
régression simple n’est pas une estimation satisfaisante de 𝑏.
42
Econométrie linéaire appliquée
Exercice :
D’après le tableau (2.2) qui réunit les calculs nécessaires. Les valeurs de 𝒀 ̂ sont obtenues par
substitution des valeurs de 𝑿𝟏 et de 𝑿𝟐 dans l’équation estime par la régression MCO, telle que
l’on établie dans l’exercice précédent. Déterminer 𝒔𝜷̂𝒌 , et 𝒕𝜷̂𝒌 , établir l’intervalle de confiance à
95% pour les 𝜷̂ 𝒌 , et détermine 𝑹 ² pour l’équation estimé de la régression par MCO, et déduire 𝑹 ̅ ²,
sur quel intervalle le R² prend ses valeurs
Dés lors :
𝑌̂ 𝑢̂² Calculons d’abord :
6,44 0,19 𝑢̂′𝑢̂ 12,27
𝑠² = 𝜎̂ = 𝜎̂𝑢 = = = 1,023
8,32 0,10 𝑛 − 𝑘 15 − 3
8,17 0,03 On déduit :
8,09 1,20 3,391 −0,154 −0,187
𝑠𝛽̂ ² = 𝜎̂𝑢 ²(𝑋 ′ 𝑋)−1 = 1,023 × (−0,154 0,017 0,003 )
7,87 0,76
−0,187 0,003 0,014
11,94 0,00 3,468 −0,154 −0,193
8,85 0,02 = (−0,154 0,017 0,003 )
8,85 0,72 −0,193 0,003 0,014
9,38 0,14 Donc :
9,53 0,22 √3,468 1,86
9,00 1,00 𝑠𝛽̂𝑘 = (√0,017) = (0,13)
11,94 0,88 0,12
9,15 0,02
√0,014
3,33
8,85 1,33
𝑡𝛽̂𝑘 = (2,83)
8,62 5,65
3,78
135 12,27
Puisque les valeurs absolues de 𝑡𝛽̂𝑘 dépassent sa valeur tabulaire 𝑡 = 2,17 au seuil de 5% pour 𝜗 =
𝑛 − 𝑘 = 15 − 3 = 12, on conclura que 𝑡𝛽̂𝑘 sont tous signifiant au seuil de 5%.
43
Econométrie linéaire appliquée
Problème de récapitulation
On suppose une série d’observations rassemblées dans le tableau ci-dessous, portant sur les
quantités demandée 𝑌 d’une marchandise, sur son prix 𝑋1 et sur le revenu global des
consommateurs 𝑋2 pendant les dernières quinze années. (a) Ajuster une régression MCO à ces
observations. (b) tester au seuil de 5% les paramètres de pente. (c) déterminer les coefficients de
corrélation multiple, non corrigé et corrigé. (d) tester la signification de l’ensemble de la régression
(e) déterminer les coefficients de corrélation partielle et indiquer quelle variable indépendante
contribue le plus au pouvoir explicatif du modèle. (f) calculer les valeurs de moyennes, l’élasticité prix
et l’élasticité revenu de la demande, notées respectivement 𝜂𝑃 et 𝜂𝑀 . (g) résumer tous ces résultats
sous forme habituelle.
𝒀𝒕 𝑿𝟏𝒕 𝑿𝟐𝒕
40 9 400
45 8 500
50 9 600
55 8 700
60 7 800
70 6 900
65 6 1000
65 8 1100
75 5 1200
75 5 1300
80 5 1400
100 3 1500
90 4 1600
95 3 1700
85 4 1800
44
Econométrie linéaire appliquée
Problème de récapitulation
𝐶𝐴𝑅𝑇𝐸𝑖 = 𝛽𝑋𝑖 + 𝑢𝑖
PROP : variable indicatrice qui prend la valeur 1 lorsque l’individu est propriétaire de son logement et
0 sinon.
Estimer avec la méthode des MCO les dépenses des individus en fonction des variables : AGE, PROP,
REVENU et REVENU2, en utilisant Excel, puis EVIEWS.
45
Econométrie linéaire appliquée
Types de données
Il existe trois types de données et chaque type de donnée peut fait appel à des techniques
économétriques particulières.
Il s’agit d’échantillon d’individus, de ménages, de firmes, ..., pris à un point du temps donné.
Important: on peut souvent supposer que les observations sont représentées sous forme d’un
échantillon aléatoire, ce qui simplifie l’analyse.
Encore on peut prendre comme exemple : les données très utilisées en économie et sciences sociales
et plus particulièrement les données « micro appliquée »: marché du travail, finances publiques,
organisation industrielle, économie spatiale, démographie, économie de la santé, etc.
Important: les séries chronologiques sont rarement indépendantes au court du temps ce qui
complexifie l’analyse.
En terme des séries chronologiques, elles sont exprimées sous différentes fréquences: annuel,
trimestriel, mensuel, hebdomadaire, journalier, intra-journalier.
Les données qui sont très utilisées concernent les séries en macroéconomie et en finance.
Exemple : évolution du chiffre d’affaires d’une entreprise en fonction des prospectus distribués
46
Econométrie linéaire appliquée
Le pooling
Une série «cross-section» constitue bien souvent un ensemble de données relatives à des unités
(individus, firmes, etc.) interrogées à un moment donné.
Dans certains cas, l’enquête est répétée plusieurs fois donnant lieu à des échantillons différents,
représentatifs de la population.
La technique du pooling suppose que les différents échantillons sont à chaque fois tirés
aléatoirement de la population.
Le panel
Par contre, lorsqu’on observe la même unité au court du temps, on parle de données de panel ou
longitudinales.
Faire des coupes transversales sur plusieurs dates. Si on observe spécifiquement les mêmes
individus, on parle de «cohorte».
Par conséquent, on ne peut pas supposer que les observations sont indépendantes.
Un facteur non-observé (comme le QI) qui affecte le salaire d’un individu en 1995 va
également affecter son salaire en 2000.
Requiert des techniques particulières pour traiter ce problème.
Empiler les échantillons et utiliser les MCO donne des estimateurs biaisés.
𝑎𝑖 capture tous les facteurs non-observés affectant 𝑦𝑖𝑡 , appelé effets non-observés ou effets fixes.
47
Econométrie linéaire appliquée
Par ailleurs, l'inférence statistique relative à la régression (estimation par intervalle des coefficients,
tests d'hypothèses, etc.) repose principalement sur les hypothèses liées au terme d'erreur 𝑢𝑖 qui
résume les informations absentes du modèle. Il importe donc que l'on vérifie ces hypothèses afin de
pouvoir interpréter les résultats. Rappelant brièvement les hypothèses liées au terme d’erreur.
Sa distribution doit être symétrique, plus précisément elle suit une loi normale (normalité)
Sa variance est constante (homoscédasticité)
Les erreurs 𝑢𝑖 (𝑖 = 1, . . . , 𝑛) sont indépendantes (colinéarité).
Le modèle classique de régression linéaire est fondé sur les quatre hypothèses suivantes :
- Les variables 𝑋 et 𝑌 sont observer sans erreurs ; la variable 𝑋 est certaine : elle prend des valeurs
fixes dans l’échantillon répétés, de sorte que 𝑋 et 𝑢 ne sont pas corrélés ;
- Le terme d’erreurs est de moyenne (ou d’espérance mathématique) nulle (hypothèse
fondamentale) ;
- Il suit une loi de distribution normale (hypothèse de normalité) ;
- Sa variance est constante (hypothèse d’homoscédasticité) ;
- Il n’y pas de corrélation entre les termes d’erreurs (hypothèse d’indépendance des divers
observations)
- Absence de colinéarité entre les variables exogènes. (Hypothèse du modèle de régression multiple)
Les propriétés des estimateurs MCO tiennent donc indépendamment des hypothèses ci-dessus, par
conséquent nous pouvant nous poser cette question : y-a-il des façons de détecter la présence de ces
hypothèses dans le modèle étudié ? La réponse est oui.
Pour inspecter ces hypothèses, nous disposons des erreurs observées, les résidus, 𝑒𝑖 produites par la
différence entre les valeurs observées de l'endogène 𝑦𝑖 et les prédictions ponctuelles de la
régression 𝑦̂𝑖 .
Il s’agit de regarder un graphique avec les résidus de l’équation estimée sur l’axe vertical et une des
variables explicatives du modèle sur l’axe horizontal. Si la grandeur absolue des résidus varie
systématiquement avec la variable explicative, c’est un signe de la présence de l’hétéroscédasticité.
On peut aussi regarder un graphique où on mesure les résidus au carré sur l’axe vertical. Si les points
on une pente non nulle évidente (positive ou négative), c’est un signe de la présence de
l’hétéroscédasticité. Si c’est le cas, il est fortement conseillé d’effecteur un ou plusieurs tests formels.
48
Econométrie linéaire appliquée
Test de normalité :
Présentation du problème :
Une grande partie de l'inférence statistique (ex. test de pertinence globale de la régression,
prédiction par intervalle, etc.) repose sur l'hypothèse de distribution normale 𝑁(0, 𝜎̂) du terme
d'erreur de l'équation de régression. Vérifier cette hypothèse semble incontournable pour obtenir
des résultats exacts, donc pour résumer:
L’hypothèse ̂)
𝒖~𝑵(𝟎, 𝝈 est violée
Détection
Haavelmo (1944) dans l’objectif de briser la réticence de ses contemporains vis-à-vis de l’application
des méthodes statistiques aux données économiques. Il a avancé deux thèses. D’abord, il a défendu
l'idée que l'emploi des mesures statistiques telles que les moyennes, les écarts-type, les coefficients
de corrélation, à des fins d'inférence n'a réellement de sens que dans un contexte probabiliste. De
plus, estimait-il, peu importe la vraie nature des faits économiques, il suffisait, pour les analyser, de
faire comme si les données économiques étaient générées par une loi de probabilité qu'il fallait
identifier de façon adéquate
Avant donc toute étude sérieuse, le travail de l’économètre est de tester l’adéquation ou la
conformité d’une distribution observée avec une distribution théorique associée à une loi de
probabilité. Parmi ces tests d’adéquation, la conformité à la loi normale est le test le plus utilisé, car
elle sous-tend la plupart de tests paramétriques utilisés en Econométrie. A titre de rappel, pour une
distribution gaussienne, 𝑥̅ ± 2𝜎 contiennent 95% des observations.
Il existe une batterie de tests de normalité, ici nous reprenons quelques uns regroupés en deux
familles : tests formels et tests non formels.
Ci-après sont exposés uniquement les tests les plus fréquemment utilisés et les plus opérationnels.
Il ne s'agit pas d'un test au sens statistique du terme. Le graphique Q-Q plot (quantile-quantile plot)
est un graphique "nuage de points" qui vise à confronter les quantiles de la distribution empirique et
les quantiles d'une distribution théorique normale, de moyenne et d'écart type estimés sur les
valeurs observées. Si la distribution est compatible avec la loi normale, les points forment une droite.
Dans la littérature francophone, ce dispositif est appelé Droite de Henry.
49
Econométrie linéaire appliquée
Principe : Le test de Jarque-Bera, proposé en 1980 par Carlos Jarque et Anil Bera, est parmi les tests
de normalité les plus populaires dans les milieux académiques. Mais la remarque à faire, d’ores et
déjà, est qu’il est particulièrement approprié pour grand échantillon, soit n > 88.
Le test JB est fondé sur les coefficients d’asymétrie et d’aplatissement. Sa richesse consiste à ce qu’il
permet de conclure à la fois sur l’asymétrie et l’importance des queues [aplatissement] d’une
distribution.
𝐻 : 𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑡é
{ 0
𝐻1 : 𝑁𝑜𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑡é
𝑠² (𝐾 − 3)² 𝑛 (𝐾 − 3)²
𝐽𝐵 = 𝑛 [ + ] = [𝑠² + ]
6 24 2 4
Valeur lue dans la table de la loi du Khi carré à deux degrés de liberté
Seuil
1% 5%
valeur
9,210 5,99
Critère de décision : Si JB ≥ à la valeur du 𝜒²(2) de la table au seuil 𝛼, alors Rejet de 𝐻0 de normalité.
Exemple :
Reprenant un exemple du chapitre précédent (tableau 2.2), celui qui met en relation niveau de
revenu réel par tête 𝑌 en milliers de US$. Avec le pourcentage de la force de travail employé dans
l’agriculture 𝑋1 et la durée moyenne de la scolarité 𝑋2 (en années) pour une population au-dessus de
25 ans. En introduisant la commande suivante sur Eviews [𝑌 c 𝑋1 𝑋2 ], on obtient le résultat suivant :
Dependent Variable: Y
Method: Least Squares
Sample: 1 15
Included observations: 15
50
Econométrie linéaire appliquée
6
Series: Residuals
Sample 1 15
5
Observations 15
4 Mean 9.77e-16
Median -0.171322
Maximum 2.376164
3 Minimum -1.094972
Std. Dev. 0.936249
2 Skewness 1.123134
Kurtosis 3.791781
1 Jarque-Bera 3.545399
Probability 0.169874
0
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5
51