Vous êtes sur la page 1sur 416
Economeétrie DUNOD Le picegromme qui figure reproduction non autorisée est un Avant-propos ette dixitme édition, gage que ce livre répond & un besoin constant des étu- diants, marque la volonté d’une mise & jour permanente de ce manuel tant sur le plan des concepts de I’économétrie modeme que des applications, tout en lui conservant son aspect trés pédagogique. Dans cette nouvelle édition nous avons intégré de manigre systématique les logiciels Gretl et Stata dans la correction des exercices & l'aide des fichiers « script » de commandes. Ce livre couvre tous les champs de I’économétrie : régression simple et multiple, violation des hypothéses (hétéroscédasticité, autocorrélation des erreurs, variables explicatives aléatoires), modéle & décalage, analyse des séries temporelles, tests de racine unitaire, équations multiples, VAR, cointégration, VECM, économétrie des variables qualitatives et des données de panel Sur ensemble de ces themes, ce livre vous propose un cours, des exercices cor rigés, et une présentation des logiciels d’ économéirie les plus répandus. Souhaitons qw il corresponde a votre attente. En effet, nous avons voulu, par une alternance systématique de cours et d’exer- cices, répondre & un besoin pédagogique qui est de mettre rapidement en pratique les connaissances théoriques et ainsi, d’utiliser de maniére opérationnelle les acquis, du cours ; les exercices sont repérés grice Aun bandeau grisé. De surcroit, le recours a des logiciels!, lors de la résolution des exercices, permet une découverte de ces outils et donne une dimension pratique que recherchent I’étudiant et le praticien. 1. Quatre logiciels sont utilisés : EXCEL (copyright Microsoft), Eviews (copyright Quantitative Micro Software), Stata (copyright StataCorp.) et Gretl, Nous recommandons particuligrement le logiciel Gretl (hitp:/gret sourceforge.neV) qui est un logiciel d’économétrie gratuit, complet et tes facile d'apprentissage. xl Econométrie XIl Afin que le lecteur puisse lui-méme refaire les exercices, les données utilisées (sous format Excel, Eviews, Gretl et Stata) ainsi que les programmes de traitement de Eviews (extension .prg) ou de Gretl (extension .INP) sont disponibles par télé- argement sur le serveur web. Les corrigés des exercices et les données sous format Stata ont été réalisés par Dalila Chenaf-Nicet, maitre de conférences en économie a l’Université de Bordeaux, et sont disponibles également par téléchargement sur le site web : hitp://regisbourbonnais.dauphine.fr Pour chaque exercice faisant appel un fichier de données, le nom du fichier est cité en téte de l'exercice et repéré par l"icdne suivante : | & y. Nous avons voulu faire de ce manuel un livre d’apprentissage facilement acces- sible ; c’est pourquoi les démonstrations les plus complexes font I’objet de renvois A. une bibliographie plus spécialisée. Cependant, il convient de préciser que I’écono- métrie fait appel des notions d’algébre linéaire et d’induction statistique qu’il est souhaitable de connaitre. Dans le terme « économétrie » figure la racine du mot « économie » car son utili- sation est surtout destinée & des fins de traitement de données économiques ; cepen- dant, d’autres domaines tels que la finance, la recherche agronomique, la médecine, etc., font maintenant le plus souvent appel & ces techniques. Ce livre s'adresse en premier lieu aux étudiants (sciences économiques, gestion, Ecoles de commerce et ingénieurs, etc.) dont la formation requiert une connais: sance de I’économétrie. Gageons qu’il sera un support de cours indispensable et un allié précieux pour préparer les séances de travaux dirigés. N’oublions pas cependant le praticien de I’économétrie (économiste d'entreprise, chercheur, etc.) qui, confronté 4 des problémes d’estimation statistique, trouvera dans ce livre les réponses pratiques aux différentes questions qu’il peut se poser. Enfin, j’exprime toute ma gratitude a toutes les personnes — collegues et étudiants — qui ont eu la gentillesse de me faire des commentaires et dont les conseils et sugges- tions contribuent & la qualité pédagogique de ce livre. Je reste, bien entendu, le seul responsable des erreurs qui subsisteraient'. 1. Les lecteurs souhaitant faire des commentaires ou des remarques peuvent me contacter : Régis Bourbonnais, université de Paris-Dauphine, place du Maréchal de Lattre de Tassigny, 75775 Paris Cedex 16, E-mail: regis.bourbonnais@dauphine.fr Qu’est-ce que l’€conomeétrie ? SECHONT La notion de modéle SECTION 2 Le réle de I'économétrie SECTION 3 La théorie de la corrélation Chapitre1 = Qu’est-ce que I'économétrie ? ¢ premier chapitre est consacré A la présentation de I’économétrie et sa liaison avec la théorie économique. Section 1 LA NOTION DE MODELE 1L_Définiti Test délicat de fournir une définition unique de la notion de modéle!, Dans le cadre de I’économétrie, nous pouvons considérer qu’un modéle consiste en une présentation formalisée d'un phénomene sous forme d’équations dont les variables sont des grandeurs économiques. L’objectif du modele est de représenter les traits les plus marquants dune réalité qu’il cherche a styliser. Le modéle est donc l'outil que le modélisateur utilise lorsqu’il cherche & comprendre et & expliquer des phéno- menes. Pour ce faire, il émet des hypothéses et explicite des relations. * Pourquoi des modéles ? + Nombreux sont ceux — sociologues, économistes ou physiciens — qui fondent Jeurs analyses ou leurs jugements sur des raisonnements construits et élaborés. Ces constructions referent implicitement a des modéles ; alors pourquoi ne pas expliciter clairement les hypothéses et les relations au sein d’un modéle ? Le modéle est done une présentation schématique et partielle d’une réalité natu- rellement plus complexe. Toute la difficulté de la modélisation consiste & ne retenir que la ou les représentations intéressantes pour le probléme que le modélisateur cherche & expliciter. Ce choix dépend de la nature du probléme, du type de décision ou de I’étude a effectuer, La méme réalité peut ainsi étre formalisée de diverses maniéres en fonction des objectif 2_La construction des modéles en économétrie = Dans les sciences sociales, et particuligrement en économie, les phénomenes étudiés concemnent le plus souvent des comportements afin de mieux comprendre la nature et le fonctionnement des syst?mes économiques. L’objectif du modélisateur est, dans le cadre de I’économétrie et au travers d'une mesure statistique, de permettre aux agents 1. La notion de mod@le est relative au point de vue aug | nous nous plagons : Ia physique, ‘pistémologic, © Dunod ~ Toute reproduction non autorisée est un délit Qu’est-ce que I’économétrie ? = Chapitre1 économiques (ménages, entreprises, Etat...) d'imtervenir de manigre plus efficace. La construction d’un modéle comporte un certain nombre d’étapes qui sont toutes impor- tantes. En effet, en cas de faiblesse d’un des « maillons », le modéle peut se trouver invalidé pour cause d’hypothéses manquantes, de données non représentatives ou observées avec des erreurs, etc. Examinons les différentes étapes & suivre lors de la construction d’un modéle, ceci a partir de I’exemple du modéle keynésien simplifié. 2.1 Référence a une théor Une théorie s’exprime au travers d’hypothéses auxquelles le modéle fait référence. Dans la théorie keynésienne, quatre propositions sont fondamentales : 1. la consommation et le revenu sont liés : 2. le niveau dinvestissement privé et le taux d’intérét sont également liés ; 3. il existe un investissement autonome public ; 4. enfin, le produit national est égal & la consommation plus l'investissement privé et public. 2.2 Formalisation des relations et choix de la forme des fonctions A partir des propositions précédentes, nous pouvons construire des relations : 1. la consommation est fonction du revenu ; C = f(Y) avec f” > 05 2. investissement privé dépend du taux d’intérét : J = g(r) avec g’ <0; 3. il existe un investissement autonome public : T ; 4. enfin, le produit national (ou le revenu national) est égal a consommation plus Vinvestissement : ¥ = C+ +7. A ce stade, nous n’avons postulé aucune forme particulitre en ce qui concerne les fonctions f et g. Ainsi, bien que des considérations d’ ordre théorique nous renseignent sur le signe des dérivées, il existe une multitude de fonctions de formes tres différentes et ayant des signes de dérivées identiques, par exemple C = a) + a, ¥ et C=ay ¥*!, Cependant, ces deux relations ne refletent pas le méme comportement ; une augmentation du revenu. provoque un accroissement proportionnel pour la premiére relation, alors que, dans la seconde, l’effet s’estompe avec I'augmentation du revenu (si 0 Oet0 eth, <0; Ysc+i+T Chapitre1 = Qu’est-ce que I'économétrie ? Les deux premigres équations refletent des relations de comportements alors que la troisitme est une identité (aucun paramétre n’est 2 estimer). 2.3 Sélection et mesure des variables Le modéle étant spécifié, il convient de collecter les variables représentatives des phénoménes économiques. Ce choix n’est pas neutre et peut conduire a des résultats différents, les questions qu’il convient de se poser sont par exemple : — Faut-il raisonner en euros constants ou en euros courants ? ~ Les données sont-elles brutes ou CVS! ? — Quel taux d’intérét faut-il retenir (taux au jour le jour, taux directeur de la Banque centrale européenne...) ? etc. Nous distinguons plusieurs types de données selon que le modele est spécifié en : ~ série temporelle : c'est le cas le plus fréquent en économétrie, il s’agit de variables observées a intervalles de temps réguliers (1a consommation annuelle, totale France, exprimée en euros courants sur 20 ans) ; = coupe instantanée : les données sont observées au méme instant et concernent les valeurs prises par la variable pour un groupe d’individus? spécifiques (consomma- tion observée des agriculteurs pour une année donnée) : — panel : la variable représente les valeurs prises par un échantillon dindividus & inter valles réguliers (la consommation d’un échantillon de ménages de la région pari- sienne sur 20 ans) : —cohorie : tres proches des données de panel, les données de cohorte se distinguent de la précédente par la constance de I’échantillon, les individus sondés sont les mémes d’une période sur l'autre. 2.4 Décalages temporels Dans le cadre de modéle spécifié en séries temporelles, les relations entre les variables ne sont pas toujours synchrones mais peuvent étre décalées dans le temps. Nous pouvons concevoir que la consommation de l’année 7 est expliquée par le revenu de l'année f— I et non celui de l'année f, Pour lever cette ambiguité, il est 2 usage d’écrire le modéle en le spécifiant & l'aide d’un indice de temps : 5 C,= ay + ay Y,_1. La variable Y,_, est appelée « variable exogene retardée ». On appelle « variable exogéne » une variable dont les valeurs sont prédétermi- nées, et « variable endogene » une variable dont les valeurs dépendent des variables exogénes. des Variations Saisonnitres, 2. Le terme d’individu est employé au sens stat personne, une parvelle de terre. ‘que, c'est-dire comme un élément Pune population ; une Qu’est-ce que I’économétrie ? = Chapitre1 2.5 Validation du modéle La demitre étape est celle de la validation’ du modele : — Les relations spécifiées sont-elles valides ? ~ Peut-on estimer avec suffisamment de précision les coefficients ? — Le modéle est-il vérifié sur la totalité de la période ? ~ Les coefficients sont-ils stables ? Etc. A toutes ces questions, les techniques économétriques s’efforcent d’apporter des réponses. Section : 2 : 2 LE ROLE DE L’ECONOMETRIE 1_L’économétrie comme validation de lathéorie = Léconométrie est un outil & la disposition de I’économiste qui lui permet d’infir- mer ou de confirmer les théories qu'il construit. Le théoricien postule des relations : V'application de méthodes économétriques fournit des estimations sur la valeur des coefficients ainsi que la précision attendue. Une question se pose alors : pourquoi estimer ces relations, et les tester statistique- ment ? Plusieurs raisons incitent & cette démarche : tout d’abord cela force l’individu a établir clairement et A estimer les interrelations sous-jacentes. Ensuite, la confiance aveugle dans l’intuition peut mener ignorance de liaisons importantes ou a leur mauvaise utilisation, De plus, des relations marginales mais néanmoins explicatives, qui ne sont qu’un élément d’un modéle global, doivent étre testées et validées afin de les mettre & leur véritable place. Enfin, il est nécessaire de fournir, en méme temps que l’estimation des relations, une mesure de la confiance que I’économiste peut avoir en celles-ci, c’est-2-dire la précision que I’on peut en attendre. La encore, utilisation de méthodes purement qualitatives exclut toute mesure quantitative de la fiabilité d’une relation. 2_L’économétrie comme outil d’investigation === Léconométrie n’est pas seulement un systéme de validation, mais également un outil d’analyse. Nous pouvons citer quelques domaines ot I’économétrie apporte une aide & la modélisation, & la réflexion théorique ou 3 I’action économique par : © Dunod ~ Toute reproduction non autorisée est un délit 1. Validation, ¢ données disponibles Chapitre1 = Qu’est-ce que I'économétrie ? — la mise en évidence de relations entre des variables économiques qui n’étaient pas a priori évidentes ou pressenties ; —V'induction statistique ou l'inférence statistique, qui consiste a inférer, & partir des caractéristiques d’un échantillon, les caractéristiques d’une population, Elle permet de déterminer des intervalles de confiance pour des paramétres du modéle ou de tester si un parametre est significativement! inférieur, supérieur ou simplement dif- férent d'une valeur fixé — la simulation qui mesure l’impact de la modification de la valeur d’une variable sur une autre (AC, = a,AY,) ; la prévision?, par l'utilisation de modéles économétriques, qui est utilisée par les pouvoirs publics ou entreprise afin d’anticiper et éventuellement de réagir 4 l'envi- ronnement économique. Dans cet ouvrage, nous nous efforcerons de montrer, & l'aide d’exemples, les dif- férentes facettes de l'utilisation des techniques économétriques dans des contextes et pour des objectifs différents. Section 3 LA THEORIE DE LA CORRELATION 1 Présentation générale Lorsque deux phénomenes ont une évolution commune, nous disons qu'ils sont « corrélés ». La corrélation simple mesure le degré de liaison existant entre ces deux phénomenes représentés par des variables. Si nous cherchons une relation entre trois variables ou plus, nous ferons appel alors & la notion de corrélation multiple. Nous pouvons distinguer la corrélation linéaire, lorsque tous les points du couple de valeurs (x,y) des deux variables semblent alignés sur une droite, de la corrélation non linéaire lorsque le couple de valeurs se trouve sur une méme courbe d’allure quelconque. Deux variables peuvent étre : —en corrélation positive ; on constate alors une augmentation (ou diminution, ou constance) simultanée des valeurs des deux variables ; s en corrélation négative, lorsque les valeurs de l'une augmentent, les valeurs de l'autre diminuent ; 1. Au sens statistique, c’est-i-dire avec un seuil (risque d’erreur & ne pas dépasser, souvent 5 “). 2. Pour découvrir utilisation de cet Usunier J-C. (2017) Sconométrie & des fins de prévision de ventes, voir Bourbonnais R. © Dunod ~ Toute reproduction non autorisée est un délit Qu’est-ce que I’économétrie ? = Chapitre1 ~ non corrélées, il n’y a aucune relation entre les variations des valeurs de l'une des variables et les valeurs de I’ autre. Le tableau 1, en croisant les crittres de linéarité et de corrélation, renvoie A une représentation graphique. Relation linéaire _[ Graphe 1 Graphe 2 Graphe 5 Relation non linéaire | Graphe 3 Graphe 4 Graphe 5 y y Graphe1 Graphe 2 Graphe 5 Chapitre1 = Qu’est-ce que I'économétrie ? 2.1 Le coefficient de corrélation linéaire La représentation graphique ne donne qu'une « impression » de la corrélation entre deux variables sans donner une idée précise de l'intensité de la liaison, c’est pourquoi nous calculons une statistique appelée coefficient de corrélation linéaire simple, noté ry. Hest égal 2: Ce » ny =P. in 0,0, avec: Cov (x,y) = covariance entre x et y : ©, eto, =écart type de x et écart type de y ; n = nombre d’ observations. En développant la formule [1], il vient : (2 On peut démontrer que, par construction, ce coefficient reste compris entre -1 et 1 : — proche de 1, les variables sont corrélées positivement : — proche de -I, les variables sont corrélées négativement : — proche de 0, les variables ne sont pas corrélées. Dans la pratique, ce coefficient est rarement trés proche de l'une de ces trois bornes et il est donc difficile de proposer une interprétation fiable 4 la simple lecture de ce coefficient. Ceci est surtout vrai en économie oii les variables sont toutes plus au moins liées entre elles. De plus, il n’est calculé qu’ partir d°un échantillon observations et non pas sur l'ensemble des valeurs. On appelle p,, ce coefficient empirique qui est une estimation du coefficient vrai r,,. La théorie des tests statis- tiques nous permet de lever cette indétermination. Soit a tester I’hypothése HO : r,, = 0, contre Phypothése HI : r,, #0. © Dunod ~ Toute reproduction non autorisée est un délit Qu’est-ce que I’économétrie ? = Chapitre1 Sous I'hypothése HO, nous pouvons démontrer que suit une loi de Student & n ~ 2 degrés de liberté!. Nous calculons alors une de Student empirique que, appelé le ¢ [Pxsf BI 2 Sir’ > 13 valeur lue dans une table de Student? au seuil ar= 0,05 (5 %) An —2 degrés de liberté', nous rejetons hypothése HO, le coefficient de corrélation est done significativement différent de 0 ; dans le cas contraire, I’hypothése d’un coef- ficient de corrélation nul est acceptée. La loi de Student éant symétrique, nous calculons la valeur absolue du ¢ empirique et nous procédons au test par comparai- son avec la valeur lue directement dans la table. Lb Fichier C1EX1 Calcul d’un coefficient de corrélation _ Un agronome s’intéresse & la liaison pouvant exister entre le rendement de mais x (en quintal) dune parcelle de terre et 1a quantité d’engrais y (en kilo). Il releve 10 couples de données consignés dans le tableau 2. Tableau 2-Rendement de mais et quantité d’engrais Rendementx 1648S Tngras y 20 224~«BOC~«astiatCtSCaTS 1 = Tracer le nuage de points et le commenter. 2 = Calculer le coefficient de corrélation simple et tester sa signification par rap- port 0 pour un seuil @= 0,05. La notion de degi 1 2. Les lois de probabil sont en fin d’ouvrage, Si le nombre d’observations n est supérieur & 30, on peut approximer la loi de Student par une loi normale, soit 1? = 1,96, Copyright © 2018 Dunod. Chapitre1 = Qu’est-ce que I'économétrie ? Solution _ 1 = Le nuage de points (graphique 6) indique que les couples de valeurs sont approximativement alignés : les deux variables semblent corrélées positivement, Quantité d'engrais BERBERRS Rendement Graphique 6 — Nuage du couple de valeurs : rendement-quantité d’engrais 2. = Afin d’appliquer la formule [2], nous dressons le tableau de calcul 3. Tableau 3- Calcul d’un coefficient de corrélation 2 2 576 4s 8 2 2 ru | 1004 256 » 2 a 784 ae 2% 2 os | to ws n 36 21 12% | 16 2 " ros | test | tan a " 156 | reer | 1394 Somme | 26 | 308 | 7127 | 97a | 20 (10)(8 286) — (261)(304), 3042 (56,11)(70, 17) ay (10)(7 127) - 26P? J10)(9 734) soit p,,y = 0,89 et p2, = 0,79 3 E 3 a 8 Qu’est-ce que I’économétrie ? = Chapitre1 Le t de Student empirique (d°aprés [3]) est égal & : Pry 0,89 = 5,49 > 125 = 2,306 0,1620 le coefficient de corrélation entre x et y est significativement différent de 0. 2.2 Limites de la notion de corrélation 1 La relation testée est linéaire L’application de la formule [1] ou [2] ne permet de déterminer que des corrélations linéaires entre variables. Un coefficient de corrélation nul indique que la covariance entre la variable x et la variable y est gale & 0. C’est ainsi que deux variables en totale dépendance peuvent avoir un coefficient de corrélation nul, comme T’illustre exemple suivant : I’équation d'un cercle nous est donnée par (x —.x,)? + (y= y) R’, les variables x et y sont bien liées entre elles fonctionnellement (graphique 7) et pourtant leur covariance est nulle et done leur coefficient de corrélation égal a 0. Pour pallier cette limite, il convient éventuellement de transformer les variables, préalablement au calcul du coefficient de corrélation, afin de linéariser leur relation, par exemple au moyen d’une transformation de type logarithmique. Graphique 7 - La relation fonctionnelle n’est pas corrélation linéaire " Chapitre1 = Qu’est-ce que I'économétrie ? ! Corrélation n’est pas causalité Le fait d’avoir un coefficient de corrélation élevé entre deux variables ne signifie pas qu’il existe un autre lien que statistique. En d’autres termes, une covariance significativement différente de 0 n’implique pas une liaison d’ordre économique, physique ou autre. Nous appelons corrélation fortuite ce type de corrélation que rien ne peut expliquer. L’exemple le plus fameux concerne la forte corrélation existante entre le nombre de taches solaires observées et le taux de criminalité aux Etats-Unis. Cela ne signifie pas qu’il existe une relation entre les deux variables, mais qu’ une troisi¢me variable, Vévolution de long terme (a tendance) ici, explique conjointement les deux phéno- menes. La théorie de la cointégration traite de ce probléme (cf. chapitre 11). 2 Le modele de régression simple SECTION Présentation du modéle SECTION 2 Estimation des paramétres SECTION Conséquences des hypothéses : construction des tests SECTION 4 Equation et tableau d’analyse de la variance SEEHON'S La prévision dans le modéle de régression simple Chapitre 2 = Le modéle de régression simple ous commencons notre étude par le modéle le plus simple : une variable endogéne est expliquée par une variable exogéne. Section 1 PRESENTATION DU MODELE Soit la fonction de consommation keynésienne : CHa,+aY ot: C= consommation, y 4a, = propension marginale & consommer, revenu, dy = consommation autonome ou incompressible. 1.1 Vocabulaire * La variable consommation est appelée « variable & expliquer » ou « variable endogene ». * La variable revenu est appelée « variable expli (cest le revenu qui explique la consommation). ive » ou « variable exogéne » * a, et ay sont les paramétres du modéle ou encore les coefficients de régression. 1.2 Spécification Nous pouvons distinguer deux types de spécifications : *+ Les modeles en série temporelle, les variables représentent des phénomenes obser- vés 2 intervalles de temps réguliers, par exemple la consommation et le revenu annuel sur 20 ans pour un pays donné. Le modéle s’écrit alors : CHa +a, ¥, : 20 ol: C,= consommation au temps f, Y, = revenu au temps f. 4 Le modéle de régression simple = Chapitre 2 + Les modéles en coupe instantanée, les variables représentent des phénoménes observés au méme instant mais concernant plusieurs individus, par exemple la consommation et le revenu observés sur un échantillon de 20 pays. Le modéle s’écrit alors : 20 ot 4 Y, C,= consommation du pays i pour une année donnée, = 1 revenu du pays i pour une année donnée. Le modéle tel qu'il vient d’étre spécifié n’est qu'une caricature de la réalité. En effet, ne retenir que le revenu pour expliquer la consommation est a I’évidence méme insuffisant ; il existe une multitude d'autres facteurs susceptibles d’expliquer la consommation. C’est pourquoi nous ajoutons un terme (€) qui synthétise l'en- semble de ces informations non explicitées dans le modéle : C,= ay + 4, Y,+ & si le modele est spécifié en série temporelle (C, = ay + a, ¥, + &) si le modéle est spécifié en coupe instantanée), ot & représente I’erreur de spécification du modéle, c’est-2- dire l'ensemble des phénoménes explicatifs de la consommation non liés au revenu. Le terme & mesure la différence entre les valeurs réellement observées de C, et les valeurs qui auraient é&é observées si la relation spécifiée avait été rigoureusement exacte. Le terme & regroupe done trois erreurs — une erreur de spécification, c’est-a-dire le fait que la seule variable explicative n'est pas suffisante pour rendre compte de la totalité du phénoméne expliqué ; — une erreur de mesure, les données ne représentent pas exactement le phénoméne — une erreur de fluctuation d’échantillonnage, d°un échantillon a l’autre les observa- 3 tions, et donc les estimations, sont Iégérement différentes. g > Bee eee eee 7 eee E 2 Le tableau | présente le revenu moyen par habitant sur 10 ans exprimé en dollars & pour un pays. ? 4 15 Copyright © 2018 Dunod. Chapitre 2 = Le modéle de régression simple 16 Tableau 1- Evolution du revenu moyen par habitant en dollars 8.000 9.000 9.500 9.500 9.800 11000 12.000 13.000 15.000 16.000 1 p 3 4 5 6 7 8 9 Sachant que la propension marginale & consommer est de 0,8 et que la consommation incompressible est 1 000, on demande : 1 = de caleuler la consommation théorique sur les 10 ans ; 2 = considérant que notre erreur d’observation suit une loi normale de moyenne 0 et de variance 20 000, de générer cette variable algatoire et de calculer une consommation observée tenant compte de cette erreur. Solution —_ Les calculs des questions 1) et 2) sont présentés dans le tableau 2. La consommation théorique (colonne 3) est calculée par application directe de la formule : C, = 1 000 +0,8 ¥,. La génération de la variable aléatoire ¢, (¢, > N(O; 20 000) ne pose pas de difficulté particuligre ; bien entendu il en existe une infinité, un exemple en est présenté en colonne 4. La consommation « observée » (colonne 5) est donc égale 4 C, = 1 000 + 0,8 Y, + &, soit la somme de la colonne 3 et de la colonne 4. Tableau 2- Calcul de la consommation observée @ Cy 8) Gy ee eT) ony Coed 1 8.000 7 400 = 10,01 7-389,99 2 9.000 8200 = 30,35 8 169,65 3 9500 8600 B71 8 831,71 4 9.500 8 600 52,84 8 652,84 5 9 800 8840 ~ 51,92 8 788,08 6 11.000 9 800 ~ 183,79 9.616,21 7 12.000 10.600 =~ 655 10593,45 8 13.000 11400 = 213,89 11186,11 9 15.000 13.000 = 241,91 12 758,09 10 16.000 13 800 69,62 13.869,62 Moyenne:' — 38,42 Ecarttype: 137,24 2018 Dunod Copyright © Dunod ~ Toute reproduction non autorisée est un délit Le modele de régression simple = Chapitre 2 Nous observons que la moyenne de €, = ~38,42, et la variance de, Var(g) = 18 834,81 sont légérement différentes des valeurs théoriques. Cela est la conséquence du tirage particulier d'un échantillon de taille assez faible (dix observations). 3_Conséquences du terme aléatoire == Dans l’exercice précédent, les valeurs vraies ay et a, sont parfaitement connues, cependant, dans la réalité, nous ne connaissons pas ces valeurs mais seulement les deux séries d’ observations C, et R,. Les estimateurs! de ay et a,, notés respective- ment dj et dj, sont des variables aléatoires, qui suivent les mémes lois de probabilité, celle de &, puisqu’ils sont fonctions de la variable aléatoire &. Les caractéristiques de moyenne et d’écart type de ces coefficients permettent de construire des tests de validité du modéle estimé. Si a l'aide d'un programme informatique (C2EX1.PRG ou C2EX1.INP) nous construisons 150 échantillons de valeurs différentes pour la variable aléatoire & — N(O ; 20 000), nous allons alors trouver 150 estimations de a! légérement différentes entre elles dont la distribution aura la forme de ’histogramme du graphique 1. Cette distribution a pour moyenne 0,801 et écart type 0,032, nous pouvons observer gu’elle est peu prés symétrique par rapport & la moyenne et qu’elle a la forme d’une courbe en « cloche » : tous ces éléments suggerent bien une distribution normale de : a, > N(0,801 ; 0,032). Cela est la conséquence directe de la normalité des erreurs. 17 16 15 14 18 2 1" 10 Fréquence os nmennare® 71 072 073.0740750.760.77 0.78078 08 G8 0E2 0850.84 085 086087088089 08 Coefficient 4, Graphique 1—Histogramme de la distribution de 150 4, 1. Tne faut pas confondre : estimateur d de a et estimation de @ qui est la valeur particulitre de lestimateur pour un échantillon, 7 Chapitre 2 = Le modéle de régression simple Section 2 ESTIMATION DES PARAMETRES 1_Modéle et hypothéses Soit le modéle suivant : » +a,x,+€ pou ¢ variable A expliquer au temps ¢ ; variable explicative au temps f ; parametres du modéle ; & = erreur de spécification (différence entre le modéle vrai et le modéle spécifié), cette erreur est inconnue et restera inconnue ; n = nombre d’observations. ©) Hypotheses + HI: le modéle est linéaire en x, (ou en n’importe quelle transformation de x,). + H2 : les valeurs x, sont observées sans erreur (x, non aléatoire). oH : E(€,) = 0, l'espérance mathématique de erreur est nulle : en moyenne le modele est bien spécifié et done erreur moyenne est nulle. + H4: E(e?) = 02, la variance de Verreur est constante! : le risque de amplitude de l’erreur est le méme quelle que soit la période. Ele, €)) =0 si t #1, les erreurs sont non corrélées (ou encore indépendantes) : une erreur & instant r n'a pas d’influence sur les erreurs suivantes. m RK : Cov(x,, &) = 0, erreur est indépendante de la variable explicative. ‘ 2 Formulation des estimateurs En tragant un graphique (2) des couples de données liant le revenu et la consom- mation observée, nous obtenons un nuage de points que nous pouvons ajuster Paide dune droite. 1. Cette hypothése s'appelle Phypothése dhomoseédasticité ; dans le cas oi! cette hypothése n'est pas vériliée, ‘on parle alors de modéle hstéroseédastique. 18 © Dunod ~ Toute reproduction non autorisée est un délit Le modéle de régression simple = Chapitre 2 estimateur des coefficients a et a, est obtenu en minimisant la distance au carré entre chaque observation et la droite, d’ott le nom d’estimateur des moindres carrés ordinaires (MCO). La résolution analytique est la suivante : Min} (y, — ay — @,x,)? = Min S Consommation (milier) Nmostnatass Ptititiiry 8 10 2 “4 16 Revenus (miler) © Consommation observée © Consommation ajustée Graphique 2— Ajustement d’un nuage de points par une droite En opérant par dérivation par rapport & ay et a, afin de trouver le minimum! de cette fonction, on obtient les résultats suivants : 5s Say = 200, -& -Gx,)=0 et 3s = 2030, - dy - Gyx,) = 0 i 1 ay Sommant par rapport & 1, il vient : Da - Wx AL? = 0 Ly, - nd - Dx, = 0 1. Nous considérons les conditions du deuxitme ordre comme vérifiges car la fonetion est convexe. 19 Chapitre 2 = Le modéle de régression simple qu'on appelle les équations normales et qui impliquent que : (1) & Nous pouvons faire deux remarques ~l’écriture du modéle n’est pas neutre ; La spécification : y, = ay + a, x, + & n'est pas équivalente A: x, = af, + aly, + €f Dans le premier modéle, x, est la cause de y,, alors que dans la deuxiéme spécifica- tion, c’est y, qui est la cause de x, Nous remarquons que : 4, x dj = (p= coefficient de corrélation entre x et y); —le coefficient a, représente la pente de la droite ou encore une propension marginale. Nous avons : Ay, = 4Ax,. impact d'une variation de x, se mesure directement sur y, au travers du coefficient 4,. ©! Cas particulier : modéle sans terme constant La théorie économique postule parfois des relations dans lesquelles ay) = 0: c’est le cas par exemple pour une fonction de production de produit industriel ott le fac teur de production (unique) nul entraine une production nulle, L’estimation de a, est alors donnée par la formule suivante : £ dx, S Nous remarquons qu’il s’agit de l'application de la formule [1] dans laquelle ¥ et sont nulles. Dans le cas de variables centrées', c’est donc cette formule [3] qu’il convient d’employer car le terme constant est nul. 1. Les données sont centrées lorsque les observations sont centr données centrées est done par construction null s sur leur moyenne : (x, ~ 3) la somme des 20 Dunod © Dunod ~ Toute reproduction non autorisée est un délit pyright Le modéle de régression simple = Chapitre 2 L& | Fichier C2EX2 Estimation des coefficients de régression _ A partir des données du tableau 2 de l’exercice 1, on demande de calculer les estimations de dy et 4,. Solution —_ Le tableau 3 présente les calculs a effectuer. Tableau 3 Calcul d’un coefficient de régression © @ (5)* (6) ao) 1 7349,99 | 8000 | ~2595,59 = 3280 10758 400 8513518 2 816965 | 9000 | -1 815,93 -2280 5 198 400 4.140300 3 883171 | 9500 | -1153,87 -1780 3 168 400 2053 879 4 865284 | 9500 | -1332,74 1780 3 168 400 2372268 5 8 748,08 | 9800 | ~1197,50 1480 2190 400 1.772.292 6 961621 | 11000 | - 369,37 = 280 78400 103 422 7 | 1059345 | 12000 607,88 720 518 400 437 670, 8 | 11 196,11 | 13000 | 1 200,54 1720 2.958 400 2064 920 9 | 1275809 | 15000 | 2772,52 3720 13-838 400 10313 755 10 | 13.869,62 | 16000 | 3 884,05 4720 22278 400 18332 692 Somme | 99 855,75 | 112 800 0 0 (64 156 000 50 104729 Moyenne | 9:985,57 | 11280 0 0 6415 600 5.010472 50 104 729 0,78 64 156 000 J — A,X = 9 985,57 — 0,78 x 11 280 = 1 176,08 Ces estimations sont & comparer aux valeurs vraies (respectivement 0,8 et 1 000), les différences importantes en ce qui concerne surtout le terme constant sont impu- tables & l'aléa d’ observation qui « perturbe » l’estimation des coefficients. 2 Chapitre 2 = Le modéle de régression simple ff 7 Le modéle de régression simple peut s’écrire sous deux formes selon qu’il s‘agit du mod2le théorique spécifié par I’économiste ou du modéle estimé & partir d’un échantillon. * Modéle théorique spécifié par I’économiste avec ¢, l’erreur inconnue : Vy = ay +X, + E, + Modéle estimé a partir d’un échantillon d’ observations : y, = dy + ax, te, = 3,4] — ¢, = résidu (Bien noter les « chapeaux » sur les a.) Le résidu observé e, est donc la différence entre les valeurs observées de la variable 4 expliquer et les valeurs ajustées 4 I’aide des estimations des coefficients du modéle ; ou encore : Je dy + Gx, My + aX, + & (4] Fs ay tajX+E 5] [41-15] a(x, - 3) +(e, - 8) En remplagant dans la formule [1] de l’estimateur 4, y, — ¥ par son expression, on obtient DG - Fe, - 2) 4, = 4, + —__ 22 © Dunod ~ Toute reproduction non autorisée est un délit Le modéle de régression simple = Chapitre 2 * Les estimateurs sont-ils sans biais ? (Rappel : un estimateur est sans biais si E(a) = a.) Ys, -Ve, SEER ESE EEE 7 Yo, - DEE) dou: E(a) = Ela) + = Soit E(4,) = a, car E(e,) = 0 De méme on démontre que E(4y) = ay. G+ GE dy =a + B-(G, -4)¥ Fay tax+e E(Gq) = dy + EE) ~ E(a, = a,)X) = iy car E(@, - a,) = 0 et E@) = 0 BeJ-o car E(E) est par hypothése nulle, + Les estimateurs sont sans biais. + Les estimateurs sont-ils convergents ? Puisque les estimateurs sont sans biais, il suffit pour qu’ils soient convergents que : LimV(4,) > 0 lorsque n—> 0 ot V(d) esta varaiance de a. Yu, - Ve, De, 3? a VG) = el( E06 )|- +[ Dore +230, 0, €, «| rer V(4,) = Ela, — E(a))? = E(@ - 4)? = E (d’aprés [7]) 23 Chapitre 2 = Le modéle de régression simple 24 avec, =) Lo V(a\) = Lorne y+ 2Le, @, Ele, €y) Or, d’apris les hypotheses : —H4 E(e?) = 02 —HS5 Ele, €,)= Osirer, VG) = Ler o2= Yor Lorsque n — 2 alors (x, — ¥)? tend également vers ee, d’od V(4;) tend vers 0 puisque o? est constant. Nous pouvons observer sur l’expression de la variance de 4, que cet estimateur est “est-ivdire lorsque : autant plus précis que (x, — ¥)? est élevé — le nombre d’ observations est important ; — ev/ou les valeurs de la variable explicative sont trés dispersées autour de la moyenne. Une démonstration analogue pour dy conduit aux résultats suivant : ii ¥ Mao) = 821 * $y Lim V(a) > 0 lorsque n > 0. Nous remarquons que : C2 an = Vea) = S& + FV(G)_— Cov(dysd) = -FVCA) Les estimateurs sont convergents. Le modele de régression simple = Chapitre 2 Section 2 CONSEQUENCES DES HYPOTHESES : CONSTRUCTION DES TESTS ‘1_Hypothése de normalité deserreurs Nous allons maintenant introduire de nouveau I’hypothése qui est celle de la nor- malité des erreurs (cf. exercice 1). Cette hypothése n’est pas indispensable afin d’obtenir des estimateurs convergents mais elle va nous permetire de construire des tests statistiques! concernant la validité du modale estimé. Soit e, > N(0,02) Le graphique 3 illustre cette hypothése sur la distribution des valeurs projetées sur la droite des moindres carrés. Probabilité Vaz dot Ax, x % % Graphique 3 - Les erreurs suivent une | 2_Conséquences de I’hypothése de normalité des erreurs En préliminaire, cherchons un estimateur de la variance de I’ erreur. Le résidu est donné par : Ye — GX, 4 E } a 1. En effet, cette hypothése permet de définir la loi de probabilits des estimateurs. 25 Chapitre 2 = Le modéle de régression simple Sans rien changer & I’expression précédente, nous pouvons écrire : e, = ax, - Ou encore = AF — dy — dx, +4 Ory = aX + dy D'ou: e, = y, —¥- 4(a, -¥) En remplacant y, et ¥ par leurs expressions [4] et [5]. il vient : e, = (a ~ 4 \(x, — X) + (€, - €) Nous obtenons en élevant ce terme au carré et effectuant la somme sur les 7 observation: De? = (@ ~ 4) L(x, — 2? + VE, — EP + ay — GY, — ¥VME, - B) 7 Or d’aprés I’expression [6], nous avons : Ley, - HME, = 8) = ay ~ GY (x, - ¥P r D que nous remplacons dans I’expression précédente et aprés simplification : = Lee, - 2% -@, - 4 DO, - 3? En prenant l'espérance mathématique de cette derniére expression : [Z| [Ze - =]- Ella, - 4 PLC, Examinons les deux membres de cette équation. +a) [Ze - »| = [Zee ~ 28, + >| = [Ze -2@ De, +d = [Zee —2Ené + =) = + = [See - ve] = ct t — nk? + nF | =6/ Nous savons que : Ele?] = 02 26 Le modéle de régression simple = Chapitre 2 Ye -#]- no? - : Ele, + &, t+ &, n Or, d’aprés 'hypothése d’indépendance des erreurs, les doubles produits sont done tous nuls. Nous obtenons alors : [Ze - =| = no? - 1162 =no2-o2 : n +b) Elia, — 41D, En effet E[(a, ~ @,)?]= say % Doi: (10) Ce qui nous permet de définir, en remplagant la variance des erreurs par son esti- mateur dans les expressions [8] et [9], les estimateurs empiriques! de la variance de chacun des coefficients. oy 1. Bien noter les chapeaux qui différencient les estimateurs théoriques (inconnus) des estimations empiriques alculables) © Dunod ~ Toute reproduction non autorisée est un délit 27 Chapitre 2 = Le modéle de régression simple 28 suivent une loi normale centrée réduite N(O, 1). suit une loi du ? (chi-deux) & n — 2 degrés de liberté! (somme au carré de n — 2 variables aléatoires indépendantes normales centrées réduites). 2 > - e Ge Ga x Nous pouvons remarquer que (n ~ 2)2£ = (n - 2)24 = — st oz 63 oD, - xP suit done aussi une loi du 7? (chi-deux) &.n — 2 degrés de liberté, Ten résulte que : am 4 =a (I'écart type théorique est remplacé par I’écart type Ga, Ou empirique) suivent une loi de Student & n ~ 2 degrés de liberté. a =a En effet est le rapport d’une loi normale cenirée réduite a la racine carrée d'un chi-deux divisé par son degré de liberté. Tl est done possible maintenant de mettre en place des tests statistiques afin d’ap- porter des réponses des problémes tels que — la comparaison dun coefficient de régression par rapport 2 une valeur fixée : ~ a comparaison de deux coefficients de régression provenant de deux échantillons différents ; — la détermination d’un intervalle de confiance pour un coefficient. 1. La notion de degré de liberté correspond au nombre de valeurs restant réellement a disposition aprés une procédure d"estimation statistique. Si un échamtillon comprend 10 observations et qu’on dispose en plus de ta moyenne de cet échantillon, on ne peut choisirlibrement les valeurs que pour 9 de ces observations, la dixieme se «déduisant de la valeur de la moyenne. Dans le cas présent, le modele de régression simple, le nombre de degrés de liberté est done de n ~ 2 car nous avons estimé deux parametres a, et a Le modéle de régression simple = Chapitre 2 3_Test bilatéral, test unilatéral et probabilité critique d’un test _ 3.1 Test bilatéral Soit & tester, & un seuil de 5 %, 'hypothése HO : a, = 0 contre I'hypothése HI : a, #0. 4-4, Nous savons que suit une loi de Student 4 n — 2 degrés de liberté. Ga, Sous HO (a, = 0) le ratio appelé ratio de Student — : suit donc une loi de Student 4 n — 2 degrés de liberté. Le test d’hypothéses bilatéral consiste done a Pn al, comparer le ratio de Student empirique r* = /4il 1a valeur du ¢ de Student Ine dans la table An ~ 2 degrés de liberté! et pour un seuil de probabilité égal 4 5 %, soit si n—2>30, 20° = 1,96, (la table 2 de Student en fin du livre est tabulée pour les tests bilatéraux). Si f° > £25 = 1,96, nous rejetons ’hypothése HO (cf. graphique 4), le coefficient théorique et inconnu a, est significativement différent de 0. 0,45 04 0,35 03 0,25 0,2 0,15 | oA 0,05 0 -3,00 -2,50 -2,)0 -1,50 -1,00 -0,50 0,00 0,50 1,00 1,50 4,00 2,50 3,00 1,96 41,96 25% Graphique 4 —Test bilatéral a5 % © Dunod ~ Toute reproduction non autorisée est un délit 1. Si le degré de liberté est supérieur & 30, Ia loi de Student peut étre approximée par une loi normale. 29,

Vous aimerez peut-être aussi